Hadoop课程

Hadoop HDFS操作

当前位置：免费教程 » 大数据/云 » Hadoop

上一节:Hadoop HDFS概述

下一节:Hadoop 命令参考

优化或报错有奖

启动HDFS

首先，您必须格式化配置的HDFS文件系统，打开namenode（HDFS服务器），然后执行以下命令。

$ hadoop namenode -format

格式化HDFS后，启动分布式文件系统。以下命令将启动namenode以及数据节点作为集群。

$ start-dfs.sh

在HDFS中列出文件

在服务器中加载信息后，我们可以在一个目录中找到文件列表，文件的状态，使用'ls'。下面给出了ls的语法，您可以将其传递到目录或文件名作为参数。

$ $HADOOP_HOME/bin/hadoop fs -ls <args>

将数据插入HDFS

假设我们在本地系统中的称为file.txt的文件中有数据，应该保存在hdfs文件系统中。按照以下步骤在Hadoop文件系统中插入所需的文件。

第1步

您必须创建一个输入目录。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/input

第2步

使用put命令将数据文件从本地系统传输并存储到Hadoop文件系统。

$ $HADOOP_HOME/bin/hadoop fs -put /home/file.txt /user/input

第3步

您可以使用ls命令验证文件。

$ $HADOOP_HOME/bin/hadoop fs -ls /user/input

从HDFS检索数据

假设我们在HDFS中有一个名为outfile的文件。下面给出的是从Hadoop文件系统中检索所需文件的简单示例。

第1步

最初，使用cat命令查看HDFS中的数据。

$ $HADOOP_HOME/bin/hadoop fs -cat /user/output/outfile

第2步

使用get命令将文件从HDFS获取到本地文件系统。

$ $HADOOP_HOME/bin/hadoop fs -get /user/output/ /home/hadoop_tp/

关闭HDFS

您可以使用以下命令关闭HDFS。

$ stop-dfs.sh

HDFS - 写文件

1.客户端将文件写入本地磁盘的临时文件中

2.当临时文件大小达到一个block大小时，HDFS client通知NameNode，申请写入文件

3.NameNode在HDFS的文件系统中创建一个文件，并把该block id和要写入的DataNode的列表返回给客户端

4.客户端收到这些信息后，将临时文件写入DataNodes

4.1 客户端将文件内容写入第一个DataNode（一般以4kb为单位进行传输）
4.2 第一个DataNode接收后，将数据写入本地磁盘，同时也传输给第二个DataNode
4.3 依此类推到最后一个DataNode，数据在DataNode之间是通过pipeline的方式进行复制的
4.4 后面的DataNode接收完数据后，都会发送一个确认给前一个DataNode，最终第一个DataNode返回确认给客户端
4.5 当客户端接收到整个block的确认后，会向NameNode发送一个最终的确认信息
4.6 如果写入某个DataNode失败，数据会继续写入其他的DataNode。然后NameNode会找另外一个好的DataNode继续复制，以保证冗余性
4.7 每个block都会有一个校验码，并存放到独立的文件中，以便读的时候来验证其完整性

5.文件写完后（客户端关闭），NameNode提交文件（这时文件才可见，֘如果提交前，NameNode垮掉，那文件也就丢失了。fsync：只保证数据的信息写到NameNode上，但并不保证数据已经被写到DataNode中）

Rack aware（机架感知）

通过配置文件指定机架名和DNS的对应关系

假设复制参数是3，在写入文件时，会在本地的机架保存一份数据，然后在另外一个机架内保存两份数据（同机架内的传输速度快，从而提高性能）

整个HDFS的集群，最好是负载平衡的，这样才能尽量利用集群的优势

HDFS - 读文件

客户端向NameNode发送读取请求
NameNode返回文件的所有block和这些block所在的DataNodes（包括复制节点）
客户端直接从DataNode中读取数据，如果该DataNode读取失败（DataNode失效或校验码不对），则从复制节点中读取（如果读取的数据就在本机，则直接读取，否则通过网络读取）

HDFS - 可靠性

DataNode可以失效

DataNode会定时发送信号到NameNode。如果在一段时间内NameNode没有收到DataNode的消息，则认为其失效。此时NameNode就会将该节点的数据（从该节点的复制节点中获取）复制到另外的DataNode中
数据可以毁坏

无论是写入时还是硬盘本身的问题，只要数据有问题（读取时通过校验码来检测），都可以通过其他的复制节点读取，同时还会再复制一份到健康的节点中
NameNode不可靠

HDFS - 命令工具

fsck: 检查文件的完整性

start-balancer.sh: 重新平衡HDFS

hdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS

转载本站内容时，请务必注明来自W3xue，违者必究。

上一节:Hadoop HDFS概述

下一节:Hadoop 命令参考

优化或报错有奖

友情链接：直通硅谷　点职佳　北美留学生论坛