AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

HDFS NameNode Hadoop怎么分片

时间：2022-09-04分类：Hadoop作者：编程之家原文地址

HDFS 上传文件和读文件的流程

(1)由客户端 Client 向 NameNode 节点发出请求;
(2)NameNode 向 Client 返回可以存数据的 Datanode 列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心);
(3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每一个 block 为128M，而之前的版本为 64M);

(4)通过 NameNode 返回的 Datanode 信息，将文件块以写入方式直接发送给Datanode，同时复制到其他两台机器(默认一份数据，有两个副本)；
(5)数据块传送完成以后，datanode 向 Client 通信，同时向 NameNode 报告；
(6)依照上面(4)到(5)的原理将所有的数据块都上传，结束后向 NameNode 报告表明已经传完所有的数据块。

Hadoop1版本

客户端依据最近空闲原则选择一个节点，在不同机架上选择第二个副本节点，在第二个节点的同机架下选择第三个节点

Hadoop2版本

客户端依据最近空闲选择一个节点，在当前节点同机架下选择第二个副本节点，在不同机架上选择第三个节点

NameNode 在启动的时候会做哪些操作

NameNode 启动的时候，会加载 fsimage
Fsimage 加载过程完成的操作主要是为了：
(1)从 fsimage 中读取该 HDFS 中保存的每一个目录和每一个文件
(2)初始化每个目录和文件的元数据信息
(3)根据目录和文件的路径，构造出整个 namespace 在内存中的镜像
(4)如果是文件，则读取出该文件包含的所有 blockid，并插入到 BlocksMap 中。

Hadoop怎么分片

HDFS 存储系统中，引入了文件系统的分块概念（block），

块是存储的最小单位，HDFS定义其大小为 64MB。

与单磁盘文件系统相似，存储在 HDFS 上的文件均存储为多个块，不同的是，如果某文件大小没有到达 64MB，该文件也不会占据整个块空间。

在分布式的 HDFS集群上，Hadoop 系统保证一个块存储在一个 datanode 上。

HDFS 的 namenode 只存储整个文件系统的元数据镜像，这个镜像由配置 dfs.name.dir指定，

datanode 则存有文件的 Metainfo 和具体的分块，存储路径由 dfs.data.dir 指定。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

hadoop day2-搭建

hadoop搭建准备工作三台虚拟机：master、node1、node2检查时间是否同步：date检查java的jdk是否被安装好：java-version修改主机名三台分别执行vim/etc/hostname并将内容指定为对应的主机名关闭防火墙：systemctlst...

作者：编程之家时间：2022-11-24

Hadoop 二十三

文件的更名和移动: 获取文件详细信息遇到的问题：不能直接在web上上传文件。权限问题：修改后即可正常创建参考：https://blog.csdn.net/weixin_44575660/article/details/118687993

作者：编程之家时间：2022-11-24

大数据Hadoop之——HDFS小文件问题与处理实战操作

目录一、背景1）小文件是如何产生的？2）文件块大小设置3）HDFS分块目的二、HDFS小文件问题处理方案1）HadoopArchive（HAR）2）Sequencefile3）CombineFileInputFormat4）开启JVM重用5）合并本地的小文件，上传到HDF...

作者：编程之家时间：2022-10-19

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

目录一、概述二、HadoopDataNode多目录磁盘配置1）配置hdfs-site.xml2）配置详解1、dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-polic...

作者：编程之家时间：2022-10-19

平台搭建伪分布式

平台搭建（伪分布式）伪分布式搭建在VM中搭建std-master修改配置文件centos7-cl1.vmdkstd-master.vmx-将配置文件中vm的版本号改成自己电脑对应的vm版本修改客户端的操作系统为centos764位打开虚拟机修改虚拟机网络cd...

作者：编程之家时间：2022-10-13

Harley浅谈HadoopHDFS

一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管...

作者：编程之家时间：2022-10-13

配置workers进入hadoop/etc/hadoop 编辑workers文件然后分发给另外两个服务器准备启动集群第一次需要初始化. 初始化完成后增加了data文件，进入上面那个路径，就能看到当前服务器的版本号 ...

作者：编程之家时间：2022-10-13

第六周总结8.13

这周我对ssm框架进行了更深一步的开发，加入了多用户，并对除登录外的请求进行了拦截，这样用户在未登录的时候是访问不到资源的。并且对hadoop进行了初步的学习，包括虚拟机的安装等等。下周会对hadoop进行更深一步的...

作者：编程之家时间：2022-10-13

安装Hadoop2.10.1

前言通过在Hadoop1安装Hadoop,然后配置相应的配置文件，最后将Hadoop所有文件同步到其他Hadoop节点。一、集群规划#主机名‘master/hadoop1’‘slave01/hadoop2’‘slave02/hadoop3’#启动节点NamenodeNodemanagerNod...

作者：编程之家时间：2022-10-13

集群崩溃处理

1.先杀死进程（先进入到hadoop版本文件里，我的是/opt/module/hadoop-3.1.3/）sbin/stop-dfs.sh2.删除每个集群上的data以及logsrm-rfdata/logs/3.格式化hdfsnamenode-format4.再启动sbin/sart-dfs.sh

作者：编程之家时间：2022-10-13