Hadoop是什么
Hadoop优势(4高)
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算机元素或存储出现故障,也不会导致数据的丢失。
- 高扩展性:在集群间分配任务数据,可方便地扩展数以千计地节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
Hadoop1.X 2.X、3.X区别
高内聚和低耦合
MapReduce相当于cpu Yarn 管理cpu和内存
HDFS架构概述
Hadoop distributed File System 简称 HDFS ,是一个分布式文件系统
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数、文件权限)以及每个文件的块列表和块所在的Datanode等(NameNode管理数据存的位置,索引)
- Datanode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。(具体存储数据的位置)
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
YARN架构概述(管理cpu和内存)
Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。
- ResourceManager(RM):整个集群资源(内存、cpu等)的老大。
- NodeManager(NM):单个节点服务器资源老大。
- ApplicationMaster(AM):单个任务运行的老大。
- Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、cpu、网络等
说明一:客户端可以有多个
说明二:集群上可以运行多个ApplicationMaster
说明三:每个NodeManager上可以有多个Container
MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
- Map阶段并行处理输入数据。
- Reduce阶段对Map结果进行汇总。
HDFS、YARN、MapReduce三者关系
大数据技术生态体系
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。