一、 Hadoop框架的概述
简介:介绍hadoop相关信息。
1.1 hadoop的简介
Hadoop是一个分布式系统基础框架,它的 HDFA 、 MapReduce 、 HBase 分别是Google的GFS、MapReduce、BigTable这三个思想的实现。
特点:
高可靠。按位存储和处理数据的能力强,可靠性强。
高可用。它是在计算机集群间分配数据并完成计算任务的,这些集群可以扩展数以千计的节点。
高效性。能在节点间动态地移动数据,并保证各个节点的动态平衡,所以处理速度非常快。
高容错性。能够自动保存数据的多个副本,并且能够将失效的任务重新分配。
Google公司三篇论文的思想:
GFS的思想:描述了一个分布式文件系统的设计思路。(HDFS是这篇论文思想的实现)
MapReduce的思想:分散任务,汇总结果。(Hadoop的MapReduce与MapReduce论文中的实现思路一样)
BigTable的思想:一个分布式的结构化数据存储系统的设计思路。(HBase是这篇论文思想的实现。HBase是一个分布式、面向列的开源数据库,它是在Hadoop基础上提供类似BigTable的能力。)
1.2 hadoop版本的变化
与 hadoop 2.x 相比, hadoop 3.x 的变化:
jdk的最低依赖从1.7变成1.8。
hadoop-client 这个依赖分为 hadoop-client-api 和 hadoop-client-runtime 两个依赖。
采用 Timeline Server v2 版本。
HDFS 支持可擦除编码(Erasure Encoding)。
支持随机 Container 和分布式调度。
MR进行了 Task 级别的本地优化。
多个端口被改动。
支持多个 Standby 状态的 NameNode 。
Datanode内部添加了负载均衡。
支持 微软(Azure) 和 阿里(Aliyun) 的分布式文件系统。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。