hadoop:概念和整体架构
什么是hadoop?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。实现了一个分布式文件系统( distributed File System),其中一个组件是HDFS
HDFS优点:
1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 。
2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低 。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算
核心架构
最底部 HDFS
它存储 Hadoop 集群中所有存储节点上的文件
HDFS的上一层是MapReduce 引擎,该引擎由JobTrackers 和TaskTrackers 组成。
HDFS: 为海量的数据提供了存储
NameNode:负责管理文件系统名称空间和控制外部客户机的访问
Datanode:它为 HDFS 提供存储块
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。