微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

开源代码框架hadoop

  • 架构

     	 - HDFS:数据存储
     	 		-NameNode:元数据(索引)
     	 		-Datanode:具体的数据
     	 		-SeconDaryNameNode:不是NameNode的热备
     	 - Yarn:资源调度
     	 		-ResourceManager:所有节点的老大(一个RM管理多个NM)
     	 		-NodeManager:单个节点的老大(一个NM管理多个container)
     	 		-container:每一个容器都是一个资源的集合(硬盘,内存,cpu,网络)
     	 				-	ApplicationMaster:单个任务的老大
     	 				-	所有的MapReduce的任务都是Container中运行的
     	 		-	选择节点的时候原则(就近 - 随机)
    @H_404_10@

在这里插入图片描述

		 - MapReduse:计算
		 		- MapTask
		 		- ReduceTask
@H_404_10@

HDFS

  • 优缺点

    • 优点:
      • 认3副本,容灾性强(高容错率)
      • 分布式的(适合大数据的离线处理)
      • 对机器要求不高,廉价的机器就可以集群
    • 缺点:
      • 不适合做实时的数据分析,不适合低延时的访问
      • 无法对大量的小文件进行处理
      • 不支持并发写入
  • HDFS认几副本?

  • 一个切片的大小?

    • 1.x 64M
    • 2.x 128M
  • HDFS读取数据的过程?

    • 1.打开文件
    • 2.获取数据块的信息
    • 3.读取请求
    • 4.读取数据(可能在多个节点上读取数据)
    • 5.关闭文件
  • HDFS数据块的大小会造成哪些影响

    • 寻址:根据NameNode去寻找Datanode(时间)
    • 处理:数据传输(时间)
    • 认的原则是寻址时间为处理时间的1%
    • 处理时间跟什么有关系?跟硬盘的速率有关系,所以数据块的大小,根据是硬盘的速率来决定的
      • 这也是为什么1.x的时候64m,2.x - 128M
    • 数据块过大?
      • 处理时间过长
    • 数据块过小?
      • 大量的时候都花在了寻址上

        在这里插入图片描述

MapReduce

  • MR的shuffle?
    • 1.输入数据执行Map任务
    • 2.写入缓存
    • 3.溢写
    • 4.文件归并
  • MR的工作流程
    • 1.要处理一个文件
    • 2.将这个文件切片
    • 3.每一片都由一个Map来执行
    • 4.Map执行完之后交给Reduce
    • 5.Reduce处理完之后输入最终结果

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐