微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大数据面试题之Hadoop系列(深入部分)

分类系列30题

1.HDFS写流程

2.HDFS读流程

3.HDFS的体系结构

4.一个datanode宕机后的恢复流程

5.hadoop的namenode宕机后怎么解决

6.namenode对元数据的管理

7.元数据的checkpoint

8.yarn资源调度流程 

9.hadoop中combiner和partition的作用

10.用mapreduce怎么处理数据倾斜问题?

11.shuffle 阶段,你怎么理解的

12.Mapreduce的map数量和reduce数量是由什么决定的,怎么配置

13.MapReduce优化经验

14.分别举例什么情况要使用combiner,什么情况不使用?

15.MR运行流程解析

16.简单描述一下HDFS的系统架构,怎么保证数据安全?

17.在通过客户端向HDFS中写数据的时候,如果某一台机器宕机了,会怎么处理

18.Hadoop优化有哪些方面

19.大量数据求topN(写出mapreduce的实现思路)

20.列出正常工作的hadoop集群中hadoop都分别启动哪些进程以及他们的作用

21.Hadoop总job和Tasks之间的区别是什么?

22.Hadoop高可用HA模式

23.简要描述安装配置一个hadoop集群的步骤

24.fsimage和edit的区别

25.yarn的三大调度策略

26.hadoop的shell命令用的多吗?说出一些常用的

27.用mr实现用户pv的top10?

28.一个文件只有一行,但是这行有100G大小,mr会不会切分,我们应该怎么解决

29.HDFS HA机制&

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐