Hadoop基础随笔

1. Big Data是什么？

无法在一定时间范围内用常规软件进行捕捉，管理和处理的数据集合，是需要新处理模式才能够处理海量、高增正和多样化的信息资产

2. 大数据可以用来解决什么？

大数据主要解决海量数据的存储和海量数据的分析计算问题

3. 大数据的特点（4v）

variety(数据多种多样)

volume(数据量大)

voLocity(数据产生的速度)

value(价值密度与数据成反比)

4. what is hadoop?

（1）Hadoop 是一种分布式系统基础架构

（2）Hadoop主要解决海量数据的存储和海量数据的分析计算问题

（3）Hadoop值一个更广泛分概念——Hadoop生态圈

5. Hadoop 有哪些优势？（4高）

（1）高可靠性

（2）高扩展性

（3）高效性

（4）高容错性

6. sudo命令用处？

sudo是Linux可以允许普通用户使用超级用户权限的工具

7. 使用sudo时有几点需要注意的？

（1）尊重别人的隐私

（2）输入前要先考虑后果和风险

（3）权利越大，责任越大

8. Hadoop1.x 和 Hadoop2.x 区别

Hadoop1.x 是由MapReduce(计算+资源调度)、HDFS(数据存储)、Common(辅助工具)

Hadoop2.x是由MapReduce(计算)、Yarn(资源调度)、HDFS(数据存储)、Common(辅助工具)

9. Hadoop 2个组件-HDFS\YARN，1个思想（框架）MapReduce，他们的组成架构

Hadoop的两个组件分别是： HDFS和YARN

HDFS的结构：一个Name Node+多个Data Node+Secondary NameNode组成（Name Node储存的是元数据，Data Node储存的是data，每个一段时间对Name Node元数据备份）

YARN的结构：一个Resource Manager和多个Node Manager组成

Hadoop的一个思想是MapReduce：

MapReduce将计算过程分为两个阶段：Map和Reduce

（1）Map阶段并行处理输入数据

（2）Reduce阶段对Map结果进行汇总

10. NameNode中的元数据是存储在哪里的?

首先，Name Node存储元数据，元数据存在内存中。但是存储在内存中存在的问题是：一旦断电，元数据就会丢失，从而会导致整个集群无法工作。因此产生磁盘FsImage，用来备份元数据。

其次，当内存中元数据更新时，FsImage中的数据也会更新，此时就会导致效率过低。但是如果不实时更新，一旦Name Node断电，内存中的数据未写回磁盘，就会产生数据丢失。因此引入Edits文件(只进行追加操作，效率很高)。一旦 FsImage 和 Edits 合并，合成元数据。

最后，如果长时间添加数据到Edits中，会导致文件数据过大、效率过低，而且一旦断丝安，回复元数据需要的时间过长。因此FsImage和Edits需要定期合并，如果这个操作由NameNode完成，那么会导致效率过低。因此，需要引入一个新的节点Secondary NameNode，专门用于FsImage和Edits合并。

11. 中大型企业，大数据部门都由什么组成？

平台组、数据仓库组、实时组、数据挖掘组、报表开发组

相关推荐