Hadoop学习路上的那些事儿，很有必要分享出来

什么是Hadoop

从广义上讲呢，是一个大数据生态，从狭义上讲呢，主要包含了分布式文件系统（HDFS）、资源管理（YARN）、批处理（MapReduce）。

一言不合上官网。http://hadoop.apache.org/

实验过程

实验准备：

1. 云主机一台，此实验采用的是移动云云主机。（相当于虚拟机）

2. JDK安装包，版本jdk1.8.0_181

3. Hadoop安装包，版本hadoop-2.10.1

步骤一：安装JDK，并配置环境变量

下载合适的JDK安装包，为了后续实验，建议版本1.8以上。由于在Oracle官网上下载比较麻烦（需要注册和登录），索性在网上找了一个，下载到本地后上传到云主机里，并且解压。

配置环境变量，/etc/profile

## JAVA_HOME
export JAVA_HOME=/root/jdk1.8.0_181
export PATH=$PATH:$JAVA_HOME/bin

使用source /etc/profile命令，让环境变量马上生效，然后再用java -version命令验证安装结果。如果能正确打印JDK版本信息，说明安装成功。

步骤二：安装Hadoop，并配置环境变量

在Hadoop官网下载对应的版本，并上传到云主机中，完成解压后配置环境变量。

配置环境变量，/etc/profile

## HADOOP_HOME
export HADOOP_HOME=/root/hadoop-2.10.1
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

同样使用source /etc/profile命令，让环境变量马上生效，然后再用hadoop version命令验证安装结果。如果能正确打印版本信息，说明安装成功。

步骤三：简单验证hadoop工作原理

官网其实提供了详细的操作命令，概况来讲，就是从一个input输入文件中读取数据，然后通过hadoop安装包里的example程序，对输入数据进行处理，然后输出结果。因为是测试，数据量小，看不出效果，如果是超级多的数据，大数据的处理效果就会很明显。

mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar grep input output 'dfs[a-z.]+'
cat output/*

实验总结

1）hadoop实验环境搭建比较简单，如果是采用云主机，注意配置安全组策略，确保远程端口和IP地址放通。

2）JDK版本一定要安装正确，环境变量也要真确配置，否则hadoop会报错。

1.大数据系列之Hadoop安装

Hadoop学习路上的那些事儿，很有必要分享出来

什么是Hadoop

实验过程

实验总结

相关推荐