微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Hadoop+Hive

前言:

在按照自己之前的文档搭建Hadoop和hive时遇到不少的问题,特此记录。

参考博客

Flink1.10集群环境搭建 - 萘汝 - 博客园 (cnblogs.com)

CentOS7下构建SQL引擎 - 萘汝 - 博客园 (cnblogs.com)

CentOS7下搭建Hadoop分布式集群

Hadooop集群规划

服务器IP hadoop01 hadoop02 hadoop03
HDFS NameNode
HDFS SecondaryNameNode
HDFS Datanode Datanode Datanode
YARN NodeManager NodeManager NodeManager
YARN ResourceManager

前置工作

配置ssh

输入systemctl restart sshd.service 启动ssh服务;

设置开机自动启动ssh服务systemctl enable sshd.service

配置hosts

vi /etc/hosts打开文件,在最后一行加入:IP地址 主机名

ip hadoop01
ip hadoop02
ip hadoop03

关闭防火墙

systemctl status firewalld		查看防火墙状态
systemctl stop firewalld		关闭防火墙
systemctl disable firewalld		永久关闭防火墙。

关闭SELINUX

vi /etc/selinux/config编辑文件,将SELINUX=enfocing修改disabled.

配置ssh免密登陆

输入命令 ssh-keygen -t rsa ,按三次确认键,生成公钥和私钥。

cd /root/.ssh/可看到生成的公钥id_rsa.pub和私钥文件id_rsa。hadoop02、hadoop03同样操作。

在Hadoop02、Hadoop03上输入cat /root/.ssh/id_rsa.pub查看公钥内容,复制备用。

  • 在hadoop01上

    .ssh目录下执行 touch authorized_keys创建存放秘钥的文件

    cp id_rsa.pub authorized_keys 将公钥放进authorized_keys文件,可无密登录本机;

    chmod 644 authorized_keys 修改 authorized_keys 权限;

    sudo service sshd restart 重启ssh服务;

    ssh hadoop01 命令测试本机免密登录,第一次需要输入 yes ,下次就不用再输入了。

    echo '公钥' >> authorized_keys 将前面复制的Hadoop02、Hadoop03公钥内容写入authorized_keys中;

    scp /root/.ssh/authorized_keys hadoop02:/root/.ssh

    scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

  • 在hadoop02、hadoop03上

    在.ssh目录下,chmod 644 authorized_keys修改 authorized_keys 权限。

权限配置完成后,回到hadoop01,输入ssh hadoop02连接 hadoop02,exit退出连接;ssh hadoop03连接 hadoop03,exit退出连接;至此, root用户下三台虚拟机互相免密登录配置完成。

安装jdk

将下载的jdk-8u301-linux-x64.tar.gz传输到/usr/loacl目录下。

在/usr/local目录下解压:tar zxvf jdk-8u301-linux-x64.tar.gz

vi /etc/profile配置环境变量:

export JAVA_HOME=/usr/local/jdk1.8.0_301
export CALsspATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

source /etc/profile刷新设置。使用 javajavacjava -version 验证是否安装成功。

scp -r /usr/local/jdk1.8.0_301 root@hadoop02:/usr/local/

scp -r /usr/local/jdk1.8.0_301 root@hadoop03:/usr/local/

scp /etc/profile root@hadoop02:/etc/profile

scp /etc/profile root@hadoop03:/etc/profile

hadoop02、hadoop03刷新配置:source /etc/profile,输入java -version验证。

集群搭建

将下载的hadoop-3.1.4.tar.gz传输到/usr/loacl目录下。

解压:tar zxvf hadoop-3.1.4.tar.gz

重命名mv /usr/local/hadoop-3.1.4 /usr/local/hadoop

修改5个配置文件

vi /usr/local/hadoop/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_301

vi /usr/local/hadoop/etc/hadoop/core-site.xml

<!--指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop01:9000</value>
</property>
<!--指定HADOOP运行时产生文件的存储目录-->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/data</value>
</property>

vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<property>
	<name>dfs.namenode.http-address</name>
	<value>hadoop01:9870</value>
</property>
<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>hadoop03:9868</value>
</property>

vi /usr/local/hadoop/etc/hadoop/mapred-site.xml

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

vi /usr/local/hadoop/etc/hadoop/yarn-site.xml

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop02</value>
</property>
<property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLAsspATH_PREPEND_disTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>		
</property>
<!-- 设置虚拟内存更大些,认2.1,即物理内存1G,虚拟内存2.1G -->
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>2.1</value>
</property>

环境变量和workers

  • 配置workers

    vi /usr/local/hadoop/etc/hadoop/workers

    hadoop01
    hadoop02
    hadoop03
    
  • 配置环境变量

    vi /etc/profile

    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
    

scp -r /usr/local/hadoop root@hadoop02:/usr/local/

scp -r /usr/local/hadoop root@hadoop03:/usr/local/

scp /etc/profile root@hadoop02:/etc/profile

scp /etc/profile root@hadoop03:/etc/profile

source /etc/profile使配置环境变量生效

验证:hadoop version

image-20210928171813595

配置hosts

Windows下修改hosts文件,以管理员身份运行Windows PowerShell

输入notepad,打开记事本,在记事本中打开hosts

添加

ip hadoop01
ip hadoop02
ip hadoop03

启动集群

在root模式下启动hadoop,需要在hadoop的sbin目录下修改几个配置文件

vi start-dfs.sh		vi stop-dfs.sh
添加:
HDFS_DatanODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

vi start-yarn.sh	vi stop-yarn.sh
添加:
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

首次启动需要格式化磁盘。在/usr/local/hadoop目录下,输入hdfs namenode -format

image-20210929143350205

格式化完成后,start-all.sh启动。使用jps查看进程:

image-20220310124123625

image-20220310124148093

image-20220310124211892

#jps #显示以下几个进程说明启动成功
95273 Datanode #可有可无
95465 SecondaryNameNode #重要
95144 NameNode #重要
95900 NodeManager #可有可无
95775 ResourceManager #非常重要

前端查看:在windows下打开网页:hadoop01:9870 hadoop02:8088

至此,Hadoop分布式集群搭建完成。

Hive安装

数据仓库(元数据存储在MysqL中,元数据包括表名、表的属性等,实际数据存储于 HDFS 中)

输入 start-all.sh,启动Hadoop集群。由于Hadoop的版本是3.1.4,所以这里hive选择3.1.2版本。

安装MysqL

将下载的MysqL-5.7.35-linux-glibc2.12-x86_64.tar.gz传输到/usr/loacl目录下。

解压:tar zxvf MysqL-5.7.35-linux-glibc2.12-x86_64.tar.gz

重命名mv MysqL-5.7.35-linux-glibc2.12-x86_64 MysqL

mkdir /usr/local/MysqL/data		//新建data目录
groupadd MysqL					//创建用户组
useradd -g MysqL MysqL			//用户密码
chown -R MysqL.MysqL /usr/local/MysqL		//权限
cd /usr/local/MysqL/bin		//切换到bin目录
./MysqLd --user=MysqL --basedir=/usr/local/MysqL --datadir=/usr/local/MysqL/data/ --initialize		//初始化,将临时密码保存下来

vi /etc/my.cnf添加以下内容

[MysqLd]
# 设置3306端口
port=3306
# 设置MysqL的安装目录
basedir=/usr/local/MysqL/
# 设置MysqL数据库的数据的存放目录
datadir=/usr/local/MysqL/data
# 允许最大连接数
max_connections=10000
# 允许连接失败的次数。这是为了防止有人从该主机试图攻击数据库系统
max_connect_errors=10
# 服务端使用的字符集认为UTF8
ch@R_404_6460@cter-set-server=utf8
# 创建新表时将使用的认存储引擎
default-storage-engine=INNODB
# 认使用“MysqL_native_password”插件认证
default_authentication_plugin=MysqL_native_password
[MysqL]
# 设置MysqL客户端认字符集
default-ch@R_404_6460@cter-set=utf8
[client]
# 设置MysqL客户端连接服务端时认使用的端口
port=3306
default-ch@R_404_6460@cter-set=utf8

添加MysqLd服务到系统

cp -a /usr/local/MysqL/support-files/MysqL.server /etc/init.d/MysqL
chmod +x /etc/init.d/MysqL
chkconfig --add MysqL

启动MysqL

service MysqL start
service MysqL status	#查看启动状态
service MysqL stop		#关闭MysqL
service MysqL restart	#重启MysqL

#将MySQL命令添加到服务
ln -s /usr/local/MysqL/bin/MysqL /usr/bin
#使用临时密码登录MysqL
MysqL -uroot -p	

#修改密码
ALTER USER 'root'@'localhost' IDENTIFIED WITH MysqL_native_password BY '123456';		
flush privileges;

修改远程连接并生效

use MysqL;
update user set host='%' where user='root';
flush privileges;
select user,host from user;

#可将其他user都删掉
delete from user where host='localhost';

image-20220310130144374

至此,安装完成。

安装hive

将下载的apache-hive-3.1.2-bin.tar.gz传输到/usr/loacl目录下。

解压:tar zxvf apache-hive-3.1.2-bin.tar.gz

重命名mv apache-hive-3.1.2-bin.tar.gz hive

hive只需安装在hadoop01上即可。

/etc/profile配置环境变量

export HIVE_HOME=/usr/local/hive
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export PATH=$PATH:$HIVE_HOME/bin
export CLAsspATH=.:${HIVE_HOME}/lib:$CLAsspATH

source /etc/profile更新配置,输入hive --version查看hive版本

image-20220310085510127

配置Hive

确保已启动hadoop。

$HADOOP_HOME/bin/hadoop fs -mkdir -p /user/hive/warehouse

$HADOOP_HOME/bin/hadoop fs -chmod 777 /user/hive/warehouse

$HADOOP_HOME/bin/hadoop fs -mkdir -p /tmp/hive/

$HADOOP_HOME/bin/hadoop fs -chmod 777 /tmp/hive

让hadoop新建/user/hive/warehouse目录与tmp目录,并赋予权限。查看是否创建成功:

$HADOOP_HOME/bin/hadoop fs -ls /user/hive/
$HADOOP_HOME/bin/hadoop fs -ls /tmp/

修改hive-site.xml

cd /usr/local/hive/conf

cp hive-default.xml.template hive-site.xml

vi hive-site.xml(建议在windows在使用Notepad++进行查找修改,然后替换文档)

  • 将hive-site.xml文件中的${system:java.io.tmpdir}替换为/usr/local/hive/tmp

%s#${system:java.io.tmpdir}#/usr/local/hive/tmp#g

  • 将${system:user.name}都替换为root

%s#${system:user.name}#root#g

  • 修改hive.metastore.schema.verification,将对应的value修改为false

    image-20211101152314536

  • 查找ConnectionURL、ConnectionDriverName、ConnectionUserName、ConnectionPassword,将其全部注释掉。

    image-20211102102017662

    image-20211102101337702

    image-20211102102529450

    image-20211102104242519

  • 找到第3237行,直接将<description></description>注释掉

    image-20211102092125740

  • 将hive的数据库改为MysqL,即在hive-site.xml中添加以下内容

    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:MysqL://hadoop01:3306/hive?useSSL=false&amp;createDatabaseIfNotExist=true&amp;ch@R_404_6460@cterEncoding=UTF-8</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.MysqL.jdbc.Driver</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
    </property>
    

hive-site.xml修改完成。

cp hive-env.sh.template hive-env.sh

vi hive-env.sh添加以下内容

export  HADOOP_HOME=/usr/local/hadoop
export  PATH=$PATH:$HIVE_HOME/bin
export  HIVE_CONF_DIR=/usr/local/hive/conf
export  HIVE_AUX_JARS_PATH=/usr/local/hive/lib

查看以下两个目录中的guava.jar版本是否一致:

/usr/local/hive/lib/
/usr/local/hadoop/share/hadoop/common/lib/

删除低版本的那个,将高版本的复制到低版本目录下。

rm /usr/local/hive/lib/guava-19.0.jar

cp /usr/local/hadoop/share/hadoop/common/lib/guava-27.0-jre.jar /usr/local/hive/lib/

下载MysqL的jdbc驱动包

这里使用的MysqL版本为5.7,所以使用mysql-connector-java-5.1.47.tar.gz,将其传输到/usr/local目录下,解压后将mysql-connector-java-5.1.47-bin.jar移动到hive的lib目录下。

mv mysql-connector-java-5.1.47-bin.jar /usr/local/hive/lib

这里根据自己数据库的版本进行适当选择。若是MysqL8.0版本,需要将前面配置的Driver改为:

com.MysqL,cj.jdbc.Driver

启动测试

MysqL数据库中新建hive数据库create datebase hive;

初始化数据库schematool -dbType MysqL -initSchema生成元数据。

能否成功初始化数据库是至关重要的一环!!!

image-20220310133843446

启动hive,./hive

执行show databases;查看数据库

执行查看函数的命令show funtions;

至此,Hive安装完成。

容易出错的地方,在root用户下启动hadoop需要进行的配置。启动hive时初始化数据库失败。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐