微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Hadoop完全分布式环境搭建开发文档

在这里插入图片描述

一. 准备工作

1.1软硬件环境

  • 主机操作系统:内存:20G,Windows64
  • 虚拟机软件:VMware Workstation 15.5
  • 虚拟操作系统:Centos 7 64位
  • JDk:1.8 64位
  • Hadoop:2.7
  • 宝塔面板

1.2集群网络环境

  • 集群包括3个节点,1个Namenode、2个Datanode,其中节点之间可以相互ping通。
  • 节点IP地址和主机名如下:

    在这里插入图片描述

二. 环境搭建

2.1操作系统安装

  • 2.1.1安装centos7

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述


    在这里插入图片描述

  • 2.1.2安装宝塔面板

    • yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh
    • 因为宝塔面板有可视化界面,操作方便,易于上传解压发送

      在这里插入图片描述

  • 2.1.3克隆虚拟机

    在这里插入图片描述


    在这里插入图片描述


    在这里插入图片描述


    在这里插入图片描述

    • 对于Hadoop完全分布式安装,可以先安装一个系统,然后利用VMWare的克隆功能,克隆多个相同的系统
  • 2.1.4 登录宝塔页面

2.2本地环境配置

  • 2.2.1 以root用户登录虚拟机

  • 2.2.2.修改网卡配置(其余节点同步)

    • cd /etc/sysconfig/network-scripts/
      vi ifcfg-ens33

      在这里插入图片描述

  • 2.2.3.生效网卡的IP配置

    • 3.1重启网卡,将ip配置生效

      • systemctl restart network #centos7与6的重启网卡命令不一样
    • 3.2连接网关,看是否丢包

      在这里插入图片描述

    • 3.3宿主机(window操作系统)能联网

  • 2.2.4 设置节点的局域网访问名称

    • 由于在安装虚拟机的过程中已经改好了master主机的名称所以只需要修改剩余两台节点的名称

    • 查看虚拟机的主机名

      在这里插入图片描述

    • 设置虚拟机主机名 hostname

      • vi /etc/sysconfig/network
      • chmod +x /etc/hostname #永久生效
      • 在这里插入图片描述


        在这里插入图片描述


        在这里插入图片描述

    • 配置hosts文件

      • vi /etc/hosts

      • 在这里插入图片描述

      • “/etc/hosts”这个文件是用来配置主机将用的DNS服务器信息,是记载LAN内接续的各主机的对应[HostName IP]用的。当用户在进行网络连接时,首先查找该文件,寻找对应主机名对应的IP地址。

      • 在进行Hadoop集群配置中,需要在”/etc/hosts”文件添加集群中所有机器的IP与主机名,这样Master与所有的Slave机器之间不仅可以通过IP进行通信,而且还可以通过主机名进行通信。

  • 2.2.5 同步以上配置在Slave1与Slave2

2.3 操作系统设置

  • 永久关闭防火墙,并同步到其余节点

    在这里插入图片描述

2.4 hadoop集群时间同步

在这里插入图片描述

2.5 SSH无密码验证配置

  • 准备工作

    • 在三个虚拟机上新增一个普通的用户Hadoop

      • adduser Hadoop #在root用户
      • passwd Hadoop #输入两次密码
    • 在Hadoop用户下建立.ssh文件

      • mkdir /home/Hadoop/.ssh
    • Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个Datanode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动Dataname进程,同样原理,Datanode上也能使用SSH无密码登录到 NameNode。

  • 配置过程

    • 在Master节点上执行以下命令:

      • ssh-keygen –t rsa –P ”

        • 运行后询问其保存路径时直接回车采用认路径。生成的密钥对:id_rsa(私钥)和id_rsa.pub(公钥),认存储在”/home/用户名/.ssh”目录下。

          在这里插入图片描述

    • 接着在Master节点上做如下配置,把id_rsa.pub追加到授权的key里面去。

      • cat /home/Hadoop/.ssh/id_rsa.pub >> /home/Hadoop/.ssh/authorized_keys

        在这里插入图片描述

    • 设置权限

      • vi /etc/ssh/sshd_config

      • 在这里插入图片描述

      • sudo chmod 700 /home/Hadoop/.ssh

      • sudo chmod 600 /home/Hadoop/.ssh/authorized_keys

    • 重启SSH服务

      • service sshd restart
    • 测试免密登录

      在这里插入图片描述

    • 将公钥发给Slave1,Slave2(设置权限)

      在这里插入图片描述


      在这里插入图片描述

    • 测试免密登录

      • 其余节点亦是如此

        在这里插入图片描述

三. 软件安装及环境配置 (软件安装先在Master上安装,全部安装完后,再通过宝塔发送到其余Slave中即可)

3.1Java安装及其环境配置

  • 建立相关文件

    在这里插入图片描述

  • 上传并解压jdk压缩包

    在这里插入图片描述

  • 配置 JDK 环境变量

    • vi /etc/profile
    • 在这里插入图片描述

  • 加载修改的配置,查看是否成功

    在这里插入图片描述

3.2 Hadoop安装及其环境配置

  • (1)上传并解压Hadoop压缩包

    在这里插入图片描述

  • (2)把Hadoop的安装路径添加到”/etc/profile”中,并使配置文件生效

    在这里插入图片描述

  • (3)配置hadoop-env.sh,并确认生效

    在这里插入图片描述

  • (4)测试Hadoop是否安装成功

    在这里插入图片描述

3.3 分布式集群配置文件

3.3Slave服务器上的文件安装及配置

  • 将master主机目录下面的 /home/Hadoop/server/hadoop2.7/etc/hadoop 文件夹使用宝塔发送到其余两台虚拟机(路径一致)

    在这里插入图片描述

  • 用户组改为Hadoop用户,设置权限为755

    在这里插入图片描述

4.启动及验证

4.1 启动

  • (1)格式化HDFS文件系统

    • hadoop namenode –format
  • (2)启动hadoop

    • start-dfs.sh start-yarn.sh

4.2 验证测试

  • 用”jps”命令测试

    • Mater

      在这里插入图片描述

    • slave1

      在这里插入图片描述

    • slave2

      在这里插入图片描述

  • 查看Web界面

    • HDFS集群状态

      在这里插入图片描述


      在这里插入图片描述


      在这里插入图片描述

    • YARN集群状态

      在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐