AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Hadoop完全分布式环境搭建开发文档

时间：2022-09-05分类：Hadoop作者：编程之家原文地址

在这里插入图片描述

一．准备工作

1.1软硬件环境

主机操作系统：内存：20G，Windows64
虚拟机软件：VMware Workstation 15.5
虚拟操作系统：Centos 7 64位
JDk：1.8 64位
Hadoop：2.7
宝塔面板

1.2集群网络环境

集群包括3个节点，1个Namenode、2个Datanode，其中节点之间可以相互ping通。
节点IP地址和主机名如下：

二. 环境搭建

2.1操作系统安装

2.1.1安装centos7
2.1.2安装宝塔面板
- yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh
- 因为宝塔面板有可视化界面，操作方便，易于上传解压发送
2.1.3克隆虚拟机
- 对于Hadoop完全分布式安装，可以先安装一个系统，然后利用VMWare的克隆功能，克隆多个相同的系统
2.1.4 登录宝塔页面
- bt default #查看各虚拟机宝塔面板的登录地址

2.2本地环境配置

2.2.1 以root用户登录虚拟机
2.2.2.修改网卡配置（其余节点同步）
- cd /etc/sysconfig/network-scripts/
  vi ifcfg-ens33
2.2.3.生效网卡的IP配置
- 3.1重启网卡，将ip配置生效
  - systemctl restart network #centos7与6的重启网卡命令不一样
- 3.2连接网关,看是否丢包
- 3.3宿主机（window操作系统）能联网
2.2.4 设置节点的局域网访问名称
- 由于在安装虚拟机的过程中已经改好了master主机的名称所以只需要修改剩余两台节点的名称
- 查看虚拟机的主机名
- 设置虚拟机主机名 hostname
  - vi /etc/sysconfig/network
  - chmod +x /etc/hostname #永久生效
- 配置hosts文件
  - vi /etc/hosts
  - “/etc/hosts”这个文件是用来配置主机将用的DNS服务器信息，是记载LAN内接续的各主机的对应[HostName IP]用的。当用户在进行网络连接时，首先查找该文件，寻找对应主机名对应的IP地址。
  - 在进行Hadoop集群配置中，需要在”/etc/hosts”文件中添加集群中所有机器的IP与主机名，这样Master与所有的Slave机器之间不仅可以通过IP进行通信，而且还可以通过主机名进行通信。
2.2.5 同步以上配置在Slave1与Slave2

2.3 操作系统设置

永久关闭防火墙，并同步到其余节点

2.4 hadoop集群时间同步

在这里插入图片描述

2.5 SSH无密码验证配置

准备工作
- 在三个虚拟机上新增一个普通的用户Hadoop
  - adduser Hadoop #在root用户下
  - passwd Hadoop #输入两次密码
- 在Hadoop用户下建立.ssh文件夹
  - mkdir /home/Hadoop/.ssh
- Hadoop运行过程中需要管理远端Hadoop守护进程，在Hadoop启动以后，NameNode是通过SSH（Secure Shell）来启动和停止各个Datanode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式，故我们需要配置SSH运用无密码公钥认证的形式，这样NameNode使用SSH无密码登录并启动Dataname进程，同样原理，Datanode上也能使用SSH无密码登录到 NameNode。
配置过程
- 在Master节点上执行以下命令：
  - ssh-keygen –t rsa –P ”
    - 运行后询问其保存路径时直接回车采用默认路径。生成的密钥对：id_rsa（私钥）和id_rsa.pub（公钥），默认存储在”/home/用户名/.ssh”目录下。
- 接着在Master节点上做如下配置，把id_rsa.pub追加到授权的key里面去。
  - cat /home/Hadoop/.ssh/id_rsa.pub >> /home/Hadoop/.ssh/authorized_keys
- 设置权限
  - vi /etc/ssh/sshd_config
  - sudo chmod 700 /home/Hadoop/.ssh
  - sudo chmod 600 /home/Hadoop/.ssh/authorized_keys
- 重启SSH服务
  - service sshd restart
- 测试免密登录
- 将公钥发给Slave1，Slave2(设置权限)
- 测试免密登录
  - 其余节点亦是如此

三. 软件安装及环境配置 (软件安装先在Master上安装，全部安装完后，再通过宝塔发送到其余Slave中即可)

3.1Java安装及其环境配置

建立相关文件夹
上传并解压jdk压缩包
配置 JDK 环境变量
- vi /etc/profile
加载修改的配置，查看是否成功

3.2 Hadoop安装及其环境配置

(1)上传并解压Hadoop压缩包
(2)把Hadoop的安装路径添加到”/etc/profile”中,并使配置文件生效
(3)配置hadoop-env.sh，并确认生效
(4)测试Hadoop是否安装成功

3.3 分布式集群配置文件

配置core-site.xml文件
配置hdfs-site.xml文件
配置mapred-site.xml文件

@H_432_502@
配置yarn-site.xml文件
配置slaves文件

3.3Slave服务器上的文件安装及配置

将master主机目录下面的 /home/Hadoop/server/hadoop2.7/etc/hadoop 文件夹使用宝塔发送到其余两台虚拟机（路径一致）
用户组改为Hadoop用户，设置权限为755

4.启动及验证

4.1 启动

(1)格式化HDFS文件系统
- hadoop namenode –format
(2)启动hadoop
- start-dfs.sh start-yarn.sh

4.2 验证测试

用”jps”命令测试
- Mater
- slave1
- slave2
查看Web界面
- HDFS集群状态
- YARN集群状态

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

hadoop day2-搭建

hadoop搭建准备工作三台虚拟机：master、node1、node2检查时间是否同步：date检查java的jdk是否被安装好：java-version修改主机名三台分别执行vim/etc/hostname并将内容指定为对应的主机名关闭防火墙：systemctlst...

作者：编程之家时间：2022-11-24

Hadoop 二十三

文件的更名和移动: 获取文件详细信息遇到的问题：不能直接在web上上传文件。权限问题：修改后即可正常创建参考：https://blog.csdn.net/weixin_44575660/article/details/118687993

作者：编程之家时间：2022-11-24

大数据Hadoop之——HDFS小文件问题与处理实战操作

目录一、背景1）小文件是如何产生的？2）文件块大小设置3）HDFS分块目的二、HDFS小文件问题处理方案1）HadoopArchive（HAR）2）Sequencefile3）CombineFileInputFormat4）开启JVM重用5）合并本地的小文件，上传到HDF...

作者：编程之家时间：2022-10-19

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

目录一、概述二、HadoopDataNode多目录磁盘配置1）配置hdfs-site.xml2）配置详解1、dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-polic...

作者：编程之家时间：2022-10-19

平台搭建伪分布式

平台搭建（伪分布式）伪分布式搭建在VM中搭建std-master修改配置文件centos7-cl1.vmdkstd-master.vmx-将配置文件中vm的版本号改成自己电脑对应的vm版本修改客户端的操作系统为centos764位打开虚拟机修改虚拟机网络cd...

作者：编程之家时间：2022-10-13

Harley浅谈HadoopHDFS

一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管...

作者：编程之家时间：2022-10-13

配置workers进入hadoop/etc/hadoop 编辑workers文件然后分发给另外两个服务器准备启动集群第一次需要初始化. 初始化完成后增加了data文件，进入上面那个路径，就能看到当前服务器的版本号 ...

作者：编程之家时间：2022-10-13

第六周总结8.13

这周我对ssm框架进行了更深一步的开发，加入了多用户，并对除登录外的请求进行了拦截，这样用户在未登录的时候是访问不到资源的。并且对hadoop进行了初步的学习，包括虚拟机的安装等等。下周会对hadoop进行更深一步的...

作者：编程之家时间：2022-10-13

安装Hadoop2.10.1

前言通过在Hadoop1安装Hadoop,然后配置相应的配置文件，最后将Hadoop所有文件同步到其他Hadoop节点。一、集群规划#主机名‘master/hadoop1’‘slave01/hadoop2’‘slave02/hadoop3’#启动节点NamenodeNodemanagerNod...

作者：编程之家时间：2022-10-13

集群崩溃处理

1.先杀死进程（先进入到hadoop版本文件里，我的是/opt/module/hadoop-3.1.3/）sbin/stop-dfs.sh2.删除每个集群上的data以及logsrm-rfdata/logs/3.格式化hdfsnamenode-format4.再启动sbin/sart-dfs.sh

作者：编程之家时间：2022-10-13