Hadoop - 编程之家

华为云Centos7搭建hadoop集群四：mysql,hive安装将mysql，hive上传至/opt/module中mysql我使用rpm进行安装，节点选择03节点1.检查当前系统是否安装过mysqlrpm-qa|grepmariadb如果存在通过命令卸载sudorpm-e--nodepsmariadb-libs2.解压mysql包，因为linux可能是最小化

作者：编程之家时间：2022-09-04

39 Hadoop学习总结

HDFS相关HDFS写数据的流程首先由客户端向NameNode服务发起写数据请求NameNode收到请求后会进行基本验证验证类容包括对请求上传的路径进行合法验证对请求的用户进行权限验证验证没有问题后，NameNode会响应客户端允许上传接下来客户端会对文件按照blocksize大小进行切块，

作者：编程之家时间：2022-09-04

奈学大数据P6研发工程师学习笔记

Java大家都知道Java的方向有JavaSE、JavaEE、JavaME，学习大数据要学习那个方向呢？只需要学习Java的标准版JavaSE就可以了，像Servlet、JSP、Tomcat、Struts、Spring、Hibernate，Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多，只需要了解就可以了，当然Java怎么连接数据库还是

作者：编程之家时间：2022-09-04

数仓 Hadoop Kerberos配置

文章目录创建Hadoop系统用户HadoopKerberos配置为Hadoop各服务创建Kerberos主体（Principal）修改Hadoop配置文件配置HDFS使用HTTPS安全传输协议配置Yarn使用LinuxContainerExecutor创建Hadoop系统用户为Hadoop开启Kerberos，需为不同服务准备不同的用户，启动服务时需要使

作者：编程之家时间：2022-09-04

Hadoop安装一套完结

目录HADOOP安装Linux单机版HADOOP本地运行HADOOP安装Linux集群版编写集群分发脚本配置集群中ssh免密登录Hadoop集群配置Hadoop集群配置核心启动Hadoop集群集群基本功能测试配置历史服务器配置日志的聚集集群启动/停止方式总结编写Hadoop集群常用脚本编写查看集群服务器Ja

作者：编程之家时间：2022-09-04

Hadoop之伪分布式配置安装

Hadoop支持本地模式、伪分布式模式、完全分布式模式3种安装模式。本地模式，在系统中下载Hadoop,默认情况下，它会被配置为一个独立的模式，用于运行Java程序;伪分布式模式，这是在单台机器上的分布式模拟，这种模式对开发非常有用:完全分布式模式，又叫集群安装，Hadoop安

作者：编程之家时间：2022-09-04

Hadoop常见错误及解决方案

1）防火墙没关闭、或者没有启动YARNINFOclient.RMProxy:ConnectingtoResourceManagerathadoop108/192.168.10.108:80322）主机名称配置错误3）IP地址配置错误4）ssh没有配置好5）root用户和atguigu两个用户启动集群不统一6）配置文件修改不细心7）未编译源码Unabletoloadnativ

作者：编程之家时间：2022-09-04

数仓用户认证 Kerberos 安全集群使用说明

文章目录用户要求访问HDFS集群文件Shell命令web页面提交MapReduce任务用户要求1，具体要求以下使用说明均基于普通用户，安全集群对用户有以下要求：1）集群中的每个节点都需要创建该用户2）该用户需要属于hadoop用户组3）需要创建该用户对应的Kerberos主体2，实操此处以lua

作者：编程之家时间：2022-09-04

Hadoop学习笔记: MapReduce(2)

一.切片与MapTask并行度决定机制现有如下的问题:1G的数据,启动8个MapTask,可以提高集群的并发处理能力.那么1K的数据,如果也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否是越多越好呢?哪些因素影响了MapTask并行度?MapTask并行度决定机制首先需要区分两个

作者：编程之家时间：2022-09-04

Hadoop运行环境搭建

目录1.1模板虚拟机环境准备1.2克隆虚拟机1.1模板虚拟机环境准备0）安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G1）hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）（1）使用yum安装需要虚拟机可以正常上网，yum安装

作者：编程之家时间：2022-09-04

04_第四章 Hadoop数据压缩

1. 01Map输出设置压缩案例packageComMapOutPk{importjava.langimportorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.Pathimportorg.apache.hadoop.io.compress.{BZip2Codec,GzipCodec,SnappyCodec}importorg.apache.hadoop.io.

作者：编程之家时间：2022-09-04

hadoop配置LZO压缩

准备在github中下载hadoop-lzo-master.zipgithub地址将hadoop-lzo-master.zip压缩包解压，使用maven编译为jar包。上传通过工具上传到linux目录下。将这个jar包放在hadoop目录下的share/hadoop/common配置hadoop的core-site.xml进行配置，以支持lzo压缩

作者：编程之家时间：2022-09-04

Hadoop生态圈二十三- MapReduce工作流程详解

目录前言1.MapReduce工作流程详解1.1MapTask工作机制详解1.1.1流程图1.1.2执行步骤1.2ReduceTask工作机制详解1.2.1流程图1.2.2执行步骤1.3MapReduceShuffle机制前言部分内容摘自尚硅谷、黑马等等培训资料1.MapReduce工作流程详解1.1MapTask工作机

作者：编程之家时间：2022-09-04

HUE简介

HUE简介：HUE=HadoopUserExperienceHue是一个开源的ApacheHadoopUI系统，由ClouderaDesktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，是基于PythonWeb框架Django实现的。作用：通过使用Hue可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例

作者：编程之家时间：2022-09-04

【Hadoop】3.3.1版本部署

硬件环境：虚拟机环境配置硬件：1CPU+[RAM]4G+[DISK]128G系统：Centos7x64这里没有像尚硅谷一样做地址映射解析，直接取IP（我太懒）192.168.242.131192.168.242.132192.168.242.133 前置依赖环境：前置环境准备（3台机器都需要）：sudoyuminstall-ynet-toolssudoyumins

作者：编程之家时间：2022-09-04

大数据-HadoopHDFS-2

1.HDFS的数据流HDFS写数据流程剖析文件写入（1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端请求第一个Block上传到哪几个DataNode服务器上。（4）NameNode返回3个DataNode

作者：编程之家时间：2022-09-04

Hadoop-常用端口

1.HDFS8020/9000NameNode内部常用端口50070NameNode用户页面查询端口50470NameNodehttps服务的端口50010DataNodeDataNode初始化时向NAMENODE提出注册和应答请求50075DataNodehttp服务端口50470DataNodehttps服务端口50020DataNodeipc服务端口8485Jou

作者：编程之家时间：2022-09-04

hadoop基准测试

测试：向HDFS写入10个128M的文件使用命令$hadoopjar/opt/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.2.2-tests.jarTestDFSIO-write-nrFiles10-fileSize128MB测试：读取10个128M的文件使用命令$hadoopjar/opt/hadoop-3.2.2/share/

作者：编程之家时间：2022-09-04

centos7下安装hadoop单机版

出处（官方文档）https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download下载（官方）https://dlcdn.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz配置环境（重要）查看jdk安装目录cat/etc/profileexportJAVA

作者：编程之家时间：2022-09-04

Hadoop3.x高可用集群，HDFS、Yarn集群

集群环境规划将整个ha搭建完成后,集群将形成以下模样hadoop101hadoop102hadoop103NameNodeNameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZookeeperZookeeperZookeeperZKFCZKFCZKFCResourceManagerResource

作者：编程之家时间：2022-09-04

Hadoop Kerberos 集成

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料106篇原创内容公众号官网参考：https://hadoop.apache.org/docs2.7.3/hadoop-project-dist/hadoop-common/SecureMode.html2、创建Hadoop系统用户为Hadoop开启Kerberos，需为不同服务准备不同

作者：编程之家时间：2022-09-04

6 HDFS shell操作

1HDFSshell命令行解释说明2HDFSshell命令行常用操作3总结1、创建文件夹hadoopfs-mkdir[-p]path为待创建的目录-p选项的行为与Unixmkdir-p非常相似，它会沿着路径创建父目录。2查看指定目录下内容hadoopfs-ls[-h][-R][

作者：编程之家时间：2022-09-04

Hadoop的概述和特点

Hadoop的概述和特点Hadoop官网：https://hadoop.apache.org一、hadoop概述1、服务器(节点)可以理解为我们的一台笔记本/台式机，在这里可以认为是我们的一台虚拟机后面学习中，我们会把一台服务器称为一个节点一个公司里，会有很多服务器。尤其是hadoop集群大到上千台服务器搭建

作者：编程之家时间：2022-09-04

Hadoop学习7-- Hadoop YARN

HadoopYARN介绍YARN简介ApacheHadoopYARN（YetAnotherResourceNegotiator，另一种资源协调者）是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨

作者：编程之家时间：2022-09-04

基于Hadoop3的HA集群搭建

集群规划node01node02node03NameNodeNameNodeNameNodeZKFCZKFCZKFCJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZKResourceManagerResourceManagerNodeManagerNodeManagerNodeManager准备模板虚拟机关闭防火

作者：编程之家时间：2022-09-04

Hadoop 简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群的威力进行高速运算和存储。从其定义就可以发现，它解決了两大问题：大数据存储、大数据分析。也就是Hadoop的两大核心：HDFS和MapReduce

作者：编程之家时间：2022-09-04

Hadoop集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。1、需求已有集群服务器，node01、node02、node03。找一个机器(node01)，作为时间服

作者：编程之家时间：2022-09-04

使用Mac为三台CentOS7配置Java

操作前说明机器准备版本：CentOS7三台机器ip：192.168.77.110；192.168.77.110；192.168.77.110；三台机器名：node001；node002；node003；要求：mac和三台机器能相互ping通，mac和三台机器能正常使用ssh用户准备用户：hadoop密码：123456目录准备要求：hadoop的权限下目录一：/sjj

作者：编程之家时间：2022-09-04

MapReduce原理深入理解3----WordCount程序流程图解、combiner合并程序示例、InputSplit切片详解

MapReduce原理深入理解3----WordCount程序流程图解、combiner（合并）程序示例、3、InputSplit切片详解1、WordCount示例程序处理流程图解2、combiner（合并）程序示例combiner，发生在map阶段，又叫做预聚合；相当于map端的Reduce，因为combiner的逻辑代码和Reduce端的逻辑代码一样求max、

作者：编程之家时间：2022-09-04

hadoop入门(7)：开发环境配置

前言安装路径中不要包含中文、空格修改host文件windowsC:\windows\System32\drivers\etc\hostsMacos/etc/hosts添加以下内容#三台虚拟机的ip以及映射192.168.77.110node001.sjj.comnode001192.168.77.120node002.sjj.comnode002192.168.77.130node00

作者：编程之家时间：2022-09-04