Hadoop - 编程之家

hdfs分布式文件系统，将一个大的文件拆分成多个小文件存储在多台服务器中，文件系统：目录结构（树状结构） "/"树根，目录结构在namenode中维护浏览器输入master：50070进入到web提供的hdfs可视化界面——>BrowseDirectory如何在Linux命令行操作hdfs？1、创建目录 mkdir

作者：编程之家时间：2022-09-04

MapReduce编程实践——WordCount运行实例Python实现

一、实验目的通过实验掌握基本的MapReduce编程方法；掌握用MapReduce解决一些常见数据处理问题的方法，包括数据合并、数据去重、数据排序和数据挖掘等。二、实验平台操作系统：Ubuntu18.04（或Ubuntu16.04）Hadoop版本：3.2.2三、实验内容和要求1.任务要求首先我们在本

作者：编程之家时间：2022-09-04

大数据学习——配置并启动集群/开启历史服务器和日志聚集

类型：学习笔记参考：尚硅谷大数据系列课程上篇文章通过克隆将集群搭建出来，这篇文章对Hadoop进行配置，修改配置文件，启动并测试集群。开去历史服务器以及日志聚集。部署规划hadoop102hadoop103hadoop104HDFSNameNode、DataNodeDataNodeSencondNameNode、DataNode

作者：编程之家时间：2022-09-04

【无标题】

Gzip解压缩代码实现·1.运行虚拟机2.在Idea的Maven中打包代码3.将打包文件拖入虚拟机中4.执行jar包在Idea的Maven中打包代码：将xml文件压缩成gzip文件：/***@Time:2021/10/2315:24*@Auther:Carapace*@File:DeflateCodeDemo.java*Software:IntelliJ

作者：编程之家时间：2022-09-04

01.Mapreduce实例——去重

实验原理“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流

作者：编程之家时间：2022-09-04

hadoop3.3.1简单的两节点集群

系统CentOS7.9节点10.1.1.10namenode10.1.1.11datanode设置主机名hostnamectlset-hostnamenamenodehostnamectlset-hostnamedatanodecat>/etc/hosts<<EOF127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1l

作者：编程之家时间：2022-09-04

Hadoop伪分布式搭建

搭建环境：centos6.5vm16jdk1.8hadoop2.6.51.先设置静态ipvi/etc/sysconfigetwork-scripts/ifcfg-eth0 DEVICE=eth0 #HWADDR=00:0C:29:42:15:C2 TYPE=Ethernet ONBOOT=yes NM_CONTROLLED=yes

作者：编程之家时间：2022-09-04

Hadoop-2.7.6版本集群安装与环境配置

链接：https://pan.baidu.com/s/1t8vDzoFb956TrsfGeq_3uA提取码：lycc一、安装之前先检查3虚拟机有没有以下问题1、第一台虚拟机配置网络修改主机名关闭防火墙配置映射安装jdk(删除自带jdk)2、克隆两台修改主机名

作者：编程之家时间：2022-09-04

关于hdfs集群中Please check the logs or run fsck in order to identify the missing blocks. See the Hadoop F

Pleasecheckthelogsorrunfsckinordertoidentifythemissingblocks.SeetheHadoopFAQforcommoncausesandpotentialsolutions.hadoopfsckhadoopfsck-delete原因分析:删除了几个hdfs上的数据，然后就出现这个问题，异常信息在hdfs中数据是

作者：编程之家时间：2022-09-04

HDFS集群启动后，DataNode节点没有挂载上

排错过程安装Impala后，删除掉Impala依赖的Hadoop、Hive等框架后，还是启动自己之前部署的Hadoop、Hive，没有报错，但是通过WEb界面查看，发现集群处于安全模式，然后所有的DataNode节点都没有挂载上（这时候没有注意到DataNode节点没有挂载上）。。。Securityisoff.SafemodeisON.T

作者：编程之家时间：2022-09-04

Hadoop之HDFS的读写流程

1、Hadoop之HDFS的读流程（1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端发出请求，询问nameNode，第一个Block需要上传到哪些DataNode服务器上。（4）NameNode返回3个DataNode节

作者：编程之家时间：2022-09-04

通过Java操作hdfs

1、使用IDEA，在之前创建的bigdata项目里面新建hadoop模块，导入相关hadoop包<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.7.6&lt

作者：编程之家时间：2022-09-04

10．Mapreduce实例——MapReduce自定义输入格式小

10．Mapreduce实例——MapReduce自定义输入格式小实验原理1.输入格式：InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：（1）选择作为输入的文件或对象；（2）定义把文件划分到任务的InputSplits；（3）为RecordReader读取文件提供了一个工厂方法；Hadoop自带了好几个输入格式

作者：编程之家时间：2022-09-04

09．Mapreduce实例——ChainMapReduce小

09．Mapreduce实例——ChainMapReduce小实验原理一些复杂的任务难以用一次MapReduce处理完成，需要多次MapReduce才能完成任务。Hadoop2.0开始MapReduce作业支持链式处理，类似于工厂的的生产线，每一个阶段都有特定的任务要处理，比如提供原配件——>组装——打印出厂日期，等等。通过这样

作者：编程之家时间：2022-09-04

八、hive3.1.2 安装及其配置本地模式和远程模式

目录前文hive3.1.2安装及其配置（本地模式和远程模式）1、下载hive包2、修改其环境变量3、MySQL配置Centos7MySQL安装步骤：1、设置MySQL源2、安装MySQLCommunityServer3、启动MySQL服务4、查找MySQLroot密码5、重置root密码6、MySQL服务加入开机启动项，并启动mysql进程7、登录MySQ

作者：编程之家时间：2022-09-04

idea连接hadoop集群

准备文件hadoop-2.6.0.rar 提取码xix0winutils下载pom.xml 提取码whausettings.xml 提取码tszllog4j.properties 提取码9rwa1.将hadoop-2.6.0.rar压缩包解压2.增加系统变量HADOOP_HOME，变量值为hadoop-2.6.0.rar压缩包解压所在的目录 3.在系统变量中对变量名为PATH

作者：编程之家时间：2022-09-04

hadoop 问题记录之hadoop

sbin/start-dfs.sh问题1:修改etc/hadoop/hadoop-env.sh 问题2: 执行如下问题3: 执行如下

作者：编程之家时间：2022-09-04

Hadoop——HDFS文件系统的Java API操作上传、下载、查看、删除、创建文件详细教学

如果还没有配置好Hadoop的可以点击链接查看如何配置各大技术基础教学、实战开发教学（正在持续更新中······）首先，启动Hadoop集群服务然后在浏览器访问Hadoop，点击Browsethefilesystem查看HDFS文件系统的目录可以看到目前HDFS文件系统的目录是空的，没有任何的文件

作者：编程之家时间：2022-09-04

HDFS 集群环境搭建

HDFS集群由一个主/从架构组成，单个运行NameNode进程的服务器为主节点服务器，多个运行DataNode进程的服务器为从节点服务器安装准备主机名IP地址服务器node-01192.168.229.21NameNode服务器、DataNode服务器node-02192.168.229.22DataNode服务器node-03192

作者：编程之家时间：2022-09-04

Hadoop学习笔记之HDFS

1HDFS概述1.1HDFS产出背景及定义HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中

作者：编程之家时间：2022-09-04

自定义UDF之自定义标识分组

**自定义UDF之自定义标识分组**功能：根据字段匹配自行分组首先添加maven依赖，我使用的hive版本是2.3.5，根据自己需求自己更改版本<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001

作者：编程之家时间：2022-09-04

2.2 分布式文件系统HDFS

编程要求 1.在HDFS中创建/usr/output/文件夹； 2.在本地创建hello.txt文件并添加内容：“HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。”； 3.将hello.txt上传至HDFS的/usr/output/目录下； 4.删除HDFS的/user/hadoop目录；

作者：编程之家时间：2022-09-04

Hadoop运行jar包报错java.lang.Exception: java.lang.ArrayIndexOutOfBoundsException: 1

错误信息：java.lang.Exception:java.lang.ArrayIndexOutOfBoundsException:1 atorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:492) atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:552)Causedby:java.l

作者：编程之家时间：2022-09-04

06-MapReduce介绍

一、MapReduce思想MapReduce的思想核心是分而治之，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是

作者：编程之家时间：2022-09-04

CentOS7搭建基础Hadoop集群

1.基础环境实验环境：版本主机名IP角色CentOS7.0hadoop1192.168.183.160masterCentOS7.0hadoop2192.168.183.162novaCentOS7.0hadoop3192.168.183.163novaJDK版本：jdk-7u79-linux-x64.tar.gzHadoop版本：hadoop-2.8.3.tar.gz链接:https://pan.baidu.com/s/174OGr9oJ6M9vgid4

作者：编程之家时间：2022-09-04

阿里云-快速搭建Hadoop环境

2.安装JDK1. 执行以下命令，下载JDK1.8安装包。wgethttps://download.java.net/openjdk/jdk8u41i/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz2. 执行以下命令，解压下载的JDK1.8安装包。tar-zxvfopenjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz3. 执行

作者：编程之家时间：2022-09-04

开启hadoop后对文件执行shell操作

root@master:~#hadoopfs-ls/hadoop:commandnotfound//如果出现这种情况说明环境变量没有配置，执行一下操作root@master:~#gedit.bashrc//会弹出编辑框，然后添加如下文字exportHADOOP_HOME=/opt/hadoop-2.9.2exportPATH=${JAVA_HOME}/bin:$PA

作者：编程之家时间：2022-09-04

Hadoop 简介

Hadoop是什么Hadoop是一个提供分布式存储和计算的开源软件框架，它具有无共享、高可用（HA）、弹性可扩展的特点，非常适合处理海量数量。Hadoop是一个开源软件框架Hadoop适合处理大规模数据Hadoop被部署在一个可扩展的集群服务器上Hadoop三大核心组件HDFS（分布式文件系统）

作者：编程之家时间：2022-09-04

Mapreduce实例——求平均值

02．Mapreduce实例——求平均值实验目的1.准确理解Mapreduce求平均值的设计原理2.熟练掌握Mapreduce求平均值程序的编写3.学会编写Mapreduce求平均值程序代码解决问题实验原理求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到R

作者：编程之家时间：2022-09-04

自定义使用javaAPI进行文件的解压缩

使用javaAPI进行文件的解压缩前言二、代码前言二、代码代码如下（示例）：packagecom.atguigu.mr.test;importstaticorg.junit.Assert.*;importjava.io.IOException;importjava.io.InputStream;importorg.apache.hadoop.conf.Configuration;importorg.apa

作者：编程之家时间：2022-09-04