Hadoop - 编程之家

注：演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。一、纠删码基本概述1.纠删码原理HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间

作者：编程之家时间：2022-09-04

Hadoop配置文件详解

1、hadoop-env.sh2.core-site.xml参数解释fs.defaultFS描述集群中NameNode节点的URI（包括协议、主机名称、端口号），其主机是NameNode的主机名称或IP地址，端口是NameNode监听RPC的端口，如果没有指定，默认是8020。集群里面的每一台机器都需要知道NameNode的地址，DataNode会先在Nam

作者：编程之家时间：2022-09-04

Hadoop 3.x.x的安装与

安装前提，需要三台虚拟机并关闭防火墙，配置静态IP，配置免密登陆，JDK的安装，这些操作可以看我Linux分类中的文章，不做过多说明。我使用过的hadoop版本是hadoop3.1.3 下面开始安装步骤首先将安装包传输到目录下，并解压tar-zxvfhadoop-3.1.3.tar.gz-C/usr/local/soft/

作者：编程之家时间：2022-09-04

Hadoop——MapJoin减少数据倾斜

首先，先说一下当前了解到的一个适用MapJoin的场景吧：比如我们此时手中有两个表需要我们进行处理，但是呢一个很大，一个很小。那么这个时候我们比较适合使用MapJoin进行处理。那么我们具体是怎么实现MapJoin的这个操作的呢？：我们可以在map端对小的那个表先进行缓存，提前在map端

作者：编程之家时间：2022-09-04

Hadoop HDFS原理详解系统性回顾

HadoopApache™Hadoop®项目是为可靠的、可扩展的分布式计算而开发的一套开源软件。Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大规模数据集进行分布式处理。Hadoop旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。Hadoop框架本身的

作者：编程之家时间：2022-09-04

hadoop 伪分布式安装流程

1.首先创建一台虚拟机内存设置最好要大一些要不玩不起来我的设置为100g然后内存线程什么的根据自己电脑配置来2.然后配置文件安装jdk什么的前边有已经写好的shell脚本可以直接用或者自己配置也可以 3.准备工作完成后下载hadoop安装包 4.我的是已经下载好了先放在

作者：编程之家时间：2022-09-04

Hadoop 系统入门+核心精讲

Hadoop系统入门+核心精讲链接:https://pan.baidu.com/s/1CClt9inRhNS2CmbFxUOiYg提取码:rhe6--来自百度网盘超级会员v4的分享第1章大数据概述第2章初识Hadoop第3章分布式文件系统HDFS第4章分布式计算框架MapReduce第5章资源调度框架YARN第6章电商项目实战Hadoop实

作者：编程之家时间：2022-09-04

Hadoop_03 解决Hadoop输入jps没有NameNode的问题

问题描述：解决方案：1、先运行stop-all.sh2、格式化namdenode（在这之前要先删除原目录，即core-site.xml下配置的<name>hadoop.tmp.dir<ame>所指向的目录，删除后重新建立该目录，可以重名，重名就不需要再次修改xml文件）然后运行hadoopnamenode-format3、运行start-all.s

作者：编程之家时间：2022-09-04

HDFS常规操作-Hadoop工作太忙，仅仅作为记录

1packagehdfs;23importjava.net.URI;45importorg.apache.hadoop.conf.Configuration;6importorg.apache.hadoop.fs.BlockLocation;7importorg.apache.hadoop.fs.FSDataInputStream;8importorg.apache.hadoop.fs.FSDataOutputStream;9

作者：编程之家时间：2022-09-04

Hadoop_00

设置静态IP[root@localhost~]#cd/etc[root@localhostetc]#cdsysconfig[root@localhostsysconfig]#cdnetwork-scripts/[root@localhostnetwork-scripts]#viifcfg-ens33[root@localhostnetwork-scripts]#servicenetworkrestart 关闭防火墙：[root@localhost

作者：编程之家时间：2022-09-04

第3章Hadoop基本命令和Java API

目录3.1Hadoop中HDFS的常用命令3.1.1基于Shell的操作 1.创建目录命令 2.上传文件到HDFS 3.列出HDFS上的文件 4.查看HDFS下某个文件的内容 5.将HDFS中的文件复制到本地系统中 6.删除HDFS下的文档3.

作者：编程之家时间：2022-09-04

Hadoop_04 验证Hadoop安装成功

[root@master~]#cdhadoop-2.7.7/[[email protected]]#cdetc[root@masteretc]#cdhadoop/[root@masterhadoop]#hadoopjar~/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi1010 http://master:50070/

作者：编程之家时间：2022-09-04

hadoop安装之网络环境配置

1.安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G（1）安装epel-release（2）关闭防火墙，关闭防火墙开机自启[root@hadoop100~]#systemctlstopfirewalld[root@hadoop100~]#systemctldisablefirewalld.service（3）卸载虚拟机自带的JDK[root@h

作者：编程之家时间：2022-09-04

HDFS连接JAVA，HDFS常用API

先在pom.xml中导入依赖包<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs

作者：编程之家时间：2022-09-04

WIN IDEA的big data插件连接HDFS

前言在自己的win电脑想连机房的hadoop开发，发现idea已经有个官方的插件可以连hadoop和hdfs之类的了，打算试试，但输入端口和用户名后连接失败报如下错误❗HADOOP_HOMEisnotdefined：网上找了一波解决方法后看到了这样一篇博客，于是顺便把整个解决的过程记录下来（官方文档也有解决方

作者：编程之家时间：2022-09-04

hadoop的datanode没有正常启动

所有进程没有正常启动都是因为配置文件的问题datanode与namenode的区别就是，namenode是一个临时存储，当达到block时存储的数据就会存入datanode节点与datanode有关的时data数据存储目录的问题，只需要修改hadoop中的core-site.xml文件中的<!--临时数据目录，用来存放数据，格式化时会自

作者：编程之家时间：2022-09-04

FineReport如何连接hadoop,hive，Impala数据库，Kerberos认证

Hadoop是个很流行的分布式计算解决方案，Hive是基于hadoop的数据分析工具。一般来说我们对Hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，这样的模式用来做一些测试比较合适，并不适合做产品的开发和应用。因此，就产

作者：编程之家时间：2022-09-04

Doris的brokerLoad导入Hive动态分区表

问题brokerLoad将一个以day字段为动态分区字段的hive表导入到doris也是以day字段为动态分区字段的表结果报错type:LOAD_RUN_FAIL;msg:errCode=2,detailMessage=ParseError:Invalidcolumnselecteddaydoris是不支持导入动态分区hive表嘛问题解决问了社区大佬

作者：编程之家时间：2022-09-04

整个Hadoop框架工作流程

HDFS文件存储系统，负责文件的上传与下载，包含NameNode（一个）和DataNode（多个）两个部分，其中，NameNode存储的是源文件，即文件的存放位置，根据这个位置定位到节点；而DataNode才是真正负责存储数据文件的节点；mapreduce 计算工作任务，包含整个map阶段和reduce阶段以及其中系统的shuf

作者：编程之家时间：2022-09-04

MapRedrec入门wordcount单词计数本地运行

1.在D盘下创建ceshi.txt文件2.创建Maven文件 3.在src文件下的java下创建包mapreduce4.在mapreduce包下创建wordcountMapper类5.编写wordcountMapper类 packagemapreduce;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg

作者：编程之家时间：2022-09-04

hadoop目录结构及对应作用

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）（4）sbin目录：存放启动或停止Hadoop相关服务的脚本（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

作者：编程之家时间：2022-09-04

完全分布式Hadoop的搭建

准备工作：安装jdk克隆2台虚拟机完成后：新的2台虚拟机，请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做：master、node1、node2 】（虚拟机的克隆，前面的博客，三台虚拟机都要开机）这里我们安装的是Hadoop2.7.6版本：https://hadoop.apache.orgeleases.html1、设置

作者：编程之家时间：2022-09-04

HDFS基本命令

1.创建目录hadoopdfs-mkdir/datahadoopdfs-mkdir-p/data/data1创建多级目录2.查看文件hadoopdfs-ls/3.上传文件hadoopdfs-put/usr/local/data//data4.下载文件get，将hdfs文件下载到linux本地hadoopdfs-get/data/data/students.txt下载到当前目

作者：编程之家时间：2022-09-04

hadood centos7集群搭建

文章目录hadoodcentos7集群搭建1模板虚拟机环境准备1.1安装epel-release1.2linux安装的是最小系统则安装一下插件1.3关闭防火墙，关闭防火墙开机自启1.4创建一个用户develop1.5配置develop用户具有root权限，方便后期加sudo执行root权限的命令1.6在/opt目录下创建文

作者：编程之家时间：2022-09-04

脚本jps查看hadoop节点

jps是用来查看进程的命令。常常要用jps来查看名称服务是否已启动。在hadoop集群中我们分别在不同的节点上使用jps命令查看比较麻烦，使用脚本查看所有节点会比较方便。创建一个脚本。内容如下：#!/bin/bashforhostinslave02slave01slave03doecho===========

作者：编程之家时间：2022-09-04

Hadoop运行环境搭建

1、模板虚拟机的环境准备1）ip地址192.168.112.100、主机名称hadoop100、内存2G、硬盘50G2）安装epel-release[root@hadoop100~]#yuminstall-yepel-release注：ExtraPackagesforEnterpriseLinux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scienti

作者：编程之家时间：2022-09-04

HDFS基本命令

1.创建目录hadoopdfs-mkdir/datahadoopdfs-mkdir-p/data/data1 创建多级目录2.查看文件hadoopdfs-ls/ 3.上传文件hadoopdfs-put/usr/local/data//data 4.下载文件get，将hdfs文件下载到linux本地hadoopdfs-get/data/data/students.txt 下载

作者：编程之家时间：2022-09-04

MR 之WordCount 例子

1、运行Hadoop自带的WordCount准备数据hadoopmapreduceyarnbigdatahivesqlhelloflinksparkflinkstreaming上传到HDFS上hadoopfs-putwc.txtest/wc${HADOOP_HOME}/share/hadoop/mapreduceWordCount这个类就在hadoop-mapreduce-examples-2.9.2.

作者：编程之家时间：2022-09-04

hadoop安装

1、关闭防火墙所有节点serviceiptablesstopchkconfigiptablesoff2、设置免密钥在master中生成密钥文件ssh-keygen-trsa一直回车将密钥文件同步到所有节点ssh-copy-idmasterssh-copy-idnode1ssh-copy-idnode23、上传hadoop安装包上传到msater的/usr/local/m

作者：编程之家时间：2022-09-04