Hadoop - 编程之家

目录一：HDFS主要组件及其功能二：SecondaryNameNode工作情况三：HDFS的数据存储原理3.1冗余数据保存3.2数据存取策略四：HDFS数据读写过程4.1HDFS读数据过程（重点）4.2HDFS写数据的过程五：HDFS的HA（高可用）原理5.1HDFSHA来源5.2HDFSHA采用的方法5.3HDFS待命名称节点工

作者：编程之家时间：2022-09-04

在linux中安装hadoop详细

安装包可在官网找，如http://archive.apache.org一、虚拟机安装前置：安装vmware（可在百度中找得）1.1安装虚拟机-Linux 1.点击新建虚拟机，选择自定义 2.虚拟机兼容性默认即可3.客户机操作系统选择稍后安装操作系统4.选择客户机操作系统选择Linux，版本我选择了RedHat

作者：编程之家时间：2022-09-04

大数据tensorflowonspark 进行安装和测试

1. 概述大数据tensorflowonspark进行安装和测试。2.环境所选操作系统地址和软件版本节点类型Centos7.3 64位192.168.2.31（master）Java：jdk1.8Scala:2.10.4Hadoop:2.7.3Spark:2.12.3TensorFlowOnSpark:0.8.0Python2.7MasterCentos7.3 64位192.168.2.32（sparkworker）Java：jdk1.8Had

作者：编程之家时间：2022-09-04

MapReduce概述

1.MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在一个Hadoop集群上。2.MapReduce优缺点优点1）MapR

作者：编程之家时间：2022-09-04

hadoop的NAMENODE的管理机制，工作机制和DATANODE的工作原理

1：分布式文件系统（DistributedFileSystem）：（1）：数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。（2）：是一种允许文件通过网络在多台主机上分享的

作者：编程之家时间：2022-09-04

一脸懵逼加从入门到绝望学习hadoop之 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlE

1：初学hadoop遇到各种错误，这里贴一下，方便以后脑补吧，报错如下：主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面；出现这个错误是权限的问题，操作hadoop是虚拟机的主机用户不是window的主机用户Administrator，所以出现下面的错误，解决办法如下所示（或者修改文件的权限，即所

作者：编程之家时间：2022-09-04

hadoop伪分布式集群搭建与安装ubuntu系统

1：Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2：使用Xsheel软件远程链接自己的虚拟机，方便操作。输入自己ubuntu操作系统的账号密码之后就链接成功了；3：修改主机的名称vi/etc/hostname和域名和主机映射对应的关系vi/etc/hosts，改过之后即生效，自己

作者：编程之家时间：2022-09-04

Linux环境Hadoop安装配置

Linux环境Hadoop安装配置1.准备工作(1)linux配置IP(NAT模式)(2)linux关闭防火墙(3)设置主机名(4)设置映射(5)设置免密登录2.安装jdk(1)上传安装包:(2)解压：(3)配置环境变量：3.分发jdk到其他节点(1)发送文件：(2)验证：4.安装hadoop(1)上传安装包:(2)解压：(3)配

作者：编程之家时间：2022-09-04

MapReduce案例：统计共同好友+订单表多表合并+求每个订单中最贵的商品

案例三：统计共同好友任务需求：如下的文本，A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友，及他俩的共同好友都是谁b-ac-ad-aa-bc-bb-eb-j解题思

作者：编程之家时间：2022-09-04

一脸懵逼学习MapReduce的原理和编程Map局部处理，Reduce汇总

1：MapReduce的概述：（1）：MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.（2）：MapReduce由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。（3）：这两个函数的形参是key、value对，表示函数的输入信

作者：编程之家时间：2022-09-04

大数据好书推荐

大数据好书推荐历时多年整理，每看到一本好书都会收藏下来，到现在一看竟然有100多本了这些书籍确实是大数据的宝藏，从大数据入门到实战，深入原理，大数据架构等全部都有从hadoop，hive，spark，flink，kafka，hbase，kudu，clickhouse，数仓建模，大数据算法，机器学习，数据科学，jvm虚拟机，数学思维，5G时代等

作者：编程之家时间：2022-09-04

VMware搭建hadoop伪分布式环境

1.前言WhatIsApacheHadoop?TheApache™Hadoop®projectdevelopsopen-sourcesoftwareforreliable,scalable,distributedcomputing.TheApacheHadoopsoftwarelibraryisaframeworkthatallowsforthedistributedprocessingoflargedatasetsacrossclu

作者：编程之家时间：2022-09-04

Python key值相同合并value值

dict中将key相同的字典合并在一个对象里lis=[('hadoop','hadoop1'),('hadoop','hadoop2'),('flume','flume1'),('flume','flume2'),('hadoop','hadoop3'),('flink&#0

作者：编程之家时间：2022-09-04

基于Apache版本的大数据组件的Atlas安装

Atlas2.1.0基于Apache开源版本的大数据组件的安装详细记录（测试环境）说明：Atlas安装参考了大量的网上资料，在此记录仅用作日后方便查看，如若本文章有侵权行为，请立即联系。组件版本组件名称组件版本Hadoop3.2.1Hive3.1.2Hbase2.3.4Zookeeper3.5.9Kafka2.6.2Solr7.4.0Atlas2.1.0j

作者：编程之家时间：2022-09-04

Hive内置函数

！！a-逻辑非，与非逻辑操作符号一致性hive>select!(true);OKfalse!=a!=b-如果a不等于b，则返回TRUE，和<>符操作符一致hive>select1<>2;OKtrue$sum0$sum0(x)-返回一组数字的总和，如果没有数字为空范围0hive>select$sum0(1L);OK1%a%b-返回a除

作者：编程之家时间：2022-09-04

MapReduce Cross 示例

MapReduceCross示例MapReduceCross示例packagecom.bsr.cross;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.

作者：编程之家时间：2022-09-04

MapReduce WordCount Combiner程序

MapReduceWordCountCombiner程序MapReduceWordCountCombiner程序注意使用Combiner之后的累加情况是不同的；pom.xml<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:sche

作者：编程之家时间：2022-09-04

hadoop相关问题

一、mapreduce作业oom1、任务还没启动,直接oom报错AM日志：21/05/1015:15:13INFOmapreduce.Job:TaskId:attempt_1617064346277_101596_m_000000_1,Status:FAILEDError:Javaheapspace21/05/1015:15:16INFOmapreduce.Job:TaskId:attempt_1617064346277_10

作者：编程之家时间：2022-09-04

大数据技术原理与应用学习笔记二

大数据技术原理与应用学习笔记（二）本系列历史文章HadoopHadoop简介Hadoop的特性Hadoop在企业中的应用架构Hadoop的版本Hadoop项目结构Linux和Hadoop安装Hadoop集群部署本系列历史文章大数据技术原理与应用学习笔记（一）HadoopHadoop是一个由Apache基金会所开发的分布式

作者：编程之家时间：2022-09-04

Hadoop环境搭建

1.下载hadoop2.5.0安装包然后通过tar命令进行解压 2.配置环境进入etc/hadoop进行环境配置2.1配置hadoop-env.sh将JAVA_HOME地址配置为本地jdk的安装地址 2.2配置core-site.xml <property><name>fs.defaultFS<ame><value>hdfs://xiongpen

作者：编程之家时间：2022-09-04

Java代码执行sqoop抽取动作

执行从MySQL数据库导出数据到HDFS上。执行前需准备：在eclipse中写的代码，所以，又新加了sqoop-1.4.6-cdh5.5.2.jar放入原有的hadoop项目中，否则会有编译错误。同时，在集群上，将此包加入HADOOP_HOME/share/hadoop/yarn下，否则会报缺少Jar包的错误。错误显示：[hadoop@fa01~]$

作者：编程之家时间：2022-09-04

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

这个问题比较简单，也是一个比较常见的问题！很明显应该是HADOOP_HOME的问题。如果HADOOP_HOME为空，必然fullExeName为null\bin\winutils.exe。解决方法很简单，配置环境变量，)。1.自己配置window的环境变量2.不想重启电脑可以在程序里加上：System.setProperty("hadoop.home.dir",

作者：编程之家时间：2022-09-04

HDFS

1.Hadoop HDFS//查看hdfs根目录下有哪些文件hadoopfs-ls///在hdfs上创建多级文件夹hadoopfs-mkdir-p/Upload/Files///把文件上传到hdfs指定的文件夹中hadoopfs-put/optest.csv/Upload/Files//运行测试mapreduce例子hadoopjar/opt/hadoop-3.1.2/share/ha

作者：编程之家时间：2022-09-04

Centos7系统的Hadoop3.2.2集群环境搭建

Centos7系统的Hadoop3.2.2集群环境搭建准备工作：jdk-8u291-linux-x64.tar.gzhadoop-3.2.2.tar.gz虚拟机hadoop，hadoop1，hadoop2配置：hadoop就Hadoop1hadoop2IP192.168.10.100192.168.10.101192.168.10.102集群规划：hadoophadoop1hadoop2HDFSNameNodeDateNodeDateNodeSec

作者：编程之家时间：2022-09-04

Sqoop 介绍、安装及环境配置

一.SqoopSqoop介绍Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。一般情况下，是将数据分析的结果导出到关系型数据库中，供其他部门

作者：编程之家时间：2022-09-04

Hadoop配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：1）配置mapred-site.xml[mischen@hadoop102hadoop]$vim mapred-site.xml在该文件里面增加如下配置。<property> <name>mapreduce.jobhistory.address<ame>

作者：编程之家时间：2022-09-04

【赵强老师】Oozie的动作节点之Sqoop

【赵强老师】Oozie的动作节点之Sqoop什么是Oozie？Oozie是大数据四大协作框架之一：任务调度框架，另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。它能够提供对HadoopMapReduce和PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。功能

作者：编程之家时间：2022-09-04

使用flume时出现NoSuchMethodError: com.google.common.base.Preconditions.checkArgument

使用flume时出现NoSuchMethodError:com.google.common.base.Preconditions.checkArgumentflume是一个十分好用的数据采集框架，但对于新手来说，在使用过程中，很有可能会出现NoSuchMethodError:com.google.common.base.Preconditions.checkArgument这一错误，梳理了一下，大概有三

作者：编程之家时间：2022-09-04

MapReduce之天气案例按月分区，并求出每月的最高温度

今天老师给我们布置了一个作业，就是上面这个文档，将上面的内容按月分区，并输出每月的最高温度，来吧宝贝们。拿到这个文档，首先我们一眼就可以看出要分成3个字段吧，其中温度我们要进行数值比较，所以在设置属性的基本数据类型的时候就应该把它设置为int型，然后由于我们还要按月进行分区，

作者：编程之家时间：2022-09-04

真正了解sqoop的一切

一．sqoop的简单概论1.sqoop产生的原因：A.多数使用hadoop技术的处理大数据业务的企业，有大量的数据存储在关系型数据中。B.由于没有工具支持，对hadoop和关系型数据库之间数据传输是一个很困难的事。依据以上的原因sqoop产生的。2.sqoop的介绍sqoop是连接关系型数据库和hadoo

作者：编程之家时间：2022-09-04