Hadoop - 编程之家

Hadoop集群的HA1、简介HA模式解决单点故障问题，2、规划NN-1NN-2DNZKZKFCJNNNode1***Node2*****Node3***Node4**ZK:zookeeperZKFC:failovercontroller【故障转移进程】2.1、秘钥给配置ZKFC两个节点做免秘钥登录。

作者：编程之家时间：2022-09-05

RMDB与hadoop的实时整合

一、MySQL的HadoopApplier 实现原理是：把hadoop作为MYSQL的slave，实时把数据同步到hadoop,支持apachehadoop 通过分析MYSQL的binlog日志,在hdfs产生一个目录（同表名），所有的表记录都存储在一个文件中，用户的操作如插入，更新，删除都会产生一笔记录追加到文件末尾.

作者：编程之家时间：2022-09-05

hadoop-MapReduce总结

1.1MapReduce定义 1.2MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不

作者：编程之家时间：2022-09-05

hadoop大数据架构

数据架构包含:数据采集层，数据调度平台、数据展示层数据采集自己业务数据（主要是各个业务线的数据，例如：用户、订单等），主要存放在关系型数据库中，例如Mysql等。埋点日志（涉及到用户对APP或者小程序等的访问、分享、浏览等基本的用户行为数据），这份数据主要是存放在HIVE上；第三

作者：编程之家时间：2022-09-05

zookeeper简介及基操

1zk的安装：21.下载zk.tar.gz安装包,并解压至/usr/local/devInstall32.在zk的目录下新建文件夹data43.复制zk/config目录下的zoo_sample.cfg,重命名为zoo.cfg,vimzoo.cfg,将其中的dataDir=步骤2中data的目录;dataDir指定的路径用于存储zk中数据的内存快

作者：编程之家时间：2022-09-05

Hadoop基础四十八：函数

1系统内置函数1．查看系统自带的函数hive>showfunctions;2．显示自带的函数的用法hive>descfunctionupper;3．详细显示自带的函数的用法hive>descfunctionextendedupper;2自定义函数1）Hive自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便

作者：编程之家时间：2022-09-05

本地IDEA访问ECS服务器HDFS

原本是配置了阿里云ECS服务器，但是用终端vim修改调试代码，总是会不方便。后面想到有两种解决办法：用本地IDEA调试代码，然后直接连接服务器的HDFS等端口，直接调试用本地IDEA调试代码，然后打包，发到服务器上进行运行(伟敬想的)下面是IDEA访问服务器hadoop的一个测试，以及遇到的问题和

作者：编程之家时间：2022-09-05

kettle连接CDH的hive存取数据

一开始下载了最新版的kettle8.2，经过各种百度，下载hive配置和jar包，但是总是连接不上hive，报各种错误，不一一举例了。折腾很久才发现，原来是版本不匹配因为kettle连接hadoop集群，分为连接CDH还是apachehadoop，从目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-c

作者：编程之家时间：2022-09-05

让你一次成功搭建单机hadoop

一、创建一个纯净的虚拟机使用vmware创建虚拟机第一步：点击创建，然后点击典型，进行向导。第二步：完成向导后，右键点击设置，对各个硬件进行设置。内存：》4096MBCD/DVD(IDE):使用自己的ISO映像文件在网络适配器中选择仅主机模式并且点击高级生成 MAC地址添加网络适配器点

作者：编程之家时间：2022-09-05

RMDB与hadoop的实时整合

一、MySQL的HadoopApplier 实现原理是：把hadoop作为MYSQL的slave，实时把数据同步到hadoop,支持apachehadoop 通过分析MYSQL的binlog日志,在hdfs产生一个目录（同表名），所有的表记录都存储在一个文件中，用户的操作如插入，更新，删除都会产生一笔记录追加到文件末尾.

作者：编程之家时间：2022-09-05

Hadoop基础二十：Shuffle机制一

1Shuffle机制 Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。 2Partition分区 3Partition分区案例实操1．需求将统计结果按照手机归属地不同省份输出到不同文件中（分区）（1）输入数据（2）期望输出数据手机号136、137

作者：编程之家时间：2022-09-05

老刘Hadoop学习笔记4JDK和Open JDK区别

今天在虚拟机安装JDK检查版本时发现已经有JDK1.8版本，不过是OpenJDK。由于需要卸载初装JDK，于是就赶紧再普及下知识，以下是转https://www.cnblogs.com/sxdcgaq8080/p/7487369.html博文内容。历史上的原因是，openjdk是jdk的开放原始码版本，以GPL协议的形式放出。在JDK7的时候，openjdk

作者：编程之家时间：2022-09-05

hive 数据归档问题

1、对数据进行归档altertabletableNamearchivepartition(current='2020-07-02');报错如下：FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.org/apache/hadoopools/HadoopArchives查看hive的日志，日志文件在lsmp/${USER}/hive

作者：编程之家时间：2022-09-05

Hadoop: Why Not Use RAID?

一、针对hadoop集群的磁盘配置建议针对datanode,建议采用一组单独的磁盘，针对namenode节点，建议采用raid5或raid1来实现针对metadata的冗灾。二、针对此问题讨论的资料针对此问题，两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是：SteveLo

作者：编程之家时间：2022-09-05

大数据概况和Hadoop生态系统

文章目录一.大数据概况二.Hadoop介绍1.Hadoop概念2.使用Hadoop原因3.Hadoop与关系型数据库对比4.Hadoop生态圈5.Zookeeper6.Hadoop架构7.HDFS特点8.HDFSCLI(commandline)三.详解HDFS分布式存储文件系统1.HDFS角色2.HDFS副本机制3.HDFS高可用（HighAvailability)4.HDFS文件

作者：编程之家时间：2022-09-05

Hadoop基本操作

一、Hadoop命令行操作（1）查看帮助$hdfsdfs-help （2）查看当前目录信息$hdfsdfs-ls/ （3）上传文件$hdfsdfs-put/本地路径/hdfs路径（4）剪切文件$hdfsdfs-moveFromLocala.txt/aa.txt（5）下载文件到本地$hdfsdfs-get/hdfs路径/本地路径（6）合并下载$hdfsd

作者：编程之家时间：2022-09-05

Hadoop基础二十八：数据清洗ETL二复杂解析版

数据清洗案例实操-复杂解析版1．需求对Web访问日志中的各字段识别切分，去除日志中不合法的记录。根据清洗规则，输出过滤后的数据。（1）输入数据（2）期望输出数据都是合法的数据 2．实现代码（1）定义一个bean，用来记录日志数据中的各数据字段 packagecom.atguigu.mapredu

作者：编程之家时间：2022-09-05

Hadoop基础三十七：Zookeeper 内部原理

1节点类型2Stat结构体1）czxid-创建节点的事务zxid每次修改ZooKeeper状态都会收到一个zxid形式的时间戳，也就是ZooKeeper事务ID。事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid，如果zxid1小于zxid2，那么zxid1在zxid2之前发生。2）ctime-

作者：编程之家时间：2022-09-05

ansible自动部署模板文件中列表长度判断

在自动部署中因为要根据集群节点数来对flink的配置文件进行配置，高可用hdfs集群中用Hadoop-admin来作为checkpoint的位置，而在单机里用ip：port作为checkpoint的位置checkpoint_local:"{{components.hadoop.roles.namenode.ips[0]}}:{{components.hadoop.hdfs_port}}"checkpoin

作者：编程之家时间：2022-09-05

Hadoop资源调度器

Hadoop资源调度器是负责将任务分配给各种DataNode上的可用YARN容器的组件。调度器是ResourceManager中的插件。可以将调度器视为工具，它使集群多个租户共享集群，并以有效和及时的方式使用集群资源（CPU和内存），同时它还注意集群的总分配容量。容量调度器（CapacityScheduler）是ApacheHad

作者：编程之家时间：2022-09-05

Hadoop HDFS读流程和写流程

HDFS写数据流程1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。2）NameNode返回是否可以上传。3）客户端请求第一个Block上传到哪几个DataNode服务器上。4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。5）客户端通

作者：编程之家时间：2022-09-05

大数据学习08—— Hive简介

前面的Hadoop学习是非常体系化的，有主线有细节。到了Hive这里，知识点非常零散，感觉没有什么主线能把它串起来。从官方网站上就能看出这点差异。什么是HiveHive是一个基于Hadoop的企业级数据仓库，它的图标是大象头和蜜蜂身体。大象头表示它跟Hadoop有非常紧密的联系。Hive通过类似SQ

作者：编程之家时间：2022-09-05

软件ideaapi操作HDFS外加hdfs的一下命令

1、首先配置好hadoop的环境变量等内容，配置好maven然后编写一个简单的程序（他的目的是将本地的一个文件进行上传）代码如下：packagecom.atguigu.hdfsclient;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.

作者：编程之家时间：2022-09-05

大数据实战八十一：电商数仓六十五安全之Kerberos安全认证一概述与安装

1Kerberos概述 1.1什么是Kerberos Kerberos是一种计算机网络授权协议，用来在非安全网络中，对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构，并且能够进行相互认证，即客户端和服务器端均可对对方

作者：编程之家时间：2022-09-05

linux命令

1.基础快捷键使用ctrl+c：停止进程ctrl+l：清屏ctrl+r：搜索历史命令ctrl+q：退出2.常用目录或文件夹命令说明：安装linux时，创建一个itcast用户，然后使用root用户登陆系统1.进入到用户根目录cd~或cd2.查看当前所在目录pwd3.进入到itcast用户根目录cd~itcast4.返回

作者：编程之家时间：2022-09-05

hadoop知识点3

一.MapReduce简介MapReduce是一个分布式运算程序的编程框架，它的核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。引入MapReduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发商，而将分布式计算的复杂性交由框架

作者：编程之家时间：2022-09-05

MySQL5.5编译方式安装

一、准备工作（一）上传工具包和软件包[root@hadoop-slave1software]#lscmake-2.8.8.tar.gzmysql-5.5.32.tar.gz将所需要的cmake和mysql包上传到服务器上去。（二）安装工具和依赖包1、安装cmake#解压[root@hadoop-slave1software]#tarxfcmake-2.8.8.tar.gz#进入

作者：编程之家时间：2022-09-05

大数据实战四十七：电商数仓三十之系统业务数据仓库三数仓搭建一业务数据生成

0 配置Hadoop支持Snappy压缩 1）将编译后支持Snappy压缩的Hadoopjar包解压缩，并将libative目录中所有文件上传到hadoop102的/opt/module/hadoop-2.7.2/libative目录，并分发到hadoop103hadoop104。 2）重新启动Hadoop。 3）检查支持的压缩方式 [atguigu@hadoop102nativ

作者：编程之家时间：2022-09-05

阿里云体验实验室教你如何《搭建Hadoop环境》

体验平台简介面向开发者和中小企业打造的一站式、全云端的开发平台，打开浏览器就可以开发、调试、上线，所测即所得，并结合无服务器的模式，重新定义云原生时代的研发工作方法论。旨在降低开发者上手成本和中小企业的启动成本、运营成本、以及突发流量带来的运维风险。教程介绍本教程

作者：编程之家时间：2022-09-05