Hadoop - 编程之家

之前已经在虚拟机上安装好了hadoop,下面纪录下用java操作hdfs和中间遇到的一些问题,使用的是伪分布式模式一本地配置hadoop环境变量此处默认已经具备jdk环境.将hadoop的压缩包解压到任意目录在环境变量中配置HADOOP_HOME变量,值为hadoop所在的目录二、编写测试类importorg

作者：编程之家时间：2022-09-04

Hadoop伪分布式部署

1.解压Hadoop安装包cd......进入软件包所在文件夹ls查看文件夹下所有文件tar-zxvfhadoop......解压Hadoop的jar包2.配置hadoop文件cd/......(Hadoop安装所在目录）/etc/hadoop进入配置文件所在目录下vimhadoop-env.sh设置Hadoop的JAVA_HOMEexpor

作者：编程之家时间：2022-09-04

Could not locate executable null\bin\winutils.exe解决方案

本地Spark程序调试需要使用local提交模式，即将本机当做运行环境，Master和Worker都为本机。运行时直接加断点调试即可。如下：创建SparkConf的时候设置额外属性，表明本地执行：valconf=newSparkConf().setAppName("WC").setMaster("local[*]") 如果本机操作系统是windows，如

作者：编程之家时间：2022-09-04

【Hadoop】9、Sqoop组件

目录Sqoop组件安装与配置1、使用xftp将软件包上传到/opt/software2、部署sqoop(在master上执行)3、启动sqoop集群(在master上执行)4、连接hive配置(在master上执行）5、在Hive中创建sample数据库和student数据表6、从MySQL导出数据，导入Hive7、将数据从hive中导出到mysql数据库中(在m

作者：编程之家时间：2022-09-04

ZooKeeper 组件安装配置

实验一：ZooKeeper组件安装配置实验任务一：下载和安装ZooKeeper各节点的防火墙需要关闭[root@wengfangyang ~]#tar ‐zxvf zookeeper‐3.4.8.tar.gz ‐C /usr/local/src [root@wengfangyang ~]# mv /usr/local/src/zookeeper‐3.4.8 /usr/local/src/zookeeper1

作者：编程之家时间：2022-09-04

Hadoop生态系统

一、hadoop开源生态介绍1、云计算与大数据Iaas:基础设施即服务,通过互联网获得服务，例如亚马逊AWS,openStackPaas:平台即服务,把服务器平台作为一种服务，例如虚拟开发平台，默认安装开发环境,hadoopSaas:软件即服务，例如office365,大量app 2、大数据应用hadoop提供存储和计算

作者：编程之家时间：2022-09-04

Hadoop大数据单词统计

编写WordCount数单词程序0x00启动hadoop集群shell脚本编写：vimstart#!/bin/bash/opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh给脚本加权限chmod777start执行脚本./start0x01新建文件夹并编写程序创建文件夹mkdir-p/optest2/com/hellohadoop/单词计数Map

作者：编程之家时间：2022-09-04

|NO.Z.00077|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V03|---------------------------------------|实时数仓.v03

作者：编程之家时间：2022-09-04

实验0-Hadoop伪分布式环境搭建

软件要求VirtualBox下载（粘贴到浏览器地址栏直接下载）https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exeUbuntu下载（粘贴到浏览器地址栏直接下载）https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/18.04/ubuntu-18.04.6-live-server-amd

作者：编程之家时间：2022-09-04

Hadoop 概述(二)

shell定时上传linux日志信息到hdfs从标题可以分析出来，我们要使用到shell，还要推送日志信息到hdfs上。定义出上传的路径和临时路径，并配置好上传的log日志信息。这里我使用了上一节配置的nginx的error.log#上传log日志文件的存放路径/bigdata/logs/upload/log/#上传log日志

作者：编程之家时间：2022-09-04

Hadoop Kerberos配置

创建Hadoop系统用户为Hadoop开启Kerberos，需为不同服务准备不同的用户。启动服务时需要使用相应的用户。须在所有节点创建以下用户和用户组。用户划分：User: GroupDaemonshdfs: hadoopNameNode,SecondaryNameNode,JournalN

作者：编程之家时间：2022-09-04

hadoop无法退出安全模式

hadoop无法退出安全模式，报"namenodeisinsafemode"错误提示。集群安全模式集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。基本语法：（1）bin/hdfsdfsadmin-safemodeget（功能描述：查看安全模式状态）（2）bin/hdfsdfsadmin-safemodeenter （功能

作者：编程之家时间：2022-09-04

Hadoop部署与安装

1、软件准备①VMware16 下载网址：https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html 激活码ZF3R0-FHED2-M80TY-8QYGC-NPKYFYF390-0HF8P-M81RQ-2DXQE-M2UT6

作者：编程之家时间：2022-09-04

hadoop集群搭建

几年前搞过一段时间hadoop，现在又要开始搞了，发现环境都不会搭建了。写个博客记录下搭建过程。目录1、创建虚拟机及规划2、设置各主机之间免密登录1、在每台主机hosts文件中添加IP与主机名的映射关系2、设置互信(每台主机都执行)3、安装JDK和hadoop1、上传软件包2、安装Java，设置

作者：编程之家时间：2022-09-04

【Hadoop】10、Flume组件

目录Flume组件安装配置1、下载和解压Flume2、Flume组件部署3、使用Flume发送和接受信息Flume组件安装配置1、下载和解压Flume#传Flume安装包[root@master~]#cd/opt/software/[root@mastersoftware]#lsapache-flume-1.6.0-bin.tar.gzhadoop-2.7.1.tar.gzjd

作者：编程之家时间：2022-09-04

工作流调度器-Azkaban

1.工作流调度器1.为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们

作者：编程之家时间：2022-09-04

Hadoop_mapreduce统计文本单词

1、 MapReduce是什么Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，2、MapReduce做什么MapR

作者：编程之家时间：2022-09-04

第13章大数据平台监控命令

13、实验任务一:监控大数据平台状态6，9，13步骤一：查看Linux系统的信息（uname-a）[root@master~]#uname-a Linuxmaster3.10.0-693.el7.x86_64#1SMPTueAug2221:09:27UTC2017x86_64x86_64x86_64GNU/Linux步骤二：查看硬盘信息（1）查看所有分区（fdisk-l)[root@mas

作者：编程之家时间：2022-09-04

hadoop - 安装详解【包括jdk配置】

1.准备虚拟机，安装linux系统我安装的是centos7,在阿里镜像下载的，地址 http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso历史版本目录地址 http://mirrors.aliyun.com/centos/【//前去掉空格】vm使用16pro版本，安装3个虚拟机

作者：编程之家时间：2022-09-04

Java操作Hadoop、Map、Reduce合成

原始数据:Map阶段1.每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1<0,"hellotom"><10,"hellojerry"><22,"hellokitty"><34,"helloworld"><46,"hellotom">点击查看代码/***@ClassName:WordCo

作者：编程之家时间：2022-09-04

十三.大数据平台监控

一、监控大数据平台查看Linux系统信息[root@master~]#uname-aLinuxmaster4.18.0-373.el8.x86_64#1SMPTueMar2215:11:47UTC2022x86_64x86_64x86_64GNU/Linux查看硬盘信息查看分区[root@master~]#fdisk-lDisk/dev/sda:20GiB,21474836480bytes,419

作者：编程之家时间：2022-09-04

Hadoop2.8集群搭建

目录前言一、配置主机名与网络二、配置免密登录三、安装JDK四、安装Hadoop修改hadoop-env.sh配置文件修改core-site.xml配置文件修改hdfs-site.xml配置文件修改yarn-site.xml配置文件修改mapred-site.xml.template配置文件修改slaves配置文件文件分发拷贝五、从节点操作六、启动集

作者：编程之家时间：2022-09-04

Hadoop 概述(三)

HDFSshellAPIHDFS作为大数据的文件系统，可以放置数据文件，列举几个常用的shell脚本命令，用法和linux中的基本类似，不过这个是hadoop里的一套，所以我们要用hadoopfs开头具体可以使用hadoopfs--help查看帮助信息例如：lshadoopfs-ls/mkdirhadoopfs-mkdir-p/hdfsapiest

作者：编程之家时间：2022-09-04

HDFS High AvailabilityHA高可用配置

高可用性（英语：highavailability，缩写为HA）IT术语，指系统无中断地执行其功能的能力，代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统意味着系统服务可以更长时间运行，通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障

作者：编程之家时间：2022-09-04

hadoop的基本情况

一、什么是hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（DistributedFileSystem），其中一个组件是HDFS（HadoopDistributedFile

作者：编程之家时间：2022-09-04

Flume 组件安装配置

1.实验一：Flume组件安装配置1.4.1.实验任务一：下载和解压Flume使用root用户解压Flume安装包到“/usr/local/src”路径，并修改解压后文件夹名为flume。[root@master~]#tarzxvf/opt/software/apache-flume-1.6.0-bin.tar.gz-C/usr/local/src[root@master~]#cd/

作者：编程之家时间：2022-09-04

Hadoop四到十三章总和

四、Hadoop安装将软件包hadoop和jdk传入1.配置网络信息、主机名以及主机名与IP地址的映射关系(在所有节点上执行)vi/etc/sysconfigetwork-scripts/ifcfg-网卡名TYPE=EthernetNAME=网卡名DEVICE=网卡名BOOTPROTO=staticONBOOT=yesIPADDR=你自己的IPNETMASK=255.255.25

作者：编程之家时间：2022-09-04

十.flume组件

下载并传入包下载地址:https://archive.apache.org/dist/flume/1.6.0/部署flume组件#解压包[root@master~]#tarxfapache-flume-1.6.0-bin.tar.gz-C/usr/local/src/#进入目录[root@master~]#cd/usr/local/src/#修改名字为flume[root@mastersrc]#mvapache-flum

作者：编程之家时间：2022-09-04