Hadoop - 编程之家

编写集群分发脚本xsync作用:配置所有节点的同步信息在/usr/local/bin这个目录下存放的脚本，可以在系统任何地方直接执行/usr/local/bin目录下touchxsyncchmod777xsync#!/bin/bash#获取输入参数的个数.没有参数直接退出pcount=$#if((pcount==0));then echonoargs

作者：编程之家时间：2022-09-04

Hadoop面试题总结五- 优化

1、MapReduce跑得慢的原因？Mapreduce程序效率的瓶颈在于两点：1）计算机性能CPU、内存、磁盘健康、网络2）I/O操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spill次数过多（7）merge次数过多等2、MapReduce优化方法1）数据

作者：编程之家时间：2022-09-04

Storm基本概述

概述离线计算:批量的获取数据,批量传输数据,周期性批量计算数据,数据展示代表技术:Sqoop批量导入数据,HDFS批量存储数据,MapReduce批量计算数据,hive批量计算数据等流式计算数据实时产生,数据实时传输,数据实时计算,实时展示代表技术:Flume实时获取数据,Kafka实时数据存

作者：编程之家时间：2022-09-04

完全分布式部署Hadoop集群准备(一)

配置三台虚拟机分别设置名称为testnote01,testnote02,testnote03分别配置三台虚拟机的ip192.168.18.50192.168.18.51192.168.18.52主机名等信息,详情虚拟机克隆冲突解决cat/etc/hosts//修改为192.168.18.50testnote01192.168.18.51testnote02192.168.18.52tes

作者：编程之家时间：2022-09-04

Hadoop分布式安装详细步骤

文章目录一、先决条件1.支持平台2.所需软件3.安装所需环境软件二、虚拟机相关配置1.配置虚拟机启用网卡,并设置固定IP地址2.关闭防火墙3.时间同步4.配置hosts文件5.克隆虚拟机镜像（需要几个克隆几个）6.免密钥设置三、hadoop安装及配置1.上传hadoop2.7.1到node1

作者：编程之家时间：2022-09-04

Shell遍历hadoop目录的批量操作

需求背景每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。解决方法通过shell脚本通过MR程序（推荐，本篇不做论述）结论：经验证得出的结论shell脚本大约5~10S处理一个文件，比较慢，对于这样大量且

作者：编程之家时间：2022-09-04

hadoop java.net.NoRouteToHostException: 没有到主机的路由

网上查到的没有主机路由问题提到的大多是防火墙问题：查看防火墙状态：firewall-cmd--state关闭防火墙：(需注意的是，必须关闭防火墙自启动，再启动datanode才会正常)centos7：[al@node01sbin]$sudosystemctlstopfirewalld//关闭防火墙[al@node01sbin]$sudosystemctlsta

作者：编程之家时间：2022-09-04

大数据学习笔记二--hadoop简介

Hadoop是一个适合大数据的分布式存储和计算平台。狭义：Hadoop就是一个框架平台广义：p代表大数据的一个技术生态圈，包括很多其他软件框架Hadoop特点：扩容能力：在计算机集群内分配数据并完成计算任务，集群可以扩展到超多节点低成本:可以通过普通机器组成服务器集群来分发处理数

作者：编程之家时间：2022-09-04

hadoop配置日志聚焦功能

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。注意：开启日志聚集功能，需要重新启动NodeManager、ResourceManager和HistoryManager。停止所有进程,依次为mr-jobhistory-daemon.shstopjobhi

作者：编程之家时间：2022-09-04

Hadoop之HDFS概述

1.HDFS产生背景及定义1）随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2）HDFS定义HDFS(HadoopDistr

作者：编程之家时间：2022-09-04

2021年5月学习总结

ArrayList以及Random练习StringStatic继承的多种形式super与this、继承特点以及抽象类接口多态final以及四种权限修饰符内部类以及类与接口作为成员变量类型numpy纯代码及标注演示pandashadoop以及zookeeper部分摘要搭建数据分析（后续继续写）hadoop及hdfs命令h

作者：编程之家时间：2022-09-04

Hadoop优化方法

MapReduce程序效率瓶颈在于两点：1.计算机性能：CPU、内存、磁盘、网络2.IO操作:数据倾斜Map和Reduce数设置不合理Map运行时间太长，导致Reduce等待过久小文件过多大量不可分的超大文件Spill次数过多Merge次数过多MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Re

作者：编程之家时间：2022-09-04

Hadoop在yarn上运行mr程序以及历史服务器的配置

yarn上运行mr程序配置yarn-env.sh配置yarn-site.xml<property><name>yarn.nodemanager.aux-services<ame><value>mapreduce_shuffle</value></property>&

作者：编程之家时间：2022-09-04

对两个文件里的单词出现次数进行统计查询结果：a-p一个文件，q-z一个文件【本地模式】

需求对两个文件里的单词出现次数进行统计（查询结果：a-p一个文件，q-z一个文件）输入文件1（word01.txt）HadoopSparkHiveHbaseHadoopSpark输入文件2（word02.txt）JavaphpAndroidHtml5Bigdatapython计算结果：part-r-00000Android1Bigdata1Hadoop2Hbase1Hiv

作者：编程之家时间：2022-09-04

主机连接CentOS7虚拟机网络ssh和安装Hadoop

创建hadoop用户$su#上述提到的以root用户登录$useradd-mhadoop-s/bin/bash#创建新用户hadoop设置hadoop密码$passwdhadoop查看CentOS7的ip地址$ifconfig确保要确保CentOS7安装了openssh-server，在终端中输入yuminstall

作者：编程之家时间：2022-09-04

sparksql读取hive表中数据

文章目录sparksql与hive本地调试newHiveContext空指针异常权限:异常执行select查询的时候找不到hostsparksql与hive本地调试将hive-site.xml文件拷贝到resource目录中pom.xml org.apache.sparkspark-hive_2.111.6.0代码import org.apache.spark.sql.hive.HiveContextimpor

作者：编程之家时间：2022-09-04

大数据同步工具sqoop的上手操作

sqoop的上手操作1.sqoop安装调试2.介绍3.使用1.sqoop安装调试1，下载并解压1）下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2）上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop12的/opt/soft路径中3）解压sqoop安装包到指定目录，如：[xian@hadoo

作者：编程之家时间：2022-09-04

hadoop之参数mapreduce.job.reduce.slowstart.completedmaps

大家在执行hivesql走mr引擎时有没有发现日志打印信息，map还没到100%reduce就开始了。这是由于mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.completedmaps，这个参数可以控制当map任务执行到哪个比例的时候就可以开始为reducetask申请资源

作者：编程之家时间：2022-09-04

一脸懵逼学习Hadoop分布式集群HA模式部署七台机器跑集群

1：hadoop分布式集群HA模式部署，七台机器跑集群：第一台机器：namenodezkfc第二台机器：namenodezkfc第三台机器：resourcemanager第四台机器：resourcemanager第五台机器：zookeeperjournalnodedataNodenodemanager第六台机器：zookeeperjournalnodedataNodenode

作者：编程之家时间：2022-09-04

Hadoop集群最迅速的配置免密码登陆方法

1：多台机器互相免密登陆的思路（默认你的linux操作系统已经安装好ssh）：第一步：在各自的机器上面生成密钥：在第1台机器上生产一对钥匙：ssh-keygen-trsa在第2台机器上生产一对钥匙：ssh-keygen-trsa在第3台机器上生产一对钥匙：ssh-keygen-trsa............第二

作者：编程之家时间：2022-09-04

hadoop HA高可用集群搭建

首先，高可用集群是建立在zookeeper搭建没有问题的前提下来完成的，没有搭建好zookeeper的，先搭好才可以做以下操作。一：前期准备（只需要在主节点master上完成）1.拍摄快照想拍就拍，不想拍算了，建议还是拍一个，毕竟万一搭不好，还可以回到你这个状态，记得给快照加个备注，以防忘记你这个快

作者：编程之家时间：2022-09-04

Linux vi文本编辑器

vi文本编辑器 1、最基本用法vi somefile.41/首先会进入“一般模式”，此模式只接受各种命令快捷键，不能编辑文件内容2/按i键，就会从一般模式进入编辑模式，此模式下，敲入的都是文件内容3/编辑完成之后，按Esc键退出编辑模式，回到一般模式；4/再按：，进入“底行命令模式”，输入wq命令，回车即可

作者：编程之家时间：2022-09-04

hadoop集群运行jps命令以后Datanode节点未启动的解决办法

出现该问题的原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令（hdfsnamenode-format)，这时namenode的clusterID会重新生成，而datanode的clusterID保持不变。1：其实网上已经有解决办法了，这里自己脑补一下，也可以让别人看到我是怎么解决的。出现这个问题主要

作者：编程之家时间：2022-09-04

Hadoop Shell命令基于linux操作系统上传下载文件到hdfs文件系统基本命令学习

FSShell调用文件系统(FS)Shell命令应使用bin/hadoopfs前言：linux客户端操作hadoop的hdfs分布式文件系统（filesystem）执行hadoopfs指令可以看到其下有很多可以执行的命令： 1：cat使用方法：hadoopfs-catURI[URI…]将路径指定文件的内容输出到stdout。示例：hadoopfs-cathdfs:

作者：编程之家时间：2022-09-04

1：初学hadoop遇到各种错误，这里贴一下，方便以后脑补吧，报错如下：主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面；出现这个错误是权限的问题，操作had

1：初学hadoop遇到各种错误，这里贴一下，方便以后脑补吧，报错如下：主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面；出现这个错误是权限的问题，操作hadoop是虚拟机的主机用户不是window的主机用户Administrator，所以出现下面的错误，解决办法如下所示（或者修改文件的权限，即所有

作者：编程之家时间：2022-09-04

Hadoop MapReduce 一文详解MapReduce及工作机制

@目录前言-MR概述1.HadoopMapReduce设计思想及优缺点设计思想优点：缺点：2.HadoopMapReduce核心思想3.MapReduce工作机制剖析MapReduce运行机制过程描述第一阶段：作业提交（图1-4步）第二阶段：作业初始化（图5-7步）第三阶段：任务的分配(图8)第四阶段：任务的执行（图9-11）第五阶段：作业完成Tips知

作者：编程之家时间：2022-09-04

sqoop数据迁移基于Hadoop和关系数据库服务器之间传送数据

1：sqoop的概述：（1）：sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。（2）：导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；（3）：导出数据：从Hadoop的文件系统中导出数据到关系数据库（4）：工作机制：将导入或导出命令翻译成mapreduce程序来实

作者：编程之家时间：2022-09-04

Hadoop系列番外篇之一文搞懂Hadoop RPC框架及细节实现

@目录HadoopRPC框架解析1.HadoopRPC框架概述1.1RPC框架特点1.2HadoopRPC框架2.Java基础知识回顾2.1Java反射机制与动态代理2.1.1代理关键类&接口信息2.1.2动态代理创建对象的过程2.2Java网络编程2.3JavaNIO2.3.1简介2.3.2常用类3.HadoopRPC基本框架分析3.1RPC基本

作者：编程之家时间：2022-09-04

一脸懵逼加从入门到绝望学习hadoop之Caused by: java.net.UnknownHostException: master报错

windows下开发hadoop应用程序，hadoop部署在linux环境中，在运行调试时可能会出现无法找到主机，类似异常信息如下：java.net.UnknownHostException:unknownhost:master解决办法如下：在C:\WINDOWS\system32\drivers\etc\hosts文件中添加如下信息：192.168.0.55master即把自己

作者：编程之家时间：2022-09-04