Hadoop - 编程之家

集群部署规划 hadoop132 hadoop133hadoop134HDFS NameNodeDataNode DataNodeSecondaryNameNodeDataNodeYARN NodeManagerResourceManager NodeManager NodeManager配置集群自定义配置文件存放在$HADOOP_HOME/etc

作者：编程之家时间：2022-09-04

Hadoop集群模式安装笔记

前言Hadoop集群=HDFS集群+YARN集群特点：两个集群逻辑上分离，通常物理上在一起；并且都是标准的主从架构集群Hadoop安装方式一源码编译安装方式二官方编译安装包(✔)环境Centos+虚拟机集群规划服务器运行角色node1.itcast.cnnamenodedatanoderesourcemanager

作者：编程之家时间：2022-09-04

Hadoop 性能优化

Hadoop性能优化小文件问题HDFS和MapReduce是针对大文件设计的，在小文件处理上效率低下，且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务，这样map任务的启动时间很长，执行任务的时间很短。解决方法是使用容器将小文件组织起来，HDFS提供了两种

作者：编程之家时间：2022-09-04

Hadoop-动态刷新hdfs/yarn配置

在很多时候，修改了hadoop的配置后，希望立即生效，但是线上还有任务在执行，不能重启，可以执行以下命令让修改后的hdfs/yarn配置生效；0、刷新yarn集群的队列执行命令：${HADOOP_HOME}/bin/yarnrmadmin-refreshQueues或yarnrmadmin-refreshQueues1、动态刷新hdfs配置如果是

作者：编程之家时间：2022-09-04

Hive-day03_hive介绍和三种交互方式

Hive1.2.1_hive介绍和三种交互方式1、Hive基本概念1.1 Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。思考：计算文件user.txt中张三出

作者：编程之家时间：2022-09-04

Hadoop-day06(MapReduce设计理念)

一、MapReduce设计理念map--->映射reduce--->归纳mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如果数据量小，使用mapre

作者：编程之家时间：2022-09-04

Hadoop环境搭建

Hadoop的发展史Google爬取全球的网站，然后计算页面的PageRank要解决网站的问题：a：这些网站怎么存放b：这些网站应该怎么计算发布了三篇论文a：GFS(GoogleFileSystem)b：MapReduce(数据计算方法)c：BigTable：HBaseHadoop三大开源发行版本：Apache、Cloudera、Hortonworks。A

作者：编程之家时间：2022-09-04

Linux 安装编译环境修改pom

环境准备maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）gcc-c++zlib-develautoconfautomakelibtoolmaven通过yum安装即可yum-yinstallgcc-c++lzo-develzlib-develautoconfautomakelibtoolyuminstallmaven-y 1.下载、安装并编译LZOwgethttp://www.oberhu

作者：编程之家时间：2022-09-04

如何安装hadoop集群

三台机器上传压缩包并解压cd/kkb/softar-xvzfhadoop-3.14.tar.gz-C/kkb/installbin/hadoopchecknative#查看一下openssl的状态如果为false那么所有的机器都需要在线安装openssl-develsudoyum-yinstallopenssl-devel#三台机器都要装mvhadoop-3.14hadoop

作者：编程之家时间：2022-09-04

hadoop 集群机器准备

根据种子机器克隆三台虚拟机更改克隆机器的IP地址启动虚拟机更改三台机器的IP地址为192.168.12.129192.168.12.130192.168.12.131vimetc/sysconfigetwork-scripts/ifcif-ens3第一台IPADDR=192.168.12.129NETMASK=255.255.255.0GATEWAY=192.168.12.2DNS1=8.8.8.

作者：编程之家时间：2022-09-04

1-HDFS+MapReduce

Hadoop的框架最核心的设计就是：HDFS，MapReduce（mr）HDFS1.0hdfs:分布式文件系统，主要用于存储海量数据MapReduce:用户海量数据的计算hdfs本身是一个masterslave架构namenode（nn）是主datanode(dn)是从SecondaryNameNode(snn)并不是nn的一个备份namenode是一个进

作者：编程之家时间：2022-09-04

Hadoop-day01_(java代码模拟hadoop存储数据)

hadoop文件切分思想需求：统计文本文件中的各个班级的人数（一共多到数不清的人）1500100129,容寄南,23,女,文科三班1500100130,宁怀莲,21,女,理科四班1500100131,胡昊明,22,男,文科六班1500100132,曾安寒,22,女,文科五班1500100133,钱向山,24,女,理科二班1500100134,计宣朗,22,

作者：编程之家时间：2022-09-04

MapReduce

MapReducehdfs用于存储海量数据，mapreduce则用于处理数据，是一种分布式计算模型。MapReduce的思想：将任务切割为多个小任务进行并行计算（Map），然后将得到的局部结果进行汇总（Reduce）。网络io的耗时远大于磁盘io。当计算程序和数据分别在不同机器上时，将计算程序移动到数据所在节点比移动

作者：编程之家时间：2022-09-04

Hadoop分布式文件系统---HDFS

1.HDFS的产生背景数据量的增多，需要有一种系统管理多台机器的文件，于是产生DFS(DistributedFileSystem) 2.HDFS简介Hadoop项目的核心之一，用于数据存储，HDFS基于GFS开源实现。 3.HDFS优点·处理超大文件--MB到TB级（相对应的它不适用于存储很多小文件）·运行于廉价机器上，廉价

作者：编程之家时间：2022-09-04

大数据基础之Hive

http://hive.apache.org/TheApacheHive™datawarehousesoftwarefacilitatesreading,writing,andmanaginglargedatasetsresidingindistributedstorageusingSQL.Structurecanbeprojectedontodataalreadyinstorage.AcommandlinetoolandJDBCdr

作者：编程之家时间：2022-09-04

大数据Hadoop之——数据分析引擎Apache Pig

目录一、ApachePig概述二、ApachePig架构1）架构图2）ApachePig组件1、Parser（解析器）2、Optimizer（优化器）3、Compiler（编译器）4、Executionengine（执行引擎）三、ApachePig安装1）下载ApachePig2）配置环境变量3）修改配置四、ApachePig执行模式1）本地模式2）Tez本地模式3）Spark本地模式4）MapRe

作者：编程之家时间：2022-09-04

hadoop2.7.6(一)

一、hadoop的发展二、hadoop框架HadoopCommon：基础型功能HadoopDistributedFileSystem(HDFS™)：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。负责存放数据HadoopYARN：作业调度和集群资源管理的框架。负责资源的调配HadoopMapReduce：基于YARN的系统，用于并行

作者：编程之家时间：2022-09-04

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

ClickHouse的由来ClickHouse是什么数据库？ClickHouse速度有多快？应用场景是怎么样的？ClickHouse是关系型数据库吗？ClickHouse目前是很火爆的一款面向OLAP的数据，可以提供秒级的大数据查询。Google于2003～2006年相继发表了三篇论文“GoogleFileSystem”“GoogleMapReduce”和“Googl

作者：编程之家时间：2022-09-04

HDFS NameNode Hadoop怎么分片

HDFS上传文件和读文件的流程(1)由客户端Client向NameNode节点发出请求;(2)NameNode向Client返回可以存数据的DataNode列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心);(3)客户端首先根据返回的信息先将文件分块(Hadoop2.X版本每一个block

作者：编程之家时间：2022-09-04

实验一 Hadoop的搭建

实验要求：（1）掌握Linux虚拟机的安装方法（2）掌握一些常用的Linux命令（3）掌握Hadoop的伪分布式安装方法（4）掌握Hadoop的常用操作实验内容：一、安装Linux虚拟机（Ububtu系统）。二、熟悉常用的Linux命令 1．cd命令：切换目录（1）切换到目录/usr/local cd/usr/l

作者：编程之家时间：2022-09-04

大数据Hadoop之——任务调度器OozieOozie环境部署

目录一、概述二、Oozie架构三、Oozie环境部署（Oozie与CDH集成）1）添加服务2）将Oozie服务添加到CDH3）自定义角色分配4）数据库设置5）审核更改6）开始自动安装并自启四、CDH的Hue整合Oozie五、Oozie简单使用1）在Hue上操作Oozie1、利用Hue调度shell脚本2、利用Hue调度hive脚本3、

作者：编程之家时间：2022-09-04

大数据之Hadoop集群的HDFS压力测试

测试HDFS写性能1）写测试的原理2）测试内容：向HDFS集群写10个128MB的文件（3个机器每个4核，2*4=8<10<3*4=12）[hadoop@hadoop103~]$hadoopjar/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jarTestDFSIO-write-nrF

作者：编程之家时间：2022-09-04

Zookeeper

1.Zookeeper概念-Zookeeper是Apachehadoop项目下的一个子项目，是一个树形目录服务-Zookeeper翻译过来就是动物园管理员，他是用来Hadoop(大象）/Hive（蜜蜂）/Pig(小猪)的管理员。简称zk-Zookeeper是一个分布式的，开源的分布式应用程序的协调服务

作者：编程之家时间：2022-09-04

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException具体报错如下：Error:java.lang.NullPointerExceptionatcom.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63)atorg.apache.hadoop.mapred.MapTask$NewTrac

作者：编程之家时间：2022-09-04

Hadoop MapReduce入门

一：配置pom<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-core</artifactId><version>1.0.1</version></dependency>二:测试代码packagecom.jachs.hadoop;importjava.io.IOExcepti

作者：编程之家时间：2022-09-04

hive部署

1. 前置条件安装hive前需先安装mysql及hadoopa）在mysql中创建用户及数据库createuser'hive'identifiedby'hive';grantallprivilegeson*.*to'hive'@'%'withgrantoption;createdatabasehivecharactersetlatin1;b）hadoop环境变量需要需要/etc/

作者：编程之家时间：2022-09-04

[IDEA SCALA] Failed to locate the winutils binary in the hadoop binary path

运行了一个Scala程序发现报错发现自己一直没有配置本地hadoop的环境 1.编辑系统环境变量添加HADOOP_HOME（hadoop压缩包的解压路径） 2.接着在Path添加一行 3.配置好之后再测试 4.在IDEA中配置RunConfiguration，添加HADOOP_HOME变量还是报错，

作者：编程之家时间：2022-09-04

Hadoop

一、简介Hadoop是目前最流行的大数据软件框架之一，它能利用简单的高级程序对大型数据集进行分布式存储和处理。Hadoop是阿帕奇（Apache）软件基金会发布的一个开源项目，它可以安装在服务器集群上，通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据，Had

作者：编程之家时间：2022-09-04

window下部署单机hadoop环境

window本地部署单机hadoop，修改配置文件和脚本如下，只记录关键配置和步骤，仅供参考hadoop-2.6.5spark-2.3.31.配置文件core-site.xml<configuration><property><name>fs.defaultFS<ame><value>hdfs://localhost:9000</value></proper

作者：编程之家时间：2022-09-04

6-8(1)

【选择】1、在HDFS中，用于保存数据的节点是（b）。A、namenodeB、datanodeC、secondaryNodeD、yarn2、在MapReduce程序中，map()函数接收的数据格式是（d）。A、字符串B、整型C、LongD、键值对3、每个Map任务都有一个内存缓冲区，默认大小是（c）。A、128MB、64MC、100MD、32M4、下

作者：编程之家时间：2022-09-04