Hadoop - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

子栏目导航算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE UML Promise Gis

6.5 hadoop集群运行

1.1 集群运行1.1.1 集群运行步骤(1)打包打作业jar包发送给集群，hadoop通过搜索驱动程序的类路径（驱动程序中通过setJarByClass设置）自动查找作业的的jar文件，打包命令：mvnpackage–DskipTests //–DskipTests跳过测试的意思（2）设置路径作业jar包路

作者：编程之家时间：2022-09-05

吴裕雄--天生自然HADOOP操作实验学习笔记：mapreduce和yarn命令

实验目的了解集群运行的原理学习mapred和yarn脚本原理学习使用Hadoop命令提交mapreduce程序学习对mapred、yarn脚本进行基本操作实验原理1.hadoop的shell脚本上一节介绍了hadoop脚本的使用，这一节介绍mapreduce和yarn的shell命令，对应的脚本为hadoop安装目录下的bin目录

作者：编程之家时间：2022-09-05

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低

作者：编程之家时间：2022-09-05

大数据之一：Hadoop2.6.5+centos7.5三节点大数据集群部署搭建

一、VM虚拟环境搭建（详细讲解）说明：在windos10上使用VmWareWorkstation创建3节点Hadoop虚拟环境创建虚拟机下一步设置虚拟机主机名和介质存放路径设置20G磁盘大小选择“自定义硬件”配置网络模式为NAT模式配置虚拟机启动镜像到这里，使用虚拟机克隆技术配置另外两台slave同理克隆sla

作者：编程之家时间：2022-09-05

Hadoop 大数据平台常用组件端口号汇总

原文链接：组件端口及说明CDH7180：ClouderaManagerWebUI端口7182：ClouderaManagerServer与Agent通讯端口Hadoop50070：HDFSWEBUI端口8020：高可用的HDFSRPC端口9000：非高可用的HDFSRPC端口8088：Yarn的WEBUI接口8485：JournalNode的RPC端口8019：ZKFC端口

作者：编程之家时间：2022-09-05

Hive搭建单用户模式MySql

在虚拟机上搭建Hive单用户模式，前提是搭建好hadoop高可用集群，这里就不详细介绍如何搭建hadoop高可用集群了，详细介绍请看搭建HadoopMapReduceV2高可用集群所用的Hive版本是1.2版本和mysql-connector-java-5.1.32-bin.jar1、安装mysql1、使用yum安装mysql，使用命令：yumin

作者：编程之家时间：2022-09-05

吴裕雄--天生自然HADOOP学习笔记：使用yum安装更新软件

实验目的了解yum的原理及配置学习软件的更新与安装学习源代码编译安装实验原理1.编译安装前面我们讲到了安装软件的方式，因为linux是开放源码的，我们可以直接获得源码，自己编译安装。例如：新建一个hello.c的文件，在里面添加一下内容：#include<stdio.h>intmain(void){pri

作者：编程之家时间：2022-09-05

吴裕雄--天生自然HADOOP操作实验学习笔记：hive DDL

实验目的了解hiveDDL的基本格式了解hive和hdfs的关系学习hive在hdfs中的保存方式学习一些典型常用的hiveDDL实验原理有关hive的安装和原理我们已经了解，这次实验我们通过使用hive进行简单的测试进一步了解hive。hiveDDL的意思是HiveDataDefinitionLanguage，hive数据

作者：编程之家时间：2022-09-05

hive，安装与使用

@@对hive的自我见解hive，安装与使用本文开始介绍hive的一些基本使用及功能，之中包含了本猿在使用过程中的踩的一些坑，希望大家能批评指出不足，谢谢一.Hive安装环境准备1.Hive安装地址1）Hive官网地址：http://hive.apache.org/2）文档查看地址：https://cwiki.apache.org/con

作者：编程之家时间：2022-09-05

吴裕雄--天生自然HADOOP操作实验学习笔记：单节点伪分布式安装

实验目的了解java的安装配置学习配置对自己节点的免密码登陆了解hdfs的配置和相关命令了解yarn的配置实验原理1.Hadoop安装Hadoop的安装对一个初学者来说是一个很头疼的事情，要一步安装好整个hadoop集群难度特别大，所以一个快捷的学习方法是边安装边学习，安装的时候，先

作者：编程之家时间：2022-09-05

Hadoop----hdfs dfs常用命令的使用

用法 -mkdir 创建目录 Usage：hdfsdfs-mkdir[-p]<paths> 选项：-p 很像Unixmkdir-p，沿路径创建父目录。 -ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间 Usage：hdfsdfs-ls[-R]<args> 选项：-R 递归地显

作者：编程之家时间：2022-09-05

Hive如何优化可以提高运行效率

一、Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT*FROMemployees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversio

作者：编程之家时间：2022-09-05

Hadoop环境搭建之本地运行模式

一、hadoop本地运行模式介绍默认的模式，无需运行任何守护进程，所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便，因此，这种模式适宜用在开发阶段。使用本地文件系统，而不是分布式文件系统。Hadoop不会启动NameNode、DataNode、JobTracker、TaskTr

作者：编程之家时间：2022-09-05

MapReduce基础知识

1、什么是MapReduce首先让我们来重温一下hadoop的四大组件：HDFS：分布式存储系统MapReduce：分布式计算系统YARN：hadoop的资源调度系统Common：以上三大组件的底层支撑组件，主要提供基础工具包和RPC框架等。MapReduce是一个分布式运算程序的编程框架，是用户开发“基于H

作者：编程之家时间：2022-09-05

不可不知的资源管理调度器Hadoop Yarn

Yarn（YetAnotherResourceNegotiator）是一个资源调度平台，负责为运算程序如Spark、MapReduce分配资源和调度，不参与用户程序内部工作。同样是Master/Slave架构。以下图MapReduce提交到Yarn上运行为例，看看Yarn主要包括哪些核心组件以及每个组件的作用：全局资源管理器（Resource

作者：编程之家时间：2022-09-05

[hadoop][Azkaban]#1_azkaban快速入门

Dependency作业#foo.jobtype=commandcommand=echofoo#bar.jobtype=commanddependencies=foocommand=echobar2个文件打包为ziphdfs作业#hdfs.jobtype=commandcommand=hadoopfs-ls/打包为zipmapreduce作业#mr.jobtype=commandcommand=hadoopjar

作者：编程之家时间：2022-09-05

基于 MapReduce 的单词计数Word Count的实现

完整代码：//导入必要的包importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.conf.Configuration;importorg.apache.

作者：编程之家时间：2022-09-05

Hadoop配置lzo和lzop

在使用flume采集日志写入到hdfs时，用到了lzo压缩算法，这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的，需要另外安装，下面记录下，全文主要参考文末博文完成。编译安装lzo和lzop注意，有多少个节点，就安装多个少！注意，有多少个节点，就安装多个少！注意，有多少个

作者：编程之家时间：2022-09-05

Hadoop HDFS操作命令

HadoopHDFS操作命令查看HadoopHDFS支持的所有命令hadoopfs列出目录及文件信息hadoopfs-ls循环列出目录、子目录及文件信息hadoopfs-lsr将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下hadoopfs-puttest.txt/user/sunlightcs将

作者：编程之家时间：2022-09-05

hdfs实现思想机制及hdfs shell

hdfs的实现思想：1.hdfs是通过分布式集群存储文件，为客户端提供了一个便捷的访问方式，即虚拟的访问目录结构2.文件存储到hdfs集群中去的时候是被切分成block（文件数据）的3.文件的block存放在若干台datanode节点上4.hdfs文件系统中的文件与真实的block之间有映射关系，由namenode进

作者：编程之家时间：2022-09-05

Hadoop笔记(一)：CentOS7 安装 Hadoop-2.6.4

Hadoop集群 Hadoop集群，具体来说包含两个集群：hdfs集群和yarn集群。两者逻辑上分离，但物理上常在一起。 hdfs集群: 负责海量数据的存储工作。集群中的角色主要有NameNode、DataNode。 yarn集群:

作者：编程之家时间：2022-09-05

【Hadoop】VM虚拟机上搭建Hadoop集群

一、背景这件事做了N次，每次因为各种原因失败（比如，环境配置，hadoop参数设置），终于在春节前夕搞定。主要流程参照TMH_ITBOY的文章进行，再结合个人需求进行调整。二、部署规划三、流程【Step1】VMware新建虚拟机补充：（1）VMware15.0.3下载：https://www.lu

作者：编程之家时间：2022-09-05

Hadoop的伪分布式模式

1启动HDFS并运行MapReduce程序a）配置：hadoop-env.shLinux系统中获取JDK的安装路径：[[email protected]]#echo$JAVA_HOME/opt/module/jdk1.8.0_144[root@hadoop001hadoop]#vimhadoop-env.sh修改JAVA_HOME路径：（b）配置：core-site.xml[root@hadoop001hadoop]#

作者：编程之家时间：2022-09-05

Hadoop学习三_伪分布式搭建

1：首先上传Hadoop压缩包放在指定的文件下，解压到opt下的一个指定目录2：等待解压完成3：看看是否解压到文件opt文件夹运行文件读取的文是etc目录bin下面是一些脚本sbin下面的文件很重要！！！属于系统级别的文件3：配置Hadoop的环境变量Pwd查询当前路径复制进入这个目录配置

作者：编程之家时间：2022-09-05

Hadoop序列化

1、序列化把内存中的对象转换成字节序列（或其他数据传输协议）以便存储到磁盘和网络传输。2、反序列化将字节序列（或其他数据传输协议）或者磁盘的持久化数据转成内存对象3、Hadoop为什么不使用java的序列化机制java的序列化是一个重量级序列化框架，一个对象被序列化后，会附带很多

作者：编程之家时间：2022-09-05

大数据六十三Storm【Storm介绍】

一、什么是Storm Storm是Twitter开源的分布式实时大数据处理框架，最早开源于github，从0.9.1版本之后，归于Apache社区，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大

作者：编程之家时间：2022-09-05

大数据组件图谱

大数据组件图谱文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台文件系统 HDFS HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉

作者：编程之家时间：2022-09-05

HDFS产出背景及定义Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提

作者：编程之家时间：2022-09-05

DBeaver连接Hive错误总结

1.错误1Requiredfield'serverProtocolVersion'isunset!Struct:TOpenSessionResp(status:TStatus(statusCode:ERROR_STATUS,infoMessages:[*org.apache.hive.service.cli.HiveSQLException:Failedtoopennewsession:java.lang.RuntimeException:org.apache

作者：编程之家时间：2022-09-05

[hadoop][Azkaban]#0_azkaban环境搭建

编译安装在github下载源码包./gradlewbuildinstallDist为加快编译，将gradle-4.6-all.zip放在oot/Downloads/azkaban-3.81.0/gradle/wrapper中，在gradle-wrapper.properties修改distributionUrl将azkaban-solo-server/build/distributions/azkaban-solo-server-0.1.0-

作者：编程之家时间：2022-09-05

上一页 9 10 11 121314 15 16 下一页