手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
算法
设计模式
多媒体技术
正则表达式
Elasticsearch
Flink
Hadoop
IDE
UML
Promise
Gis
编程之家
Hadoop
阿里云ECS服务器部署HADOOP集群一:Hadoop完全分布式集群环境搭建
准备:两台配置CentOS7.3的阿里云ECS服务器;Hadoop:hadoop-2.7.3.tar.gz;Java: jdk-8u77-linux-x64.tar.gz;hostname及IP的配置:更改主机名:由于系统为CentOS7,可以直接使用‘hostnamectlset-hostname主机名’来修改,修改完毕后重新shell登录或者重启服务器即可。1hostnam
作者:编程之家 时间:2022-09-05
HDFS分布式文件系统
HDFS分布式文件系统Hadoop学习笔记1.Hadoop简介1.1Hadoop架构1.2Hadoop历史2.HDFS是什么?2.1HDFS特点2.2小结3.HDFS篇3.1HDFS命令3.2WEBUI界面3.3HDFS编程3.4小结4.核心概念block4.1数据块block**4.2block副本****4.3机架存储策略**4.4block的一些操作
作者:编程之家 时间:2022-09-05
HADOOP之环境搭建(二)
前提:四台机器都要有java环境、hadoop环境、node01:cd$HADOOP/etc/hadoop#NN角色vicore-site.xml不需要改#配置HDFS副本数为2nn目录dn目录secondary_namenode启动节点以及目录vihdfs-site.xml
作者:编程之家 时间:2022-09-05
大数据相关开源项目汇总
调度与管理服务Azkaban 是一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。YARN 是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上
作者:编程之家 时间:2022-09-05
如何进入大数据领域,学习路线是什么?
学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。学习路线Java大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hi
作者:编程之家 时间:2022-09-05
Hadoop技术内幕:深入解析YARN架构设计与实现原理 附下载地址
第一部分准备篇第1章环境准备第2章YARN设计理念与基本架构第二部分YARN核心设计篇第3章YARN基础库第4章YARN应用程序设计方法第5章ResourceManager剖析第6章资源调度器第7章NodeManager剖析第三部分计算框架篇第8章离线计算框架MapReduce第9章DAG计算框
作者:编程之家 时间:2022-09-05
Hadoop入门系列(1)-简介
简介ApacheHadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不依赖于硬件来提供高可用性,而是被设计用来检测和处理应用程序层的故障,因此可以在计算机
作者:编程之家 时间:2022-09-05
hadoop-2.7.2源码分析之Job提交流程
一前言在mapreduce中,对于一个job,它的提交流程,我们有必要去研究一下,当然,在这里只是研究它的一个大体流程,并不会精确到每一句代码
作者:编程之家 时间:2022-09-05
Hadoop安装部署之分发配置
一、编写集群分发脚本rsync-scriptrsync远程同步⼯具rsync主要⽤于备份和镜像。具有速度快、避免复制相同内容和⽀持符号链接的优点。rsync和scp区别:⽤rsync做⽂件的复制要⽐scp的速度快,rsync只对差异⽂件做更新。scp是把所有⽂件都复制过去。1.基本语法rsync-rvl$pdir
作者:编程之家 时间:2022-09-05
第八次:Hive 操作与应用 词频统计
一、hive用本地文件进行词频统计1.准备本地txt文件 12echo"hadoophbase">f1.txtecho"hadoophive">f2.txt2.启动hadoop,启动hive3.创建数据库,创建文本表 usehive(创建数据库,选择数据库)createtableifnotexistswctext(linestring);
作者:编程之家 时间:2022-09-05
pyspark 中删除hdfs的文件夹
在pyspark 中保存rdd的内存到文件的时候,会遇到文件夹已经存在而失败,所以如果文件夹已经存在,需要先删除。搜索了下资料,发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法,是通过调用shell命令hadoopfs-rm-f 来删除,这个方法感觉不怎么好,所以继续找。
作者:编程之家 时间:2022-09-05
statefulset 及storageclass
https://www.cnblogs.com/00986014w/p/9406962.htmlstorageclass 先搭建好nfs,本次nfs服务器为10.10.101.175 使用rbac认证的1,创建serviceaccount.yaml apiVersion:v1kind:ServiceAccountmetadata:name:nfs-serviceaccount#名字随意,下面会用到[roo
作者:编程之家 时间:2022-09-05
Hadoop3.0集群模式安装
一、安装jdk1、安装jdk将/data/hadoop目录下jdk-8u161-linux-x64.tar.gz解压缩到/opt目录下。sudotar-xzvf/data/hadoop/jdk-8u161-linux-x64.tar.gz-C/opt下面将jdk1.8.0_161目录重命名为java,执行:sudomv/opt/jdk1.8.0_161//opt/java2、修改环境变量
作者:编程之家 时间:2022-09-05
【资源分享】Hadoop全权威指南第三版原版
《Hadoop全权威指南第三版(原版)》大数据越来越热。Hadoop技术是大数据技术的基础。掌握了大数据技术,就意味着可以轻松找到高薪工作。人工智能、机器学习都是基于大数据。链接:https://pan.baidu.com/s/1q8cRm2f7h53zejO2jDh5ZA免费共享我的资源后台回复“资料馆”即可获取提
作者:编程之家 时间:2022-09-05
第八次 Hive 操作与应用 词频统计
一、hive用本地文件进行词频统计1.准备本地txt文件 12echo "hadoophbase" >f1.txtecho "hadoophive" >f2.txt2.启动hadoop,启动hive3.创建数据库,创建文本表 usehive(创建数据库,选择数据库)createtableifnotexistswctext(linestring)
作者:编程之家 时间:2022-09-05
hadoop 伪分布式 完全分布式 及HA部署
https://www.jianshu.com/p/6dda4f79379ehttps://blog.csdn.net/qq_25542879/article/details/89554068 1、制作Hadoop伪集群镜像 下载jdk 下载hadoop并解压 配置hadoop 需要配置的文件如下: hadoop-3.2.1/etc/hadoop/hadoop-en
作者:编程之家 时间:2022-09-05
Hadoop配置JobHistory
1.修改/usr/local/hadoop/etc/hadoop/yarn-site.xml,添加如下代码<property><name>yarn.log-aggregation-enable<ame><value>true</value></property><!--配置日志服务器的地址,work节点使用--><property&g
作者:编程之家 时间:2022-09-05
HADOOP之HDFS用idea操作(五)
使用idea操作HDFS、创建文件、上传文件、获取块信息、下载文件 1.搭建maven工程2.pom依赖<!--https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common--><dependency><groupId>org.apache.hadoop</groupId><art
作者:编程之家 时间:2022-09-05
HDFS文件Shell操作命令
基本格式:hdfsdfs-cmdhadoopfs-cmd(已过时)查看可用命令:hdfsdfs[root@hadoop60~]#hdfsdfsUsage:hadoopfs[genericoptions][-appendToFile<localsrc>...<dst>] #追加文件[-cat[-ignoreCrc]<src>...] #查看文件内容[-c
作者:编程之家 时间:2022-09-05
大数据开发之Yarn介绍
文章目录一.Yarn简介二.Yarn基本服务组件三.Yarn工作的过程参考一.Yarn简介在古老的Hadoop1.0中,MapReduce的JobTracker负责了太多的工作,包括资源调度,管理众多的TaskTracker等工作。这自然是不合理的,于是Hadoop在1.0到2.0的升级过程中,便将JobTracker的
作者:编程之家 时间:2022-09-05
《Hadoop实战》之联结不同来源的数据
目录Reduce端的联结原理使用(API已被弃用)TaggedMapOutputDataJoinMapperBaseDataJoinReducerBase基于DistributedCache的复制联结(map端联结)例子:根据id联结customers和orders半联结:map侧过滤后在reduce侧联结Reduce端的联结reduce端联结,又称repartitionedjoin(重分区联结)或者repar
作者:编程之家 时间:2022-09-05
《Hadoop实战》之Combiner
目录为何使用combinercombiner的设计求均值Combiner的例子查看combine的效果为何使用combiner减少洗牌的键值对数量缓解数据倾斜问题combiner的设计combiner在数据转换上必须与reducer等价若Reducer仅处理分配型函数(最大值/最小值/求和/计数),可以使用reducer为combiner其
作者:编程之家 时间:2022-09-05
配置hadoop
在根目录下cdetccdnetwork-scripts/vimifcfg-eth0 DEVICE=eth0HWADDR=08:00:27:92:9D:6DTYPE=EthernetUUID=67c28e67-41df-4c0d-a399-fce07b3b265dONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.56.2NETMASK=255.255.255.0GATEWAY=192.168.56.1保
作者:编程之家 时间:2022-09-05
hadoop的HDFS工作机制
1HDFS概述概述:HDFS它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的有很多服务器联合起来实现其功能,集群中的服务器有各自的角色。使用场景:适合一次写入,多次读出的场景切不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用优点:1容错性高,数据自
作者:编程之家 时间:2022-09-05
在伪分布式中搭建HIVE附解决jdk版本问题报错
一、下载地址下载地址http://archive.cloudera.com/cdh5/cdh/5/也可以安装apache版本,下载地址http://archive.apache.org/dist/hive/需要的软件包:hive-1.1.0-cdh5.14.2.tar.gz1、将软件包上传到Linux系统指定目录下:/opt/software2、解压到指定的目录:/opt/install(学习环
作者:编程之家 时间:2022-09-05
【hadoop权威指南第四版】第三章hadoop分布式文件系统【笔记+代码】
3.1块显示块信息%hdfsfsck/-files-blocks3.5Java接口3.5.1从hadoopURL读取数据使用java.net.URL对象来打开一个数据流InputStreamin=null;try{in=newURL("hdfs://host/path").openStream();//processin}finally{IOUtils.cl
作者:编程之家 时间:2022-09-05
hadoop学习第一篇-学习hadoop之前的环境搭建
学习hadoop之前的环境搭建第一步、安装一个最小化的虚拟机作为基准这个时候VMware里面已经有这个虚拟机了。现在去配置虚拟机参数启动虚拟机baseVM安装到一般会提示你设置root密码,然后才会进行下面的安装这个时候说明我的最基本
作者:编程之家 时间:2022-09-05
hadoop代码2
packagecom.simple.duduplication;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassDeduplicationMapperextendsMapper<LongWritable,Text,Tex
作者:编程之家 时间:2022-09-05
集群基准性能测试
集群基准性能测试问题引入:输入端有2T的数据,问多长时间能把数据上传到集群?假如说1个小时,那么双11时瞬间产生100T数据,服务器能顶住吗?因此,我们需要对服务器进行压力测试,对服务器整体性能有精准把控1)测试HDFS写性能测试内容,向集群上传10个128M的文件[root@hadoop102mapreduce]
作者:编程之家 时间:2022-09-05
Hadoop基础五十七:其他面试题ES二
来源:https://mp.weixin.qq.com/s/MU87hW3W2S1Fi6CqnnXAGA问题列表和答案来自国外博客(原文答案不准确,有错误),为避免误导,我对每个问题做了属于自己的理解和解答。问题都非常基础,文章有点长,但请你耐心把它看完,期望对你的Elastic求职有所帮助!1、简要介绍一下Elasticsearch?严谨起
作者:编程之家 时间:2022-09-05
上一页
23
24
25
26
27
28
29
30
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native