手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
算法
设计模式
多媒体技术
正则表达式
Elasticsearch
Flink
Hadoop
IDE
UML
Promise
Gis
编程之家
Hadoop
hadoop-MapReduce框架原理之Shuffle机制
1.Shuffle机制1.1什么是shuffle机制1.1.1在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分;1.1.2shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓存)1.2shuffle的作用范围
作者:编程之家 时间:2022-09-05
Hadoop DataNode 多目录磁盘扩展配置
工作中不免会有碰到服务器磁盘空间不足,需要另外挂载磁盘上去的时候,这时候问题就来了,怎么能让datanode将数据写入新挂载的磁盘呢?1、配置hdfs-site.xml<property><name>dfs.datanode.data.dir<ame><value>file:///${hadoop.tmp.dir}/dfs/data1,file:///sdb1/dfs/data2</v
作者:编程之家 时间:2022-09-05
一张图告诉你为什么要选择第三方发行版的Hadoop
其实开源版最大的问题是你用着用着出现了很多问题,但是这些问题没有前人解决过。第三方发行版的好处在于运维成本低,你不需要再去踩一遍坑,人家已经把坑填上了。Cloudera和Hortonworks都是基于Apache协议,100%开源;相较于原生的hadoop在兼容性、安全型以及稳定性方面有所提升;版本管理清
作者:编程之家 时间:2022-09-05
Hadoop一基本简介
是一个由Apache基金会所开发的分布式系统基础架构。广义上来说,是一个Hadoop生态圈(由一堆框架、软件组成)版本介绍分为社区版和商业版1.x,2.x,-是并行发展的1.x:由一个分布式文件系统HDFS一个离线计算机框架MapReduce2.x:支持NameNode的HDFS资源
作者:编程之家 时间:2022-09-05
Python+Spark2.0+hadoop学习笔记——Hadoop HDFS命令
历经千辛万苦,终于把Ubuntu和Hadoop安装好了,过程很繁琐也很费时间,在这里就不展开讲述了。下面将开始介绍Hadoop HDFS命令。HDFS命令格式如下:hadoop fs-命令1)常用的HDFS命令:hadoop fs-mkdir 创建HDFS目录hadoop fs-ls 列出HDFS目录hadoop fs-copyFromLocal 使用-
作者:编程之家 时间:2022-09-05
七 hive 安装
1、准备环境centos6.5apache-hive-3.1.2-bin.tar.gz2、解压 tarzxvf/opt/software/apache-hive-3.1.2-bin.tar.gz -C/opt/module/ 3、环境变量修改环境变量:vi/etc/profile#hiveexportHIVE_HOME=/opt/module/apache-hive-3.1.2exportPATH=$PATH:$HIV
作者:编程之家 时间:2022-09-05
集群规模计算
一、数据规模 二、集群处理数据的吞吐量2.1hdfs的读写测试Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何hadoopjar/opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jarTestDFSIO-write-nrFil
作者:编程之家 时间:2022-09-05
七 sqoop 安装
1、准备环境sqoop-1.99.7-bin-hadoop200(https://mirror.bit.edu.cn/apache/sqoop/)2、解压tarzxvf /opt/software/sqoop-1.99.7-bin-hadoop200.tar.gz -C/opt/module/3、配置文件cd /opt/module/sqoop-1.99.7/conforg.apache.sqoop.submission.engine.mapredu
作者:编程之家 时间:2022-09-05
Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce
MapReduce是一种程序开发模式,可以使用大量服务器来并行处理。MapReduce,就是Map分配工作,Reduce将工作结果汇总整理。本次之中以WordCount为范例,计算文件中每一个英文单词出现的次数。1)创建wordcount目录mkdir-p~/wordcount/inputcd~/wordcount使用sudo gedit WordCount.j
作者:编程之家 时间:2022-09-05
Hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可
作者:编程之家 时间:2022-09-05
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树二分类
决策树是在数据分类问题中的一种常用且经典的机器学习方法,在本例里使用决策树模型来分析StumbleUpon数据集,来预测网页是暂时的(ephemeral)还是长青的(evergreen),并且调教参数找出最佳的参数组合,来提高预测准确度。像这类经典的二分类问题,在python中调包来做的话会非常容易,且分
作者:编程之家 时间:2022-09-05
小记--------hadoop的yarn资源管理器原理剖析
首先,yarn在hadoop2.x之后才诞生的,主要作用是为了对计算框架进行总体资源管理调度的 yarn启动命令:./start-yarn 启动之后,通过jps查看进程会有两个进程: 1.ResourceManager 以下简称RM 2.NodeManager 以下简称NM 2.RM的组成部分
作者:编程之家 时间:2022-09-05
hadoop伪分布式安装(MapReduce+Yarn)-hadoop用户部署
1.创建Hadoop用户[root@hncdf~]#useraddhadoop[root@hncdf~]#idhadoopuid=1102(hadoop)gid=1102(hadoop)groups=1102(hadoop)[root@hncdf~]#passwdhadoopChangingpasswordforuserhadoop.Newpassword: BADPASSWORD:itistoosimplistic/systematicB
作者:编程之家 时间:2022-09-05
yum错误“Error in PREUN scriptlet in rpm package ”
打算通过yum安装软件,发展之前有软件残骸。使用yumremove也无效,使用rpm-e也无法删除这个软件包(这个软件包已经损坏)。错误信息:RunningTransaction ErrorinPREUNscriptletinrpmpackagehadoop-hdfs-namenode hadoop-hdfs-namenode-2.0.0+1475-1.cdh4.4.0.p0.23.el6.x8
作者:编程之家 时间:2022-09-05
安装Hadoop 以及配置hadoop基础的应用环境
安装Hadoop之前首先要从官网上下载相应的Hadoop安装包,用ftp工具传入unbantu。一、传入成功后,打开CRT连接上相应的虚拟机,进入ftp目录查看是否有Hadoop压缩包;#cd/srv/ftp//进入ftp目录#ll//查看目录的文件 已有压缩包。二、如果你之前进行过
作者:编程之家 时间:2022-09-05
hadoop编译
1.hadoop源代码下载[root@testdbsourcecode]#pwd/opt/sourcecode[root@testdbsourcecode]#lltotal33756-rw-r--r--.1rootroot34523353Aug2012:14hadoop-2.8.1-src.tar.gz[root@testdbsourcecode]#tar-xzvfhadoop-2.8.1-src.tar.gz[root@testdbsourcecode
作者:编程之家 时间:2022-09-05
Hive数据分析及优化
修改hivelog目录hive-exec-log4j.properties.templatehive-exec-log4j.propertieshive-log4j.properties.templatehive-log4j.propertieshive.log.dir=bin/HiveHiveMapREduceTask任务数设定sethive.exec.mode.local.auto=false;对于MapReduce程序来讲,有多少个MapTask和Re
作者:编程之家 时间:2022-09-05
HDFS 2.X新特性
1.集群间数据拷贝1.1scp实现两个远程主机之间的文件复制scp-rhello.txtroot@hadoop103:/user/luomk/hello.txt //推pushscp-rroot@hadoop103:/user/luomk/hello.txt hello.txt //拉pullscp-r
作者:编程之家 时间:2022-09-05
hadoop-eclipse配置
1、设备:Ubuntu镜像:ubuntu-18.04.2-desktop-amd64.iso hadoop: hadoop-2.6.5.tar.gz jdk: jdk-linux-x64.tar.gz Eclipse:eclipse-java-2020-03-R-linux-gtk-x86_64.tar.gz2、安装SSH,设置SSH无密码登陆1)更新软件资源列表
作者:编程之家 时间:2022-09-05
Esclipse上的hadoop插件及mapreduce应用开发
一、配置windows上的hadoop环境变量1、将hadoop压缩包解压至任意位置,路径最好不要带中文或空格2、将Window编译后的hadoop文件放到解压出来的hadoop文件夹的bin目录下3、在环境变量中配置HADOOP_HOME5、在环境变量的PATH中添加%HADOOP_HOME%\bin和%HADOOP_HOME%\sbin二、E
作者:编程之家 时间:2022-09-05
Hadoop入门学习整理二
2020-04-15在上一篇文章中介绍了Linux虚拟机的安装,Hadoop的安装和配置,这里接着上一篇的内容,讲Hadoop的简要介绍和简单使用。 1、首先要了解Hadoop的目录:(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件(3)lib目录:存放
作者:编程之家 时间:2022-09-05
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib逻辑斯蒂回归二分类
同上一部分的内容,在进行二分类问题时,逻辑斯蒂回归也是一种常用的分类方法。逻辑斯蒂回归使用了一个Sigmoid函数来作为核心的内容来实现分类的思想,接下里介绍在Pyspark中使用MLlib来实现逻辑斯蒂回归。第一步:导入需要的库函数importsysfromtimeimporttimeimportpandasasp
作者:编程之家 时间:2022-09-05
Hadoop-コンセプト
HDFS(Hadoopdistributedfilesystem):Namenode:Datanode管理メタ情報管理 Datanode:分散してファイルを保存同じファイルが三つのノード以上に保持し、Datanodeの障害に対応できるように設定するのが一般的 クライアントは①Namenodeにメタ情報を問い合わせ②Datanode上
作者:编程之家 时间:2022-09-05
安装hadoop 集群版本.
1.tar解压hadoop软件安装tar-vxfhadoop-2.7.1_64bit.tar.gz 2.添加环境变量vim /etc/profile#hadoopexportHADOOP_HOME=/software/hadoop-2.7.1exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin3.source/etc/profile生效
作者:编程之家 时间:2022-09-05
hive单节点安装
一,基础环境安装准备1.修改主机名hostnamectlset-hostnamehadoop (Ctrl+D重新连接)2.关闭防火墙systemctlstopfirewalldsystemctldisablefirewalld3.修改hosts文件vi/etc/hosts192.168.200.2hadoop二,安装jdk1.新建tgz目录,(将安装包放入创建的tgz目录下)
作者:编程之家 时间:2022-09-05
Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类
朴素贝叶斯是一种经典的分类方法,其原理在高中或大学的概率论部分学习了很多了,下面开始介绍在Spark环境下使用MLlib来使用Naive Bayes来对网站性质进行分类判断。第一步:导入库函数importsysfromtimeimporttimeimportpandasaspdimportmatplotlib.pyplotaspltfrompysp
作者:编程之家 时间:2022-09-05
Hadoop文件上传下载工作流程及元数据
Hadoop部分工作流程图一、文件上传二、文件下载三、元数据(Secondarynamenode)
作者:编程之家 时间:2022-09-05
Hadoop集群搭建
一、介绍 Hadoop2.0中,2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,QuorumJournalNode(JournalNode)集群或者NnetworkFileSystem(NFS)进行共享。NFS是操作系统层面的,JournalNode是hadoop层面的,我们这里使用JournalNode集群进行数据共享(这也是主流的做法)。
作者:编程之家 时间:2022-09-05
HDFS查看文件的前几行-后几行-行数
随机返回指定行数的样本数据hadoopfs-catest/gonganbu/scene_analysis_suggestion/*|shuf-n5返回前几行的样本数据hadoopfs-catest/gonganbu/scene_analysis_suggestion/*|head-100返回最后几行的样本数据hadoopfs-catest/gonganbu/scene_analysis_suggesti
作者:编程之家 时间:2022-09-05
使用java进行Hadoop文件上传下载和遍历
使用java操作HDFS需要使用到的jar包将hadoop的tar.gz包解压,里面的lib下的所有jar包,share/hadoop目录下的common和hdfs文件下的所有jar包以及Hadoop-common-2.7.7、Hadoop-hdfs-2.7.7、hadoop-client-2.7.7这三个jar包。常用的操作1.连接至hdfs @Testpublicvoidconnec
作者:编程之家 时间:2022-09-05
上一页
14
15
16
17
18
19
20
21
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native