手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
算法
设计模式
多媒体技术
正则表达式
Elasticsearch
Flink
Hadoop
IDE
UML
Promise
Gis
编程之家
Hadoop
Hadoop 学习笔记(1)
搭建Hadoop分布式集群云平台1、了解云平台大数据平台软件需要部署在云平台提供的服务器主机上,云计算是大数据的坚实基础。2、安装VMWare软件在电脑中安装VMWare,进而虚拟化出3台独立的物理主机,这样可以搭建Hadoop分布式集群环境。一台或两台服务器无法组成集群,集群
作者:编程之家 时间:2022-09-04
完全分布式部署Hadoop集群准备(二)编写集群分发脚本
编写集群分发脚本xsync作用:配置所有节点的同步信息在/usr/local/bin这个目录下存放的脚本,可以在系统任何地方直接执行/usr/local/bin目录下touchxsyncchmod777xsync#!/bin/bash#获取输入参数的个数.没有参数直接退出pcount=$#if((pcount==0));then echonoargs
作者:编程之家 时间:2022-09-04
Hadoop面试题总结五- 优化
1、MapReduce跑得慢的原因?Mapreduce程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等2、MapReduce优化方法1)数据
作者:编程之家 时间:2022-09-04
Storm基本概述
概述离线计算:批量的获取数据,批量传输数据,周期性批量计算数据,数据展示代表技术:Sqoop批量导入数据,HDFS批量存储数据,MapReduce批量计算数据,hive批量计算数据等流式计算数据实时产生,数据实时传输,数据实时计算,实时展示代表技术:Flume实时获取数据,Kafka实时数据存
作者:编程之家 时间:2022-09-04
完全分布式部署Hadoop集群准备(一)
配置三台虚拟机分别设置名称为testnote01,testnote02,testnote03分别配置三台虚拟机的ip192.168.18.50192.168.18.51192.168.18.52主机名等信息,详情虚拟机克隆冲突解决cat/etc/hosts//修改为192.168.18.50testnote01192.168.18.51testnote02192.168.18.52tes
作者:编程之家 时间:2022-09-04
Hadoop分布式安装详细步骤
文章目录一、先决条件1.支持平台2.所需软件3.安装所需环境软件二、虚拟机相关配置1.配置虚拟机启用网卡,并设置固定IP地址2.关闭防火墙3.时间同步4.配置hosts文件5.克隆虚拟机镜像(需要几个克隆几个)6.免密钥设置三、hadoop安装及配置1.上传hadoop2.7.1到node1
作者:编程之家 时间:2022-09-04
Shell遍历hadoop目录的批量操作
需求背景每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。解决方法通过shell脚本通过MR程序(推荐,本篇不做论述)结论:经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢,对于这样大量且
作者:编程之家 时间:2022-09-04
hadoop java.net.NoRouteToHostException: 没有到主机的路由
网上查到的没有主机路由问题提到的大多是防火墙问题:查看防火墙状态:firewall-cmd--state关闭防火墙:(需注意的是,必须关闭防火墙自启动,再启动datanode才会正常)centos7:[al@node01sbin]$sudosystemctlstopfirewalld//关闭防火墙[al@node01sbin]$sudosystemctlsta
作者:编程之家 时间:2022-09-04
大数据学习笔记二--hadoop简介
Hadoop是一个适合大数据的分布式存储和计算平台。狭义:Hadoop就是一个框架平台广义:p代表大数据的一个技术生态圈,包括很多其他软件框架Hadoop特点:扩容能力:在计算机集群内分配数据并完成计算任务,集群可以扩展到超多节点低成本:可以通过普通机器组成服务器集群来分发处理数
作者:编程之家 时间:2022-09-04
hadoop配置日志聚焦功能
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动NodeManager、ResourceManager和HistoryManager。停止所有进程,依次为mr-jobhistory-daemon.shstopjobhi
作者:编程之家 时间:2022-09-04
Hadoop之HDFS概述
1.HDFS产生背景及定义1)随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(HadoopDistr
作者:编程之家 时间:2022-09-04
2021年5月学习总结
ArrayList以及Random练习StringStatic继承的多种形式super与this、继承特点以及抽象类接口多态final以及四种权限修饰符内部类以及类与接口作为成员变量类型numpy纯代码及标注演示pandashadoop以及zookeeper部分摘要搭建数据分析(后续继续写)hadoop及hdfs命令h
作者:编程之家 时间:2022-09-04
Hadoop优化方法
MapReduce程序效率瓶颈在于两点:1.计算机性能:CPU、内存、磁盘、网络2.IO操作:数据倾斜Map和Reduce数设置不合理Map运行时间太长,导致Reduce等待过久小文件过多大量不可分的超大文件Spill次数过多Merge次数过多MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Re
作者:编程之家 时间:2022-09-04
Hadoop在yarn上运行mr程序以及历史服务器的配置
yarn上运行mr程序配置yarn-env.sh配置yarn-site.xml<!--reducer获取数据的方式--><property><name>yarn.nodemanager.aux-services<ame><value>mapreduce_shuffle</value></property><!--指定YARN的ResourceManager的地址-->&
作者:编程之家 时间:2022-09-04
对两个文件里的单词出现次数进行统计查询结果:a-p一个文件,q-z一个文件【本地模式】
需求对两个文件里的单词出现次数进行统计(查询结果:a-p一个文件,q-z一个文件)输入文件1(word01.txt)HadoopSparkHiveHbaseHadoopSpark输入文件2(word02.txt)JavaphpAndroidHtml5Bigdatapython计算结果:part-r-00000Android1Bigdata1Hadoop2Hbase1Hiv
作者:编程之家 时间:2022-09-04
主机连接CentOS7虚拟机网络ssh和安装Hadoop
创建hadoop用户$su#上述提到的以root用户登录$useradd-mhadoop-s/bin/bash#创建新用户hadoop设置hadoop密码$passwdhadoop查看CentOS7的ip地址$ifconfig确保要确保CentOS7安装了openssh-server,在终端中输入yuminstall
作者:编程之家 时间:2022-09-04
sparksql读取hive表中数据
文章目录sparksql与hive本地调试newHiveContext空指针异常权限:异常执行select查询的时候找不到hostsparksql与hive本地调试将hive-site.xml文件拷贝到resource目录中pom.xml org.apache.sparkspark-hive_2.111.6.0代码import org.apache.spark.sql.hive.HiveContextimpor
作者:编程之家 时间:2022-09-04
大数据同步工具sqoop的上手操作
sqoop的上手操作1.sqoop安装调试2.介绍3.使用1.sqoop安装调试1,下载并解压1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop12的/opt/soft路径中3)解压sqoop安装包到指定目录,如:[xian@hadoo
作者:编程之家 时间:2022-09-04
hadoop之参数mapreduce.job.reduce.slowstart.completedmaps
大家在执行hivesql走mr引擎时有没有发现日志打印信息,map还没到100%reduce就开始了。这是由于mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.completedmaps,这个参数可以控制当map任务执行到哪个比例的时候就可以开始为reducetask申请资源
作者:编程之家 时间:2022-09-04
一脸懵逼学习Hadoop分布式集群HA模式部署七台机器跑集群
1:hadoop分布式集群HA模式部署,七台机器跑集群:第一台机器:namenodezkfc第二台机器:namenodezkfc第三台机器:resourcemanager第四台机器:resourcemanager第五台机器:zookeeperjournalnodedataNodenodemanager第六台机器:zookeeperjournalnodedataNodenode
作者:编程之家 时间:2022-09-04
Hadoop集群最迅速的配置免密码登陆方法
1:多台机器互相免密登陆的思路(默认你的linux操作系统已经安装好ssh):第一步:在各自的机器上面生成密钥:在第1台机器上生产一对钥匙:ssh-keygen-trsa在第2台机器上生产一对钥匙:ssh-keygen-trsa在第3台机器上生产一对钥匙:ssh-keygen-trsa............第二
作者:编程之家 时间:2022-09-04
hadoop HA高可用集群搭建
首先,高可用集群是建立在zookeeper搭建没有问题的前提下来完成的,没有搭建好zookeeper的,先搭好才可以做以下操作。一:前期准备(只需要在主节点master上完成)1.拍摄快照想拍就拍,不想拍算了,建议还是拍一个,毕竟万一搭不好,还可以回到你这个状态,记得给快照加个备注,以防忘记你这个快
作者:编程之家 时间:2022-09-04
Linux vi文本编辑器
vi文本编辑器 1、最基本用法vi somefile.41/首先会进入“一般模式”,此模式只接受各种命令快捷键,不能编辑文件内容2/按i键,就会从一般模式进入编辑模式,此模式下,敲入的都是文件内容3/编辑完成之后,按Esc键退出编辑模式,回到一般模式;4/再按:,进入“底行命令模式”,输入wq命令,回车即可
作者:编程之家 时间:2022-09-04
hadoop集群运行jps命令以后Datanode节点未启动的解决办法
出现该问题的原因:在第一次格式化dfs后,启动并使用了hadoop,后来又重新执行了格式化命令(hdfsnamenode-format),这时namenode的clusterID会重新生成,而datanode的clusterID保持不变。1:其实网上已经有解决办法了,这里自己脑补一下,也可以让别人看到我是怎么解决的。出现这个问题主要
作者:编程之家 时间:2022-09-04
Hadoop Shell命令基于linux操作系统上传下载文件到hdfs文件系统基本命令学习
FSShell调用文件系统(FS)Shell命令应使用bin/hadoopfs前言:linux客户端操作hadoop的hdfs分布式文件系统(filesystem)执行hadoopfs指令可以看到其下有很多可以执行的命令: 1:cat使用方法:hadoopfs-catURI[URI…]将路径指定文件的内容输出到stdout。示例:hadoopfs-cathdfs:
作者:编程之家 时间:2022-09-04
1:初学hadoop遇到各种错误,这里贴一下,方便以后脑补吧,报错如下: 主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面;出现这个错误是权限的问题,操作had
1:初学hadoop遇到各种错误,这里贴一下,方便以后脑补吧,报错如下:主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面;出现这个错误是权限的问题,操作hadoop是虚拟机的主机用户不是window的主机用户Administrator,所以出现下面的错误,解决办法如下所示(或者修改文件的权限,即所有
作者:编程之家 时间:2022-09-04
Hadoop MapReduce 一文详解MapReduce及工作机制
@目录前言-MR概述1.HadoopMapReduce设计思想及优缺点设计思想优点:缺点:2.HadoopMapReduce核心思想3.MapReduce工作机制剖析MapReduce运行机制过程描述第一阶段:作业提交(图1-4步)第二阶段:作业初始化(图5-7步)第三阶段:任务的分配(图8)第四阶段:任务的执行(图9-11)第五阶段:作业完成Tips知
作者:编程之家 时间:2022-09-04
sqoop数据迁移基于Hadoop和关系数据库服务器之间传送数据
1:sqoop的概述:(1):sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。(2):导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;(3):导出数据:从Hadoop的文件系统中导出数据到关系数据库(4):工作机制:将导入或导出命令翻译成mapreduce程序来实
作者:编程之家 时间:2022-09-04
Hadoop系列番外篇之一文搞懂Hadoop RPC框架及细节实现
@目录HadoopRPC框架解析1.HadoopRPC框架概述1.1RPC框架特点1.2HadoopRPC框架2.Java基础知识回顾2.1Java反射机制与动态代理2.1.1代理关键类&接口信息2.1.2动态代理创建对象的过程2.2Java网络编程2.3JavaNIO2.3.1简介2.3.2常用类3.HadoopRPC基本框架分析3.1RPC基本
作者:编程之家 时间:2022-09-04
一脸懵逼加从入门到绝望学习hadoop之Caused by: java.net.UnknownHostException: master报错
windows下开发hadoop应用程序,hadoop部署在linux环境中,在运行调试时可能会出现无法找到主机,类似异常信息如下:java.net.UnknownHostException:unknownhost:master解决办法如下:在C:\WINDOWS\system32\drivers\etc\hosts文件中添加如下信息:192.168.0.55master即把自己
作者:编程之家 时间:2022-09-04
上一页
40
41
42
43
44
45
46
47
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native