手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
算法
设计模式
多媒体技术
正则表达式
Elasticsearch
Flink
Hadoop
IDE
UML
Promise
Gis
编程之家
Hadoop
hive基础知识四
1.hive表的数据压缩1.1数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好2、压缩时间:越快越好3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更
作者:编程之家 时间:2022-09-05
Hadoop的安装与配置
1安装JDK官网:https://www.oracle.comechnetwork/java/javase/downloads/jdk8-downloads-2133151.html镜像:https:/epo.huaweicloud.com/java/jdk/首先下载jdklinux安装包jdk-11_linux-x64_bin.tar.gz上传到linux服务器jdk解压修改jdk文件夹名修改配置文件
作者:编程之家 时间:2022-09-05
python – pyspark错误:AttributeError:’SparkSession’对象没有属性’parallelize’
我在Jupyter笔记本上使用pyspark.以下是Spark设置的方式:importfindsparkfindspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive',python_path='python2.7')importpysparkfrompyspark.sqlimport*sc
作者:编程之家 时间:2022-09-05
java – 如何设置HTTP源来测试Flume设置?
我是Flume和Hadoop的新手.我们正在开发一个BI模块,我们可以在HDFS中存储来自不同服务器的所有日志.为此,我使用Flume.我刚刚开始尝试.成功创建了一个节点,但现在我愿意设置一个HTTP源和一个接收器,它将通过HTTP将传入的请求写入本地文件.任何建议?提前致谢/解决方法:希望这有助于
作者:编程之家 时间:2022-09-05
Sqoop:无法加载mysql驱动程序异常
我在本地机器上安装了Sqoop.以下是配置信息.Bash.bashrc:exportHADOOP_HOME=/home/hduser/hadoopexportHBASE_HOME=/home/hduser/hbaseexportHIVE_HOME=/home/hduser/hiveexportHCAT_HOME=/home/hduser/hive/hcatalogexportSQOOP_HOME=/home/hduser/sqoopexportPATH=
作者:编程之家 时间:2022-09-05
hadoop学习笔记九:mr2HA高可用环境搭建及处步使用
本文原创,如需转载,请注明原文链接和作者现结点的配置情况 1、单节点的yarn管理的配置需要配置mapread-site.xmlConfigureparametersasfollows:etc/hadoop/mapred-site.xml:#mapread-site.xml<configuration><property><name>mapreduce.framework.name<
作者:编程之家 时间:2022-09-05
【Hadoop】linux安装mysql
官网下载地址https://dev.mysql.com/downloads/file/?id=471503本文所用MySQL版本为5.7.19;上传包将mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar安装包上传到/opt/soft目录(此目录可以自定义),采用rz命令;[root@bigdata112conf]#rz若不存在rz命令,可以用yum进行安
作者:编程之家 时间:2022-09-05
Hadoop组成架构
Hadoop是apache用来“处理海量数据存储和海量数据分析”的分布式系统基础架构,更广义的是指hadoop生态圈。Hadoop的优势高可靠性:hadoop底层维护多个数据副本,即使某个计算单元故障,也不会导致数据丢失。高扩展性:天然支持分布式,可方便的扩展至几千个节点。高容错性:能
作者:编程之家 时间:2022-09-05
mysql-sqoop merge-key创建多个零件文件,而不是一个不能使用merge-key的文件
理想情况下,当我们在不使用merge-key的情况下运行增量文件时,它将创建带有附加数据集的新文件,但是如果我们使用merge-key,则它将创建新的整个数据集,包括仅在一个文件中的先前数据集.但是当我在sqoop工作中使用增量追加时,我没有得到一个零件文件.以下是我的步骤:1)初始数据:mysq
作者:编程之家 时间:2022-09-05
beeline链接hive报错
看问题:beeline连接hiveserver2报错。连接串:hive --servicebeeline-ujdbc:hive2://s1:10000/hive错误:Error:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://s1:10000/hive:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.
作者:编程之家 时间:2022-09-05
三、hadoop用户认证--kerberos
一、HDFS权限问题:默认情况下,HDFS的权限认证是开启的,通过在hdfs-site.xml中设置dfs.permissions为true或者false来开启、关闭。所以当客户端进入hdfs的用户没有权限时,是无法对hdfs进行操作的。这时候可通过下面几种方式绕开认证。1、在java代码中设置hadoop用户为rootSystem.se
作者:编程之家 时间:2022-09-05
Hadoop和Python:禁用排序
我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定哪个)都会在reducer.py打印输出之前对我的输出进行排序.目前,它似乎是按字母数字排序的.我想知道是否有一种方法可以完全禁用此功能.我想要基于从mapper.py打印的顺序的程序输出.我在Java中找到了答案,但
作者:编程之家 时间:2022-09-05
java-如何在扩展中存储输出
我正在尝试将管道输出到不同的目录,以使每个目录的输出将基于某些ID进行存储.因此,在普通地图精简代码中,我将使用MultipleOutputs类,并在精简器中执行类似的操作.protectedvoidreduce(finalSomeKeykey,finalIterable<SomeValue>values,finalContextconte
作者:编程之家 时间:2022-09-05
java-创建外部表配置单元,位置内部包含多个文件
CREATEEXTERNALTABLEIFNOTEXISTSLOGS(LGACTSTRING,NTNAMESTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/user/hive/warehouse/LOGSest';我每天都在“测试”文件夹下写入文件.例如:/user/hive/warehouse/LOGSest/20170420/user/
作者:编程之家 时间:2022-09-05
Centos6.5安装部署Hive
前提:虚拟机可以上网,hadoop集群搭建成功并且启动。注意:每行代码所执行的路径。一、安装MySQL1、在线安装MySQLyuminstallmysql-server安装完成2、启动MySQL服务servicemysqldstart3、设置MySQLroot用户密码(1)、默认没有密码,所以直接进入MySQL按回车即可
作者:编程之家 时间:2022-09-05
java-Hadoop:减速器的数量不等于我在程序中设置的数量
我已经在mapred-site.xml中将mapred.tasktracker.reduce.tasks.maximum设置为10,并且在我的工作中也写了jobConf.setNumReduceTasks(5).如果我在Shell中运行该工作,一切正常.但是当我通过日食运行相同的工作时,仅启动了一个减速器.我尝试在Eclipse中编辑Map/Reduce位置,并将ma
作者:编程之家 时间:2022-09-05
python-PySpark安装错误
我已按照包括this、this、this和this在内的各种博客文章中的说明在笔记本电脑上安装pyspark.但是,当我尝试从终端或jupyter笔记本电脑使用pyspark时,我一直收到以下错误.我已经安装了所有必要的软件,如问题底部所示.我已将以下内容添加到我的.bashrc中functionsjupyter_init()
作者:编程之家 时间:2022-09-05
如何使用python pyhs2连接到配置单元?
我正在尝试使用pyhs2访问蜂巢.我尝试了以下代码:example.pyimportpyhs2conn=pyhs2.connect(host='localhost',port=10000,authMechanism=None,user=None,password=None,database='default')withconn.cursor()ascur:cur.execute("select*fromt
作者:编程之家 时间:2022-09-05
linux-在HDFS上存储文件的命令
介绍HadoopNameNode和三个DataNode已安装并正在运行.下一步是向HDFS提供文件.已执行以下命令:hadoopfs-copyFromLocalubuntu-14.04-desktop-amd64.isocopyFromLocal:`.':Nosuchfileordirectory和hadoopfs-putubuntu-14.04-desktop-amd64.isoput:`.':Nosuch
作者:编程之家 时间:2022-09-05
01.Linux基础
一、Linux基础Linux是一套免费试用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工作软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络核心的设计思想,是一个性能稳定的多用户
作者:编程之家 时间:2022-09-05
Yarn Nodemanager启动不了报YarnRuntimeException: Failed to initialize container executor error=13 权限不够
1、现象:有一个节点的NodeManager启动不了。后台报错日志如下:org.apache.hadoop.yarn.exceptions.YarnRuntimeException:Failedtoinitializecontainerexecutoratorg.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:192)at
作者:编程之家 时间:2022-09-05
wind本地MySQL数据到hive的指定路径,Could not create file
一:使用:kettle:wind本地MySQL数据到hive的指定路径二:问题:没有root写权限网上说的什么少jar包,我这里不存在这种情况,因为我自己是导入jar包的:mysql-connector-java-5.1.22-bin.jar我是从wind本地MySQL导数据到hive的指定路径,会出现2019/10/1419:27:13-Hadoopfileoutput.
作者:编程之家 时间:2022-09-05
安装配置hadoop
一.配置javahome由于我的java系统是已经安装完毕,而且是1.8版本满足hadoop要求,只要将javahome指向安装的目录即可先要取得java的安装目录先取得java命令路径,命令路径头就是java的安装目录ll了两次都是软链接,最后在/usr/lib...下找到了java的目录,目录我们只要复制到jre即可,多了少
作者:编程之家 时间:2022-09-05
java-AWS EMR上的avro错误
我正在使用使用avro进行传输的spark-redshift(https://github.com/databricks/spark-redshift).从Redshift读取是可以的,而在写入时Causedby:java.lang.NoSuchMethodError:org.apache.avro.generic.GenericData.createDatumWriter(Lorg/apache/avro/Schema;)Lorg/apache/avro
作者:编程之家 时间:2022-09-05
java-仅当尝试打开假定的缓存文件时,Hadoop 2 IOException
我最近更新为hadoop2.2(使用本教程here).我的主要工作类别如下所示,并抛出IOException:importjava.io.*;importjava.net.*;importjava.util.*;importjava.util.regex.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.
作者:编程之家 时间:2022-09-05
java-显示ls的Hadoop hdfs:`/ home / hduser / input /’:没有这样的文件或目录错误
我已经使用This教程在单台机器上安装了Hadoop2.6.我正在使用Ubuntu12.04计算机和Java版本1.6.0_27.我已经为Hadoop操作创建了单独的用户作为hduser.我已将HADOOP_HOME环境变量的值设置为/usr/local/hadoop,在其中提取了Hadoop发行版.现在,我正在跟踪example.但是,当我执行命令
作者:编程之家 时间:2022-09-05
wind本地MySQL数据到hive的指定路径
一:使用:kettle:wind本地MySQL数据到hive的指定路径二:问题:没有root写权限网上说的什么少jar包,我这里不存在这种情况,因为我自己是导入jar包的:mysql-connector-java-5.1.22-bin.jar我是从wind本地MySQL导数据到hive的指定路径,会出现2019/10/1419:27:13-Hadoopfileoutput.
作者:编程之家 时间:2022-09-05
大数据-hdfs技术
hadoop理论基础:GFS----HDFS;MapReduce---MapReduce;BigTable----HBase项目网址:http://hadoop.apache.org/下载路径:https://archive.apache.org/dist/hadoop/common/主要模块HadoopCommon基础型模块。包括RPC调用,Socket通信...HadoopDistributedFileSystemhdfs分
作者:编程之家 时间:2022-09-05
Hadoop运行环境搭建
安装hadoop2.7.2解压(/opt/software->/opt/module)tar-zxvf/hadoop-2.7.2.tar.gz-C/opt/module环境变量sudovim/etc/profileexportHADOOP_HOME=/opt/module/hadoop-2.7.2exportPATH=$PATH:$HADOOP_HOME/bin:exportPATH=$PATH:$HADOOP_HOME/sbin配置立即生效
作者:编程之家 时间:2022-09-05
Java-Hadoop-工作统计
我使用hadoop在集群上运行map-reduce应用程序.这些工作大约需要10个小时才能每天完成.我想知道每项工作所花费的时间,以及最长的工作等所花费的时间.因此,我可以优化这些工作.是否有任何插件或脚本可以做到这一点?谢谢巴拉解决方法:看一下http://:50030或http://:50030/jobhistory.j
作者:编程之家 时间:2022-09-05
上一页
3
4
5
6
7
8
9
10
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native