Hadoop - 编程之家

1安装JDK官网：https://www.oracle.comechnetwork/java/javase/downloads/jdk8-downloads-2133151.html镜像：https:/epo.huaweicloud.com/java/jdk/首先下载jdklinux安装包jdk-11_linux-x64_bin.tar.gz上传到linux服务器jdk解压修改jdk文件夹名修改配置文件

作者：编程之家时间：2022-09-05

python – pyspark错误：AttributeError：’SparkSession’对象没有属性’parallelize’

我在Jupyter笔记本上使用pyspark.以下是Spark设置的方式：importfindsparkfindspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive',python_path='python2.7')importpysparkfrompyspark.sqlimport*sc

作者：编程之家时间：2022-09-05

java – 如何设置HTTP源来测试Flume设置？

我是Flume和Hadoop的新手.我们正在开发一个BI模块,我们可以在HDFS中存储来自不同服务器的所有日志.为此,我使用Flume.我刚刚开始尝试.成功创建了一个节点,但现在我愿意设置一个HTTP源和一个接收器,它将通过HTTP将传入的请求写入本地文件.任何建议？提前致谢/解决方法:希望这有助于

作者：编程之家时间：2022-09-05

Sqoop：无法加载mysql驱动程序异常

我在本地机器上安装了Sqoop.以下是配置信息.Bash.bashrc：exportHADOOP_HOME=/home/hduser/hadoopexportHBASE_HOME=/home/hduser/hbaseexportHIVE_HOME=/home/hduser/hiveexportHCAT_HOME=/home/hduser/hive/hcatalogexportSQOOP_HOME=/home/hduser/sqoopexportPATH=

作者：编程之家时间：2022-09-05

hadoop学习笔记九：mr2HA高可用环境搭建及处步使用

本文原创，如需转载，请注明原文链接和作者现结点的配置情况 1、单节点的yarn管理的配置需要配置mapread-site.xmlConfigureparametersasfollows:etc/hadoop/mapred-site.xml:#mapread-site.xml<configuration><property><name>mapreduce.framework.name<

作者：编程之家时间：2022-09-05

【Hadoop】linux安装mysql

官网下载地址https://dev.mysql.com/downloads/file/?id=471503本文所用MySQL版本为5.7.19;上传包将mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar安装包上传到/opt/soft目录（此目录可以自定义）,采用rz命令；[root@bigdata112conf]#rz若不存在rz命令，可以用yum进行安

作者：编程之家时间：2022-09-05

Hadoop组成架构

Hadoop是apache用来“处理海量数据存储和海量数据分析”的分布式系统基础架构，更广义的是指hadoop生态圈。Hadoop的优势高可靠性：hadoop底层维护多个数据副本，即使某个计算单元故障，也不会导致数据丢失。高扩展性：天然支持分布式，可方便的扩展至几千个节点。高容错性：能

作者：编程之家时间：2022-09-05

mysql-sqoop merge-key创建多个零件文件,而不是一个不能使用merge-key的文件

理想情况下,当我们在不使用merge-key的情况下运行增量文件时,它将创建带有附加数据集的新文件,但是如果我们使用merge-key,则它将创建新的整个数据集,包括仅在一个文件中的先前数据集.但是当我在sqoop工作中使用增量追加时,我没有得到一个零件文件.以下是我的步骤：1)初始数据：mysq

作者：编程之家时间：2022-09-05

beeline链接hive报错

看问题：beeline连接hiveserver2报错。连接串：hive --servicebeeline-ujdbc:hive2://s1:10000/hive错误：Error:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://s1:10000/hive:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.

作者：编程之家时间：2022-09-05

三、hadoop用户认证--kerberos

一、HDFS权限问题：默认情况下，HDFS的权限认证是开启的，通过在hdfs-site.xml中设置dfs.permissions为true或者false来开启、关闭。所以当客户端进入hdfs的用户没有权限时，是无法对hdfs进行操作的。这时候可通过下面几种方式绕开认证。1、在java代码中设置hadoop用户为rootSystem.se

作者：编程之家时间：2022-09-05

Hadoop和Python：禁用排序

我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定哪个)都会在reducer.py打印输出之前对我的输出进行排序.目前,它似乎是按字母数字排序的.我想知道是否有一种方法可以完全禁用此功能.我想要基于从mapper.py打印的顺序的程序输出.我在Java中找到了答案,但

作者：编程之家时间：2022-09-05

java-如何在扩展中存储输出

我正在尝试将管道输出到不同的目录,以使每个目录的输出将基于某些ID进行存储.因此,在普通地图精简代码中,我将使用MultipleOutputs类,并在精简器中执行类似的操作.protectedvoidreduce(finalSomeKeykey,finalIterable<SomeValue>values,finalContextconte

作者：编程之家时间：2022-09-05

java-创建外部表配置单元,位置内部包含多个文件

CREATEEXTERNALTABLEIFNOTEXISTSLOGS(LGACTSTRING,NTNAMESTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/user/hive/warehouse/LOGSest';我每天都在“测试”文件夹下写入文件.例如：/user/hive/warehouse/LOGSest/20170420/user/

作者：编程之家时间：2022-09-05

Centos6.5安装部署Hive

前提：虚拟机可以上网，hadoop集群搭建成功并且启动。注意：每行代码所执行的路径。一、安装MySQL1、在线安装MySQLyuminstallmysql-server安装完成2、启动MySQL服务servicemysqldstart3、设置MySQLroot用户密码（1）、默认没有密码，所以直接进入MySQL按回车即可

作者：编程之家时间：2022-09-05

java-Hadoop：减速器的数量不等于我在程序中设置的数量

我已经在mapred-site.xml中将mapred.tasktracker.reduce.tasks.maximum设置为10,并且在我的工作中也写了jobConf.setNumReduceTasks(5).如果我在Shell中运行该工作,一切正常.但是当我通过日食运行相同的工作时,仅启动了一个减速器.我尝试在Eclipse中编辑Map/Reduce位置,并将ma

作者：编程之家时间：2022-09-05

python-PySpark安装错误

我已按照包括this、this、this和this在内的各种博客文章中的说明在笔记本电脑上安装pyspark.但是,当我尝试从终端或jupyter笔记本电脑使用pyspark时,我一直收到以下错误.我已经安装了所有必要的软件,如问题底部所示.我已将以下内容添加到我的.bashrc中functionsjupyter_init()

作者：编程之家时间：2022-09-05

如何使用python pyhs2连接到配置单元？

我正在尝试使用pyhs2访问蜂巢.我尝试了以下代码：example.pyimportpyhs2conn=pyhs2.connect(host='localhost',port=10000,authMechanism=None,user=None,password=None,database='default')withconn.cursor()ascur:cur.execute("select*fromt

作者：编程之家时间：2022-09-05

linux-在HDFS上存储文件的命令

介绍HadoopNameNode和三个DataNode已安装并正在运行.下一步是向HDFS提供文件.已执行以下命令：hadoopfs-copyFromLocalubuntu-14.04-desktop-amd64.isocopyFromLocal:`.':Nosuchfileordirectory和hadoopfs-putubuntu-14.04-desktop-amd64.isoput:`.':Nosuch

作者：编程之家时间：2022-09-05

01.Linux基础

一、Linux基础Linux是一套免费试用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工作软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络核心的设计思想，是一个性能稳定的多用户

作者：编程之家时间：2022-09-05

Yarn Nodemanager启动不了报YarnRuntimeException: Failed to initialize container executor error=13 权限不够

1、现象：有一个节点的NodeManager启动不了。后台报错日志如下：org.apache.hadoop.yarn.exceptions.YarnRuntimeException:Failedtoinitializecontainerexecutoratorg.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:192)at

作者：编程之家时间：2022-09-05

wind本地MySQL数据到hive的指定路径,Could not create file

一:使用:kettle:wind本地MySQL数据到hive的指定路径二:问题:没有root写权限网上说的什么少jar包,我这里不存在这种情况,因为我自己是导入jar包的:mysql-connector-java-5.1.22-bin.jar我是从wind本地MySQL导数据到hive的指定路径,会出现2019/10/1419:27:13-Hadoopfileoutput.

作者：编程之家时间：2022-09-05

安装配置hadoop

一.配置javahome由于我的java系统是已经安装完毕，而且是1.8版本满足hadoop要求，只要将javahome指向安装的目录即可先要取得java的安装目录先取得java命令路径，命令路径头就是java的安装目录ll了两次都是软链接，最后在/usr/lib...下找到了java的目录，目录我们只要复制到jre即可，多了少

作者：编程之家时间：2022-09-05

java-AWS EMR上的avro错误

我正在使用使用avro进行传输的spark-redshift(https://github.com/databricks/spark-redshift).从Redshift读取是可以的,而在写入时Causedby:java.lang.NoSuchMethodError:org.apache.avro.generic.GenericData.createDatumWriter(Lorg/apache/avro/Schema;)Lorg/apache/avro

作者：编程之家时间：2022-09-05

java-仅当尝试打开假定的缓存文件时,Hadoop 2 IOException

我最近更新为hadoop2.2(使用本教程here).我的主要工作类别如下所示,并抛出IOException：importjava.io.*;importjava.net.*;importjava.util.*;importjava.util.regex.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.

作者：编程之家时间：2022-09-05

java-显示ls的Hadoop hdfs：`/ home / hduser / input /’：没有这样的文件或目录错误

我已经使用This教程在单台机器上安装了Hadoop2.6.我正在使用Ubuntu12.04计算机和Java版本1.6.0_27.我已经为Hadoop操作创建了单独的用户作为hduser.我已将HADOOP_HOME环境变量的值设置为/usr/local/hadoop,在其中提取了Hadoop发行版.现在,我正在跟踪example.但是,当我执行命令

作者：编程之家时间：2022-09-05

wind本地MySQL数据到hive的指定路径

一:使用:kettle:wind本地MySQL数据到hive的指定路径二:问题:没有root写权限网上说的什么少jar包,我这里不存在这种情况,因为我自己是导入jar包的:mysql-connector-java-5.1.22-bin.jar我是从wind本地MySQL导数据到hive的指定路径,会出现2019/10/1419:27:13-Hadoopfileoutput.

作者：编程之家时间：2022-09-05

大数据-hdfs技术

hadoop理论基础：GFS----HDFS；MapReduce---MapReduce；BigTable----HBase项目网址：http://hadoop.apache.org/下载路径：https://archive.apache.org/dist/hadoop/common/主要模块HadoopCommon基础型模块。包括RPC调用，Socket通信...HadoopDistributedFileSystemhdfs分

作者：编程之家时间：2022-09-05

Hadoop运行环境搭建

安装hadoop2.7.2解压(/opt/software->/opt/module)tar-zxvf/hadoop-2.7.2.tar.gz-C/opt/module环境变量sudovim/etc/profileexportHADOOP_HOME=/opt/module/hadoop-2.7.2exportPATH=$PATH:$HADOOP_HOME/bin:exportPATH=$PATH:$HADOOP_HOME/sbin配置立即生效

作者：编程之家时间：2022-09-05

Java-Hadoop-工作统计

我使用hadoop在集群上运行map-reduce应用程序.这些工作大约需要10个小时才能每天完成.我想知道每项工作所花费的时间,以及最长的工作等所花费的时间.因此,我可以优化这些工作.是否有任何插件或脚本可以做到这一点？谢谢巴拉解决方法:看一下http：//：50030或http：//：50030/jobhistory.j

作者：编程之家时间：2022-09-05