Spark - 编程之家

Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。日志一般会通过Kafka等有容错保障的源发送，本实验为了简化，直接将Syslog通过Socket源发送。新建一个终端，执行如下命令：$tail-n+1-f/var/log/syslog|nc-lk9988“tail-n+1-f/var/

作者：编程之家时间：2022-09-04

spark-------------RDD 转换算子-----value类型(二)

引言接上一篇博客正文sample函数签名:defsample(withReplacement:Boolean,fraction:Double,seed:Long=Utils.random.nextLong):RDD[T]函数说明:根据指定的规则从数据集中抽取数据案例:随机抽取数字packagecom.xiao.spark.core.rdd.operator.tranformimport

作者：编程之家时间：2022-09-04

学习进度笔记13

今天完成了老师布置的spark实验4的第一部分，使用的是之前未接触过的编程方式，格式也有很大不同。实验4RDD编程初级实践一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.1.0

作者：编程之家时间：2022-09-04

在IDEA上运行spark时遇到的Q&A

解决：缺少winutils.exe程序。Hadoop都是运行在Linux系统下的，在windows下的IDEA中运行mapreduce程序，要首先安装Windows下运行的支持插件。注意下载的winutils.exe要和你hadoop版本一致。①：下载winutils.exe。hadoop-2.6.5至hadoop-3.2.1的winutils.exe见：https://github.c

作者：编程之家时间：2022-09-04

spark 1.6 和spark 2.0读写csv文件

如果是spark1.6.0请添加maven： <dependency> <groupId>com.databricks</groupId> <artifactId>spark-csv_2.10</artifactId> <version>1.4.0</version> <scope>compile&

作者：编程之家时间：2022-09-04

Spark实验五

json数据{"id":1,"name":"Ella","age":36}{"id":2,"name":"Bob","age":29}{"id":3,"name":"Jack","age":29}{"id":4,&quo

作者：编程之家时间：2022-09-04

spark 启动thrift server实现hive on spark

在spark的conf下创建hive-site.xml不过在CDH中，hive是默认为hiveonspark的，而不是mr新增下面内容：<configuration><property><name>hive.metastore.client.connect.retry.delay<ame><value>5</value></property>&l

作者：编程之家时间：2022-09-04

【Spark】Spark Stream读取kafka写入kafka报错 AbstractMethodError

1.概述根据这个博客【Spark】Spark2.4Stream读取kafka写入kafka报错如下Exceptioninthread"main"java.lang.AbstractMethodError atorg.apache.spark.internal.Logging$class.initializeLogIfNecessary(Loggin

作者：编程之家时间：2022-09-04

spark学习进度25SparkCore实战案例

词频统计：要求：统计HarryPotter.txt文件中出现最多单词前十位内容样例：代码及结果：@Test//词频统计defWordCount():Unit={valconf=newSparkConf().setMaster("local[6]").setAppName("wordCount")valsc=newSparkContext(conf)valresult=sc.t

作者：编程之家时间：2022-09-04

Spark ~ RDD总结

Spark~RDD总结TRANSFORMATION型RDDVALUE类型--1map(func)flatMap(func)map(func)与flatMap(func)区别mapPartitionsWithIndex(func)mapPartitions()map()和mapPartition()的区别glom()groupBy(func)filter(func)sample(withReplacement,fraction,seed)distin

作者：编程之家时间：2022-09-04

Spark SQL入门到实战之8数据倾斜优化

1.自定义UDF1、依赖<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http

作者：编程之家时间：2022-09-04

spark executor内存各部分使用计算

转载链接：https://blog.csdn.net/wypblog/article/details/104935712/ 我们都知道Spark能够有效的利用内存并进行分布式计算，其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用Spark，深入地理解其内存管理模型具有非常重要的意义，这有助于我们对Spark进行更

作者：编程之家时间：2022-09-04

图解spark-local模式运行原理

local部署模式首先spark运行时有4个角色，如下：Driver:应用驱动程序,是spark集群的客户Master：Spark的主控节点，是spark集群的老板Worker：Spark的工作节点，是集群的各个节点主管Executor：Spark的工作进程，由worker监管，负责具体任务的执行简单local模式运行流程（无集群）我们先看

作者：编程之家时间：2022-09-04

Spark/Scala实现推荐系统中的相似度算法欧几里得距离、皮尔逊相关系数、余弦相似度：附实现代码

在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如对于人就是性别、年龄、工作、收入、喜好等，找出与这个人或物品相似的人或物，当然实际处理中参考的因子会复杂的多。本

作者：编程之家时间：2022-09-04

spark的standalone模式下：查看任务结束后的历史记录

我想说4040端口太坑了，我运行wodcount案例，时间那么短，想去4040里查看任务具体运行情况，根本不可能。spark程序运行完毕后，就再无法通过4040端口看到什么了。今天我们通过修改spark的一些配置文件，使得我们的程序运行结束后，依然能够查看，并且通过WEBUI页面，可以看到一些详细内容，这对于我们

作者：编程之家时间：2022-09-04

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为，在给定的数据集中（数据集中的每个元素有可被观察的n个属性），使用聚类算法将数据集划分为k个子集，并且要求每个子集内部的元素之间的差异度尽

作者：编程之家时间：2022-09-04

Delta Lake 测试案例

DeltaLake测试案例参考：官网，调研传送门本篇我将写几个测试用例，来测试其功能，我这里使用sbt去创建项目，数据落盘到我本地电脑一、创建项目：组件版本sbt1.4.2scala2.12.10Spark3.0.0DeltaLake0.7.0build.sbt文件name:="DaltaLake"version:="0.1"scalaVersion:="2.1

作者：编程之家时间：2022-09-04

解决spark-submit的There is insufficient memory for the Java Runtime Environment to continue.老顽固问题 fa

Q：第一次提交wordcount案例，OK，一切正常。再次提交，出现下述错误。完整错误粘贴如下：21/01/2714:55:48INFOspark.SecurityManager:Changingmodifyaclsgroupsto:21/01/2714:55:48INFOspark.SecurityManager:SecurityManager:authenticationdisabled;uiaclsdisabled;

作者：编程之家时间：2022-09-04

Spark executor中task的数量与最大并发数

每个task处理一个partition，一个文件的大小/128M就是task的数量Task的最大并发数当task被提交到executor之后，会根据executor可用的cpu核数，决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个executor可用cpu核数为8，那么一个executor中最多

作者：编程之家时间：2022-09-04

初始Spark

参考网址：https://www.cnblogs.com/qingyunzong/p/8886338.htmlSpark是基于内存的计算框架1.为什么要学习Spark?可以解决迭代计算，融入hadoop生态圈，弥补mr计算框架的不足2.特点(1)speed速度快基于内存计算，使用有向无环图(DAG)程序调度，查询优化器，物理执行器。速度比mr快100倍

作者：编程之家时间：2022-09-04

Spark-Shell编程

Spark-Shell编程进入Spark-shell模式bin/spark-shell--masterlocal[6]#本地运行WordCount案例读取文件valrdd1=sc.textFile("file:///export/wordcount.txt") #读取本地文件valrdd1=sc.textFile("hdfs:/ode01:8020/wordcount.txt") #读取hdfs文件分割展平va

作者：编程之家时间：2022-09-04

python使用pyspark连接MySQL出错 java.sql.SQLException: No suitable driver

本文转载：https://blog.csdn.net/helloxiaozhe/article/details/81027196主要报错信息：pyspark连接MySQL出错py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo26.load.:java.sql.SQLException:Nosuitabledriver解决方法（1）错误提示：UsingSpark'sdefau

作者：编程之家时间：2022-09-04

Spark推荐系统实践

推荐系统是根据用户的行为、兴趣等特征，将用户感兴趣的信息、产品等推荐给用户的系统，它的出现主要是为了解决信息过载和用户无明确需求的问题，根据划分标准的不同，又分很多种类别：根据目标用户的不同，可划分为基于大众行为的推荐引擎和个性化推荐引擎根据数据之间的相关性，可划分为基

作者：编程之家时间：2022-09-04

2021大数据学习路线基于自身技术栈

大数据学习最好有一门语言基础，Java和python最好。学习资料的话，推荐阿里云社区的课程和B站上尚硅谷的免费课程。学习过程中，结合着大数据组件的官方文档对自己理解不了和模糊的地方，做一个补充。数仓和spark分析这块，最好结合这业务来，多加联系加深影响。https://developer.aliyun

作者：编程之家时间：2022-09-04

spark集群yarn模式提交报错

spark集群yarn模式提交报错spark集群在yarn-cluster模式运行时报错，但是在yarn-client和Standalone模式上运行没有问题，这是啥原因网上搜索说是scala和spark版本不对应，但明明别的模式都能运行，百思不得其解，求解~~~~~~

作者：编程之家时间：2022-09-04

MLlib算法简介

之前Mahout或者自己写的MR来解决复杂的机器学习，导致效率低，Spark特别适合迭代式的计算，这正是机器学习算法训练所需要的，MLlib是基于spark之上算法组件，基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了，分类回归、聚类、关联规则、推荐、降维、优化、特征抽取

作者：编程之家时间：2022-09-04

Caused by: java.sql.SQLException: Can‘t call commit when autocommit=true 踩坑

在使用spark将hive中的数据导出到Mysql的时候遇到这个一个错误Causedby:java.sql.SQLException:Can'tcallcommitwhenautocommit=trueatcom.mysql.jdbc.SQLError.createSQLException(SQLError.java:934)atcom.mysql.jdbc.SQLError.createSQLExcep

作者：编程之家时间：2022-09-04

Spark算子笔记

Spark算子Transformation: map:返回一个新的RDD，经过一个新的Fun函数转换之后组成RDD=sc.parallelize（rdd）rdd2=rdd.map(fun)mapPartitions:将数据分区为单位发送到计算节点（减少网络传输，可能造成内存不足）mapPartitionsWithIndex:以分区发送处理并能获得当前分区索

作者：编程之家时间：2022-09-04

HDFS在spark中的应用

安装好HDFS环境，输入测试命令查看是否安装成功：hdfsdfs-helpspark中将mysql表存放到HDFS：defgetAsciiPartitions(ID:String,num:Int):Array[String]={varsql_partition:String=""vallist=List("0","1","2","3",&quo

作者：编程之家时间：2022-09-04