Spark - 编程之家

图的算子属性算子，结构算子，join算子，计算用户粉丝数量，joinVertices和outerJoinVertices的区别

图的算子（属性算子，结构算子，join算子，计算用户粉丝数量，joinVertices和outerJoinVertices的区别）一.图的算子1.属性算子（1）mapVertices（2）mapEdges（3）mapTriplets2.结构算子（1）reverse（2）subgraph3.Join算子（1）joinVertices（2）outerJoinVertices（3）SparkGraphX关联操作之joinVertices和outer

作者：编程之家时间：2022-09-04

Spark开发-Spark中类型安全UDAF开发示例

Spark开发UDAF通过对源码中的示例代码进行实际演练，对各个功能进行了解，以及排除开发中的错误System.out.println();在UDAF中可以用来辅助一些判断开发示例代码`importorg.apache.spark.sql.*;importorg.apache.spark.sql.expressions.Aggregator;importjava.io.Seri

作者：编程之家时间：2022-09-04

Spark与hadoop的区别

spark是什么？spark与hadoop的区别sparkSpark是加州大学伯克利分校AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目。Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着

作者：编程之家时间：2022-09-04

spark sql练习之join操作

数据集如下：有两个json文件，table1.json和table2.jsontable1.json{"A":"A1","B":30,"C":1}{"A":"A2","B":31,"C":2}{"A":"A3","B":32,"C":3}{&quo

作者：编程之家时间：2022-09-04

SparkStreaming和Flink详细对比

SparkStreaming和Flink详细对比第一部分编程模型对比1.1运行角色SparkStreaming运行时的角色(standalone模式)主要有：1）Master:主要负责整体集群资源的管理和应用程序调度；2）Worker:负责单个节点的资源管理，driver和executor的启动等；3）Driver:用户入口程序执行的

作者：编程之家时间：2022-09-04

一条Sql的Spark之旅

背景 SQL作为一门标准的、通用的、简单的DSL，在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位，而Spark2.0中的SparkSQL也支持ANSI-SQL2003标准。因此SparkSQL在大数据分析中的地位不言而喻。本文将通过分析一条SQL在Spark中的解析执行过程来

作者：编程之家时间：2022-09-04

Spark +深度学习：如何使用SparkNet进行分布式深度神经网络训练

原文链接：http://www.dataguru.cn/article-11647-1.html摘要:现如今，深度学习是机器学习中最热门的一种方法，与此同时，它还在继续取得显著成果。深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的

作者：编程之家时间：2022-09-04

Spark2.4.0源码scala：自动化单元测试的实现与探索

项目场景：在spark的源码中，有一个main文件夹，同时还有一个test文件夹，里面大部分是suite后缀的scala文件，这就是测试文件。通常我们编译spark源码，会skip掉test部分以加快速度，如果我们不是skip的话，完成的就是自动化测试，这个过程并不难懂，但是这个过程也并不是很简单地就能一次跑通

作者：编程之家时间：2022-09-04

Spark文本文件输入输出

Spark文本文件输入输出1.文本文件输入输出textFile进行文本文件的读取ps:如果传递目录，则将目录下的所有文件读取作为RDDsaveAsTextFile进行文本文件的输出ps:将传入的路径作为目录对待，会在那个目录下输出多个文件2.JSON文件输入输出JSON文件中每一行就是一个JSON记

作者：编程之家时间：2022-09-04

Spark Java版本wordCount

importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.*;importscala.Tuple2;importjava.ne

作者：编程之家时间：2022-09-04

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

https://stackoverflow.com/questions/35652665/java-io-ioexception-could-not-locate-executable-null-bin-winutils-exe-in-the-ha9329I'mnotabletorunasimple spark jobin ScalaIDE (Mavensparkproject)installedon Windows7Sparkcorede

作者：编程之家时间：2022-09-04

大数据——Spark数据分析及处理

Spark数据分析及处理使用Spark完成日志分析项目需求数据清洗代码展示用户留存分析代码展示活跃用户分析活跃用户地域信息分析用户浏览深度分析项目所需文件：项目文件提取码：3yuo使用Spark完成日志分析项目需求日志数据清洗用户留存分析活跃用户分析活跃用户地域信息

作者：编程之家时间：2022-09-04

Python Spark实现协同过滤算法

PythonSpark实现协同过滤算法环境Python3.7.6CentOSLinuxrelease8.1.1911(Core)Sparkversion3.0.0Scalaversion2.12.10(JavaHotSpot(TM)64-BitServerVM,Java14.0.2)实现代码frompysparkimportSparkContext#$exampleon$frompyspark.mllib.

作者：编程之家时间：2022-09-04

Spark —— Spark OOM Error问题排查定位

文章目录Driver端OOMError1.不适合的API调用2.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考Spark之所以能进行高性能的查询计算，主要得益于其基

作者：编程之家时间：2022-09-04

传统数仓如何转型大数据

大家好，我是一哥，前几天建了一个数据仓库方向的小群，收集了大家的一些问题，其中有个问题，一哥很想去谈一谈——现在做传统数仓，如何快速转到大数据数据呢？其实一哥知道的很多同事都是从传统数据仓库转到大数据的，今天就结合身边的同事经历来一起分享一下。一、数据仓库数据仓库：数据仓库

作者：编程之家时间：2022-09-04

Spark SQL

hive和SparkSQL区别hive将SQL转为MapReduce SparkSql可以简单理解将SQL转为RDD+优化在执行spark处理数据类型Spark的RDD主要用于处理非结构化数据和半结构化数据结构化SparkSQL中的SQL 主要用于处理结构化数据(较为规范的半结构化数据也可以处理)DataFrameD

作者：编程之家时间：2022-09-04

Spark开发_构建TypeSafe的Dataset

Dataset的数据构建构建Dataset数据代码示例`importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Encoder;importorg.apache.spark.sql.Encoders;importorg.apache.spark.sql.SparkSession;importjava.io.Serializable;importjava.util.Arrays;impor

作者：编程之家时间：2022-09-04

idea中spark的pom.xml配置

搬运转发原文地址:https://blog.csdn.net/longwei92/article/details/90765313<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema

作者：编程之家时间：2022-09-04

Spark3.0.1各种集群模式搭建

对于spark前来围观的小伙伴应该都有所了解，也是现在比较流行的计算框架，基本上是有点规模的公司标配，所以如果有时间也可以补一下短板。简单来说Spark作为准实时大数据计算引擎，Spark的运行需要依赖资源调度和任务管理，Spark自带了standalone模式资源调度和任务管理工具，运行在其他资源

作者：编程之家时间：2022-09-04

spark RDD textFile算子分区数量详解

进入textFile原码发现分区数量调用hadoopFile中的TextInputFormat类,传入参数Key为LongWritable即偏移量,value为Text,由此得知是通过这个类来读取继续进入TextInputFormat类中发现有个是否可以切分的判断,可以知道一些不可拆分的文件由此过滤掉,可以切片拆分的文件继

作者：编程之家时间：2022-09-04

Spark Graphx常用函数

SparkGraph定义objectSparkGraph{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local").appName("Graph").getOrCreate()valsc:SparkContext=spark.sparkContext//创建Verti

作者：编程之家时间：2022-09-04

大规模数据处理Apache Spark开发

大规模数据处理ApacheSpark开发Spark是用于大规模数据处理的统一分析引擎。它提供了Scala、Java、Python和R的高级api，以及一个支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和DataFrames的SparkSQL、用于机器学习的MLlib、用于图形处理的Gra

作者：编程之家时间：2022-09-04

大数据面试之spark

大数据开发工程师面试之spark-涉及多个方面Scala的一些知识1、Scala和Java的区别对比的内容Scalajava变量声明只需要声明是val或是var，具体的类型由编译器自行推断需要在变量前面先注明变量的类型返回值申明返回值是在后面，并不需要return语句，也可以用如果有返回值，需要retur

作者：编程之家时间：2022-09-04

minikube运行sparkPi

spark-on-k8s是spark执行任务的一种方式，当然还有spark-on-yarn等，本文讲述下spark-on-k8s的入门级操作流程，使用的是minikube来搭建单机版的k8s环境，好了废话不多说了，直接如主题：1、安装minikube环境（本文用到的是1.15.1版本）进入https://github.com/kubernetes/minikubeeleases

作者：编程之家时间：2022-09-04

遇到问题---spark on k8s--挂载了efs的pod运行spark session 60后报java致命错误

情况我们在前面的文章中有提到过，目前sparkonk8s运行某些类型的任务时，需要共享mp目录，我们通过efs来实现了共享目录的挂载。但是可能遇到挂载了efs的pod运行sparksession60后报java致命错误的情况。pod状态如下：spark-shell-1605604907012-exec-20/1E

作者：编程之家时间：2022-09-04

Spark的四种部署方式概括

1.Local模式Local模式就是运行在一台计算机上的模式，通常用于在本机上测试，当不设置master参数的值时，默认此模式，具体有以下几种设置master的方式。local：所有计算都运行在一个线程当中，没有任何并行计算。local[n]：指定使用n个线程来运行计算。local[*]：按照CPU的最多核数来设置线程

作者：编程之家时间：2022-09-04

记一次奇妙的 spring-boot + spark debug 经历

------------恢复内容开始------------最近在使用spark，做了一个分词+词频统计求topK的sparkapp。为了方便使用，顺便复习一下原来的spring和java知识，把它封装成了一个spring-boot服务。本来用javamain函数+打jar包的模式运行的好好的，结果上spring-boot就炸

作者：编程之家时间：2022-09-04

【福利】北风网大数据之spark从入门到精通一

【福利】北风网大数据之spark从入门到精通（一）北风网大数据之spark从入门到精通今天给大家带来的教程是北风网大数据spark从入门到精通，分为四个阶段：Scala编程详解、Scala编程进阶、Spark深入剖析、内存计算框架Spark，今天分享的是Scala编程详解。

作者：编程之家时间：2022-09-04

图解Spark系列：RDD的创建与执行

设计Spark程式过程中最初始的是创建RDD数据集，该数据集来自定义的源数据，当RDD数据集初始后，再通过算子对RDD数据集作转换生成后续的数据集。Spark中提供了多种创建RDD数据集的方法，比如：通过内存集合创建、或使用本地文件创建以及HDFS文件创建RDD数据集。最常见的是第三种方式，生产环境

作者：编程之家时间：2022-09-04

spark通过随机加前缀解决数据倾斜问题

packageday03importorg.apache.spark.sql.{DataFrame,SparkSession}//解决wordcount的数据倾斜问题object_01DataSkewDemo01{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local[2]").appName(&quot

作者：编程之家时间：2022-09-04