手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
图的算子属性算子,结构算子,join算子,计算用户粉丝数量,joinVertices和outerJoinVertices的区别
图的算子(属性算子,结构算子,join算子,计算用户粉丝数量,joinVertices和outerJoinVertices的区别)一.图的算子1.属性算子(1)mapVertices(2)mapEdges(3)mapTriplets2.结构算子(1)reverse(2)subgraph3.Join算子(1)joinVertices(2)outerJoinVertices(3)SparkGraphX关联操作之joinVertices和outer
作者:编程之家 时间:2022-09-04
Spark开发-Spark中类型安全UDAF开发示例
Spark开发UDAF通过对源码中的示例代码进行实际演练,对各个功能进行了解,以及排除开发中的错误System.out.println();在UDAF中可以用来辅助一些判断开发示例代码`importorg.apache.spark.sql.*;importorg.apache.spark.sql.expressions.Aggregator;importjava.io.Seri
作者:编程之家 时间:2022-09-04
Spark与hadoop的区别
spark是什么?spark与hadoop的区别sparkSpark是加州大学伯克利分校AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目。Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着
作者:编程之家 时间:2022-09-04
spark sql练习之join操作
数据集如下:有两个json文件,table1.json和table2.jsontable1.json{"A":"A1","B":30,"C":1}{"A":"A2","B":31,"C":2}{"A":"A3","B":32,"C":3}{&quo
作者:编程之家 时间:2022-09-04
SparkStreaming和Flink详细对比
SparkStreaming和Flink详细对比第一部分编程模型对比1.1运行角色SparkStreaming运行时的角色(standalone模式)主要有:1)Master:主要负责整体集群资源的管理和应用程序调度;2)Worker:负责单个节点的资源管理,driver和executor的启动等;3)Driver:用户入口程序执行的
作者:编程之家 时间:2022-09-04
一条Sql的Spark之旅
背景 SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL2003标准。因此SparkSQL在大数据分析中的地位不言而喻。本文将通过分析一条SQL在Spark中的解析执行过程来
作者:编程之家 时间:2022-09-04
Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练
原文链接:http://www.dataguru.cn/article-11647-1.html摘要:现如今,深度学习是机器学习中最热门的一种方法,与此同时,它还在继续取得显著成果。深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的
作者:编程之家 时间:2022-09-04
Spark2.4.0源码scala:自动化单元测试的实现与探索
项目场景:在spark的源码中,有一个main文件夹,同时还有一个test文件夹,里面大部分是suite后缀的scala文件,这就是测试文件。通常我们编译spark源码,会skip掉test部分以加快速度,如果我们不是skip的话,完成的就是自动化测试,这个过程并不难懂,但是这个过程也并不是很简单地就能一次跑通
作者:编程之家 时间:2022-09-04
Spark文本文件输入输出
Spark文本文件输入输出1.文本文件输入输出textFile进行文本文件的读取ps:如果传递目录,则将目录下的所有文件读取作为RDDsaveAsTextFile进行文本文件的输出ps:将传入的路径作为目录对待,会在那个目录下输出多个文件2.JSON文件输入输出JSON文件中每一行就是一个JSON记
作者:编程之家 时间:2022-09-04
Spark Java版本wordCount
importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.*;importscala.Tuple2;importjava.ne
作者:编程之家 时间:2022-09-04
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
https://stackoverflow.com/questions/35652665/java-io-ioexception-could-not-locate-executable-null-bin-winutils-exe-in-the-ha9329I'mnotabletorunasimple spark jobin ScalaIDE (Mavensparkproject)installedon Windows7Sparkcorede
作者:编程之家 时间:2022-09-04
大数据——Spark数据分析及处理
Spark数据分析及处理使用Spark完成日志分析项目需求数据清洗代码展示用户留存分析代码展示活跃用户分析活跃用户地域信息分析用户浏览深度分析项目所需文件:项目文件提取码:3yuo使用Spark完成日志分析项目需求日志数据清洗用户留存分析活跃用户分析活跃用户地域信息
作者:编程之家 时间:2022-09-04
Python Spark实现协同过滤算法
PythonSpark实现协同过滤算法环境Python3.7.6CentOSLinuxrelease8.1.1911(Core)Sparkversion3.0.0Scalaversion2.12.10(JavaHotSpot(TM)64-BitServerVM,Java14.0.2)实现代码frompysparkimportSparkContext#$exampleon$frompyspark.mllib.
作者:编程之家 时间:2022-09-04
Spark —— Spark OOM Error问题排查定位
文章目录Driver端OOMError1.不适合的API调用2.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考Spark之所以能进行高性能的查询计算,主要得益于其基
作者:编程之家 时间:2022-09-04
传统数仓如何转型大数据
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边的同事经历来一起分享一下。一、数据仓库数据仓库:数据仓库
作者:编程之家 时间:2022-09-04
Spark SQL
hive和SparkSQL区别hive将SQL转为MapReduce SparkSql可以简单理解将SQL转为RDD+优化在执行spark处理数据类型Spark的RDD主要用于处理非结构化数据和半结构化数据 结构化SparkSQL中的SQL 主要用于处理结构化数据(较为规范的半结构化数据也可以处理)DataFrameD
作者:编程之家 时间:2022-09-04
Spark开发_构建TypeSafe的Dataset
Dataset的数据构建构建Dataset数据代码示例`importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Encoder;importorg.apache.spark.sql.Encoders;importorg.apache.spark.sql.SparkSession;importjava.io.Serializable;importjava.util.Arrays;impor
作者:编程之家 时间:2022-09-04
idea中spark的pom.xml配置
搬运转发原文地址:https://blog.csdn.net/longwei92/article/details/90765313<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema
作者:编程之家 时间:2022-09-04
Spark3.0.1各种集群模式搭建
对于spark前来围观的小伙伴应该都有所了解,也是现在比较流行的计算框架,基本上是有点规模的公司标配,所以如果有时间也可以补一下短板。简单来说Spark作为准实时大数据计算引擎,Spark的运行需要依赖资源调度和任务管理,Spark自带了standalone模式资源调度和任务管理工具,运行在其他资源
作者:编程之家 时间:2022-09-04
spark RDD textFile算子 分区数量详解
进入textFile原码发现分区数量调用hadoopFile中的TextInputFormat类,传入参数Key为LongWritable即偏移量,value为Text,由此得知是通过这个类来读取继续进入TextInputFormat类中发现有个是否可以切分的判断,可以知道一些不可拆分的文件由此过滤掉,可以切片拆分的文件继
作者:编程之家 时间:2022-09-04
Spark Graphx常用函数
SparkGraph定义objectSparkGraph{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local").appName("Graph").getOrCreate()valsc:SparkContext=spark.sparkContext//创建Verti
作者:编程之家 时间:2022-09-04
大规模数据处理Apache Spark开发
大规模数据处理ApacheSpark开发Spark是用于大规模数据处理的统一分析引擎。它提供了Scala、Java、Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的SparkSQL、用于机器学习的MLlib、用于图形处理的Gra
作者:编程之家 时间:2022-09-04
大数据面试之spark
大数据开发工程师面试之spark-涉及多个方面Scala的一些知识1、Scala和Java的区别对比的内容Scalajava变量声明只需要声明是val或是var,具体的类型由编译器自行推断需要在变量前面先注明变量的类型返回值申明返回值是在后面,并不需要return语句,也可以用如果有返回值,需要retur
作者:编程之家 时间:2022-09-04
minikube运行sparkPi
spark-on-k8s是spark执行任务的一种方式,当然还有spark-on-yarn等,本文讲述下spark-on-k8s的入门级操作流程,使用的是minikube来搭建单机版的k8s环境,好了废话不多说了,直接如主题:1、安装minikube环境(本文用到的是1.15.1版本)进入https://github.com/kubernetes/minikubeeleases
作者:编程之家 时间:2022-09-04
遇到问题---spark on k8s--挂载了efs的pod运行spark session 60后报java致命错误
情况我们在前面的文章中有提到过,目前sparkonk8s运行某些类型的任务时,需要共享mp目录,我们通过efs来实现了共享目录的挂载。但是可能遇到挂载了efs的pod运行sparksession60后报java致命错误的情况。pod状态如下:spark-shell-1605604907012-exec-20/1E
作者:编程之家 时间:2022-09-04
Spark的四种部署方式概括
1.Local模式Local模式就是运行在一台计算机上的模式,通常用于在本机上测试,当不设置master参数的值时,默认此模式,具体有以下几种设置master的方式。local:所有计算都运行在一个线程当中,没有任何并行计算。local[n]:指定使用n个线程来运行计算。local[*]:按照CPU的最多核数来设置线程
作者:编程之家 时间:2022-09-04
记一次奇妙的 spring-boot + spark debug 经历
------------恢复内容开始------------最近在使用spark,做了一个分词+词频统计求topK的sparkapp。为了方便使用,顺便复习一下原来的spring和java知识,把它封装成了一个spring-boot服务。本来用javamain函数+打jar包的模式运行的好好的,结果上spring-boot就炸
作者:编程之家 时间:2022-09-04
【福利】北风网大数据之spark从入门到精通一
【福利】北风网大数据之spark从入门到精通(一)北风网大数据之spark从入门到精通今天给大家带来的教程是北风网大数据spark从入门到精通,分为四个阶段:Scala编程详解、Scala编程进阶、Spark深入剖析、内存计算框架Spark,今天分享的是Scala编程详解。
作者:编程之家 时间:2022-09-04
图解Spark系列:RDD的创建与执行
设计Spark程式过程中最初始的是创建RDD数据集,该数据集来自定义的源数据,当RDD数据集初始后,再通过算子对RDD数据集作转换生成后续的数据集。Spark中提供了多种创建RDD数据集的方法,比如:通过内存集合创建、或使用本地文件创建以及HDFS文件创建RDD数据集。最常见的是第三种方式,生产环境
作者:编程之家 时间:2022-09-04
spark通过随机加前缀解决数据倾斜问题
packageday03importorg.apache.spark.sql.{DataFrame,SparkSession}//解决wordcount的数据倾斜问题object_01DataSkewDemo01{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local[2]").appName("
作者:编程之家 时间:2022-09-04
上一页
44
45
46
47
48
49
50
51
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native