手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark-Core RDD中数据共享
我们进行Spark进行编程的时候,初始化工作是在driver端完成的,而实际的运行程序是在executor端进行,所以就涉及到了进程间的通讯,数据是需要序列化的1、传递函数importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDobjectSerDemo{defmai
作者:编程之家 时间:2022-09-04
Spark-Core RDD依赖关系
scala>varrdd1=sc.textFile("./words.txt")rdd1:org.apache.spark.rdd.RDD[String]=./words.txtMapPartitionsRDD[16]attextFileat<console>:24scala>valrdd2=rdd1.flatMap(_.split(""))rdd2:org.apache.spark.rdd.RDD
作者:编程之家 时间:2022-09-04
spark调优篇-oom 优化(汇总)
spark之所以需要调优,一是代码执行效率低,二是经常OOM 内存溢出内存溢出无非两点:1.Driver内存不够2.Executor内存不够Driver内存不够无非两点:1.读取数据太大2.数据回传Executor内存不够无非两点:1.map类操作产生大量数据,包括map、flatMap、filter、mapPart
作者:编程之家 时间:2022-09-04
Spark RDD的弹性到底指什么
RDD(ResilienntDistributedDatasets)抽象弹性分布式数据集对于Spark来说的弹性计算到底提现在什么地方?自动进行内存和磁盘数据这两种存储方式的切换Spark可以使用persist和cache方法将任意RDD缓存到内存或者磁盘文件系统中。数据会优先存储到内存中,当内存不足以存放RDD
作者:编程之家 时间:2022-09-04
2.Spark 2.x 集群部署和测试
配置免密度登录执行ssh-keygen-trsa#建立ssh目录,一路敲回车,生成的密钥对id_rsa,id_rsa.pub,默认存储在~/.ssh目录下 chmod755.ssh#赋予755权限cd.ssh#ls–lid_rsaid_rsa.pub cat~/.ssh/id_rsa.pub>>~/.ssh/author
作者:编程之家 时间:2022-09-04
sparksql 报错Container killed by YARN for exceeding memory limits. xGB of x GB physical memory used. C
对此提高了对外内存spark.executor.memoryOverhead =4096m 重新执行sql改报下面的错误19/12/2515:49:02ERRORShuffleBlockFetcherIterator:Failedtogetblock(s)frombigdata-datanode:7339io.netty.util.internal.OutOfDirectMemoryError:failedtoallocate
作者:编程之家 时间:2022-09-04
spark阅读调试环境搭建
我是参考这边博客搭建spark环境,同时整理了一些遇到的问题准备环境从github上下载spark相关版本的代码可以通过git来下载,也可以选择相应的版本打包下载到本地,然后解压安装scala(这里选择的版本,需要根据下载的spark源码版本中依赖的scala大版本)安装jdk(jdk1.8以上,这个可以根据
作者:编程之家 时间:2022-09-04
spark 笔记4 sparkRDD
目录sparkRDD关于sparkRDD基本概念学习对于RDD的基本操作主从节点的启动spark的初始化RDD创建调用parallelize()方法并行化生成RDD使用外部存储中的数据集生成RDD正式的、RDD的基础操作总结基本编程步骤总结没有做的实践操作导入并使用jar包集成编译环境下的
作者:编程之家 时间:2022-09-04
spark异常篇-OutOfMemory:GC overhead limit exceeded
执行如下代码时报错#encoding:utf-8frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSparkSessionconf=SparkConf().setMaster('yarn')sc=SparkContext(conf=conf)spark=SparkSession(sc)rdd=spark.read.csv('/spark/gps/GPS1.
作者:编程之家 时间:2022-09-04
【SparkSQL】在IDEA中使用、创建DF、DF的操作(cache)、自定义函数、DF外部数据源(自定义)、DF与DS转换、DF/DS/RDD的区别、Catalog查看元数据信息
目录一、在IDEA中使用二、创建DF1、通过格式文件创建DF2、通过文本文件创建DF2.1、反射的方式2.2、编程的方式三、DF的操作(cache)1、常用操作2、DF的cache操作四、SparkSQL自定义函数五、DF外部数据源1、(内置)读写parquet/json/
作者:编程之家 时间:2022-09-04
编译+远程调试spark
一编译 以spark2.4hadoop2.8.4为例1,spark项目根pom文件修改 pom文件新增<profile><id>hadoop-2.8</id><properties><hadoop.version>2.8.4</hadoop.version></properties></profile>2,在sparkhome目录下执行
作者:编程之家 时间:2022-09-04
spark2.3 消费kafka数据
官网介绍http://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html#creating-a-direct-stream 案例pom.xml依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId&
作者:编程之家 时间:2022-09-04
Spark及生态圈概述(Spark基础篇一)
目录Spark介绍Spark生态组件介绍Spark特点Spark适合场景Spark与hadoop一、Spark介绍 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据
作者:编程之家 时间:2022-09-04
Spark安装
1spark安装前要有Java环境和Scala,注意spark和scala的版本一点要对应上,可以取官网查看2去官网下载spark包,下载spark-2.2.2-bin-hadoop2.7.tgz这种结构的,spark-2.2.2.tgz这是源码,安装后无法运行.3sudotar-xzvfspark-2.2.2-bin-hadoop2.7.tgz&&sudomvspark-2.2.2-b
作者:编程之家 时间:2022-09-04
安装spark遇到的问题
1.启动sparkSQL时,报错:Causedby:org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException:Thespecifieddatastoredriver("com.mysql.jdbc.Driver")wasnotfoundintheCLASSPATH.PleasecheckyourCLASSPATHspecification,a
作者:编程之家 时间:2022-09-04
Spark SQL的官网解释
一.官网位置1.位置2.解释官网位置DataSet1.6出现的SchemaRDD<1.31.3版本前叫SchemaRDD1.3以后叫DataFrameDataSet支持Scala,JAVA不支持pythonDataFrame支持四种JAVA,Scala.Python,RDataFrame:并不是sparksql独创的,原来就有的,从其他框架借鉴过来的二.
作者:编程之家 时间:2022-09-04
spark调优篇-spark on Yarn 内存管理总结
本文旨在解析sparkonYarn的内存管理,使得spark调优思路更加清晰 内存相关参数spark是基于内存的计算,spark调优大部分是针对内存的,了解spark内存参数有也助于我们理解spark内存管理spark.driver.memory:默认512Mspark.executor.memory:默认512Mspark.yarn.am.me
作者:编程之家 时间:2022-09-04
分布式深度学习Spark MLlib,Parameter Server、Ring-allreduce和Tensorflow
SparkMLlibSpark分布式计算原理Spark(分布式的计算平台),分布式:指计算节点之间不共享内存,需要通过网络通信的方式交换数据。Spark最典型的应用方式是建立在大量廉价计算节点(廉价主机、虚拟的dockercontainer)上;但这种方式区别于CPU+GPU的架构和共享内存多处理器的高性能服务器架构
作者:编程之家 时间:2022-09-04
spark集成kafka数据源
1、spark集成的KafkaUtils.createStream已经过期,这个是SparkIntegrationForKafka0.8里集成的。 替代的是SparkIntegrationForKafka0.10,已经没有createStream函数,采用createDirectStream, 区别是直连kafka服务器,而不是连接zookeeper。2、依赖<
作者:编程之家 时间:2022-09-04
Spark原理及关键技术点
SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,
作者:编程之家 时间:2022-09-04
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉
作者:编程之家 时间:2022-09-04
Spark 数据倾斜及其解决方案
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA作者简介:郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平台、移动浏览器、推荐广告和大数据、人工智能等相关开发和架构。目前在vivo智能平台中心从事A
作者:编程之家 时间:2022-09-04
spark临时表导入hive出现null
Dataset<Row>json=sparkSession.read().json(lines);//创建临时表json.createOrReplaceTempView("temp");sparkSession.sql("select*fromtemp").show()//将临时表数据写入hivesparkSession.sql("createtablefsasselect*fromtemp"
作者:编程之家 时间:2022-09-04
Spark算子
1.什么是SparkRDD算子:总的来讲RDD是Spark最小的数据抽象,每一个rdd算子都拥有五个主要的属性:1.RDD拥有一组分区2.RDD拥有计算分区数据的功能3.一组其他RDD的依赖4.对于key-value格式的RDD,可以自定义分区5.RDD更喜欢在数据本地计算数据(即移动计算而非移动数据)2.RDD算子:
作者:编程之家 时间:2022-09-04
如果你在准备面试,就好好看看这130道题
这些题目是一个知识星球的球友发给我的,其中有几个题帮着解答了一下。希望对大家有帮助。如果你不知道如何准备面试,那么看看这个。年假马上来临,我相信有不少读者都在准备或者考虑面试,无论如何不妨收藏一下。如果你某个题目不知道答案,那么就去搜一下,如果搜不到,在公众号回复【加群
作者:编程之家 时间:2022-09-04
Spark数据倾斜及解决办法
数据倾斜在执行shuffle操作过程中,map端按照key分配数据输出,reduce端同样也按照key进行拉取、聚合。通常每一个key对应的数据量不对等,经常出些某些key数据量比其他key多很多。这种现象导致的后果,轻则拖慢job执行时间(执行时间由最慢的task决定),重则直接OOM(数据量太大,处理完成
作者:编程之家 时间:2022-09-04
Spark union
比如两个rdd两个分区合并去他们的并集intersection去数据的交集subtract去差集mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器distinct去重(map+reducebykey+map)cogroup作用在keyv格式上的算子宽依赖产生shuffer也就是说
作者:编程之家 时间:2022-09-04
Spark与Hadoop相比的优点
Spark与Hadoop相比的优点4大特点首先,Spark把中间数据放到内存中,迭代运算效率高。MapReduce中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。(延迟加载)其次,Spark容错性
作者:编程之家 时间:2022-09-04
Spark VectorSlice 向量切片
1、概念VectorSlicer是一种转换器,它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。VectorSlicer接受具有指定索引的向量列,然后输出一个新的向量列,其值通过这些索引选择。索引有两种类型,整数索引,代表向量setIndices()的索引。
作者:编程之家 时间:2022-09-04
Spark DataFrame、Spark SQL、Spark Streaming入门教程
文章目录前言1、RDD、SparkDataFrame、SparkSQL、SparkStreaming2、SparkDataFrame2.1创建基本的SparkDataFrame2.2从各类数据源创建SparkDataFrame2.3SparkDataFrame持久化数据2.4Dataframe常见的API3、SparkSQL4、SparkStreaming实时计算TCP端口的数据前言
作者:编程之家 时间:2022-09-04
上一页
32
33
34
35
36
37
38
39
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native