手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
spark集群运算的模式
Spark有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在Yarn和Mesos中,当然Spark还有自带的Standalone模式,对于大多数情况Standalone模式就足够了,如果企业已经有Yarn或者Mesos环境,也是很方便部署的。standalone(集
作者:编程之家 时间:2022-09-04
spark执行优化——依赖上传到HDFS(spark.yarn.jar和spark.yarn.archive的使用)
1.简述使用yarn的方式提交spark应用时,在没有配置spark.yarn.archive或者spark.yarn.jars时,看到输出的日志在输出Neitherspark.yarn.jarsnorspark.yarn.archiveisset;一段指令后,会看到不停地上传本地jar到HDFS上,内容如下,这个过程会非常耗时。可以通过在spark-defaults.c
作者:编程之家 时间:2022-09-04
spark报错总结+我的解决方法
Spark报错总结+解决方法java.lang.NoSuchMethodError:scala.Product.init
作者:编程之家 时间:2022-09-04
Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
首先说一下,这里解决的问题应用场景:sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区?这里涉及到两种情况:selectSQL查询和加载Hive表路径的方式。这里仅就"加载Hive表路径的方式"解析分区表字段,在处理时出现的一些问题
作者:编程之家 时间:2022-09-04
大数据——GraphX之Pregel算法原理及Spark实现
GraphX之Pregel算法原理及Spark实现Pregel案例:求顶点5到其他各点的最短距离Pregel原理分析Pregel源码defpregel[A:ClassTag](initialMsg:A,maxIterations:Int=Int.MaxValue,activeDirection:EdgeDirection=EdgeDirection.Either)(
作者:编程之家 时间:2022-09-04
Spark 1
Spark概述什么是Spark回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。Hadoop与Spark框架对
作者:编程之家 时间:2022-09-04
大数据核心技术
学完大数据可以胜任什么职位?一、ETL研发企业数据种类与来源的不断增加,对数据进行整合与处理变得越来越困难,企业迫切需要一种有数据整合能力的人才。ETL开发者这是在此需求基础下而诞生的一个职业岗位。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,H
作者:编程之家 时间:2022-09-04
Kylin的实例.kylin_sales_model(Spark引擎)
1.配置Kylin的相关Spark参数1)cd$KYLIN_HOME/conf2)vimkylin.propertieskylin.engine.spark-conf.spark.master=yarnkylin.engine.spark-conf.spark.submit.deployMode=clusterkylin.engine.spark-conf.spark.yarn.queue=defaultkylin.engine.sp
作者:编程之家 时间:2022-09-04
2020-12-03
python中自定义模型提交到spark集群大数据时代,数据均采用集群存储方式,那么在应用这些数据做模型训练时,遇到的一个问题就是,如何将各种模型直接运行到spark集群,经调研发现可以通过将其进行类封装的方式实现集群运行,具体实现方式如下:1、开发环境准备:pytorch和sparktorch包必备
作者:编程之家 时间:2022-09-04
【spark】map算子n钟简化写法
文章目录一、map算子的简化写法一、map算子的简化写法如下最原始的写法,写法代码量比较多,没有更好的使用代码简化。代码如下(示例):defmain(args:Array[String]):Unit={valsparkconf=newSparkConf().setMaster("local[*]").setAppName("test")var
作者:编程之家 时间:2022-09-04
spark集群的配置文件
spark.env.sh#指定yarn的配置文件地址YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop#指定JAVA_HOMEexportJAVA_HOME=/opt/module/jdk1.8.0_261#指定SparkMaster地址exportSPARK_MASTER_HOST=hadoop102exportSPARK_MASTER_POST=7077#指定spark的运行参
作者:编程之家 时间:2022-09-04
大数据常见问题与解决方法
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException:Can'tassignrequestedaddress:Service'sparkDriver'failedafter16retries!解决方法:addexportSPARK_LOCAL_IP="127.0.0.1"tospark-env.sh2、javaKafkaproducererror:ERRORk
作者:编程之家 时间:2022-09-04
mapreduce task与spark task对比
mapreducemapreduce是多进程模型,一个job就是一个进程每个Task运行在一个独立的JVM进程中;可单独为不同类型的Task设置不同的资源量,目前支持内存和CPU两种资源;每个Task运行完后,将释放所占用的资源,这些资源不能被其他Task复用,即使是同一个作业相同类型的Task。也就是说,每个
作者:编程之家 时间:2022-09-04
spark——spark中常说RDD,究竟RDD是什么?
今天是spark专题第二篇文章,我们来看spark非常重要的一个概念——RDD。在上一讲当中我们在本地安装好了spark,虽然我们只有local一个集群,但是仍然不妨碍我们进行实验。spark最大的特点就是无论集群的资源如何,进行计算的代码都是一样的,spark会自动为我们做分布式调度工作。RDD概念介绍
作者:编程之家 时间:2022-09-04
大数据技术的概论2
1.5大数据带来多大变革1技术变革特征2管理模式变革(人力,流程,制造,市场)1)数据资产化2)决策智能化3信息技术IT向数据技术DI的转变相关资料:当地时间11月23日,世界贸易组织(WTO)发布名为《2020年世界贸易报告:数字时代促进创新的政府政策》的年度报告称,世界经济正在向数字化和信息
作者:编程之家 时间:2022-09-04
Spark3大数据实时处理-Streaming+Structured Streaming 实战
download:Spark3大数据实时处理-Streaming+StructuredStreaming实战随着云计算和大数据的快速发展,在企业中大数据实时处理场景的需求越来越多。本课针对企业级实时处理方案进行全方位的讲解,基于Spark3,在同一个项目中,学习两套实时处理的解决方案:SparkStreaming和Structured
作者:编程之家 时间:2022-09-04
任务中如何确定spark分区数、task数目、core个数、worker节点个数、executor数量
PASS spark中repartition什么分区最合适1.节点*每台核数2.hdfs块数/1283.goal文件切片那边分区数接近2000,写2000如果核数少,task数用2到3倍,文件朵的更碎,有效利用核资源2300~1000节点*每台核数太大了,>2000,写2000
作者:编程之家 时间:2022-09-04
Spark SQL 添加第三方依赖包
最近在使用sparksql执行hive语句时碰到异常信息如下:Classorg.openx.data.jsonserde.JsonSerDenotfoundException开始以为时hive环境有问题,把sql语句拿到hive环境单独跑没有问题,排除掉这项。若有问题,参考解决方案。https://www.it610.com/article/1282643683400761344
作者:编程之家 时间:2022-09-04
大数据开发技术Scala/sql进入方法总结
大数据开发技术Scala/sql进入方法总结启动Scala-Shellstart-all.shjpscdhadoop-2.9.2/sbin/start-all.shcdspark-2.4.2-bin-hadoop2.7/'abrt-clistatus'timedout[mls@master~]$ls20171024apache-tomcat-9.0.20eclipse
作者:编程之家 时间:2022-09-04
Spark流式状态管理updateStateByKey、mapWithState等
通常使用Spark的流式框架如SparkStreaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果我们要跨批次做一些数据统计,比如batch是3秒,但要统计每1分钟的用户行为,那么
作者:编程之家 时间:2022-09-04
Spark常规性能调优最优资源配置
常规性能调优一:最优资源配置Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代
作者:编程之家 时间:2022-09-04
2020年最新Spark企业级面试题【上】
前言 现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。一、Spark有几种部署方式?spark中
作者:编程之家 时间:2022-09-04
同样的SQL语句在SparkSQL中运行和在hive运行,结果不同
参考:https://blog.csdn.net/happylin0x29a/article/details/8855716问题原因:为了优化读取parquet格式文件,spark默认选择使用自己的解析方式读取数据,结果读出的数据就有问题。解决办法:将配置项spark.sql.hive.convertMetastoreParquet改为false就行了
作者:编程之家 时间:2022-09-04
错误总结
20/12/1215:49:47ERRORSparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:Systemmemory259522560mustbeatleast471859200.Pleaseincreaseheapsizeusingthe--driver-memoryoptionorspark.driver.memoryinSparkconfi
作者:编程之家 时间:2022-09-04
2020-12-12
RDDvsDataFramesvsDataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都
作者:编程之家 时间:2022-09-04
Spark 持久化机制
Spark速度非常快的原因之一,就是在不同操作中在内存中持久化(或缓存)一个数据集。当持久化一个RDD后,每一个节点都将把计算的分片结果保存在内存或磁盘中,并在对此数据集(或者衍生出的数据集)进行的其他动作(action)中重用。这使得后续的动作变得更加迅速(通常快10倍)。RDD相关的持久化和缓存
作者:编程之家 时间:2022-09-04
理解Spark运行模式一(Yarn Client)
Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。本文作为第一篇,先结合SparkPi程序来说明YarnClient方式的流程。以下是Spark中examples下的SparkPi
作者:编程之家 时间:2022-09-04
最详细10招Spark数据倾斜调优
最详细10招Spark数据倾斜调优数据量大并不可怕,可怕的是数据倾斜。数据倾斜发生的现象绝大多数task执行得都非常快,但个别task执行极慢。数据倾斜发生的原理在进行shuffle的时候,必须将各个节点上相同的key的数据拉取到某个节点上的一个task来进行处理,比如按照key
作者:编程之家 时间:2022-09-04
阿里蒋晓伟谈计算引擎Flink和Spark的对比
本文整理自云栖社区之前对阿里搜索事业部资深搜索专家蒋晓伟老师的一次采访,蒋晓伟老师,认真而严谨。在加入阿里之前,他曾就职于西雅图的脸书,负责过调度系统,TimelineInfra和Messenger的项目。而后在微软的SQLServer引擎担任过PrincipalEngineer,负责关系数据库的架构工作。2014年
作者:编程之家 时间:2022-09-04
大数据处理工具Kafka、Zk、Spark
搭建kafka和zk集群环境安装环境MAC操作系统VMware Fusion虚拟机3个centos7服务器安装虚拟机飞机票安装虚拟机Centos系统并安装Docker过程记录安装包下载https://kafka.apache.org/downloads.html服务器环境准备安装文件上传工具yum install
作者:编程之家 时间:2022-09-04
上一页
45
46
47
48
49
50
51
52
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native