手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark SQL整合hive
SparkSQLSparkSQL整合Hive1.修改Hive配置文件hive-site.xml2.将hive-site.xml复制到sparkconf目录下3.启动hive元数据服务4.将mysql驱动包复制到saprkjars目录下5.启动SparkSQL案例SparkSQL整合Hive1.修改Hive配置文件hive-site.xml在Hive的conf
作者:编程之家 时间:2022-09-04
099-Spark-源码-SparkSubmit
SparkSubmit--main --doSubmit //解析参数 --parseArguments //master=>--master=>yarn //mainClass=>--class=>SparkPi(WordCount) --parse --submit --doRunMain --runMain //(childArgs,chil
作者:编程之家 时间:2022-09-04
19 Spark on 动态加载属性
Sparkprovidesthreelocationstoconfigurethesystem:Sparkproperties controlmostapplicationparametersandcanbesetbyusinga SparkConf object,orthroughJavasystemproperties.Environmentvariables canbeusedtosetper-machinesettings,suc
作者:编程之家 时间:2022-09-04
094-Spark-RDD-累加器
累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。
作者:编程之家 时间:2022-09-04
chapter4 批处理系统Spark
目录1设计思想1.1MapReduce的局限性1.2数据模型1.3计算模型2体系架构2.1架构图2.2应用程序执行流程3工作原理3.1Stage划分3.2Stage内部数据传输3.3Stage之间数据传输3.4应用与作业4容错机制4.1RDD持久化4.2故障恢复4.3检查点Spark最初的设计目标是基于内存计算的
作者:编程之家 时间:2022-09-04
Spark性能调优知识点分享
1、大数据性能调优的本质编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行的,并且基于此进行算法实现和性能调优,最后都是回到了硬件!在大数据
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 Scala面向对编程 模式匹配
最常见的模式匹配是match语句,match语句用在当需要从多个分支中进行选择的场景。 通配符_相当于Java中的default分支。match结构中不需要break语句来跳出判断,Scala从前往后匹配到一个分支后,会自动跳出判断。另外在模式匹配的case语句中可以使用变量valcoloNum=4val
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 函数定义 占位符语法
为了让函数字面量更加简洁,我们可以使用下划线作为一个或多个参数的占位符只要每个参数在函数字面量内仅出现一次下面给出一个示例:valnumList=List(-3,-5,1,6,9)numList.filter(x=>x>0)numList.filter(_>0) 由于运行结果可以看到:x=>x>0与_>0是等价的
作者:编程之家 时间:2022-09-04
架构
namenodedatanode yarn spark flink
作者:编程之家 时间:2022-09-04
Centos8下安装Spark
1、下载压缩包 命令:wgethttps://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz2、解压缩包 命令:tar-xzvfscala-2.11.8.tgz3、环境变量配置exportJAVA_HOME=/opt/java/jdk1.8.0_301exportHADOOP_HOME=/opt/Hadoop/hadoop-2.7.3exportHADOOP_CONF_DIR
作者:编程之家 时间:2022-09-04
大数据数仓面试流程和重点面试题
一、自我介绍看简历+表达能力2-3分钟左右(学历、参加工作、爱好、特长)二、项目背三、数据仓库1、以数仓为中心不要直接上来说ods、dwd、dws、ads2、范式建模与维度建模的方式区别3、主题划分是否合适4、事实表与维度表的介绍有多少张,哪些缓解进行度量5、总结矩阵6、变
作者:编程之家 时间:2022-09-04
088、Spark-RDD-持久化&缓存
1、RDDCache缓存RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action算子时,该RDD将会被缓存在计算节点的内存中,并供后面重用。缓存有可能丢失,或者存储于内存的数据由于内存
作者:编程之家 时间:2022-09-04
Spark数据倾斜处理
一、数据倾斜产生的原因sparkjob中绝大多数task执行得非常快,但个别task执行缓慢。或者原本线上运行的job是正常,但在某天由于特殊原因报出OOM的异常,观察发现是因为代码本身造成的。一般来说,发生数据倾斜是在程序进行shuffle的时候,必须将各个节点上相同的key拉取到某个节
作者:编程之家 时间:2022-09-04
Spark的Driver和Executor
Spark框架有两个核心组件:Driver和ExecutorDriver:驱动整个应用运行起来的程序,也叫Driver类将用户程序转化为作业(job)在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况Executor:SparkExecutor是集群中工作节点(Worker)中的一个
作者:编程之家 时间:2022-09-04
Hanlp分词器(通过spark)
这里主要是对内容数据进行标签处理这里我们是用分词器是HanLPHanLP是哈工大提供的一种中文分词的工具,因为他支持JavaAPI这里我们使用spark+hanlp进行中文分词1、准备工作##1.在hdfs创建目录用于存放hanlp的数据[root@hadoop~]#hdfsdfs-mkdir-p/commonlp/
作者:编程之家 时间:2022-09-04
Spark makeRDD方法本地Task的默认分区数
注意setMaster("local")和setMaster("local[*])的分区数是不一样的。*会匹配所有的cpu核数。 importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectSeq_Partition_04{defmain(args:Array[String]):Unit={valsparkConf
作者:编程之家 时间:2022-09-04
Spark实验1_Linux系统的安装和常用命令
实验1Linux系统的安装和常用命令 一、实验目的(1)掌握Linux虚拟机的安装方法。Spark和Hadoop等大数据软件在Linux操作系统上运行可以发挥最佳性能,因此,本教程中,Spark都是在Linux系统中进行相关操作,同时,下一章的Scala语言也会在Linux系统中安装和操作。鉴于目前很
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 函数定义 函数的类型和值
函数字面量:字面量包括整数字面量、浮点数字面量、布尔型字面量、字符字面量、字符串字面量、符号字面量、函数字面量和元组字面量 函数字面量可以体现函数式编程的核心理念:在函数式编程中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作,也就是
作者:编程之家 时间:2022-09-04
java maven开发spark demo程序
在完成spark环境安装部署之后,部署过程这里略过,就可以通过java开发spark程序了。1.添加程序依赖<dependencies><!--spark-corespark核心--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12<
作者:编程之家 时间:2022-09-04
使用spark从kafka读取数据写入ES
0.前情提要简略学习elasticsearch-简书并增加mapping字段timestampPUT/danmaku/_mapping{"properties":{"timestamp":{"type":"date","index":false}}}1.添加maven依赖<dependency>
作者:编程之家 时间:2022-09-04
spark中生成RDD时分区规则是怎样的?只需要看getPartitions方法的逻辑就可以了
org.apache.spark.rdd.ParallelCollectionRDD#getPartitionsorg.apache.spark.rdd.HadoopRDD#getPartitions 需要注意的是getPartitions方法的触发时机是在行动算子执行的时候触发:
作者:编程之家 时间:2022-09-04
Spark工作原理
Spark简介SparkStreaming基于SparkCore实现了可扩展、高吞吐和容错的实时数据流处理。现在支持的数据源有Kafka、Flume、Twitter、ZeroMQ、Kinesis、HDFS、S3和TCPsocket。处理后的结果可以存储到HDFS、Database或者Dashboard中。SparkStreaming是将流式计算分解成一系列短
作者:编程之家 时间:2022-09-04
089、Spark-RDD-检查点
所谓的检查点其实就是通过将RDD中间结果写入磁盘由于血缘依赖过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果检查点之后有节点出现问题,可以从检查点开始重做血缘,减少了开销。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。缓存和检查点
作者:编程之家 时间:2022-09-04
Spark
一、Spark初始化Spark初始化主要是要创建一个SprakContext实例,该实例表示与spark集群的连接。可以通过多种方式创建。SparkContext直接使用SparkContext类创建一个spark上下文,主要参数是指定master和appName。frompysparkimportSparkContextsc=SprakContext(master=
作者:编程之家 时间:2022-09-04
电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)
项目描述某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:双十一期间,最受消费
作者:编程之家 时间:2022-09-04
在Spark Scala/Java应用中调用Python脚本,会么?
摘要:本文将介绍如何在Sparkscala程序中调用Python脚本,Sparkjava程序调用的过程也大体相同。本文分享自华为云社区《【Spark】如何在SparkScala/Java应用中调用Python脚本》,作者:小兔子615。1.PythonRunner对于运行与JVM上的程序(即Scala、Java程序),Spark提供了Python
作者:编程之家 时间:2022-09-04
Spark分区
默认采用的是Hash分区缺点:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据Ranger分区要求RDD中的KEY类型必须可以排序自定义分区根据需求,自定义分区
作者:编程之家 时间:2022-09-04
六十三、Spark-读取数据并写入数据库
支持的数据源-JDBC需求说明:使用Spark流式计算将数据写入MySQL,并读取数据库信息进行打印文章目录支持的数据源-JDBC项目主体架构pom.xml依赖创建数据库业务逻辑完整代码程序运行项目总结项目主体架构pom.xml依赖<?xmlversion="1.0"encoding="UTF-8"
作者:编程之家 时间:2022-09-04
Ubuntu集成Spark
Ubuntu集成Sparkdockerubuntu下载jdk:在opt里创建两个目录:software和modulessoftware用来存放安装包,modules用来存放解压后的文件首先用命令在官网下载jdk:wget'https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz'解压到modules目录下,可以给它
作者:编程之家 时间:2022-09-04
数据中台架构
基础设施HDP+私有云+k8s/docker存储组件Hadoop/hive/ELK/GP/Tidb/hbase/kudu离线ETLHQL/spark/presto/kettle实时ETLKafka/cdc/flink/sparkstreamingOLAP分析Kylin/clickhouse/BI数据仓库建模kimball/inmon建模基于sap/wms/crm;sap(mm/sd/fico)流程Od
作者:编程之家 时间:2022-09-04
上一页
85
86
87
88
89
90
91
92
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native