手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark SQL 3.0 自适应执行优化引擎
在本篇文章中,笔者将给大家带来SparkSQL中关于自适应执行引擎(SparkAdaptiveExecution)的内容。在之前的文章中,笔者介绍过FlinkSQL,目前Flink社区在积极地更新迭代FlinkSQL功能和优化性能,尤其Flink1.10.0版本的发布,在增强流式SQL处理能力的同时也具备了成熟的
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 spark生态系统
在实际应用中,大数据处理主要包括以下三个类型:复杂的批量数据处理,通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间基于实时数据流的数据处理,通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时,就需要同时部署三种不同
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 spark shell
在sparkshell中运行代码:SparkShell提供了简单的方式来学习SparkAPISparkShell可以以实时、交互的方式来分析数据SparkShell支持Scala和Python一个Driver就包括main方法和分布式集群SparkShell本身就是一个Driver,里面已经包含了main方法spark-shell命令以及常用参
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 spark
1.下载安装文件:Spark安装包下载地址:http://spark.apache.org进入下载页面后,点击主页右侧的“DownloadSpark”按钮进入下载页面,下载页面中提供了几个下载选项,主要是Sparkrelease及Packagetype的选择,如下图所示。第1项Sparkrelease一般默认选择最新的发行版本,第2项pa
作者:编程之家 时间:2022-09-04
Spark SQL如何生成连续的时间序列
如上图,已知日期2022-01-01,需要获得以2022-01-01为终点的10天的连续时间序列附代码如下:selectdate_add(dateadd(to_date('20220101','yyyymmdd'),9,'dd'),a.pos)asspecial_datefrom(selectposexplode(split(repeat("",datediff(to_date('
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 RDD的依赖关系和运行过程
窄依赖与宽依赖的区别:窄依赖:表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区宽依赖:表现为存在一个父RDD的一个分区对应一个子RDD的多个分区Stage的划分: Spark通过分析各个RDD的依赖关系生成了DAG再通过分析各个RDD中的分区之间的依
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 第一个spark应用程序WorldCount
在spark-shell进行词频统计:flatMap将每一行按空格才分成为单词,map映射生成键值对,将单词计数,reduceByKey将相同单词叠加wordCount.collect()将结果汇集,针对集群结果:编写独立程序进行词频统计:新建wordCount.scala写入以下代码importorg.apache.spark.SparkContextimport
作者:编程之家 时间:2022-09-04
sparksql 指定输出的文件名
这是sparksql写入hive表指定输出文件名的自定义方式。版本:spark-2.3.2实现目的在目前的业务需求中,需要实现场景为:当往一个hive表中不断以Append的方式写入数据,需要知道哪些文件是哪一次运行后追加的文件,所以最好的方法是往输出的文件名前添加前缀,如日期,或者调度编号等。但是
作者:编程之家 时间:2022-09-04
Spark基本概念
Spark核心组件Driver将用户程序转化为作业(job)在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况 ExecutorSparkExecutor是集群中工作节点(Worker)中的一个JVM进程,负责在Spark作业中运行具体任务(Task),任务彼此之间相互独立。负责运行组成Spark应
作者:编程之家 时间:2022-09-04
来点八股文(一) 分布式理论及应用
由6.824和Hadoop技术资料整理,持续更新中文章目录6.824Spark架构RDD算子转换算子执行算子SparkSQL6.824什么是CAP?一致性可用性分区容错性分区容错是必然要提供的一个特性,如果要保证一致性,那么可用性不能得到保障。云服务厂商一般提供5个9的可用性保障。简述
作者:编程之家 时间:2022-09-04
MR与spark的区别
1.本质上相同,都是把Map端数据分类处理后交由Reduce的过程2.数据流有所区别,MR按map,spill,merge,shuffle,sort,reduce等各阶段逐一实现。Spark基于DAG数据流,可实现更复杂数据流操作(根据宽/窄依赖实现)3.实现功能上有所区别,MR在map中做了排序操作,而Spark假定大多数应用场景Shu
作者:编程之家 时间:2022-09-04
pycharm配置spark相关知识
1、安装pyarrow加速pyspark2.3对应pyarrow的版本是0.14.12、pycharm需要配置的环境量HADOOP_HOME /opt/hdp/2.3.4.0-315/hadoopSPARK_HOME /opt/hdp/2.3.4.0-315/spark2PYTHONPATH /data/soft/anaconda3/envs/py37/bin/pythonPYSPARK_PYTHON/data/soft/anaconda3/e
作者:编程之家 时间:2022-09-04
Spark-寒假-实验6
1、flume安装1)上传压缩包并解压 2)文件配置flume-env.sh#IfthisfileisplacedatFLUME_CONF_DIR/flume-env.sh,itwillbesourced#duringFlumestartup.#Enviromentvariablescanbesethere.exportJAVA_HOME=/opt/java/jdk1.8.
作者:编程之家 时间:2022-09-04
大三寒假学习 spark实验报告2
实验2Scala编程初级实践1.计算级数请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。 例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exercise2-1.sc
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 RDD
设计背景:许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果目前的MapReduce框架都是把中间结果写入到HDFS中,带来大量的数据复制、磁盘I0和序列化开销 RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据
作者:编程之家 时间:2022-09-04
如何用 Uber JVM Profiler 等可视化工具监控 Spark 应用程序?
关键要点持续可靠地运行Spark应用程序是一项具有挑战性的任务,而且需要一个良好的性能监控系统。-在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标,并提供用于数据可视化的仪表盘。UberJVMProfiler被用于监控Spark
作者:编程之家 时间:2022-09-04
第10章《Spark Streaming》
目录1简介2实例3架构与抽象4转化操作5输出操作624/7不间断运行1简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。SparkStreaming是Spark为这些应用而设计的模型。SparkStreaming使用
作者:编程之家 时间:2022-09-04
1、Spark简介
spark是什么?spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎spark和hadoopspark出现的时间相对较晚,主要功能主要用于数据计算,可以认为是hadoop的升级版本一次性数据计算框架在处理数据的时候,会从存储设备种读取数据,进行逻辑操作,然后将处理的结果重新存储到介质
作者:编程之家 时间:2022-09-04
大三寒假学习 spark学习 函数式编程实例
WorldCount:importjava.io.Fileimportscala.io.SourceobjectWordCount{defmain(args:Array[String]):Unit={valdirfile=newFile("F://english")valfiles=dirfile.listFiles//获取文件列表for(file<-files)pr
作者:编程之家 时间:2022-09-04
Spark-Sql Hint 解决小文件导致查询慢的问题
对一个大表进行了30个天分区的查询,spark客户端显示了所有excutor均已执行完毕.查看hdfs分区也显示已有数据,desc表名显示表还没作成.于是用hadoopfs-ls看了下hdfs文件数发现有上万个小文件.导致合并查询结果时间巨长小文件过多会导致文件系统效率低下.我们可以在写spar
作者:编程之家 时间:2022-09-04
Spark RDD学习
RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。创建RDD的两种方式:并行化驱动程序中的现有数据;引用外部存储系统中的数据集。并行化集合要创建并行化集合,在驱动程序中现有的集合上调用SparkContext的par
作者:编程之家 时间:2022-09-04
百亿特征维度、近万亿样本量,微博基于Spark的大规模机器学习应用
作者丨吴磊,张拓宇编辑丨郭芮众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下,由用户相互关
作者:编程之家 时间:2022-09-04
Spark Core简介
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。1.2RDD的5个主要属性(property)• Alistofpartitions 多个分区.分区可以看成是数据集的
作者:编程之家 时间:2022-09-04
SparkCore 对共享变量也提供了两种支持:1. 累加器 2. 广播变量
正常情况下,传递给Spark算子(比如:map,reduce等)的函数都是在远程的集群节点上执行,函数中用到的所有变量都是独立的拷贝.这些变量被拷贝到集群上的每个节点上,都这些变量的更改不会传递回驱动程序.支持跨task之间共享变量通常是低效的,但是Spark对共享变量也提供
作者:编程之家 时间:2022-09-04
Spark已死?DBT会替代?
数据世界再次发生变化。自从Hadoop出现以来,人们就将工作负载从他们的数据仓库转移到了新的闪亮的数据湖中。没过多久,2010年开源的Spark就成为了数据湖上的标准处理引擎。现在我们看到一个反向趋势,回到数据仓库。随着这一趋势,DBT几乎已成为在现代云原生数据仓库上进行
作者:编程之家 时间:2022-09-04
自学 14 天后,我毁掉了自己的数据工程师面试
我既然写下本文,就应对读者赤诚相见。我真的不是优秀的数据工程师,也不是优秀的软件开发人员。尽管如此,但技术能力我可能还是有的,而且也有干劲。虽然技术上不是最优秀的,但我比较善于与人打交道。你可能会问:“那我为什么还要读这篇文章呢?”答案很简单:因为失败乃成功之母。至于我
作者:编程之家 时间:2022-09-04
Spark常用端口号和Hadoop中常用端口号区分
Spark中常用端口号区分:-Master进程的通信端口号-7077-Master进程webui查看端口号-8080-Worker进程的通信端口号-7078-Worker进程webui查看端口号-8081-Spark的历史日志服务webui端口-18080-yarn的allapplication的webui端口-8088-Spark应用的运行时的端口
作者:编程之家 时间:2022-09-04
hive on spark 客户端连接超时
Hiveonspark,执行时报错解决:在yarnweb界面上点击执行失败的任务:从这上面可以看出,hdfs://master/hive/spark_jars/guice-4.0.jar有问题找到机器http://datamiddle-249:8042,查看nodemanager日志日志里面搜索刚才的任务可以看见如下日志可以看出,guice-4.0.jar文
作者:编程之家 时间:2022-09-04
21:Spark+Kafka
结合实例,说一说Spark与Kafka这对“万金油”组合如何使用。随着业务飞速发展,各家公司的集群规模都是有增无减。在集群规模暴涨的情况下,资源利用率逐渐成为大家越来越关注的焦点。毕竟,不管是自建的Datacenter,还是公有云,每台机器都是真金白银的投入。实例:资源利用率实时计算
作者:编程之家 时间:2022-09-04
大数据学习的五大步骤
目录第一阶段:JavaSE+MySql+Linux第二阶段:Hadoop与生态系统第三阶段:Storm与Spark及其生态圈第四阶段:Mahout机器学习→R语言→Python第五阶段:项目实战、技术综合运用大数据开发学习可以按照以下内容进行学习:第一阶段:JavaSE+MySql+Linux学习内容:Java语言入门→OO
作者:编程之家 时间:2022-09-04
上一页
86
87
88
89
90
91
92
93
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native