手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
SparkStreaming 介绍
一 SparkStreaming引入新的场景需求●集群监控一般的大型集群和平台,都需要对其进行监控的需求。要针对各种数据库,包括MySQL,HBase等进行监控要针对应用进行监控,例如Tomcat,Nginx,Node.js等要针对硬件的一些指标进行监控,例如CPU,内存,磁盘等还有
作者:编程之家 时间:2022-09-04
pyspark spark 快速入门 懒人版本
pysparkspark快速入门懒人版本安装docker安装方式最简单的是直接docker,有一下几个比较快速的安装方式参考:https://github.com/actionml/docker-sparkhttps://github.com/wongnai/docker-spark-standalonehttps://github.com/epahomov/docker-sparkhttps:/owardsdata
作者:编程之家 时间:2022-09-04
Spark共享变量---广播变量
前提:在spark环境下,当我们传递一个操作(例如:map,reduce)的函数到远程多个节点上进行运行时,各个节点都需要使用到该函数中的变量。如果变量比较大,如何下发这些变量呢?如果我们使用下面的方式,进行数据下发:即将变量从Driver下发到每一个执行的task中。例如:50个线程executor,1000个tas
作者:编程之家 时间:2022-09-04
【待解决】对Spark源码进行编译
./dev/make-distribution.sh—tgz—nameh32hive-Pyarn-Phadoop-3.2.1-Dhadoop.version=3.2.1-Phive-Phive-thriftserver-DskipTests+++dirname./dev/make-distribution.sh++cd./dev/..++pwd+SPARK_HOME=/home/hadoop/spark-2.1.0+DISTDIR=/home/hadoop/spa
作者:编程之家 时间:2022-09-04
spark连接mysql
pom<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.
作者:编程之家 时间:2022-09-04
Spark推荐系统实战笔记1
一、大数据技术框架二、推荐系统技术栈 三、什么是推荐系统1.背景 2.工作原理 四、推荐系统的设计 1.需求分析和用户调研2.功能设计 3.界面设计4.架构设计5.算法设计6.系统评测 参考文献:【1】Spark大数据互联网
作者:编程之家 时间:2022-09-04
Spark 集成 Hive
Hive查询流程及原理执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢 使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hi
作者:编程之家 时间:2022-09-04
Spark中groupByKey和reduceByKey的区别
重点比较reduceByKey和groupByKey:相同点:1,都作用于RDD[K,V]2,都是根据key来分组聚合3,默认,分区的数量都是不变的,但是都可以通过参数来指定分区数量不同点:1,groupByKey默认没有聚合函数,得到的返回值类型是RDD[k,Iterable[V]]2,reduceByKey必须传聚合函数得到的返回值类型RDD[
作者:编程之家 时间:2022-09-04
Spark Core
Spark的核心是SparkCoreSpark的核心是SparkCore,上面的SparkSql对接的是Hive等结构化查询,SparkStreaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是sparkcore,而Sparkcore的核心就是RDD操作,RDD的操作最重要的是算子。RDD产生背景RDD是S
作者:编程之家 时间:2022-09-04
Spark概念理解
driver和executor的参数设置在yarn模式下才会起作用:--driver-cores:Spark应用Driver的CPU核数,Driver主要完成任务的调度以及和executor和clustermanager进行协调。--executor-cores:Spark应用每个Executor的CPU核数,各个executor使用的并发线程数目,也即每个executor最大可并发执
作者:编程之家 时间:2022-09-04
Spark -- 对DataFrame增加一列索引列(自增id列)
向导SparkDataFrame添加自增id利用RDD的zipWithIndex算子使用SparkSQL的functionSparkDataFrame添加自增id 在用Spark处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时
作者:编程之家 时间:2022-09-04
2、Spark Core职责之初始化1——SparkContext
SparkContext(Spark上下文)/***MainentrypointforSparkfunctionality.ASparkContextrepresentstheconnectiontoaSpark*cluster,andcanbeusedtocreateRDDs,accumulatorsandbroadcastvariablesonthatcluster.**@noteOnlyone`SparkConte
作者:编程之家 时间:2022-09-04
Python+Spark2.0+hadoop学习笔记——pyspark基础
在历经千辛万苦后,终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容,以字数统计为例。1)在本地运行pyspark程序读取本地文件textFile=sc.textFile("file:/usr/local/spark/README.md")textFile.count()读取HDFS文件textFile=sc.textFile('hdfs://master:9000/u
作者:编程之家 时间:2022-09-04
工作3年,月薪20k+的大数据开发人员,突然说我不想只做Hadoop、Spark、Flink层面的技术开发
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就业特训营》23期学员李
作者:编程之家 时间:2022-09-04
Spark SQL的Parquet那些事儿
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。SparkSQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当SparkSQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了nullable。读写Parquet文件
作者:编程之家 时间:2022-09-04
spark程序,创建提交和运行
1、创建一个spark程序1.1基于Maven构建Scala工程 1.2加入Pom.xml 2、spark编程 3、提交到集群运行
作者:编程之家 时间:2022-09-04
如何使用python将Spark数据写入ElasticSearch
这里以将Apache的日志写入到ElasticSearch为例,来演示一下如何使用Python将Spark数据导入到ES中。实际工作中,由于数据与使用框架或技术的复杂性,数据的写入变得比较复杂,在这里我们简单演示一下。如果使用Scala或Java的话,Spark提供自带了支持写入ES的支持库,但Python不支持。所以首
作者:编程之家 时间:2022-09-04
spark sql的练习题
1、使用StructuredStreaming读取Socket数据,把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件,2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使
作者:编程之家 时间:2022-09-04
hadoop集群 spark安装
1.前提条件1.1创建3台虚拟机,且配置好网络,建立好互信。1.2Java1.8环境已经配置好1.3Hadoop2.7.7集群已经完成搭建1.4Scala软件包和Spark软件包的下载https://www.scala-lang.org/download/http://spark.apache.org/downloads.html2.安装
作者:编程之家 时间:2022-09-04
拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁
“不管国内或全球“新冠”疫情有多严重、还得持续多久,我只想先保住我的工作,如果降薪,我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就业特训营》2
作者:编程之家 时间:2022-09-04
实战 | 将Apache Hudi数据集写入阿里云OSS
1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案,而Hudi作为数据湖解决方案,支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi,也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案,那么如果用户想基于OSS构建数据湖,那么Hudi是否
作者:编程之家 时间:2022-09-04
看了这篇博客,你还敢说不会Structured Streaming?
写在前面:博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错
作者:编程之家 时间:2022-09-04
spark 集群优化
只有满怀自信的人,能在任何地方都怀有自信,沉浸在生活中,并认识自己的意志。前言最近公司有一个生产的小集群,专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark流任务失败。本篇记录从应用层面对spark作业进行优化,进而达到优化集群
作者:编程之家 时间:2022-09-04
SparkCore:Spark原理初探执行流程图
基本概念名词解释Application:指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Driver:Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext,SparkContext负责和ClusterManager通信,进行资
作者:编程之家 时间:2022-09-04
Spark基础
什么是Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。Spark特点快:Spark计算速度是MapReduce计算速度的10-100倍易用:(算法多)MR支持1种计算模型,Spsark支持更多的计算模型。通用:Spark能够进行离线计算、交互式查询(快速查询)
作者:编程之家 时间:2022-09-04
centos7安装spark集群
安装前准备:1.3台主机2.安装jdk3.免密登陆开始安装spark1.解压安装包tar-zxvfspark-2.4.5-bin-hadoop2.7.tgz2.修改配置文件cdconfcpspark-env.sh.templatespark-env.shcpslaves.templateslaves修改spark-env.sh追加exportJAVA_HOME=oot/jdk1.8.0_151
作者:编程之家 时间:2022-09-04
小白亲绘思维导图,带你重游Spark生态圈!
写在前面:博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错
作者:编程之家 时间:2022-09-04
Spark算子调优—基本的算子调优
Spark常见RDD算子调优算子调优一:mapPartitions算子调优二:foreachPartition优化数据库操作算子调优三:filter与coalesce的配合使用算子调优四:repartition解决SparkSQL低并行度问题算子调优五:reduceByKey本地聚合算子调优一:mapPartitions普通的map算子对RDD中的每一个元素进
作者:编程之家 时间:2022-09-04
【Spark】Spark基础练习题五
没错,我又来了。。。对,题又来了,准备接招吧!题目如下
作者:编程之家 时间:2022-09-04
Spark Streaming
SparkStreaming简介 SparkStreaming架构 SparkStreaming作业提交 SparkStreaming窗口操作 SparkStreaming全局统计量 SparkStreaming容错性分析 WAL工作原理 SparkStreaming消费KafkaDirectApproachDirectApproach和Recever-based
作者:编程之家 时间:2022-09-04
上一页
38
39
40
41
42
43
44
45
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native