手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark系列之弹性数据集-RDD
RDD不仅是分布式的数据集合,更是Spark的核心。RDD会跟踪应用每个块的所有转换(日志),也就是说,当RDD的某个分区数据丢失时会根据日志进行重新计算。RDD是无Schema的数据结构。1、RDD的生成RDD的生成有三种方式, 1).parallelize()集合生成
作者:编程之家 时间:2022-09-04
SparkSQL /DataFrame /Spark RDD谁快?
如题所示,SparkSQL/DataFrame/SparkRDD谁快?按照官方宣传以及大部分人的理解,SparkSQL和DataFrame虽然基于RDD,但是由于对RDD做了优化,所以性能会优于RDD。之前一直也是这么理解和操作的,直到最近遇到了一个场景,打破了这种不太准确的认识。某些场景下,RDD要比DataFrame快,性能有天壤
作者:编程之家 时间:2022-09-04
spark12spark任务中资源参数剖析
spark任务中资源参数剖析通过开发工具开发好spark程序后达成jar包最后提交到集群中运行提交任务脚本如下spark-submit\--masterspark:/ode01:7077,node02:7077\--classcom.kaikeba.WordCountOnSpark\--executor-memory1g\--total-executor-cores4\original-sp
作者:编程之家 时间:2022-09-04
spark11collect 算子操作剖析
collect算子操作剖析collect算子操作的作用:它是一个action操作,会触发任务的运行它会把RDD的数据进行收集之后,以数组的形式返回给Driver端总结:默认Driver端的内存大小为1G,由参数spark.driver.memory设置。如果某个rdd的数据量超过了Driver端默认的1G内存,对rdd调用c
作者:编程之家 时间:2022-09-04
spark13spark的shuffle原理分析、shuffle参数调优
spark的shuffle原理分析shuffle概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整
作者:编程之家 时间:2022-09-04
Spark单词统计程序在集群上运行
Spark单词统计程序编译打包成jar包,上传到master spark-submit--classnet.togogo.bigdata.spark.wd.WordCount--masterlocal[1]/home/hd/jarsestsparkexample-1.0-SNAPSHOT.jar/words.txt/out上传并执行自动判断中文中文(简体)中文(香港)中文(繁体)英语日
作者:编程之家 时间:2022-09-04
spark 编程基础
一、大数据技术涉及的技术层面数据采集,通过etl将结构化、非结构化数据抽取到中间层,进行清洗、转换、加载到数据集市,作为数据分析、数据挖掘和流计算的基础数据存储和管理,通过分布式文件系统、数仓、关系型数据库、NoSql数据库,对数据进行存储和管理数据处理和分析,通过分布式计
作者:编程之家 时间:2022-09-04
spark10spark on yarn
sparkonyarnspark程序可以提交到yarn中去运行,此时spark任务所需要的计算资源由yarn中的老大ResourceManager去分配官网资料地址:http://spark.apache.org/docs/2.3.3unning-on-yarn.html环境准备安装hadoop集群安装spark环境注意:这里不需要安装spark集群,只需要解压s
作者:编程之家 时间:2022-09-04
Spark-RDD-DAG解析
1.原理说明有向无环图:如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)在Spark中对任务进行排队,形成一个集合就是DAG图,每一个顶点就是一个任务,每一条边代表一个依赖关系通过DAG可以对计算流程进行优化,比如将单一节点的计算操作合并,对涉及s
作者:编程之家 时间:2022-09-04
Spark一:Spark简介、生态、应用场景、环境搭建
1Spark基本概念1.1Spark是什么Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala提供一个称为Actor的并行模型,其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据,该方式被称为:SharedNothing
作者:编程之家 时间:2022-09-04
spark项目java与scala相互调用打包
<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></properties><dependencies><dependency><groupId>org.scala-lang<
作者:编程之家 时间:2022-09-04
spark5通过IDEA开发spark程序
通过IDEA开发spark程序构建maven工程创建src/main/scala和srcest/scala目录添加pom依赖说明:创建maven工程后,设定maven为自己安装的maven,并在确保settings.xml里面设置了镜像地址为阿里云如果下载不下来scala-maven-plugin或者maven-shade-plugin,则自己去网上搜索下载
作者:编程之家 时间:2022-09-04
spark14数据倾斜原理和现象分析、解决方案
数据倾斜原理和现象分析数据倾斜概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得
作者:编程之家 时间:2022-09-04
Spark 频繁模式挖掘
Spark-FrequentPatternMining官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步,这也是近些年数据挖掘领域的活跃研究话题;目录:FP-GrowthFP-GrowthFP-Growth算法基于这
作者:编程之家 时间:2022-09-04
distinct
importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectdistinctRDD{defmain(args:Array[String]):Unit={//本地模式valconf:SparkConf=newSparkConf().setAppName("Myscalawordcount").setMas
作者:编程之家 时间:2022-09-04
Spark随堂笔记
1.什么spark?Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。-------------------------------------------------------------------------------------------------------2.spark生态sparkcore:spark的核心计算sparksql:对历史数据的交互式查询(即席查询)sparkStrea
作者:编程之家 时间:2022-09-04
spark之 Idea操作
一、pom.xml<!--spark--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.3.4</version></dependency><dependency&g
作者:编程之家 时间:2022-09-04
spark处理嵌套json
json文件数据如下:{“avg_orders_count”:[{“count”:1.0,“days”:3},{“count”:0.6,“days”:5},{“count”:0.3,“days”:10},{“count”:0.2,“days”:15},{“count”:0.1,“days”:30},{“count”:0.066,“days”:45},{“count”:0.066,“days”
作者:编程之家 时间:2022-09-04
spark系列(二)----shuffle
一.hashShuffle在早期的spark中,其shuffle的机制是hashShuffle。在hashShuffle的过程中,每一个shuffleMapTask都会为每一个reduceTask创建一个bucket缓存,shuffleMapTask会对处理后的数据进行partitioner操作(默认是hashpartition,即对key进行hashcode再将其值与reduceTask数量进
作者:编程之家 时间:2022-09-04
Qt for MCUs 1.4 版本发布
来源 https://www.mr-wu.cn/qt-for-mcus-1-4-released/ QtforMCUs1.4版本引入了一个新的字体引擎,该引擎可以显示更多文本,而不会占用大量内存。该版本还包括API的改进和bug的修复,从而增强了可用性和稳定性。借助于QtforMCUs1.4,解决了设计在MCU上运行的嵌入式系统时
作者:编程之家 时间:2022-09-04
Spark ML 机器学习之Word2Vec
一.简介Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。二.例子在下面的代码段中,我们从一组
作者:编程之家 时间:2022-09-04
Spark开发_Spark数据变换-透视(Pivot)
数据变换长表和宽表的变换,使用Spark进行变换,SQL中使用casewhen。涉及维度比较多的时候,采用数据透视的方式进行数据变换在SparkSQL3.0.1中有相关的子句实现了。PIVOT({aggregate_expression[ASaggregate_expression_alias]}[,...]FORcolumn_listIN(exp
作者:编程之家 时间:2022-09-04
Spark容错机制
Spark以前的集群容错处理模型,像MapReduce,将计算转换为一个有向无环图(DAG)的任务集合,这样可以通过重复执行DAG里的一部分任务来完成容错恢复。但是由于主要的数据存储在分布式文件系统中,没有提供其他存储的概念,容错过程需要在网络上进行数据复制,从而增加了大量的消耗。所以,分布式编
作者:编程之家 时间:2022-09-04
【Spark学习笔记】Spark基本知识
前记入职四个月了,面试的Java工程师,没想到工作是要做数据相关的开发,也是挺无奈。目前主要做Spark相关开发,经过一段时间的学习和使用,对Spark也算是较为熟悉了,故写个笔记整理下自己掌握的Spark知识。一、Spark基础概念1.Spark的特点在Spark出现前,主流的分布式计算框架是MapReduce
作者:编程之家 时间:2022-09-04
大数据技术
大数据用到的技术主要就是Hadoop、Spark、Storm三大技术阵营及其下属的生态。根据使用的场景不同,和流行趋势来从3大技术阵营中选择,或者配合使用。l 图说明:蓝色部分,是Hadoop生态系统组件,黄色部分是Spark生态组件,虽然他们是两种不同的大数据处理框架,但它们不是互斥的,Spark与had
作者:编程之家 时间:2022-09-04
Ubuntu 16下配置多节点Hadoop和Spark
记录一下配置多节点Hadoop和Spark的过程。建立三个节点node,分别是node0,node1,node2.其中node0作为master节点。三台云虚拟机均为Ubuntu16版本,Hadoop为3.1.4版本,Spark为2.4.7版本。Hadoop首先是下载和配置Hadoop.第一步,更新软件包,安装Javasudoapt-getupdate--fix-missings
作者:编程之家 时间:2022-09-04
MapReduce与Spark和Flink三者的比较
作者介绍:TNTEVE,狐小E资深开发工程师,专注移动协同办公平台的SAAS软件开发以及轻应用开发最近开发了一款移动办公软件狐小EMapReduce MapReduce是编程模型,也是计算框架。开发人员基于MapReduce编程模型进行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行
作者:编程之家 时间:2022-09-04
spark17DAG有向无环图、stage划分、spark任务调度及运行架构
DAG有向无环图生成DAG是什么DAG(DirectedAcyclicGraph)叫做有向无环图(有方向,无闭环,代表着数据的流向),原始的RDD通过一系列的转换就形成了DAG。下图是基于单词统计逻辑得到的DAG有向无环图DAG划分stage(★★★★★)stage是什么一个Job会被拆分为多组Task,每组任务被称为一
作者:编程之家 时间:2022-09-04
Mac部署spark2.4.4
环境信息操作系统:macOSMojave10.14.6JDK:1.8.0_211(安装位置:/Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk/Contents/Home)前提条件请参考《Mac部署hadoop3(伪分布式)》一文,在Mac上事先部署好hadoop3部署步骤安装scala:brewinstallscala配置scala的环境变
作者:编程之家 时间:2022-09-04
NameNode、DataNode和MapReduce运行原理
一、Namenode1.作用 ①负责元数据的存储 ②负责接受和处理客户端的请求 ③负责接受DN上报的信息 ④和DN保持心跳,向DN下达命令2.元数据包含两部分 ①文件的属性(保存在edits+fsimage) ②块的位置信息(由DN启动后自动上报,动态生成)3.存储元数据的文件①edits文件:NN启动后,客
作者:编程之家 时间:2022-09-04
上一页
42
43
44
45
46
47
48
49
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native