手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
[笔记迁移][Spark][3]Spark基本工作原理与RDD初探
文章目录一、Spark粗粒度架构二、Spark基本工作原理三、RDD(ResillientDistributedDataset,弹性分布式数据集)四、Spark开发五、Demo:wordcount1.Java版本2.Scala版本(关键代码在原理剖析中体现)3.Spark-shell编写(了解)4.原理剖析六、如何将Spark应用提交至集群?一、Spark粗
作者:编程之家 时间:2022-09-04
大数据如何学习,告诉你正确的学习姿势
现在是大数据的时代,也称作云数据,我们在网上的各种数据,最后把这些整理集合在一起,形成一个庞大的数据集合体,我们生活中大数据已经实时的应用了。那么,大数据如何学习?下面将会为大家介绍。大数据如何学习一、基础知识学习:1、如果您此前对于数据库等方面的知识没有涉及,在学习大数据之前,
作者:编程之家 时间:2022-09-04
Spark学习之路(六):深入剖析与使用RDD的持久化机制和Checkpoint机制
内容简介一、持久化机制Persist二、检查点机制Checkpoint三、持久化与Checkpoint的区别四、代码演示五、总结一、持久化机制Persist所谓RDD的持久化,其实就是对RDD进行缓存,它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢?这与Spark作业的执行机制有关,我们知道,Sp
作者:编程之家 时间:2022-09-04
Spark和Hadoop优劣
Spark已经取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家BernardMarr在一篇文章(http://www.forbes.com/sites/bernardmarr/2015/06/22/spark-or-hadoop-which-is-the-best-big-data-framework/)中分析了Spark和Ha
作者:编程之家 时间:2022-09-04
大数据如何学习,告诉你正确的学习姿势
现在是大数据的时代,也称作云数据,我们在网上的各种数据,最后把这些整理集合在一起,形成一个庞大的数据集合体,我们生活中大数据已经实时的应用了。那么,大数据如何学习?下面将会为大家介绍。大数据如何学习一、基础知识学习:1、如果您此前对于数据库等方面的知识没有涉及,在学习大数据之
作者:编程之家 时间:2022-09-04
14监控管理流式查询
管理流查询流查询的管理操作主要是类是StreamingQueryManager类。该对象可以通过SparkSession获得,预留的主要操作如下: 最最重要的就是增加和移除Listener,然后供我们获取每个批次处理的数据具体信息。可以通过listener获取的信息如下: StreamingQuery对象在查询启动的
作者:编程之家 时间:2022-09-04
0基础大数据学习路线及各阶段学习书籍推荐
要学习大数据,你至少应该知道大数据是什么,大数据将被用在什么领域。通过对大数据的一般理解,你可以了解你是否对大数据感兴趣。01大数据的零基础学习有以下步骤:1、理解大数据理论2、计算机程序设计语言学习3、主要数据相关课程4、实战项目02阶段学习推荐书籍:阶段一、0基础学
作者:编程之家 时间:2022-09-04
spark-sql中的分析函数的使用
分析函数的应用场景:(1)用于分组后组内排序(2)指定计算范围(3)TopN(4)累加计算(5)层次计算分析函数的一般语法:分析函数的语法结构一般是:分析函数名(参数) over (子partitionby句orderby字句rowsange字句)1、分析函数名:sum、max、min
作者:编程之家 时间:2022-09-04
Spark集群架构说明
作者:编程之家 时间:2022-09-04
Spark与MR异同
Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下:1、spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能2、spark容错
作者:编程之家 时间:2022-09-04
presto,dremio,spark-sql与ranger的整合记录
dremio,spark-sql,presto和ranger的整合当前,ranger没有现成的插件来管理dremio,spark-sql,presto。暂时使用的方法是新建一个用户,如presto可以创建一个presto用户,然后在ranger中对presto用户赋予hive,hdfs的访问权限。尤其是在hivedoas权限开启的时候,一定要把对应的hdfs的
作者:编程之家 时间:2022-09-04
Spark优化点
作者:编程之家 时间:2022-09-04
spark 源码分析之十六 -- Spark内存存储剖析
上篇spark源码分析之十五--Spark内存管理剖析 讲解了Spark的内存管理机制,主要是MemoryManager的内容。跟Spark的内存管理机制最密切相关的就是内存存储,本篇文章主要介绍Spark内存存储。总述跟内存存储的相关类的关系如下: MemoryStore是负责内存存储的类,其依赖于BlockM
作者:编程之家 时间:2022-09-04
(1)StructuredStreaming简介
一,概述StructuredStreaming是一个可扩展和容错的流处理引擎,并且是构建于spark sql引擎之上。可以用处理静态数据的方式去处理你的流计算。随着流数据的不断流入,Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行streamingaggregations
作者:编程之家 时间:2022-09-04
Spark集群硬件配置推荐
Spark集群硬件配置推荐计算与存储:大多数Spark作业可能需要从外部存储系统(例如:Cassandra、Hadoop文件系统或HBase)读取输入数据,所以要让Spark计算引擎尽可能靠近数据持久层。如果使用HDFS作为数据存储集群,可以在相同的集群上部署Spark集群,并配置Spark和Hadoop的内存和CPU使用率以
作者:编程之家 时间:2022-09-04
Spark运行结构简洁版
mappartition:把每个分区中的内容作为整体来处理mapPartitionsWithIndex函数作用同mapPartitions,不过提供了两个参数,第一个参数为分区的索引。mappartition之前应该先设置分区repartitionpartition分区,默认为1,可以在local[]设置,也可以parallelize的时候设置TaskSetM
作者:编程之家 时间:2022-09-04
Spark_8 Spark常用算子对比
map与mapPartitionsmap详解:ReturnanewRDDbyapplyingafunctiontoallelementsofthisRDD对RDD中的每一个元素都执行一个functionmapPartitions:ReturnanewRDDbyapplyingafunctiontoeachpartitionofthisRDDRDD由n个Partition构成,每个Partition
作者:编程之家 时间:2022-09-04
spark源码之SparkContext
SparkContext可以说是Spark应用的发动机引擎,SparkDrive的初始化围绕这SparkContext的初始化。SparkContext总览sparkcontxt的主要组成部分sparkEnv:spark运行环境,Executor是处理任务的执行器,依赖于SparkEnv的环境。Driver中也包含SparkEnv,为了保证Local模式下任务执行。此外,Spa
作者:编程之家 时间:2022-09-04
15使用checkpoint进行故障恢复
用过SparkStreaming的应该都比较了解checkpoint机制。对于SparkStructuredStreaming 假如存在聚合函数,join等操作的时候实际上也是要维护中间状态的,这种情况下就需要开启checkpoint。当然,即使没有非状态的算子,由于StructuredStreaming是自己管理offset的,不会将offset提交
作者:编程之家 时间:2022-09-04
Spark History Server 配置部署
简介为了可以通过WebUI控制台页面来查看具体的运行细节,解决应用程序运行结束,无法继续查看监控集群信息。无法回顾运行的程序细节,配置开启spark.history服务.SparkHistoryServer可以很好地解决上面的问题。配置文件位置:$SPARK_HOME$/conf目录下的spark-defaults.conf文件。默认
作者:编程之家 时间:2022-09-04
经典大数据学习路线
1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断
作者:编程之家 时间:2022-09-04
大数据常见问题之数据倾斜
什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据
作者:编程之家 时间:2022-09-04
大数据技术发展回顾
2012年以前,大多数企业的数据仓库主要还是构建在关系型数据库上,例如Oracle、Mysql等数据库之上。但是随着企业数据量的增长,关系型数据库已经无法支撑大规模数据集的存储和分析,这种情况在一线互联网公司尤为明显,也是当时急需要解决的问题。随着2012年Hadoop技术框架的成熟和稳定,一线
作者:编程之家 时间:2022-09-04
数据算法——Spark的TopN实现
1.scala实现:/***TOPN:维持一个定长数组,先塞满,然后把剩下的逐个对应数组中的元素,*有大的就把小的弹出去,大的加进来,并移动位置来重新排序*/objectTopN{defmain(args:Array[String]):Unit={valsession=SparkSession.builder().master("local")
作者:编程之家 时间:2022-09-04
spark提交命令 spark-submit 的参数 executor-memory、executor-cores、num-executors、spark.default.parallelism分析
nohupspark-submit--masteryarn--deploy-modecluster --jars/home/xx/lib/mysql-connector-java-5.1.32-bin.jar--classxxx.xx.xx --nameXX --driver-memory2g --driver-cores2 --executor-memory2g --executor-cores2 --num-executors
作者:编程之家 时间:2022-09-04
学大数据需要什么编程基础?大数据学习步骤是什么?
学大数据需要什么编程基础?大数据学习步骤是什么?大数据是什么?有很多朋友问过我,大数据到底是什么?一句话来…学大数据需要什么编程基础?大数据学习步骤是什么?学大数据需要什么编程基础?大数据学习步骤是什么?大数据是什么?有很多朋友问过我,大数据到底是什么?一句话来概括针对非软件
作者:编程之家 时间:2022-09-04
[笔记迁移][Spark][9]Spark源码——内核架构2
续上篇,Spark源码——内核架构1(4)最最最最最重要的机制:资源调度schedule() [1]Master总调度——Driver(onWorker)调度机制/***Schedulethecurrentlyavailableresourcesamongwaitingapps.Thismethodwillbecalled*everytimeanewappjoinso
作者:编程之家 时间:2022-09-04
Spark中的RDD是什么,有哪些特性?
1).什么是RDD? 弹式分布数据集(ResilientDistributedDataset)2).RDD的五大特性? 1.RDD是由一系列的partition组成的 2.RDD之间具有依赖关系 3.RDD作用在partition是上 4.partition作用在具有(k,v)格式的数据集
作者:编程之家 时间:2022-09-04
学习大数据需要掌握的知识,需要学习的数据技术
大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期,20世纪90年至21世纪初,为萌芽期,随着,一批商业智能工具和知识管理技术的开始和应用,度过了数据萌芽,21世纪前十年则为成熟期,主要标志为,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技,谷歌的
作者:编程之家 时间:2022-09-04
spark 源码分析之二十二-- Task的内存管理
问题的提出本篇文章将回答如下问题:1. spark任务在执行的时候,其内存是如何管理的?2.堆内内存的寻址是如何设计的?是如何避免由于JVM的GC的存在引起的内存地址变化的?其内部的内存缓存池回收机制是如何设计的?3.堆外和堆内内存分别是通过什么来分配的?其数据的偏移量是如何计算的?
作者:编程之家 时间:2022-09-04
上一页
23
24
25
26
27
28
29
30
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native