手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
如何基于Jupyter notebook搭建Spark集群开发环境
摘要:本文介绍如何基于Jupyternotebook搭建Spark集群开发环境。本文分享自华为云社区《基于JupyterNotebook搭建Spark集群开发环境》,作者:apr鹏鹏。一、概念介绍:1、Sparkmagic:它是一个在JupyterNotebook中的通过Livy服务器SparkREST与远程Spark群集交互工作工具。Sparkmagi
作者:编程之家 时间:2022-09-04
大数据开发之Spark SQL/Hive实用函数分享
字符串函数1.concat对字符串进行拼接:concat(str1,str2,...,strN),参数:str1、str2...是要进行拼接的字符串。--returntheconcatenationofstr1、str2、...,strN--SparkSQLselectconcat('Spark','SQL');2.concat_ws在拼接的字符串中间添加某种分隔符:concat_w
作者:编程之家 时间:2022-09-04
spark源码之环境准备
我们使用yarn集群作为研究spark环境准备yarn环境准备启动Driver启动Executoryarn环境准备spark的入口类是SparkSubmit,在这里,我们开始提交参数这里的args就是--class这些的。解析好这些参数后,我们会返回一个SparkSubmitArguments的一个属性action的值并进行模式
作者:编程之家 时间:2022-09-04
Spark KV类型算子案例详解一
1.importorg.apache.spark.{HashPartitioner,SparkConf,SparkContext}importorg.apache.spark.rdd.RDD//kv类型算子//PartitionBy:指定分区器来对上游的数据进行分区object_01PartitonByDemo{ defmain(args:Array[String]):Unit={ valconf=
作者:编程之家 时间:2022-09-04
17,关于spark的一些参数优化
Executor执行能力spark.executor.memory=4g用于缓存数据、代码执行的堆内存以及JVM运行时需要的内存。spark.executor.cores=2单个executor上可以同时运行的task数,该参数决定了一个executor上可以并行执行几个task。Driver执行能力spark.driver.memory=4gdriver端的内
作者:编程之家 时间:2022-09-04
大数据开发之Spark入门
什么是Spark?·大数据的电花火石。·Spark类似于MapReduce的低延迟的交互式计算框架。·Spark是UCBerkeleyAMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN)。·Spark是处理海量数据的快速通用引擎大数据培训。Spark发展历程·Hadoop在2003
作者:编程之家 时间:2022-09-04
记录学习Spark+Kafka构建实时分析Dashboard案例中遇到的问题一安装
目录推荐环境系统和软件安装安装Ubuntu分辨率问题虚拟机桥接模式连不上网Hadoop安装Ubuntu16.04下用aria2下载百度网盘大文件其他在安装hadoop时遇到的问题Spark、Kafka、python依赖包、pycharm安装现阶段在学习大数据处理相关的项目,先通过厦门大学林子雨老师的案
作者:编程之家 时间:2022-09-04
技术选型的一点个人思考
1 前言这个题目有点大。工作也有些年头,从开始入行的被动接受,什么流行就学什么;到有一些想法,会去思考为什么使用这种技术;再到主动去学习一些前沿框架。从开始的不理解,事不关已高高挂起,不在其位不谋其政;到也成为了团队中的中坚力量,去据理力争应该使用某些技术,把觉得好的技术安利
作者:编程之家 时间:2022-09-04
【Spark】【RDD】从HDFS创建RDD
1.在HDFS根目录下创建目录(姓名学号)hdfsdfs-mkdir/zwj25hdfsdfs-ls/访问http://[IP]:500702.上传本地文件到HDFShdfsdfs-putfile.txt/zwj253.进入spark4-shellvarhdfsrdd=sc.textFile("/zwj25/file.txt")hdfsrdd.collecthdfsrdd.partitionshdfsrdd.
作者:编程之家 时间:2022-09-04
spark性能优化一
本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明spark:2.4.0服务器:5台(8核32G)初始化配置项%%init_sparklauncher.master="yarn"launcher.conf.spark.app.name="BDP-xw"launch
作者:编程之家 时间:2022-09-04
浅析大数据技术架构
大数据采集数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,大数据培训期间有可能会做一些简单的清洗。数据源的种类比较多:1、网站日志作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,一般是在每台网站日志服务器上部署flumeagent,实时
作者:编程之家 时间:2022-09-04
Spark练习
第一个需求Top10热门品类中每个品类的Top10活跃Session统计代码:取热门top10的方法:deftop10Category(rdd:RDD[String]):Array[String]={rdd.flatMap((action:String)=>{valdatas:Array[String]=action.split("_")if(datas(6)!="-1"){
作者:编程之家 时间:2022-09-04
Spark 数据倾斜的解决方案
Spark数据倾斜的解决方案Shuffle(聚合)时导致的数据倾斜第1种解决方案:使用HiveETL对数据进行预处理第2种解决方案:过滤少数导致倾斜的Key第3种解决方案:提高shuffle并行度第4种解决方案:两阶段聚合(局部聚合+全局聚合)Shuffle(Join)时导致的数据倾斜第1种解
作者:编程之家 时间:2022-09-04
【Spark】【RDD】从本地文件系统创建RDD
练习作业完成任务从文件创建三个RDD(mathbigdatastudent)cd~touchmathtouchbigdatatouchstudentpwd启动Spark-shellvarlocalrdd1=sc.textFile("file:///home/用户名/math")varlocalrdd2=sc.textFile("file:///home/用户名/bigdata")varlocalrdd3=s
作者:编程之家 时间:2022-09-04
Spark Doris Connector设计方案
SparkDorisConnector是Doris在0.12版本中推出的新功能。用户可以使用该功能,直接通过Spark对Doris中存储的数据进行读写,支持SQL、Dataframe、RDD等方式。从Doris角度看,将其数据引入Spark,可以使用Spark一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合
作者:编程之家 时间:2022-09-04
Spark比拼Flink:下一代大数据计算引擎之争
下一代大数据计算引擎自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop等各种基于MapReduce的海量数据处理系统应运而生。从2004年Google发表MapReduce论文开始,经过近10年的发展,基于Hadoop开源生态或者其它相应系统的海量数据处理已经成为业界的基本
作者:编程之家 时间:2022-09-04
Spark解决SQL和RDDjoin结果不一致问题工作实录
问题描述:DataFrame的join结果不正确,dataframeA(6000无重复条数据)joindataframeB(220条无重复数据,由dataframeA转化而来,key值均源于dataframeA)只有200条数据,丢了20条问题验证:1,查询丢的20条数据,均无异常,不存在Null,数据不存在空格2,重新运行算法,丢18条数据,证明丢数据存在一定
作者:编程之家 时间:2022-09-04
spark运行机制
构建DAG(Driver端完成)使用算子操作RDD进行各种Transformation操作,最后通过Action操作触发Spark作业运行。提交之后Spark会根据转换过程所产生的RDD之间的依赖关系构建有向无环图DAG切割(Driver端完成)DAG切割主要根据RDD的依赖是否为宽窄依赖来解决切割节
作者:编程之家 时间:2022-09-04
SparkSQL数据抽象与执行过程分享
SparkSQL数据抽象引入DataFrame就易用性而言,对比传统的MapReduceAPI,Spark的RDDAPI有了数量级的飞跃并不为过。然而,对于没有MapReduce和函数式编程经验的新手来说,RDDAPI仍然存在着一定的门槛。另一方面,数据科学家们所熟悉的R、Pandas等传统数据框架虽然提供了直观的API,却局限
作者:编程之家 时间:2022-09-04
使用Spark RDD完成词频统计
1、实验要求对给定的一个英文文本,使用Spark完成文本内容的读取并转换成RDD,然后使用RDD的算子统计每个单词出现的次数,将统计结果按从大到小的顺序打印到控制台上。2、实验代码importfindsparkfindspark.init()frompysparkimportSparkContext,SparkConfsparkConf=Spar
作者:编程之家 时间:2022-09-04
【Spark】【RDD】初次学习RDD 笔记 汇总
RDDAuthor:萌狼蓝天【哔哩哔哩】萌狼蓝天【博客】https://mllt.cc【博客园】萌狼蓝天-博客园【微信公众号】mllt9920【学习交流QQ群】238948804目录RDD特点创建从内存中创建RDD从外部存储创建RDD1.创建本地文件2.启动spark-shell3.从本地文件系统中读取从HDFS创建RDD1
作者:编程之家 时间:2022-09-04
【Spark】【RDD】从内存集合创建RDD
vallist=List(1,2,3)varrdd=sc.parallelize(list)rdd.partitions.size通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。一旦分布式数据集(distData)被创建好,它们
作者:编程之家 时间:2022-09-04
mapreduce、spark、tez区别
MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。TezTez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output,Reduce被拆分成Input、Shuffle、Sort
作者:编程之家 时间:2022-09-04
Pandas dataframe 和 spark dataframe 转换
想要随意的在pandas和spark的dataframe之间进行转换,list类型是关键,因为想要创建pandas的dataframe,方法之一就是使用list类型的data进行创建,而如果要创建spark的dataframe,list也是一种方法。所以呢,下面的代码我添加了一些注释,方便使用。importpandasaspdfrompyspark.sql
作者:编程之家 时间:2022-09-04
SparkConf源码简析
1、所有的配置存储在一个ConcurrentHashMap中,名为settings。 2、Spark的参数配置有以下三种获取。 源于系统参数中以spark为前缀的属性。(通过System.getProperties获取) 使用SparkConf的API设置的。 从其他SparkConf中克隆
作者:编程之家 时间:2022-09-04
Spark Streaming------window算子
一、window简介SparkStreaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为windowDStream的一个RDD。(每个滑动窗口操作,都应该指定两个参数,窗口长度以及滑动间隔)
作者:编程之家 时间:2022-09-04
Spark初探之SparkContext
1、定义/***MainentrypointforSparkfunctionality.ASparkContextrepresentstheconnectiontoaSpark*cluster,andcanbeusedtocreateRDDs,accumulatorsandbroadcastvariablesonthatcluster.**OnlyoneSparkContextmaybeactiveperJVM
作者:编程之家 时间:2022-09-04
Spark中的RDD容错机制
引入一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式
作者:编程之家 时间:2022-09-04
上传和下载大存储的HIVE表
目录1.上传CSV并转换为HIVE2.下载和读取2.1下载HIVE表为ORC2.2pandas读取ORC1.上传CSV并转换为HIVE#1.将pandasdf保存为csv文件df.to_csv("wrs_df.csv")#2.将csv上传到hive(查看地址:http://dpp.ops.ctripcorp.com/#/hive/file/file_browser)importo
作者:编程之家 时间:2022-09-04
深入分析Spark UDF的性能
这篇博客会阐述一份关于ApacheSpark的在ScalaUDF、PySparkUDF和PySparkPandasUDF之间的性能评测报告。Spark提供了多种解决方案来应对复杂挑战,但是我们面临了很多场景,原生的函数不足以解决问题。因此,Spark允许我们注册自定义函数(User-DefinedFunctions,或者叫UDFs)在
作者:编程之家 时间:2022-09-04
上一页
78
79
80
81
82
83
84
85
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native