手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
RDD转化成类型的方式进行访问
1)创建一个样例类scala>caseclassPeople(name:String,age:Long)definedclassPeople2)创建DataSetscala>valcaseClassDS=Seq(People("Andy",32)).toDS()caseClassDS:org.apache.spark.sql.Dataset[People]=[name:string,age:bigint]这样people不仅仅有类型,而
作者:编程之家 时间:2022-09-04
spark笔记之DAG的生成
什么是DAGDAG(DirectedAcyclicGraph)叫做有向无环图,原始的RDD通过一系列的转换就形成了DAG,根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖,partition的转换处理在一个Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parentRDD处理完成后,才能开
作者:编程之家 时间:2022-09-04
Spark Standalone 模式
Spark不仅可以运行在Mesos或者Yarn上,而且还提供独立部署模式。可以手动启动一个master和多个worker,或选用我们提供的脚本来启动standalone集群。安装Sparkstandalone集群独立安装Spark集群,只需要把编译好的版本部署在每个节点上,然后启动,或者也可以自己编译
作者:编程之家 时间:2022-09-04
Spark(三): 安装与配置
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6,在已安装HBase、hadoop集群的基础上通过ambari自动安装Spark集群,基于hadoopyarn的运行模式。目录:Spark集群安装参数配置测试验证Spark集群安装:在ambari-service界面选择“addService",如图:
作者:编程之家 时间:2022-09-04
spark模型运行时无法连接摸个excutors异常org.apache.spark.shuffle.FetchFailedException: Failed to connect to xxxx/x
error:org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoxxxx/xx.xx.xx.xx:xxxx定位来定位去与防火墙等无关。反复查看日志:2019-09-3011:00:46,521|WARN|[dispatcher-event-loop-50]|Losttask5.0instage1.2(TID24441,dggsafe0321-cm,exec
作者:编程之家 时间:2022-09-04
spark算法
workcount1packageexamples.wordcount;23importorg.apache.spark.SparkConf;4importorg.apache.spark.api.java.JavaSparkContext;5importorg.apache.spark.api.java.function.Function2;6importorg.apache.spark.api.java.function.PairFunction;7impor
作者:编程之家 时间:2022-09-04
Spark RDD Action操作
reducedefreduce(f:(T,T)=>T):T通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的1234567891011scala>valrdd1=sc.makeRDD(1to10,2)rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[85]atmakeRDDat<console>:24scala>rdd1.reduce(_+
作者:编程之家 时间:2022-09-04
Spark(一): 基本架构及原理
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同
作者:编程之家 时间:2022-09-04
spark基础-rdd特性
RDD特性:1.RDD是spark提供的核心抽象,全称:ResillientDistributedDataset,即弹性分布式数据集。2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以并行操作(分布式数据集)3.RDD通常通过Hadoop上的文件来创
作者:编程之家 时间:2022-09-04
spark
cloudera官网spark:https://docs.cloudera.com/documentation/enterprise/6/6.2opics/spark.htmlspark官网:https://spark.apache.org/documentation.htmlCDH安装spark:https://my.oschina.net/gywbest/blog/3054588spark开发:https://docs.cloudera.com/documentation/enterpri
作者:编程之家 时间:2022-09-04
Spark调优
Spark调优写在前面对于调优,我觉得是没有放之四海而皆准的办法.很多时候,调优显得没有必要,即使不进行调优,程序也能够顺利执行.在没有出现问题的时候,不进行调优,即使是在大数据中,这也是我常常采用的原则.并且,针对问题再进行调优,往往是更为合适的.比如,明明
作者:编程之家 时间:2022-09-04
Spark机器学习基础-特征工程
对连续值处理0.binarizer/二值化from__future__importprint_functionfrompyspark.sqlimportSparkSessionfrompyspark.ml.featureimportBinarizerspark=SparkSession\.builder\.appName("BinarizerExample")\.getOrCreate()
作者:编程之家 时间:2022-09-04
<console>:14: error: not found: value spark import spark.implicits.
启动./spark-shell出现问题 启动hadoop,并创建,解决hadoopfs-mkdir/directory解决了
作者:编程之家 时间:2022-09-04
spark教程(一)-入门与安装
spark简介 建议先阅读我的博客 大数据基础架构spark一个通用的计算引擎,专门为大规模数据处理而设计,与mapreduce类似,不同的是,mapreduce把中间结果写入hdfs,而spark直接写入内存,这使得它能够实现实时计算。spark由scala语言开发,他能够和scala完美结合,同时实现了
作者:编程之家 时间:2022-09-04
spark foreachPartition foreach
1.foreachvallist=newArrayBuffer()myRdd.foreach(record=>{list+=record})2.foreachPartitionvallist=newArrayBufferrdd.foreachPartition(it=>{It.foreach(r=>{list+=r})})说明:fore
作者:编程之家 时间:2022-09-04
Spark入门系列视频教程
视频目录:Spark入门| 01 Spark概念架构Spark入门| 02 Spark集群搭建Spark入门| 03 Spark Shell算子操作Spark入门| 04 Spark单词计数Shell操作Spark入门| 05 IDEA中编写Spark单词计数程序Spark入门| 06 SparkSQL单词计数程序编写 视频截图: 关注下
作者:编程之家 时间:2022-09-04
基于Spark的电影推荐系统推荐系统~1
第四部分-推荐系统-项目介绍行业背景:快速:ApacheSpark以内存计算为核心通用:一站式解决各个问题,ADHOCSQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统,从吃穿住行等项目背景介绍:
作者:编程之家 时间:2022-09-04
SparkSQL01
工作当中几乎全用SparkSQL,RDD用的很少(面试多)SparkSQL误区SparkSQLisApacheSpark’smoduleforworkingwithstructureddata.不要把SparkSQL认为就是处理SQl的或者认为就是写SQLSparkSQL误区:1)SparkSQL是处理结构化数据并不是仅仅能够处理SQL
作者:编程之家 时间:2022-09-04
数据预处理与特征工程
数据预处理与特征工程缺失值处理缺失值处理通常有如下的方法:对于unknown值数量较少的变量,包括job和marital,删除这些变量是缺失值(unknown)的行;如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数,这里认为变量都对学习模型有较大影响,不采取此法;可以使用数
作者:编程之家 时间:2022-09-04
Spark RDD 算子总结
Spark算子总结算子分类Transformation(转换)转换算子含义map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func)过滤,返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成flatMap(func)类似于map,但是每一
作者:编程之家 时间:2022-09-04
单节点伪集群 Spark on yarn
前提环境:单节点伪集群:Hadoop+zookeeper+Hbasehttps://www.cnblogs.com/Sleepy-ff/p/11737339.html 资源下载:http://mirror.bit.edu.cn/apache/spark/ (1.)下载解压(2.)配置环境变量vim/etc/profile source/etc/
作者:编程之家 时间:2022-09-04
spark graphX作图计算
一、使用graph做好友推荐importorg.apache.spark.graphx.{Edge,Graph,VertexId}importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//求共同好友objectCommendFriend{defmain(args:Array[String]):Unit={//创建入口valc
作者:编程之家 时间:2022-09-04
Spark 资源调度包 stage 类解析
spark资源调度包Stage(阶段)类解析类注释:/***Astageisasetofparalleltasksallcomputingthesamefunctionthatneedtorunaspart*ofaSparkjob,whereallthetaskshavethesameshuffledependencies.*一个阶段是所有计算相同功能的并行任务
作者:编程之家 时间:2022-09-04
spark教程(四)-python基础编程
hadoop是java开发的,原生支持java;spark是scala开发的,原生支持scala;spark还支持java、python、R,本文只介绍pythonspark1.x和spark2.x用法略有不同,spark1.x的用法大部分也适用于spark2.x Pysparkpython+spark,简单来说,想用python操作spark,就必须用p
作者:编程之家 时间:2022-09-04
大数据——Spark
Spark产生的原因:1、MapReduce具有很多的局限性,仅支持Map和Reduce两种操作,还有迭代效率比较低,不适合交互式的处理,不擅长流式处理。2、现有的各种计算框架各自为战。Spark就是在一个统一的框架下能够进行批处理,流式计算和交互式计算。Spark的核心概念就是RDD(弹性分布式数
作者:编程之家 时间:2022-09-04
spark笔记之Scala Actor并发编程
1.1. 课程目标1.1.1. 目标一:熟悉ScalaActor并发编程1.1.2. 目标二:为学习Akka做准备注:ScalaActor是scala2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中,作为其默认的Actor,老版本的Actor已经废弃。1.2. 什么是Scala Actor1.2.1. 概念Scala中的Actor
作者:编程之家 时间:2022-09-04
一份数据工程师的学习资源
简介在建立模型之前,在数据经过清洗用于探索分析之前,甚至在数据科学家工作开始之前,数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架,否则就是失败的配置。大多数人怀揣着成为数据科学家的梦想进入数据科学世界,但却没有意识到数据工程师是做什
作者:编程之家 时间:2022-09-04
基于Spark的电影推荐系统推荐系统~2
第四部分-推荐系统-数据ETL本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去前置准备:spark+hivevim$SPARK_HOME/conf/hive-site.xml<?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><conf
作者:编程之家 时间:2022-09-04
大数据-spark
Spark是用于大规模数据处理的快速通用的计算引擎。相较MR快的原因:其任务中间结果存在内存中,在迭代运算中尤为明显,DAG的设置。架构说明:Dirver:负责节点通讯,task分发,结果回收Worker:资源管理的从节点Master:资源调度的主节点RDD弹性分布式数据集五大特性RDD由一系列
作者:编程之家 时间:2022-09-04
spark源码--worker启动原理和源码
worker启动一般包含两大部分:DriverRunner和ExcetorRunner。worker启动driver的几个基本原理,最核心的是。worker内部会启动一个线程,这个线程可以理解为driverRunner。然后DriverRunner会去负责启动driver进程,并在之后对driver进程进行管理。 worker的启动步骤:1-master要求
作者:编程之家 时间:2022-09-04
上一页
29
30
31
32
33
34
35
36
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native