Spark - 编程之家

RDD转化成类型的方式进行访问

1）创建一个样例类scala>caseclassPeople(name:String,age:Long)definedclassPeople2）创建DataSetscala>valcaseClassDS=Seq(People("Andy",32)).toDS()caseClassDS:org.apache.spark.sql.Dataset[People]=[name:string,age:bigint]这样people不仅仅有类型，而

作者：编程之家时间：2022-09-04

spark笔记之DAG的生成

什么是DAGDAG(DirectedAcyclicGraph)叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖，partition的转换处理在一个Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parentRDD处理完成后，才能开

作者：编程之家时间：2022-09-04

Spark Standalone 模式

Spark不仅可以运行在Mesos或者Yarn上，而且还提供独立部署模式。可以手动启动一个master和多个worker，或选用我们提供的脚本来启动standalone集群。安装Sparkstandalone集群独立安装Spark集群，只需要把编译好的版本部署在每个节点上，然后启动，或者也可以自己编译

作者：编程之家时间：2022-09-04

Spark(三): 安装与配置

参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6,在已安装HBase、hadoop集群的基础上通过ambari自动安装Spark集群，基于hadoopyarn的运行模式。目录：Spark集群安装参数配置测试验证Spark集群安装：在ambari-service界面选择“addService",如图：

作者：编程之家时间：2022-09-04

spark模型运行时无法连接摸个excutors异常org.apache.spark.shuffle.FetchFailedException: Failed to connect to xxxx/x

error:org.apache.spark.shuffle.FetchFailedException:Failedtoconnecttoxxxx/xx.xx.xx.xx:xxxx定位来定位去与防火墙等无关。反复查看日志：2019-09-3011:00:46,521|WARN|[dispatcher-event-loop-50]|Losttask5.0instage1.2(TID24441,dggsafe0321-cm,exec

作者：编程之家时间：2022-09-04

spark算法

workcount1packageexamples.wordcount;23importorg.apache.spark.SparkConf;4importorg.apache.spark.api.java.JavaSparkContext;5importorg.apache.spark.api.java.function.Function2;6importorg.apache.spark.api.java.function.PairFunction;7impor

作者：编程之家时间：2022-09-04

Spark RDD Action操作

reducedefreduce(f:(T,T)=>T):T通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的1234567891011scala>valrdd1=sc.makeRDD(1to10,2)rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[85]atmakeRDDat<console>:24scala>rdd1.reduce(_+

作者：编程之家时间：2022-09-04

Spark(一): 基本架构及原理

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同

作者：编程之家时间：2022-09-04

spark基础-rdd特性

RDD特性：1.RDD是spark提供的核心抽象，全称：ResillientDistributedDataset,即弹性分布式数据集。2.RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，氛围多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以并行操作（分布式数据集）3.RDD通常通过Hadoop上的文件来创

作者：编程之家时间：2022-09-04

spark

cloudera官网spark:https://docs.cloudera.com/documentation/enterprise/6/6.2opics/spark.htmlspark官网:https://spark.apache.org/documentation.htmlCDH安装spark:https://my.oschina.net/gywbest/blog/3054588spark开发:https://docs.cloudera.com/documentation/enterpri

作者：编程之家时间：2022-09-04

Spark调优

Spark调优写在前面对于调优,我觉得是没有放之四海而皆准的办法.很多时候,调优显得没有必要,即使不进行调优,程序也能够顺利执行.在没有出现问题的时候,不进行调优,即使是在大数据中,这也是我常常采用的原则.并且,针对问题再进行调优,往往是更为合适的.比如,明明

作者：编程之家时间：2022-09-04

Spark机器学习基础-特征工程

对连续值处理0.binarizer/二值化from__future__importprint_functionfrompyspark.sqlimportSparkSessionfrompyspark.ml.featureimportBinarizerspark=SparkSession\.builder\.appName("BinarizerExample")\.getOrCreate()

作者：编程之家时间：2022-09-04

<console>:14: error: not found: value spark import spark.implicits.

启动./spark-shell出现问题启动hadoop,并创建，解决hadoopfs-mkdir/directory解决了

作者：编程之家时间：2022-09-04

spark教程(一)-入门与安装

spark简介建议先阅读我的博客大数据基础架构spark一个通用的计算引擎，专门为大规模数据处理而设计，与mapreduce类似，不同的是，mapreduce把中间结果写入hdfs，而spark直接写入内存，这使得它能够实现实时计算。spark由scala语言开发，他能够和scala完美结合，同时实现了

作者：编程之家时间：2022-09-04

spark foreachPartition foreach

1.foreachvallist=newArrayBuffer()myRdd.foreach(record=>{list+=record})2.foreachPartitionvallist=newArrayBufferrdd.foreachPartition(it=>{It.foreach(r=>{list+=r})})说明：fore

作者：编程之家时间：2022-09-04

Spark入门系列视频教程

作者：编程之家时间：2022-09-04

基于Spark的电影推荐系统推荐系统~1

第四部分-推荐系统-项目介绍行业背景：快速：ApacheSpark以内存计算为核心通用：一站式解决各个问题，ADHOCSQL查询，流计算，数据挖掘，图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统，从吃穿住行等项目背景介绍：

作者：编程之家时间：2022-09-04

SparkSQL01

工作当中几乎全用SparkSQL，RDD用的很少(面试多)SparkSQL误区SparkSQLisApacheSpark’smoduleforworkingwithstructureddata.不要把SparkSQL认为就是处理SQl的或者认为就是写SQLSparkSQL误区：1）SparkSQL是处理结构化数据并不是仅仅能够处理SQL

作者：编程之家时间：2022-09-04

数据预处理与特征工程

数据预处理与特征工程缺失值处理缺失值处理通常有如下的方法：对于unknown值数量较少的变量，包括job和marital，删除这些变量是缺失值(unknown)的行；如果预计该变量对于学习模型效果影响不大，可以对unknown值赋众数，这里认为变量都对学习模型有较大影响，不采取此法；可以使用数

作者：编程之家时间：2022-09-04

Spark RDD 算子总结

Spark算子总结算子分类Transformation(转换)转换算子含义map(func)返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成filter(func)过滤,返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成flatMap(func)类似于map，但是每一

作者：编程之家时间：2022-09-04

单节点伪集群 Spark on yarn

前提环境：单节点伪集群：Hadoop+zookeeper+Hbasehttps://www.cnblogs.com/Sleepy-ff/p/11737339.html 资源下载：http://mirror.bit.edu.cn/apache/spark/ （1.）下载解压（2.）配置环境变量vim/etc/profile source/etc/

作者：编程之家时间：2022-09-04

spark graphX作图计算

一、使用graph做好友推荐importorg.apache.spark.graphx.{Edge,Graph,VertexId}importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//求共同好友objectCommendFriend{defmain(args:Array[String]):Unit={//创建入口valc

作者：编程之家时间：2022-09-04

Spark 资源调度包 stage 类解析

spark资源调度包Stage(阶段)类解析类注释:/***Astageisasetofparalleltasksallcomputingthesamefunctionthatneedtorunaspart*ofaSparkjob,whereallthetaskshavethesameshuffledependencies.*一个阶段是所有计算相同功能的并行任务

作者：编程之家时间：2022-09-04

spark教程(四)-python基础编程

hadoop是java开发的，原生支持java；spark是scala开发的，原生支持scala；spark还支持java、python、R，本文只介绍pythonspark1.x和spark2.x用法略有不同，spark1.x的用法大部分也适用于spark2.x Pysparkpython+spark，简单来说，想用python操作spark，就必须用p

作者：编程之家时间：2022-09-04

大数据——Spark

Spark产生的原因：1、MapReduce具有很多的局限性，仅支持Map和Reduce两种操作，还有迭代效率比较低，不适合交互式的处理，不擅长流式处理。2、现有的各种计算框架各自为战。Spark就是在一个统一的框架下能够进行批处理，流式计算和交互式计算。Spark的核心概念就是RDD（弹性分布式数

作者：编程之家时间：2022-09-04

spark笔记之Scala Actor并发编程

1.1. 课程目标1.1.1. 目标一：熟悉ScalaActor并发编程1.1.2. 目标二：为学习Akka做准备注：ScalaActor是scala2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor，老版本的Actor已经废弃。1.2. 什么是Scala Actor1.2.1. 概念Scala中的Actor

作者：编程之家时间：2022-09-04

一份数据工程师的学习资源

简介在建立模型之前，在数据经过清洗用于探索分析之前，甚至在数据科学家工作开始之前，数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架，否则就是失败的配置。大多数人怀揣着成为数据科学家的梦想进入数据科学世界，但却没有意识到数据工程师是做什

作者：编程之家时间：2022-09-04

基于Spark的电影推荐系统推荐系统~2

第四部分-推荐系统-数据ETL本模块完成数据清洗，并将清洗后的数据load到Hive数据表里面去前置准备：spark+hivevim$SPARK_HOME/conf/hive-site.xml<?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><conf

作者：编程之家时间：2022-09-04

大数据-spark

Spark是用于大规模数据处理的快速通用的计算引擎。相较MR快的原因：其任务中间结果存在内存中，在迭代运算中尤为明显，DAG的设置。架构说明：Dirver：负责节点通讯，task分发，结果回收Worker：资源管理的从节点Master：资源调度的主节点RDD弹性分布式数据集五大特性RDD由一系列

作者：编程之家时间：2022-09-04

spark源码--worker启动原理和源码

worker启动一般包含两大部分：DriverRunner和ExcetorRunner。worker启动driver的几个基本原理，最核心的是。worker内部会启动一个线程，这个线程可以理解为driverRunner。然后DriverRunner会去负责启动driver进程，并在之后对driver进程进行管理。 worker的启动步骤：1-master要求

作者：编程之家时间：2022-09-04