Spark - 编程之家

38、数据源Parquet之使用编程方式加载数据

一、概述Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。列式存储和行式存储相比有哪些优势呢？1、可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。2、压缩编码可以降低磁盘

作者：编程之家时间：2022-09-04

Spark RDD基本操作

作者：编程之家时间：2022-09-04

payspark als

frompyspark.sqlimportSparkSession importmathfromos.pathimportabspath defcosSim(v1,v2): member=reduce(lambdax,y:x+y,map(lambdad:d[0]*d[1],zip(v1,v2))) t1=math.sqrt(reduce(lambdam,n:m+n,map(lambdax:math.pow(x,2),v1)

作者：编程之家时间：2022-09-04

大数据平台最常用的30款开源工具

大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据仓库工具无法处理完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集

作者：编程之家时间：2022-09-04

spark集群安装并集成到hadoop集群

前言最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7分布式集群安装与配置本篇博客主要说明,如果搭建spark集群并集成到hadoop安装流程安装spark需要先安装scala注意在安装过程中需要对应spark与scala版本,spark也

作者：编程之家时间：2022-09-04

spark 源码分析之十九 -- Stage的提交

引言上篇 spark源码分析之十九--DAG的生成和Stage的划分中，主要介绍了下图中的前两个阶段DAG的构建和Stage的划分。本篇文章主要剖析，Stage是如何提交的。rdd的依赖关系构成了DAG，DAGScheduler根据shuffle依赖关系将DAG图划分为一个一个小的stage。具体可以看 spark源码分

作者：编程之家时间：2022-09-04

大数据之spark开发环境搭建基于idea 和maven

spark开发环境搭建（基于idea和maven）

作者：编程之家时间：2022-09-04

2019年美团、滴滴、蘑菇街Java岗9次面试总结

大概在三月份开始面了几家互联网公司，主要方向是java后端和大数据开发，最近整理学习资料，都快秋招了，发的有点晚了，不过还是想分享一下。美团，滴滴，蘑菇街等公司的面经。美团一面聊你最熟悉的项目和技术。项目中为什么要使用spark。spark怎么划分stage，宽窄依赖，聊源码spark提交一个作业的

作者：编程之家时间：2022-09-04

Spark中RDD的宽窄依赖和各自的特点

窄依赖父RDD和子RDDpartition之间的关系是一对一。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDDpartition关系是多对一。不会有shuffle的产生。宽依赖父RDD与子RDDpartition之间的关系是一对多。会有shuffle的产生。

作者：编程之家时间：2022-09-04

记一次使用spark累加器来实现流程数据量监控功能

业务场景采集工具采集的文件中以日期为标识，但是该文件中却可能包含了多天的数据，所以在统计当天推送文件记录总数时，需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系，就可以缩小详单表分区范围，尽快的统计出当天入库记录数。（这仅仅是该业务

作者：编程之家时间：2022-09-04

大数据基础之Spark

背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架，2013年被Apache基金会接管，是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上，支持计算对象数据可以直接缓存到内存中，大大提高了整体计算效率。特别适合于数据挖

作者：编程之家时间：2022-09-04

spark 通过传入List 创建DataFrame

spark创建dataFrame方式有很多种，官方API也比较多，可能用的最多的是通过textFile()读取数据源吧但是业务上的个别场景，不适合用textFile()，于是使用下面的这个API/***AppliesaschematoaListofJavaBeans.**WARNING:Sincethereisnoguaranteedorderingfor

作者：编程之家时间：2022-09-04

spark 远程调试

#调试Master，在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量exportSPARK_MASTER_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"#启动Mastersbin/start-master.sh#调试Worker，在worker节点的spark-env.sh中添加SPARK_WORKER_O

作者：编程之家时间：2022-09-04

26、高性能序列化类库

一、数据序列化概述在任何分布式系统中，序列化都是扮演着一个重要的角色的。如果使用的序列化技术，在执行序列化操作的时候很慢，或者是序列化后的数据还是很大，那么会让分布式应用程序的性能下降很多。所以，进行Spark性能优化的第一步，就是进行序列化的性能优化。Spark自身默认就会在

作者：编程之家时间：2022-09-04

Spark安装配置问题以及常用命令教程

安装指南：http://dblab.xmu.edu.cn/blog/804-2/火狐浏览器官网下载spark会遇到问题：安全连接失败连接www.apache.org时发生错误。无法安全地与对端通信：没有双方共用的加密算法。（错误码：ssl_error_no_cypher_overlap）解决方法：可以下载镜像文件来解决spark镜像下载地

作者：编程之家时间：2022-09-04

使用SuperMap iObjects for Spark组件开发进行分析

作者:Neshoir SuperMapiObjectsforSpark是超图空间大数据GIS组件包，是基于Spark大数据技术基础之上，将GIS技术及其能力与大数据技术进行深度融合，作为连接大数据与GIS行业应用的中间桥梁。该GIS组件包提供了丰富的分布式空间GIS分析功能的SDK，便于开发者开发业

作者：编程之家时间：2022-09-04

Spark-Streaming hdfs count 案例

Streaminghdfscount需要先启动hadoop集群。#启动hadoop集群start-dfs.shstart-yarn.sh#查看是否启动成功#命令jpsjpshadoop启动成功之后，下面就是关于stream的代码，stream统计代码如下，将下面的代码进行打包，上传到服务器上即可。importorg.apache.spark.Sp

作者：编程之家时间：2022-09-04

Spark依赖关系与Stage划分简介

Spark会在用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系，同时这个计算链也就生成了逻辑上的DAG(有向无环图)。RDD之间的关系可以从两个维度来理解:一个是当前RDD是从哪些RDD转换而来，也就是parentRDD(s)是什么;还有就是依赖于parentRDD的哪些Partition。这个

作者：编程之家时间：2022-09-04

7种最常见的大数据框架Hadoop和Spark项目

有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一些与这些新的大数据技术相关的事情，但它不需要很长的时间遇到相同的模式。具体的实施

作者：编程之家时间：2022-09-04

大数据经典学习路线以及各阶段所发挥的作用

1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力：熟练使用Linux，熟练安装Linux上的软件，了解熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、高可靠的服务架构；学完此阶段可解决的现实问题：搭建负载均衡、高可靠的服务器集群，可以增大网站的并发访问量，保证服务不

作者：编程之家时间：2022-09-04

IDEA导入项目各种报错问题

问题一[ERROR]scalacerror:E:\spark\spark-rdd-源代码\spark-rdd\target\classesdoesnotexistorisnotadirectory[INFO]scalac-helpgivesmoreinformation[INFO]------------------------------------------------------------------------[INFO]BUI

作者：编程之家时间：2022-09-04

spark笔记之数组、映射、元组、集合

1.1. 数组1.1.1. 定长数组和变长数组（1）定长数组定义格式：valarr=newArrayT（2）变长数组定义格式：val arr =ArrayBuffer[T]()注意需要导包：import scala.collection.mutable.ArrayBufferpackagecn.itcast.scalaimportscala.collection.mutable.ArrayBufferobjectArray

作者：编程之家时间：2022-09-04

Spark操作DataFrame方法汇总

1.读取csv文件变成DataFramevaldata=spark.read.csv("/data/session01.csv")2.查看df每一列类型data.dtypes3.查看df数据data.show()defshow(numRows:Int,truncate:Int,vertical:Boolean):Unit参考：http://spark.apache.org/docs/2.3.1/api/scala/

作者：编程之家时间：2022-09-04

SparkCore：History-Server/监控，查看程序历史运行日志

文章目录1、History-Server介绍2、History-Server配置3、验证4、History-Server参数5、RESTAPI官网：MonitoringandInstrumentationhttp://spark.apache.org/docs/2.4.2/monitoring.html1、History-Server介绍当你执行spark-shell--masterlocal[2]的时候默认情况下，

作者：编程之家时间：2022-09-04

Spark Scala当中reduceByKey的用法

[学习笔记]/*reduceByKey(function)reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述)，因此，Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对。reduceByKey(_+_)是reduceByKey((x,y)=>x+y)的一个简洁的形式

作者：编程之家时间：2022-09-04

Win7 Eclipse 搭建spark java1.8(lambda)环境：WordCount helloworld例子

[学习笔记]Win7Eclipse搭建sparkjava1.8(lambda)环境：WordCounthelloworld例子lambda表达式是java8给我们带来的一个重量的新特性，借用lambda表达式可以让我们的程序设计更加简洁。packagecom;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD

作者：编程之家时间：2022-09-04

Win7 Eclipse 搭建spark java1.8环境：WordCount helloworld例子

[学习笔记]Win7Eclipse搭建sparkjava1.8环境：WordCounthelloworld例子在eclipseoxygen上创建一个普通的java项目，然后把spark-assembly-1.6.1-hadoop2.6.0.jar这个包导进工程就ok了。只要启动start-dfs,下面的程序就可以运行了。packagecom;importjava.util.Arrays;importja

作者：编程之家时间：2022-09-04

Spark RDD宽依赖窄依赖

宽依赖：宽依赖往往对应着shuffle操作，需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中，中间可能涉及多个节点之间的数据传输。窄依赖：而窄依赖的每个父RDD的分区只会传入到一个子RDD分区中，通常可以在一个节点内完成转换,不会产生shuffle操作。

作者：编程之家时间：2022-09-04

Spark学习实例(Python)：加载数据源Load Data Source

我们在使用Spark的时候主要是用来快速处理大批量的数据，那么实际开发和生产中会有哪些数据来源呢，我归类总结有：textcsvjsonparquetjdbchivekafkaelasticsearch接下来所有的测试是基于sparklocal模式，因为local模式便于测试不依赖spark集群环境。有一点要注意将代码运行

作者：编程之家时间：2022-09-04

SparkOnYarn的好处

今天也要努力学习开发上我们选择local[2]模式生产上跑任务Job，我们选择SparkOnYarn模式，将SparkApplication部署到yarn中，有如下优点：1.部署Application和服务更加方便只需要yarn服

作者：编程之家时间：2022-09-04