Spark - 编程之家

1、计算原理Sparkstreaming处理数据可以分为实时流或者流Sparkstreaming从flume或者kafka中拉取数据，而Sparkstreaming中会创建多个窗口，以RDD的形式存放这些数据，然后开始处理这些数据Sparkstreaming含有一个特有的算子updateStateByKey,就是在state中累计之前窗口中的数据

作者：编程之家时间：2022-09-04

Spark-Core学习笔记

Spark-Core学习笔记RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。0三大数据结构RDD：弹性式分布数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量0.1模拟搭建分布式计算数据结构模拟Diverdefmain(args:Array[S

作者：编程之家时间：2022-09-04

Spark/Scala实现推荐系统中的相似度算法欧几里得距离、皮尔逊相关系数、余弦相似度：附实现代码

在推荐系统中，协同过滤算法是应用较多的，具体又主要划分为基于用户和基于物品的协同过滤算法，核心点就是基于"一个人"或"一件物品"，根据这个人或物品所具有的属性，比如对于人就是性别、年龄、工作、收入、喜好等，找出与这个人或物品相似的人或物，当然实际处理中参考的因子会复杂的多。本

作者：编程之家时间：2022-09-04

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用SparkSQL处理数据，在SparkSQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性：1.SparkSQL写Hive或者直接写

作者：编程之家时间：2022-09-04

Spark从入门到放弃——初始Spark一

Spark版本 Spark是Apache开源的顶级项目，官网地址,目前也一直不断更新迭代，截至本博客发布时间(20201202)最新版本是Spark3.0.1released(Sep08,2020),因为公司目前生产用的是Spark2.3.3,所以后续的教程都是以Spark2.3.3为主；讲解版本：Spark2.3.3什么是Spark

作者：编程之家时间：2022-09-04

大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器

Scala和Java实现SparkStreamingSparkStreaming实时流监控端口数据进行WordCountScala版本实现SparkStreamingJava版本实现SparkStreamingSparkStreaming实时流监控文件夹数据进行WordCountSparkStreaming和KafkaStream联用不显示输出过的结果显示输出过的结果自定

作者：编程之家时间：2022-09-04

spark---- RDD算子之Action算子

Action算子调用sc.ranjob方法,根据最后一个RDD从后往前推,触发Action就会生成DAG,切分Stage,生成TaskSet 算子: aggregate foreach foreachPartition countsum fold reduce max min take first top takeOrderedaggregate 聚合 ,设

作者：编程之家时间：2022-09-04

Spark 的 Broadcast 和 Accumulator 的使用

适合使用Broadcast的场景如果希望driver和每个executor读到的变量值是一致的如果有的变量存储的数据比较大，希望在每个executor都只初始化一遍broadcast的变量是在driver初始化的，然后将broadcast变量的元数据传给executor，当executor使用broadcast的时候先在

作者：编程之家时间：2022-09-04

Spark 分布式环境搭建

Spark分布式环境搭建1.scala环境搭建1）下载scala安装包scala2.12.10.tgz安装到/usr/scala[root@hadoop001scala]#tar-zxvfscala-2.12.10.tgz[root@hadoop001scala]#ln-sscala-2.12.10.tgzscala2）添加Scala环境变量，在/etc/profile中添加：exportSCALA_HOME=/u

作者：编程之家时间：2022-09-04

python环境下使用pyspark读取hive表

python环境导入pyspark.sql1.linux系统下,spark读取hive表配置文件：先将hive-site.xml放入linuxspark内的conf内//hive和linux下的spark连接将jar包mysql-connector-java.jar放入linuxspark内的jars如图：2.在windows系统内，配置spark配置文件：将linux内的spark

作者：编程之家时间：2022-09-04

Spark求平均值

//求平均方法一：groupByKey textFile.mapToPair(line->newTuple2<>(line.split("")[0],Integer.parseInt(line.split("")[1]))) .groupByKey() .mapToPair(info->{

作者：编程之家时间：2022-09-04

大数据期末总结复习

信息来源于某位帅男:20道选择题，一题2分，2~3道大题：mapreduce求解，sparkRDD，hdfs（选择题），hbase（数据表的选择设计问题，操作问题）一、一些基本概念1.python基础#1).单行注释用“#”，多行注释用一对‘’‘，或者"""包裹内容。#2).python的输入输出： a=int(input())b=in

作者：编程之家时间：2022-09-04

spark踩坑--WARN ProcfsMetricsGetter: Exception when trying to compute pagesize的最全解法

spark踩坑--WARNProcfsMetricsGetter:Exceptionwhentryingtocomputepagesize的最全解法问题描述大概是今年上半年的时候装了spark（windows环境/spark-3.0.0-preview2/hadoop2.7），装完环境之后就一直没管，今天用的时候出现了这个错误：20/12/1712:06:34ERRORShell:Failedt

作者：编程之家时间：2022-09-04

yarn 显示 vcores、memory 机制

以spark提交任务为例：yarn作为clustermanager时，spark（以client模式为例）用spark-submit提交应用程序（或者是spark-shell交互操作）不加任何资源参数时，会使用如下几个默认配置来向yarn的resourcemanager申请container资源：spark.executor.memory 1gspark.executor.cores

作者：编程之家时间：2022-09-04

spark入门

一spark简介Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月18日发布spark3.0.01.spark特点EaseofUse：

作者：编程之家时间：2022-09-04

pyspark学习笔记

在pyspark读取多数据源中，读取mysql遇到的问题frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimportRowspark=SparkSession\.builder\.master("local[*]")\.appName("DataSourceTest")\.getOrCreate()sc=spark.sp

作者：编程之家时间：2022-09-04

集群搭建系列七 spark on yarn 3.0.1 待完善

文章目录1下载、解压、软链2环境变量配置31下载、解压、软链wgethttps://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgztar-zxvfspark-3.0.1-bin-hadoop2.7.tgzln-sspark-3.0.1-bin-hadoop2.7spark如果还不行可以在清

作者：编程之家时间：2022-09-04

大数据平台任务监控

写在前面监控的概念监控是收集和分析数据以确定业务应用程序的性能，运行状况和可用性及其依赖的资源的行为。有效的监控策略可帮助用户了解应用程序组件的详细进程，还可以通过主动通知关键问题来避免错误发生，以便在问题发生之前解决问题。宏观上看，监控的内容可以总结为下图

作者：编程之家时间：2022-09-04

大数据数据仓库数据分析概论

文章目录主要技术方案主要概念名词Hadoop基础架构HDFS（Hadoop分布式文件系统）HBaseApacheSpark计算引擎/通用并行框架Spark和Hadoop、HDFS的关系hive数据仓库工具数据分析的基本过程：实践/环境搭建主要技术方案完全自主搭建、部分采购自云服务商（

作者：编程之家时间：2022-09-04

基于Spark Streaming对新闻网站项目案例分析

目录一、需求分析二、数据准备（1）数据格式（2）基于Java开发实时数据生成器三、实施过程一、需求分析新闻网站需求：pvuv注册用户数热门板块数据处理流程：数据源->kafka->sparkstreaming二、数据准备（1）数据格式网站日志格式：date,timestamp,userid,pageid,sec

作者：编程之家时间：2022-09-04

spark-sql实践

spark-sql实践一、安装anaconda二、配置jupyternotebook三、案例分析1.格式转换2.读取文件生成DataFrame3.进行数据分析(1)计算每日的累计确诊病例数和死亡数(2)计算每日较昨日的新增确诊病例数和死亡病例数(3)统计截止5.19日美国各州的累计确诊人数和死亡人数(4)找出美

作者：编程之家时间：2022-09-04

推荐系统--n--特征处理2

Spark是一个分布式计算平台，所谓的分布式，指的是计算节点之间不共享内存，需要通过网络通信的方式交换数据。Spark最典型的应用方式就是建立在大良廉价的计算节点上，这些节点可以是廉价主机，也可以是虚拟的dockercontainer.从下面的Spark架构图中我们可以看到Spark程序是由Manage

作者：编程之家时间：2022-09-04

大数据开发-Spark调优常用手段

Spark调优spark调优常见手段，在生产中常常会遇到各种各样的问题，有事前原因，有事中原因，也有不规范原因，spark调优总结下来可以从下面几个点来调优。1.分配更多的资源分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本

作者：编程之家时间：2022-09-04

spark 之 UDF的两种方式

详见：https://www.cnblogs.com/itboys/p/9347403.html1）如果使用spark.sql("") =>内部调用hive处理，只能使用spark.udf.register("",)例如：importorg.apache.spark.sql.functions._valmaxandmin=udf{(cdata:Double,maxdata:Double,mindata:Double)=>{

作者：编程之家时间：2022-09-04

Spark Streaming简介及运用(含案例)

目录1、简介2、应用示例案例一：采集端口数据实现wordcount(Scala版本）案例二：采集端口数据实现wordcount(Java版本)案例三：采集目录下的文件数据实现wordcount案例四：采集Kafka数据实现wordcount案例五：自定义采集器1、简介SparkStreaming是Spark核心API的一个扩展，可以实

作者：编程之家时间：2022-09-04

数据湖入门

学习资源来自https://www.bilibili.com/video/BV16y4y1C7Po文章目录课程目标前置技能一、数据湖概念[了解]1.1企业的数据困扰困扰一：互联网的兴起和数据孤岛困扰二：非结构化数据困扰三：保留原始数据补充：什么是结构化？结构化数据非结构化数据半结构化数据1.2数据湖的提出

作者：编程之家时间：2022-09-04

spark map

map transformation算子 idea显示，map的输入参数是一个函数，其中函数的输入与数据有关，本次输入是一个字符串，输出可以是很多种数据类型map字符串转列表data.map(fun1).foreach(println)deffun1(x:String):List[String]={vall:List[String]=List("1","2","3",x)

作者：编程之家时间：2022-09-04

【spark】elasticsearch自签证书，spark进行读写

颁发自签证书1)列出keystore中的证书keytool-list默认情况下，它会在你的$HOME目录下产生一个空的.keystore文件。如要指定Java正在用的keystore文件，使用以下参数keytool-list-keystore$JAVA_HOME/lib/security/cacerts注意一下，keystore文

作者：编程之家时间：2022-09-04

idea下spark连接hive

spark连接hive步骤将core-site.xml、hdfs-site.xml、hive-site.xml放到配置文件夹下设置hadoop用户名System.setProperty("HADOOP_USER_NAME","hadoop");开启spark对hive的支持valspark:SparkSession=SparkSession.builder().appName(s"${this.getCl

作者：编程之家时间：2022-09-04

【Spark】Spark的机器学习算法库——Spark MLilb

文章目录1导入1.1基本概念1.2spark.mlib和spark.ml2机器学习工作流(MLPipelines)2.1基本概念2.2工作流的构建构建SparkSession对象引入要包含的包构建训练数据集定义Pipeline中的各个工作流阶段PipelineStage创建一个Pipeline构建测试数据预测1导入1.1基

作者：编程之家时间：2022-09-04