Spark - 编程之家

spark基础知识

执行机制spark分成driver和executor。driver：提交应用程序入口，main函数执行，进行job调度，dag构建以及调度task。对rdd操作。executor：执行task，将结果汇总到driver。对rdd具体数据操作。count，distinct，groupby，join会触发shuffle操作，相同key会拉到同一个节点。

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

总共有多少学生？总共开设了哪些课程每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每门课多少分？Tom的成绩按分数大小排序。 Tom的平均分。求每门课的平均分，最高分，最低分。

作者：编程之家时间：2022-09-04

大数据篇--Spark调优

文章目录一、算子的合理选择1.map和mappartition：2.foreach和foreachpartition：一、算子的合理选择pom.xml内容：<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.

作者：编程之家时间：2022-09-04

08学生课程分数的Spark SQL分析

一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每门课多少分？ Tom的成绩按分数

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

总共有多少学生？总共开设了哪些课程每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每门课多少分？Tom的成绩按分数大小排序。 Tom的平均分。求每门课的平均分，最高分，最低分。

作者：编程之家时间：2022-09-04

Spark的安装

1.确保jdk版本在1.8以上链接地址：https://pan.baidu.com/s/1fbYHEBKQlJ2tlmYpB3J0lg提取码：ejdnoracle官网：http://www.oracle.com/2.安装jdk通过xftp上传至linux解压$tarzxvf~/software/jdk-8u161-linux-x64.tar.gz-C/usr/java/打开profile文件vietc/profil

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每门课多少分？T

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于9

作者：编程之家时间：2022-09-04

Note_Logistics_Day06

stypora-copy-images-to:imgtypora-root-url:./Logistics_Day04：Kudu入门使用01-[复习]-上次课程内容回顾主要讲解：Kudu存储引擎，类似HBase数据库，属于HBase和HDFS折中产品，既能够随机数据读写，又支持批量数据加载分析。1、物流项目ETL流程三大业务板块 1）、数据

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

08学生课程分数的SparkSQL分析读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求1.每个分数+5分。 2.总共有多少学生？ 3.总共开设了哪些课程？ 4.每个学生选修了多少门课？ 5.每门课程

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了几门课？每门课多少分？ Tom的成绩按分数

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL 分析

08学生课程分数的SparkSQL分析读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于9

作者：编程之家时间：2022-09-04

08 学生课程分数的Spark SQL分析

读学生课程分数文件chapter4-data01.txt，创建DataFrame。一、用DataFrame的操作完成以下数据分析要求每个分数+5分。总共有多少学生？总共开设了哪些课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程大于95分的学生人数？Tom选修了

作者：编程之家时间：2022-09-04

Spark RDD介绍

1.什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后

作者：编程之家时间：2022-09-04

五、Spark编程进阶

一、累加器1.累加器的用法通过在驱动器中调用SparkContext.accumulator(initialValue)方法，创建出有初始值的累加器。返回值为org.apache.spark.Accumulator[T]对象，其中T是初始值initialValue的类型。Spark闭包里的执行器代码可以使用累加器的+=方法增加累加器的值。驱动器

作者：编程之家时间：2022-09-04

Spark任务执行各对象创建的时机

1.SparkContext哪一端生成的？ Driver端2.DAG是在哪一端被构建的？Driver端3.RDD是在哪一端生成的？ Driver端4.广播变量是在哪一端调用的方法进行广播的？ Driver端5.要广播的数据应该在哪一端先创建好再广播呢？ Driver端6.调用RDD的算子（Transformation和Action）是在哪一端调用的

作者：编程之家时间：2022-09-04

Spark广播变量和累加器

Spark广播变量和累加器广播变量broadcast累加器广播变量broadcast广播变量顾名思义，由Driver端发送数据，所有Executor端接收并保存这份数据，用于每个Executor上的数据计算工作。广播变量的几点特性：广播变量是保存在Executor内存中的，每个Executor一份。如果一个Executo

作者：编程之家时间：2022-09-04

数据仓库Hive

Hive概述产生背景MapReduce编程的不便性传统RDBMS人员的需求HDFS上的文件并没有schema的概念Hive是什么由Facebook开源，用于解决海量结构化日志的数据统计问题构建在Hadoop之上的数据仓库（可以理解为数据存在在HDFS，可以通过MapReduce进行计算，提交在YARN上运行的）Hive提

作者：编程之家时间：2022-09-04

大数据的技术生态概述转载

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark之间是什么关系？大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤

作者：编程之家时间：2022-09-04

spark使用

pyspark--masterlocal私用一个workder线程本地话运行spark(完全不并行)pyspark--masterlocal[*]使用逻辑CPU个数数量的线程来本地化运行Sparkpyspark--masterlocal[k]使用k个worker线程本地话spark(理想情况下，k应该更具运行及其的cpu内核数设定)pyspark--masterspar

作者：编程之家时间：2022-09-04

四、Spark数据保存与读取

一、文本文件读取文件textFile()当我们将一个文本文件读取为RDD时，输入的每一行都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pairRDD，其中键是文件名，值是文件内容。使用wholeTextFiles()方法：它也以目录为参数，返回一个pairRDD,其中key是输入文件

作者：编程之家时间：2022-09-04

Spark2.x SparkCore WordCount Demo

版本scala:2.11spark:2.201、pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"x

作者：编程之家时间：2022-09-04

Spark-Sql 问题梳理

Spark-Sql问题梳理Exceptioninthread"main"org.apache.spark.sql.AnalysisException:Tableorviewnotfound:test;line1pos14Exceptioninthread“main”org.apache.spark.sql.AnalysisException:Tableorviewnotfound:test;line1pos14Exc

作者：编程之家时间：2022-09-04

案例解析丨Spark Hive自定义函数应用

摘要：Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。1.简介Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景:输入一行，返回多行(hive),一对多,而sparkSQL中没

作者：编程之家时间：2022-09-04

Haddop+spark大数据分析二之Hadoop 集群的搭建

文章目录前言一、集群环境的下载及其配置1.下载hadoop2.配置hadoop环境变量配置hadoop核心环境配置core-site.xml配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置workers禁用防火墙二、克隆虚拟机及其相应设置1.克隆虚拟机2.配置ssh免

作者：编程之家时间：2022-09-04

scala maven完整pom文件：编译、打包插件配置等

<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd">&

作者：编程之家时间：2022-09-04

Spark 3.0如何提高SQL工作负载的性能

在几乎所有处理复杂数据的部门中，Spark很快已成为跨数据和分析生命周期的团队的事实上的分布式计算框架。新的AdaptiveQueryExecution框架（AQE）是Spark3.0最令人期待的功能之一，它可以解决困扰许多SparkSQL工作负载的问题。英特尔和百度混合团队在2018年初的博客中记录了这些

作者：编程之家时间：2022-09-04

tidb 踩坑经验转载

1、对硬盘要求很高，没上SSD硬盘的不建议使用2、不支持分区，删除数据是个大坑。解决方案：set@@session.tidb_batch_delete=1;3、插入数据太大也会报错解决方案：set@@session.tidb_batch_insert=1;4、删除表数据时不支持别名deletefrom表名表别名 where 表别名.col='1'

作者：编程之家时间：2022-09-04

Sparksql的2.x版本dataFrame和dataSet

package sql2import org.apache.spark.sql.SparkSessionobject Spark2Join { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("joinTest") .master("local[*]") .getOrCreate()

作者：编程之家时间：2022-09-04