Spark - 编程之家

用spark Streamming 将mysql的数据展示到控制台

第一步依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.11</artifactId><version>2.4.3</version></dependency>drver编写importorg.apache.kafka.clients.co

作者：编程之家时间：2022-09-04

Error- spark streaming 打包将全部依赖打进去Invalid signature file digest for Manifest main attributes

sparkstreaming打包将全部依赖打进去，运行jar包报错：如下Exceptioninthread"main"java.lang.SecurityException:InvalidsignaturefiledigestforManifestmainattributesPSD:\workspace\ideaProject\java\wordcount\out\artifacts\wordcount_jar>spark-su

作者：编程之家时间：2022-09-04

60、Spark Streaming：缓存与持久化机制、Checkpoint机制

一、缓存与持久化机制与RDD类似，SparkStreaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对DStream调用persist()方法，就可以让SparkStreaming自动将该数据流中的所有产生的RDD，都持久化到内存中。如果要对一个DStream多次执行操作，那么，对DStream持久化是非常有用

作者：编程之家时间：2022-09-04

SPARK总结之RDD

一、RDD的概述1.1什么是RDD？RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作

作者：编程之家时间：2022-09-04

Spark SQL的前世今生

文章目录1.SparkSQL简介1.1SparkSQL起源1.2SparkSQL缘起2.SparkSQL架构2.1语言API2.2模式RDD2.3数据源3.SparkSQL支持的数据格式和编程语言4.SparkSQL功能特性4.1集成4.2统一数据访问4.3Hive兼容性4.4标准连接4.5可扩展性1.SparkSQL简介1.1Sp

作者：编程之家时间：2022-09-04

大数据架构的简单概括

一、大数据的发展史2004年Google前后发表三篇论文，也就是传说中的“三驾马车”分页式文件系统GFS大数据分布式计算框架MapReduceNoSQL数据库系统BigTable2006年DougCutting启动了一个赫赫有名的项目Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce，分别

作者：编程之家时间：2022-09-04

61、Spark Streaming：部署、升级和监控应用程序

一、部署应用程序1、流程1、有一个集群资源管理器，比如standalone模式下的Spark集群，Yarn模式下的Yarn集群等。2、打包应用程序为一个jar包。3、为executor配置充足的内存，因为Receiver接受到的数据，是要存储在Executor的内存中的，所以Executor必须配置足够的内存来保存接受到的数

作者：编程之家时间：2022-09-04

62、Spark Streaming：容错机制以及事务语义

一、容错机制1、背景要理解SparkStreaming提供的容错机制，先回忆一下SparkRDD的基础容错语义：1、RDD，RessilientDistributedDataset，是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系，(vallines=sc.textFile(hdfsfile);val

作者：编程之家时间：2022-09-04

Spark系列——从零学习SparkSQL编程下

5.导入Java依赖要使用SparkSQL的API，首先要导入Scala，Spark，SparkSQL的依赖：<properties><scala.version>2.11.8</scala.version><hadoop.version>2.7.4</hadoop.version><spark.version>2.0.2</spark.version></properties><dependencie

作者：编程之家时间：2022-09-04

设置Spark运行程序时不显示log信息

在IDEA中设置不要显示spark的log信息需要导入的包：importorg.apache.log4j.Loggerimportorg.apache.log4j.Level第一种方式：在main函数中设置defmain(args:Array[String]):Unit={Logger.getLogger("org").setLevel(Level.OFF)System.setProperty("spark.ui.show

作者：编程之家时间：2022-09-04

秒杀系统初识、hadoop生态、并发

1.电商秒杀系统（爱慕课）：搭建页面、组件Maven、Docker、redis2.hadoop中热门项目：redis、spark解决快速存取3.并发很多要求看完java编程思想，才好理解

作者：编程之家时间：2022-09-04

搭建Spark高可用集群

Spark简介官网地址：http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低

作者：编程之家时间：2022-09-04

初识Scala

titlecopyrightdatetagscategories初识Scalatrue2019-08-0812:33:24-0700ScalaLiunxScalaScala概述学习Scala的原因Spark—新一代内存级大数据计算框架，是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark,需要掌握Scala这门语言

作者：编程之家时间：2022-09-04

大数据开发学习路径

目前，全球数据呈现爆发增长、海量集聚的特点。国家大力推动实施大数据发展战略，推进数据资源整合和开放共享，加快建设数字中国。大数据行业政策环境良好，发展机遇空前。但随着国家的重视，企业的转型，对大数据技术人才的要求也是越来越高，不是掌握一点皮毛就能就业了。毕竟现在的竞争

作者：编程之家时间：2022-09-04

spark笔记之Spark Streaming原理

2.1Spark Streaming原理SparkStreaming是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。2.2Spark Streaming计算流程SparkStreaming是将流式计算分解成一系列短小的批处理作业。这里的批

作者：编程之家时间：2022-09-04

git使用中报错及处理方案

使用环境win10错误1：命令：gitclonehttps://github.com/apache/spark.gitfatal:unabletoaccess‘https://github.com/apache/spark.git/’:OpenSSLSSL_read:SSL_ERROR_SYSCALL,errno10054解决方案：表示我自己重试一次就ok了

作者：编程之家时间：2022-09-04

Spark提交任务Yarn-Cluster模式下任务日志的查看

前情提要任务以cluster模式提交命令Old: --name任务名称--masteryarn-cluster 该命令已经过时：Warning:Masteryarn-clusterisdeprecatedsince2.0.Pleaseusemaster"yarn"withspecifieddeploymodeinstead.New: --name任务名称--mast

作者：编程之家时间：2022-09-04

没有编程基础，大数据学习步骤是怎么样的？

很多初学者在萌生向大数据方向发展的想法之后，不免产生一些疑问，应该怎样入门？应该学习哪些技术？学习路线又是什么？所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火，就业薪资比较高,，前景非常可观。基本都是这个原因而向往大数据，但是对大数据却不甚了解。如果你

作者：编程之家时间：2022-09-04

sparkstreaming2.2使用checkpoint保存kafka偏移量

1、测试代码packagekafka.comsumerimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.s

作者：编程之家时间：2022-09-04

spark 内存溢出处理

简介Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作。包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。后面先总结一下我对Spark内存模型的理

作者：编程之家时间：2022-09-04

Spark和Hadoop优劣

Spark已经取代Hadoop成为最活跃的开源大数据项目。但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家BernardMarr在一篇文章(http://www.forbes.com/sites/bernardmarr/2015/06/22/spark-or-hadoop-which-is-the-best-big-data-framework/)中分析了Spark和H

作者：编程之家时间：2022-09-04

sparkRDD：第1节 RDD概述；第2节创建RDD

Spark计算模型RDD一、课程目标目标1：掌握RDD的原理目标2：熟练使用RDD的算子完成计算任务目标3：掌握RDD的宽窄依赖目标4：掌握RDD的缓存机制目标5：掌握划分stage目标6：掌握spark的任务调度流程二、弹性分布式数据集RDD2. RDD概述2.1什么是RDDRDD（ResilientDistributed

作者：编程之家时间：2022-09-04

Spark 性能调优：分配资源+调节并行度+广播变量+RDD持久化+Kryo序列化+fastutil+本地化等待时长

一.性能调优之在实际项目中分配更多资源分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度上的提升，是显而易见的；基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，我觉得，就是要来调节最优的资源配

作者：编程之家时间：2022-09-04

Kafka集成SparkStreaming

SparkStreaming+Kafka集成指南Kafka项目在版本0.8和0.10之间引入了一个新的消费者API，因此有两个独立的相应SparkStreaming包可用。请选择正确的包，请注意，0.8集成与后来的0.9和0.10代理兼容，但0.10集成与早期的代理不兼容。注意：从Spark2.3.0开始，不推荐使用Kafka0.8支

作者：编程之家时间：2022-09-04

PyCharm搭建Spark开发环境

1.安装好JDK下载并安装好jdk-12.0.1_windows-x64_bin.exe，配置环境变量：新建系统变量JAVA_HOME，值为Java安装路径新建系统变量CLASSPATH，值为.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点)配置系统变量PATH，添加%JAVA_HOME%bin;%JAVA_

作者：编程之家时间：2022-09-04

大数据开发、运维、架构都是干什么的？薪资哪个高？

玩转大数据首先要明确自己将要学习的方向，没有人能一下子吃透大数据里面所有的东西。在大数据的世界里面主要有三个学习方向，大数据开发师、大数据运维师、大数据架构师。哪个好？我不知道你所说的哪个好？指的是哪一块，这三个都好，谁也离不开谁！如果说你的是发展和薪资待遇的话，大数

作者：编程之家时间：2022-09-04

解决：IDEA中import kafka.serializer.StringDecoder导入报红的问题

解决：IDEA中importkafka.serializer.StringDecoder导入报红的问题kafka的版本是2.1.1，spark-streaming-kafka-0-8_2.11在SparkStreaming整合Kafka时，采用direct方法。在手动导入kafka.serializer.StringDecoder时，一直报红。解决方法一：手动在代码头部添加import_root_.ka

作者：编程之家时间：2022-09-04

Spark SQL读取json文件

1.数据文件使用spark安装包下的json文件more/export/servers/spark/examples/src/mainesources/people.json 2.在sparkshell执行下面命令，读取数据,显示数据

作者：编程之家时间：2022-09-04

大数据经典学习路线以及各阶段所发挥的作用

1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力：熟练使用Linux，熟练安装Linux上的软件，了解熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、高可靠的服务架构；学完此阶段可解决的现实问题：搭建负载均衡、高可靠的服务器集群，可以增大网站的并发访问量，保证服务不

作者：编程之家时间：2022-09-04

基于Spark的电影推荐系统总述

基于Spark的电影推荐系统总述推荐系统介绍推荐系统是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩

作者：编程之家时间：2022-09-04