Spark - 编程之家

hadoop，spark安装文档

1、集群win7虚拟机网络配置为桥接模式集群机器保持同个网段，能互通2、修改ip和主机名（虚拟机桌面版）: vi/etc/hosts添加ip主机名：192.168.10.190master192.168.10.191slave1192.168.10.192slave2vi/etc/hostname修改为主机名，如master然后使配置文件生效source/e

作者：编程之家时间：2022-09-04

Spark三角色和搭建

目录Spark（三）角色和搭建一、Spark集群角色介绍二、集群的搭建三、history服务四、使用spark-submit进行计算PiSpark（三）角色和搭建一、Spark集群角色介绍详见JerryLead/SparkInternals，他的图解介绍能清晰的讲清楚Spark集群二、集群的搭建2.1.架构(图片来源，Spark官网

作者：编程之家时间：2022-09-04

大数据开发都需要什么技术？

大数据是对海量数据存储、计算、统计、分析等一系列处理手段，处理的数据量是TB级，甚至是PB或EB级的数据，是传统数据处理手段无法完成的，大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等，汇集的是IT最热门、最流行的IT技术，大数据是机器学习、深度学习、AI等尖端可

作者：编程之家时间：2022-09-04

Spark GraphX图计算结构详解【图构建器、顶点、边】

一.图构建器GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法。默认情况下，没有图构建器会重新划分图的边；相反，边保留在默认分区中。Graph.groupEdges要求对图进行重新分区，因为它假定相同的边将在同一分区上放置，因此在调用Graph.partitionBy之前必须要调用groupEd

作者：编程之家时间：2022-09-04

spark调优——JVM调优

对于JVM调优，首先应该明确，(major)fullgc/minorgc，都会导致JVM的工作线程停止工作，即stoptheworld。JVM调优一：降低cache操作的内存占比1. 静态内存管理机制根据Spark静态内存管理机制，堆内存被划分为了两块，Storage和Execution。Storage主要用于缓存RDD数据和broadcast数据，Exe

作者：编程之家时间：2022-09-04

大数据踩坑实录

大数据平台中JDK版本尽量使用1.8。我开始使用的是openJDK11，结果yarn启动不起来，出现了很多异常，还需要一些特殊的配置。如果hadoop集群中namenode使用了HA配置的话，在使用Spark时需要将core-site.xml和hdfs-site.xml拷贝到Spark的conf路径中，并修改spark-default.conf.template文

作者：编程之家时间：2022-09-04

sparksql系列(六) SparkSql中UDF、UDAF、UDTF

RDD没有可以这种可以注册的方法。在使用sparksql过程中发现UDF还是有点用的所以，还是单独写一篇博客记录一下。UDF=》一个输入一个输出。相当于mapUDAF=》多个输入一个输出。相当于reduceUDTF=》一个输入多个输出。相当于flatMap。（需要hive环境，暂时未测试）UDF 其实

作者：编程之家时间：2022-09-04

spark submit参数及调优

1.sparksubmit参数介绍你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit\--class<main-class>\--master<master-url>\--deploy-mode<deploy-mode>\--conf<key>=<value>\#otheropti

作者：编程之家时间：2022-09-04

从Hive过渡到Spark SQL

SQLContext的使用创建一个Scala项目，创建一个主类SQLContextApppackagecom.yy.sparkimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.SQLContext/***SQLContext的使用*Spark1.x使用*/objectSQLContextAppextendsApp{varpath=arg

作者：编程之家时间：2022-09-04

【转帖】Spark设计理念与基本架构

Spark设计理念与基本架构 https://www.cnblogs.com/swordfall/p/9280006.html 1.基本概念Spark中的一些概念：RDD(resillientdistributeddataset)：弹性分布式数据集。Partition：数据分区。即一个RDD的数据可以划分为多少个分区。NarrowDependency：窄依赖，即子RDD依赖

作者：编程之家时间：2022-09-04

初识Spark之 Spark API 初识Spark之 Spark API

API应用可以通过使用Spark提供的库获得Spark集群的计算能力，这些库都是Scala编写的，但是Spark提供了面向各种语言的API，例如Scala、Python、Java等，所以可以使用以上语言进行Spark应用开发。Spark的API主要由两个抽象部件组成：SparkContext和RDD，应用程序通过这两个部件和Spark进行交互

作者：编程之家时间：2022-09-04

如何优雅地停止Spark Streaming Job

由于streaming流程序一旦运行起来，基本上是无休止的状态，除非是特殊情况，否则是不会停的。因为每时每刻都有可能在处理数据，如果要停止也需要确认当前正在处理的数据执行完毕，并且不能再接受新的数据，这样才能保证数据不丢不重。同时，也由于流程序比较特殊，所以也不能直接kill-9

作者：编程之家时间：2022-09-04

[Spakr SQL] 常见SQL的Spark SQL实现

源码包：org.apache.spark.sql.Dataset.scala 数据：stu.json{"stuid":"19001","classid":"1002","name":"Michael","age":12}{"stuid":"","classid":"10

作者：编程之家时间：2022-09-04

Spark配置参数详解

以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志

作者：编程之家时间：2022-09-04

Spark Streamming 共享变量之_ 如何正确使用累加器

累加器：场景：各种计数问题，这个计算需要在driver端合并。作用：Driver端和Execute端数据共享问题。如图，需要将Driver端变量备份到Executor端，那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢，如何将累加器数据类型定义

作者：编程之家时间：2022-09-04

Spark调用Kafka的生产者和消费者Demo，以及一些配置参数整理

kafka简介Kafka是apache开源的一款用Scala编写的消息队列中间件，具有高吞吐量，低延时等特性。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。无论是kafka集群，还是producer和co

作者：编程之家时间：2022-09-04

腾讯AI主管带你深度实践Spark机器学习

前言大数据、人工智能正在改变或颠覆各行各业，包括我们的生活。大数据、人工智能方面的人才已经供不应求，但作为人工智能的核心一机器学习,因涉及的知识和技能比较多，除了需要具备一定的数学基础、相关业务知识外，还要求有比较全面的技术储备，如操作系统、数据库、开发语言、数据分析

作者：编程之家时间：2022-09-04

ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统教程资源

本文配套资料获取链接：点击这里基于大众点评搜索以及推荐业务，从企业实际项目落地实践的角度出发，在使用SpringBoot加mybatis完成用户登录、注册、商家入驻以及结合前端模板搭建运营后台门店服务管理功能后，借助ElasticSearch的最新版本ES7逐步迭代，完成高相关性进阶搜索服务，并基于spa

作者：编程之家时间：2022-09-04

Spark 实践 - 客户端使用spark-submit提交Spark应用程序及注意事项

一、客户端提交spark应用程序是指在spark集群之外的机器，提交spark应用程序到spark集群运行。二、spark-submit提交程序语法使用spark-submit工具提交Spark应用程序的语法：./bin/spark-submit\ --class<main-class>\ --master<master-url>\ --dep

作者：编程之家时间：2022-09-04

big data env setup

installSparkonCentOS:https://aodba.com/how-to-install-apache-spark-in-centos-standalone/https://bigdata-etl.com/how-to-install-apache-spark-standalone-in-centos/https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm

作者：编程之家时间：2022-09-04

spark-on-yarn 学习

1.hdfs存文件的时候会把文件切割成block，block分布在不同节点上，目前设置replicate=3，每个block会出现在3个节点上。 2.Spark以RDD概念为中心运行，RDD代表抽象数据集。以代码为例： sc.textFile(“abc.log”)textFile()函数会创建一个RDD对

作者：编程之家时间：2022-09-04

spark调优——Shuffle调优

在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。map端缓冲的默认配置是32KB，如

作者：编程之家时间：2022-09-04

初识Spark之 Spark API

API应用可以通过使用Spark提供的库获得Spark集群的计算能力，这些库都是Scala编写的，但是Spark提供了面向各种语言的API，例如Scala、Python、Java等，所以可以使用以上语言进行Spark应用开发。 Spark的API主要由两个抽象部件组成：SparkContext和RDD，应用程序通过这两个部件和Spark进行交互

作者：编程之家时间：2022-09-04

Spark Shell及Spark2.2和Spark1.6的对比

2019-12-12 09:37:43SparkShellSpark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,可以在命令下编写Scala程序执行SparkSpark-shell多用于测试Spark-Shell启动有两种模式local模式和Cluster模式Local模式：ps:必须进入到Spark安装目录中bin目录下spark-

作者：编程之家时间：2022-09-04

初识Spark

Spark(一):基本架构及原理 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、

作者：编程之家时间：2022-09-04

展示hive表大小的topN

历时2天半，完成了从获取数据到清洗数据到最终的展示过程。需求：hive中有很多表，他们的存储量很大，磁盘吃紧，为了以后能清楚的看到hive库中最大的10张表，所以需要做一个展示。整理思路：获取数据的途径：使用hadoopfs-du-s-h 表的绝对路径为了后期开发简单，所以就把获取的数据尽量精

作者：编程之家时间：2022-09-04

大数据学习路线完整详细版

大数据学习路线（完整详细版）2018年01月05日20:15:06阅读数：5550大数据学习路线 java(Javase,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,

作者：编程之家时间：2022-09-04

spark——故障排除

故障排除一：控制reduce端缓冲大小以避免OOM在Shuffle过程，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task就会拉取一小部分数据，然后立即进行后面的聚合、算子函数的使用等操作。reduce端task能够拉取多少数据，由reduce拉取数据的

作者：编程之家时间：2022-09-04

SparkStreaming运行原理

SparkStreaming应用也是Spark应用，SparkStreaming生成的DStream最终也是会转化成RDD，然后进行RDD的计算，所以SparkStreaming最终的计算是RDD的计算，那么SparkStreaming的原理当然也包含了Spark应用通用的原理。SparkStreaming作为实时计算的技术，和其他的实时计算技术(比如Storm)

作者：编程之家时间：2022-09-04

Hadoop学习之路(5)Mapreduce程序完成wordcount

程序使用的测试文本数据：DearRiverDearRiverBearSparkCarDearCarBearCarDearCarRiverCarSparkSparkDearSpark1编写主要类（1）Maper类首先是自定义的Maper类代码publicclassWordCountMapextendsMapper<LongWritable,Text,Text,IntWritable>{publ

作者：编程之家时间：2022-09-04