Spark - 编程之家

1.spark中partition的概念partition是RDD的最小单元，是盛放文件的盒子，一个文件可能需要多个partition，但是一个partition只能存放一个文件中的内容，partition是spark计算中，生成的数据在计算空间内最小单元，2.fileWriter.flush()flush()是清空，而不是刷新啊。一般主要用在IO中，即清空缓

作者：编程之家时间：2022-09-04

主流开源SQLon Hadoop总结，不断改进的Hive始终遥遥领先

本文涵盖了6个开源领导者：Hive、Impala、SparkSQL、Drill、HAWQ以及Presto，还加上Calcite、Kylin、Phoenix、Tajo和Trafodion。以及2个商业化选择OracleBigDataSQL和IBMBigSQL，IBM尚未将后者更名为“WatsonSQL”。（有读者问：Druid呢？我的回答是：检查后，我同意Druid属于这

作者：编程之家时间：2022-09-04

大三寒假生活4

感觉今天也没整出什么大的进展，在学习eclipse编写spark程序过程中，虚拟机中因为eclipse版本号的问题安装不上spark和scala插件，鼓捣了半天也没有进展，在虚拟机中下载对应的版本因为网速过于慢最终也放弃了。最终从windows中下载了对应的eclipse版本，通过ftp传到了虚拟机中。在下载的过

作者：编程之家时间：2022-09-04

2020年寒假学习进度第七天

今天主要学习了spark实验四的内容，实验四主要为RDD编程，本实验的重点为两个编程题 1.编写独立应用程序实现数据去重对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。输入文

作者：编程之家时间：2022-09-04

大数据实战丨如何快速搭建一个自己的Spark分布式架构

从零开始搭建我们的Spark平台1、准备centeros环境为了搭建一个真正的的集群环境，并且要做到高可用的架构，我们至少准备三个虚拟机来作为集群节点。因此我购买了三台阿里云的服务器，来作为我们的集群节点。注意到，master是主节点，而slave顾名思义就是奴隶，自然就是为主节点工作

作者：编程之家时间：2022-09-04

15.Spark源码分析

Spark源码分析各个组件介绍后面补充。。。。StandAlone模式在StandAlone模式的start-all的shell启动脚本下，在当前机器执行了JAVA_HOME/bin/java-cp....Master和在配置的slave的机器中执行JAVA_HOME/bin/java-cp....Worker.这两种进程在启动后通过netty进行rpc通信。M

作者：编程之家时间：2022-09-04

SIX Spark Streaming 编程初级实践

Flume官网下载Flume1.7.0安装文件，下载地址如下：http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz下载后，把Flume1.7.0安装到Linux系统的“/usr/local/flume”目录下，⑴解压安装包1.cd~/下载2.sudotar-zxvfapache-flume-1.7.0-bin.

作者：编程之家时间：2022-09-04

spark实验四

第四个实验是关于RDD编程的，一些语句能看懂一部分，但是还是不熟悉，需要多多了解。今天只完成了第一部分spark-shell交互式编程。该系总共有多少学生：该系共开设来多少门课程： Tom同学的总成绩平均分是多少：求每名同学的选修的课程门数：该系D

作者：编程之家时间：2022-09-04

SparkSQL 如何自定义函数

1.SparkSql如何自定义函数2.示例：Average3.类型安全的自定义函数1.SparkSql如何自定义函数？spark中我们定义一个函数，需要继承UserDefinedAggregateFunction这个抽象类，实现这个抽象类中所定义的方法，这是一个模板设计模式？我只要实现抽象类的中方法，具体的所有的计算步

作者：编程之家时间：2022-09-04

Spark命令详解

本篇博客，Alice为大家带来关于Spark命令的详解。spark-shell引入之前我们使用提交任务都是使用spark-shell提交，spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下可以用scala编写spark程序，适合学习

作者：编程之家时间：2022-09-04

Spark组件间通信

1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口，接口在本地通过RPC框架的动态代理机制生成一个对应的实现类，在这个实现类中完成soket通信、远程调用等功能的逻辑包装，而在RPC的服务端既编写业务接口也编写了具体的业务实现类，通过RPC框架以接口的方式暴

作者：编程之家时间：2022-09-04

寒假记录六

今天完成了实验任务四-RDD编程初级实践，先在网上查了一下资料。Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集，对数据的操作主要涉及RDD的创建、转换以及行动等操作，在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法，本小节将介绍RDD编程之转换（Tra

作者：编程之家时间：2022-09-04

Spark常用参数解释及建议值

spark的默认配置文件位于堡垒机上的这个位置:$SPARK_CONF_DIR/spark-defaults.conf，用户可以自行查看和理解。需要注意的是，默认值优先级最低，用户如果提交任务时或者代码里明确指定配置，则以用户配置为先。用户再理解参数含义的基础上，可根据具体任务情况调整参数。以下常用

作者：编程之家时间：2022-09-04

spark实验(三)--Spark和Hadoop的安装(1)

一、实验目的（1）掌握在Linux虚拟机中安装Hadoop和Spark的方法；（2）熟悉HDFS的基本使用方法；（3）掌握使用Spark访问本地文件和HDFS文件的方法。二、实验平台操作系统：centos6.4；Spark版本：2.1.0；Hadoop版本：2.7.3。三、内容实验一：1．安装Hadoop和Spark进入Lin

作者：编程之家时间：2022-09-04

spark学习第13天

在Scala中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值，var可以在生命周期中被多次赋值。val:1scala>valmsg=”Hello,world!”;2msg:java.lang.String=Hello,world!3scala>msg=”Helloagain,world!”;4:5:error:reassignmenttoval5

作者：编程之家时间：2022-09-04

寒假学习进度-9spark streaming编程初级实践

1.安装Flume下载地址：http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz（1）解压安装包sudotar-zxvfapache-flume-1.7.0-bin.tar.gz-C/usr/localcd/usr/local sudomv./apache-flume-1.7.0-bin./flume sudochown-Rhadoop:hadoop

作者：编程之家时间：2022-09-04

Hadoop Spark：全面比拼架构、性能、成本、安全

每年，市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中，Hadoop和Spark是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据，并将其导入HDFS或使用SparkStreaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会

作者：编程之家时间：2022-09-04

大数据技术之Spark入门一概述

1.1什么是Spark 1.2Spark内置模块 SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集(ResilientDistributedDataSet，简称RDD)的API定义。SparkSQL：是Spark用来操作结构化数据的程

作者：编程之家时间：2022-09-04

【2020/2/5】寒假自学——学习进度报告12

今天主要完成了北京市政百姓信件分析实战。Spark方面只是安装了Flume，以及尝试使用套接字流作为DSteam的数据源。启动NetCat作为套接字的监听模式，这样在端口9999就能和spark互联。值得一提，nc-l9999虽然也是适用的，-k是为了可以保持多个连接，所以应该还

作者：编程之家时间：2022-09-04

用户画像-算法实例KNN

importcn.doitedu.commons.util.SparkUtilimportorg.apache.spark.ml.linalgimportorg.apache.spark.ml.linalg.{Vector,Vectors}importorg.apache.spark.sql.{DataFrame,Dataset,SparkSession}objectKnnDemo{defmain(args:Array[String]):Unit={

作者：编程之家时间：2022-09-04

【大数据】技术选型对比

公司要开搞大数据了，针对大数据的一般姿势做了个简单调研。一、通用架构二、组件选择1、Hdfs、HBaseHdfs：分布式文件存储，无缝对接所有大数据相关组件。高容错（多副本）、高吞吐。适合一次写入，多次读出。不适合低延迟读取、小文件存储（寻址时间超过读取时间）。HBase：非关系

作者：编程之家时间：2022-09-04

Ambari HDP 下 SPARK2 与 Phoenix 整合

1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase安装完成Phoenix已经启用，Ambari界面如下所示：Spark2安装完成3、Spark2与Phoenix整合Phoenix官网整合

作者：编程之家时间：2022-09-04

4spark sql(更新中~~~)

楔子sparksql，显然就是让我们像写sql一样去编写spark程序。但是spark它并不仅仅是sql，sql只是spark提供的功能之一，而且还支持DataFrame。想想hive，它们存在的意义都是类似的。因为熟悉sql的人是很多的，如果一款框架能够让你像sql一样去编写程序，那么它一定是灰常受欢迎的，就类似于当初

作者：编程之家时间：2022-09-04

spark KafkaUtils.createDirectStream的一点理解

参考文章：https://www.cnblogs.comunnerjack/p/8597981.htmlhttps://blog.csdn.net/qq_41083134/article/details/99561175 一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次ConsumerAPI来实现的。receiver从Kafka中获取的数据都是

作者：编程之家时间：2022-09-04

Ambari HDP 下 SPARK2 与 Phoenix 整合

1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase安装完成Phoenix已经启用，Ambari界面如下所示：Spark2安装完成3、Spark2与Phoenix整合Phoenix官网整合教程：ht

作者：编程之家时间：2022-09-04

Spark内存管理

1、spark的一大特性就是基于内存计算，Driver只保存任务的宏观性的元数据，数据量较小，且在执行过程中基本不变，不做重点分析，而真正的计算任务Task分布在各个Executor中，其中的内存数据量大，且会随着计算的进行会发生实时变化，所以Executor的内存管理才分析的重点。2、在执行Spark应用程

作者：编程之家时间：2022-09-04

sqarkSQL中的UDF用户自定义函数理解及应用

sqarkSQL中的UDF用户自定义函数理解及应用sqarksql不是万能的有一些功能无法实现所以我们需要自定义函数例如sqarksql中的concat_ws(",",“A”,“B”)=>将两个字段合并成一个字段中间用,隔开输入一行返回一行的就叫做udf输入一行返回多行的就叫做udtf输入多行返回一

作者：编程之家时间：2022-09-04

Spark Streaming 数据限流简述

SparkStreaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理

作者：编程之家时间：2022-09-04

Spark Streaming + Kafka 的 offset 管理方法

常见offset管理方法介绍1checkpointsSparkStreaming的checkpoints是最基本的存储状态信息的方式，一般是保存在HDFS中。但是最大的问题是如果streaming程序升级的话，checkpoints的数据无法使用，所以几乎没人使用。2ZookeeperSparkStreaming任务在启动时会去Zookeeper中

作者：编程之家时间：2022-09-04