Spark - 编程之家

Waterdrop：构建在Spark之上的简单高效数据处理系统

本文来自Gary和RickyHuo，他们是Waterdrop开发者，从事大数据相关工作多年，熟悉Hadoop技术体系，参与过多个大数据开源项目，目前分别供职于一下科技和新浪。Databricks开源的Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我

作者：编程之家时间：2022-09-04

从大数据技术变迁猜一猜AI人工智能的发展

目前大数据已经成为了各家互联网公司的核心资产和竞争力了，其实不仅是互联网公司，包括传统企业也拥有大量的数据，也想把这些数据发挥出作用。在这种环境下，大数据技术的重要性和火爆程度相信没有人去怀疑。而AI人工智能又是基于大数据技术基础上发展起来的，大数据技术已经很清晰了，但是

作者：编程之家时间：2022-09-04

Spark之Spark内核工作流程

这是一个较为细粒度的Spark运行流程。我们写的Spark程序叫做Application。Application会通过spark-submit来提交给Spark集群来运行。具体来说就是spark-submit会通过反射机制来创建和构造一个DriverAcor进程出来。这里的Driver就是我们的驱动程序，它负责执行我们的代码，当然在

作者：编程之家时间：2022-09-04

JavaSpark入门第一例

开始学点Spark。做了第一个小例子，记录一下^_^背景有个退款文件如下：仅退款,E20190201001,I001,0.01,0.01退货退款,E20190201002,I002,0.01,0.01退货退款,E20190201003,I003,1.2,1.2退货退款,E20190201004,I004,10.9,10.9仅退款,E20190201004,I005,10.9,10.9仅退款,E201902

作者：编程之家时间：2022-09-04

Spark资源调度和任务调度流程

spark运行架构Spark资源调度和任务调度的流程：1、启动集群后，Worker节点会向Master节点汇报资源情况，Master掌握了集群资源情况。2、当Spark提交一个Application后，根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后，Spark会在Driver端创建两个对象：DAGSche

作者：编程之家时间：2022-09-04

Spark:The Definitive Book第六章笔记

WheretoLookforAPIsDataFrame本质上是类型为Row的DataSet，需要多看https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset来发现API的更新。DataFrameStatFunctions与DataFrameNaFunctions在解决特定问题上有更多的方法。DataFrameStatF

作者：编程之家时间：2022-09-04

从源码看Spark读取Hive表数据小文件和分块的问题

前言有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数，结果发现读取文件的时候Task数并没

作者：编程之家时间：2022-09-04

hive on spark的坑

原文地址:http://www.cnblogs.com/breg/p/5552342.html装了一个多星期的hiveonspark遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive onTez的

作者：编程之家时间：2022-09-04

spark-submit部署应用的相关参数详解

a.[--master]:表示要连接的集群管理器spark://host:port:连接到指定端口的Spark独立集群上。默认情况下Spark独立主节点使用7077端口 mesos://host:port:连接到指定端口的Mesos集群上。默认情况下Mesos主节点监听5050端口 yarn:连接到一个YARN集群

作者：编程之家时间：2022-09-04

Spark版本升级二三事

起因：部门准备将数据仓库开发工具从HiveSQL大规模迁移至SparkSQL。此前集群已经自带了Spark-1.5.2，系HDP-2.3.4自带的Spark组件，现在需要将之升级到目前的最新版本（2.2.1）。作为一个提供给第三方使用的开发工具，应该避免第三方过度浪费时间于工具本身的使用（为SQL任务调试合理的资源

作者：编程之家时间：2022-09-04

Spark_RDD的持久化

RDD的持久化方法：cache()或者persist()做实验：同一个160M文件进行计算它的行数：文件小的时候没有差距，文件大的时候差距很明显第一次计算两次（未持久化）：时间差不多第二次计算两次（持久化）：时间第一次长，第二次却很短这是因为第一次的时候进行持久化，而第二次的时候已经持久化过了

作者：编程之家时间：2022-09-04

Spark SQL Join原理分析

SparkSQLJoin原理分析1.Join问题综述：Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型，对单独版本的Join操作，可以将问题表述为：IterA，IterB为两个Iterator，根据规则A将两个Iterator中相应的Row进行合并，然后按照规则B对合并后Row进行过滤。比如Inner_join，

作者：编程之家时间：2022-09-04

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission d

保存文件时权限被拒绝曾经踩过的坑：保存结果到hdfs上没有写的权限通过修改权限将文件写入到指定的目录下 * * *$HADOOP_HOME/bin/hdfsdfs-chmod777/user * * *Exceptioninthread"main"org.apache.hadoop.security.AccessControlException: *Permi

作者：编程之家时间：2022-09-04

回归算法之逻辑回归

线性回归与逻辑回归的区别：比如要分析年龄，性别，身高，饮食习惯对于体重的影响，如果体重是实际的重量，那么就要使用线性回归。如果将体重分类，分成了高，中，低三类，就要使用逻辑回归进行分类。importorg.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS}importorg.a

作者：编程之家时间：2022-09-04

Hadoop2.7.3集群安装scala-2.12.8 和spark2.7

ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapRedu

作者：编程之家时间：2022-09-04

0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火，各行各业想转行大数据，那么问题来了，该往哪方面发展，哪方面最适合自己？首先从字面来了解一下大数据大数据（巨量数据集合（IT行业术语））大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察

作者：编程之家时间：2022-09-04

基于Spark的GBDT + LR模型实现

目录基于Spark的GBDT+LR模型实现数据预处理部分GBDT模型部分(省略调参部分)GBDT与LR混合部分基于Spark的GBDT+LR模型实现测试数据来源http://archive.ics.uci.edu/ml/machine-learning-databases/adult/该模型利用Sparkmllib的GradientBoostedTrees作为GBDT部分

作者：编程之家时间：2022-09-04

Spark LDA 实例

SparkLDA实例一、准备数据数据格式为：documents:RDD[(Long,Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOpt

作者：编程之家时间：2022-09-04

Apache Spark 内存管理详解

Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于

作者：编程之家时间：2022-09-04

windows 客户端使用IDEA远程调试Linux中 spark 代码

1.修改配置文件在spark-env.sh,添加一行配置，内容如下：exportSPARK_MASTER_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"注意调试端口为10000，在客户端调试是也使用该端口号。2.客户端远程链接并调试客户端使用IDEA进行远程调试Linu

作者：编程之家时间：2022-09-04

新书《深入理解Kafka：核心设计与实践原理》上架，感谢支持~

新书上架初识Kafka时，笔者接触的还是0.8.1版本，Kafka发展到目前的2.x版本，笔者也见证了Kafka的蜕变，比如旧版客户端的淘汰、新版客户端的设计、Kafka控制器的迭代优化、私有协议的变更、事务功能的引入等。Kafka从昔日的新星逐渐走向成熟，再到今日的王者地位不可撼动，这期

作者：编程之家时间：2022-09-04

spark history server配置使用

问题描述在Spark安装成功后，无论是通过spark-submit工具还是通过IntellijIDEA提交任务，只要在Spark应用程序运行期间，都可以通过WebUI控制台页面来查看具体的运行细节，在浏览器中通过地址：http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束，该Web界面也就

作者：编程之家时间：2022-09-04

Spark面对OOM问题的解决方法及优化总结

转载请保持完整性并注明来源链接： http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffl

作者：编程之家时间：2022-09-04

大数据知识点分享：大数据平台应用 17 个知识点汇总

一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离

作者：编程之家时间：2022-09-04

Spark学习入门

写给自己的话：对于大数据开发的工作要求，spark随时可见。所以要下定决心好好看一看spark相关的技术。学习目录：第一步是配置spark环境：包括linux系统的安装，java，ssh，Hadoop，Scala，spark的安装与环境变量设置。第二步：java学习。第三步：Hadoop学习。HDFS，MR计算框架，必须得知道吧

作者：编程之家时间：2022-09-04

【原创】大数据基础之Benchmark1HiBench

HiBench7官方：https://github.com/intel-hadoop/HiBench一简介HiBenchisabigdatabenchmarksuitethathelpsevaluatedifferentbigdataframeworksintermsofspeed,throughputandsystemresourceutilizations.ItcontainsasetofHadoop,Sparkandstreami

作者：编程之家时间：2022-09-04

spark流程源码解析

spark流程源码解析这篇文章是编写的spark流程笔记的入口功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也

作者：编程之家时间：2022-09-04

Spark Streaming实时流处理项目6——Spark Streaming实战1

案例一：SparkStreaming处理socket数据importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}/***@authorYuZhansheng*@descSparkStreaming处理socket数据*@create2019-02-1911:26*/objectNetworkWordCoun

作者：编程之家时间：2022-09-04

hadoop/spark面试题

总结于网络转自：https://www.cnblogs.com/jchubby/p/5449379.html1、简答说一下hadoop的map-reduce编程模型首先maptask会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过

作者：编程之家时间：2022-09-04

大数据-hive安装

1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1workspace]#tar-zxvfapache-hive-3.1.0-bin.tar.gz3、重命名[root@master1workspace]#mvapache-hive-3.1.0-binhive-3.1.0

作者：编程之家时间：2022-09-04