Spark - 编程之家

spqrk 读取parquet文件按月、按季、按年统计

按月、按季、按年读取parquet文件案列//启动sparkyarnspark_yarn目录：./bin/spark-shell--masteryarn--deploy-modeclient--executor-cores4--num-executors3//设置基础目录：parquet文件时按日期分片存储scala>valbasePath="hdfs://192.168.88.1:8020/d

作者：编程之家时间：2022-09-04

Sparkstreaming

一、SparkStreaming处理框架：SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，处理结果保存到HDFS，数据库等。二、SparkStreaming实时任务如何开发？1.数据的

作者：编程之家时间：2022-09-04

spark2.1安装

规划cancer01master/workercancer02workercancer03workercancer04workercancer05worker 准备suhadoop 安装scala每台机器上cd/usr/localwgethttp://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgztarzxfscala-2.11.8.tgzmvscala-2.11.8sc

作者：编程之家时间：2022-09-04

SparkStreaming整合SparkSql

SparkStreaming整合SparkSql的程序中spark的重要对象创建的顺序可能会导致程序报错。可按照sparkConf、SparkContext、StreamingContext、SparkSession的顺序。//TODO1、创建ssc对象valconf=newSparkConf().setAppName("BoxLogStreamingDeal").setMaster("y

作者：编程之家时间：2022-09-04

Spark—累加器

Spark—累加器本文记录了Spark三大数据结构中累加器的相关知识文章目录Spark—累加器前言1、实现原理2、累加器的实现2.1系统累加器2.2自定义累加器(WordCount)总结前言Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应

作者：编程之家时间：2022-09-04

大数据常见错误及解决方案

大数据常见错误及解决方案（转载）1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException:Can’tassignrequestedaddress:Service‘sparkDriver’failedafter16retries!解决方法：addexportSPARK_LOCAL_IP=“127.0.0.1”tospark-env.sh2、javaKafka

作者：编程之家时间：2022-09-04

腾讯 angel 3.0：高效处理模型

腾讯angel3.0：高效处理模型紧跟华为宣布新的AI框架开源的消息，腾讯又带来了全新的全栈机器学习平台angel3.0。新版本功能特性覆盖了机器学习的各个阶段，包括：特征工程、模型训练、超参数调节和模型服务。自2017年angel1.0在Github上开源以来，angel共获得星标数超过4200、

作者：编程之家时间：2022-09-04

spark程序提交集群运行全在driver端的问题---setMaster的坑

最近开发了一个超级简单的spark程序，也就rdd运行map再运行foreach，并提交到集群（standalone模式）运行。不知道是不是我是刚入门的小白资历尚浅的问题，但是。。但是。。。但是。。。。它为什么只运行在driver上？提交参数：spark-submit--masterspark://hadoop1:7077--num-exe

作者：编程之家时间：2022-09-04

Spark学习之路十一SparkCore的调优之Spark内存模型

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、堆内和堆外内存规划2.1堆内内存2.2堆外内存2.3内存管理接口三、内存空间分配3.1静态内存管理3.2统一内存管理四、存储内存管理4.1RDD的持久化机制4.2RDD

作者：编程之家时间：2022-09-04

Spark学习之路二Spark2.3 HA集群的分布式安装

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、下载Spark安装包1、从官网下载2、从微软的镜像站下载3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩2、为安装包创建一个软连接3、进入spark/conf修改配置

作者：编程之家时间：2022-09-04

Spark之RDD理解

RDD理解首先在理解RDD之前，我们要知道Spark的运行流程，大致分为Standalone模式和跑在其它调度器上，如yarn和Mesos，而最常见的就是跑在yarn上，跑在yarn上还分为Client和Cluster两种模式。区别在于：Client模式的Driver跑在了当前本地机器上而不是集群上，当本地机器与集群机器所在地

作者：编程之家时间：2022-09-04

Spark学习之路十SparkCore的调优之Shuffle调优

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理4.1未经优化的HashShuffleManager4.2优化后的HashShuffleManager五、SortShuffleManager运

作者：编程之家时间：2022-09-04

奈学百万大数据架构师

一、数据结构与算法 1.二叉树前序、中序、后续遍历方式（递归以及非递归） 2.二叉树的深度以及广度遍历方式 3.二叉树遍历情况中所有连续节点的最大的值 4.求数组所有可能的子数组 5.给定一个数，求一个有序数组的两个数的和满足这个数（可以拓展一下

作者：编程之家时间：2022-09-04

OFRecord 数据集加载

OFRecord数据集加载在数据输入一文中知道了使用DataLoader及相关算子加载数据，往往效率更高，并且学习了如何使用DataLoader及相关算子。在 OFrecord数据格式中，学习了OFRecord文件的存储格式。本文，将围绕OneFlow的OFRecord数据集的加载与制作展开，主要包括：OFRecord

作者：编程之家时间：2022-09-04

SparkML三

分类逻辑回归在spark官方文档中，逻辑回归又分为二项式逻辑回归和多项式逻辑回归。逻辑回归本质是线性回归，只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和，然后将求和后的结果应用于一个g(z)函数,g(z)可以将值映射到0或者是1上面，这个函数就是Sigmoid函数

作者：编程之家时间：2022-09-04

Spark学习之路十七Spark分区

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1本地模式3.2YARN模式四、分区器正文一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻

作者：编程之家时间：2022-09-04

Spark—常用的RDD转换算子

Spark—常用的RDD转换算子本篇介绍了一些转换算子的基本用法文章目录一、转换算子1.Value类型1.1Map1.2mapPartitions1.3mapPartitionsWithIndex1.4flatMap1.5glom1.6groupBy1.7filter1.8sample1.9distinct1.10coalesce1.11repartition1.12sortBy2.双

作者：编程之家时间：2022-09-04

spark_分组取topN

数据2019-6-1392019-5-21332019-6-1382019-6-2312018-3-11182018-4-23221970-8-23231970-8-832 方法一：valconf=newSparkConf().setAppName("over")setMaster("local")valsc=newSparkCont

作者：编程之家时间：2022-09-04

Spark学习之路十六SparkCore的源码解读二spark-submit提交脚本

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、源码解读2.2find-spark-home2.3spark-class2.4SparkSubmit 正文一、概述上一篇主要是介绍了spark启动的一些脚本，这篇主要分析一下Spark源码中提交任务脚本的处理

作者：编程之家时间：2022-09-04

Spark学习之路十五SparkCore的源码解读一启动脚本

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、启动脚本分析1.1start-all.sh 1.2start-master.sh1.3spark-config.sh(1.2的第5步)1.4load-spark-env.sh(1.2的第6步)1.5spark-env.sh1.6spark-daemon.sh1.7spark-cl

作者：编程之家时间：2022-09-04

心灵奇旅

带全家去看了《soul》，相当精彩，可以说是2020年度最佳的动画电影了。每一个灵魂来到世上，都需要找到属于自己的spark，才能获得通行证，降生到地球。22号灵魂已经经过了成百上千个导师引导，但他一直都找不到对于人类生活的兴趣。非常想要回到地球的Joe和22约定好，帮助他找到spark，然

作者：编程之家时间：2022-09-04

Spark storage 模块

目录问题探讨：Stage3包含哪些rdd？问题探讨：小文件参数知识点复习串联RDDSpark调度流程sparkshuffle过程存储模块整体架构存储的基本单位Block块的唯一标识：BlockID块数据：BlockData块元信息：BlockInfo存储系统BlockManager存储级别StorageLevel 存储实现B

作者：编程之家时间：2022-09-04

spark submit 常用设置

Example:./bin/spark-submit\--[yourclass]\--masteryarn\--deploy-modecluster\--num-exectors17--confspark.yarn.executor.memoryOverhead=4096\--executor-memory35G\//Amountofmemorytouseperexecutorprocess--confspark.yarn.dri

作者：编程之家时间：2022-09-04

Spark08-SparkSQL之DataFrame

一、DataFrame1、DataFrame是什么DataFrame是SparkSQL中一个表示关系型数据库中表的函数式抽象,其作用是让Spark处理大规模结构化数据的时候更加容易.一般DataFrame可以处理结构化的数据,或者是半结构化的数据,因为这两类数据中都可以获取到Schema信息。也就是说DataFrame中有

作者：编程之家时间：2022-09-04

Spark学习笔记

目录一、什么是Spark？1、什么是Spark？2、为什么要学习Spark？3、Spark的特点：快、易用、通用、兼容性二、Spark的体系结构与安装部署1、Spark集群的体系结构2、Spark的安装与部署一、什么是Spark？（官网：http://spark.apache.org）1、什么是Spark？我的理解：Spark是一个针对大规模数据

作者：编程之家时间：2022-09-04

Spark学习笔记总汇目录

Spark学习笔记总汇目录spark学习笔记一、什么是Spark？二、Spark的体系结构与安装部署三、执行SparkDemo程序四、Spark运行机制及原理分析五、Spark的算子六、SparkRDD的高级算子七、Spark基础编程案例SparkSQL学习笔记一、SparkSQL基础二、使用数据源三、性能优化

作者：编程之家时间：2022-09-04

Spark学习之路十八SparkSQL简单使用

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、SparkSQL的进化之路二、认识SparkSQL2.1什么是SparkSQL?2.2SparkSQL的作用2.3运行原理2.4特点2.5SparkSession2.7DataFrames 三、RDD转换成为DataFrame3.1方

作者：编程之家时间：2022-09-04

个人介绍

这个博客我会坚持写下去：里面是一些看书的笔记，还有常用的一些东西。反正是一些记录。至于看书的笔记，可能内容非常和书的内容非常重合。这些笔记是给自己看的。我会过段时间整理这些笔记。个人介绍从大一开始写博客。这个博客是第二个博客了。第一个忘记密码了。这个是大二开的。

作者：编程之家时间：2022-09-04

Spark 开发过程中的io.netty冲突问题

io.netty冲突问题参考文章：https://blog.csdn.net/weixin_43777983/article/details/104558048Exceptioninthread"main"java.lang.NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.defaultUseCacheForAllThreads()Z atorg.apache.spark.network.util.N

作者：编程之家时间：2022-09-04

spark基础1

将相同国家进行分组，然后将count相加sum(count)，对sum(count)进行排序，输出top5valpath="/Volumes/Data/BigData_code/data/flight-data/csv/2015-summary.csv"valdata=spark.read.option("inferSchema","true").option("header","t

作者：编程之家时间：2022-09-04