Spark - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

子栏目导航大数据图像处理 chatgpt 文心一言 DevOps Kafka Spark Dubbo NLP 力扣

spark-数据倾斜

spark-数据倾斜1.解决方案1.1使用HiveETL预处理数据1.2、过滤少数导致倾斜的key1.3、提高shuffle操作的并行度1.4、双重聚合1.5、将reducejoin转为mapjoin1.6、采样倾斜key并分拆join操作1.7、使用随机前缀和扩容RDD进行join

作者：编程之家时间：2022-09-04

1：PySpark类库和标准Spark框架的简单对比 2:安装将/spark/python/pyspark 复制到 python的安装包中或者pipinstallpyspark (注意版本对应关系）3：sparkonhive本质：将hive的执行引擎替换为spark的执行引擎！配置：校验hive的是否正常运行

作者：编程之家时间：2022-09-04

实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

SparkStreaming实时消费kafka数据，结合redis实时统计pv,uv，结果保存到mysql。

作者：编程之家时间：2021-01-07

Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系

RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。RDD是一个很

作者：编程之家时间：2020-12-11

聊聊Spark的分区、并行度 —— 前奏篇

聊聊Spark的分区机制，以及通过spark.default.parallelism谈Spark并行度

作者：编程之家时间：2020-12-11

重要 | Spark分区并行度决定机制

最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.par

作者：编程之家时间：2020-12-11

Spark SQL | 目前Spark社区最活跃的组件之一

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此S

作者：编程之家时间：2020-12-11

Spark集群和任务执行

Spark是典型的Master/Slave架构，集群主要包括以下4个组件：
Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的M

作者：编程之家时间：2020-12-11

Spark闭包 | driver & executor程序代码执行

Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码，运行在driver端还是executor端呢？

作者：编程之家时间：2020-12-11

Spark为什么只有在调用action时才会触发任务执行呢附算子优化和使用示例？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存

作者：编程之家时间：2020-12-11

必须掌握的Spark调优技术点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，

作者：编程之家时间：2020-12-11

对Spark硬件配置的建议

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出一些建议

作者：编程之家时间：2020-12-11

Spark核心组件通识概览

Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark

作者：编程之家时间：2020-12-11

Spark流式状态管理updateStateByKey、mapWithState等

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基

作者：编程之家时间：2020-12-11

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark strea

作者：编程之家时间：2020-12-11

上一页 93 94 95 96 97 98 99 100101下一页