手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
第1章 大数据挖掘及应用概论
《大数据挖掘及应用》学习笔记。第1章大数据挖掘及应用概论数据挖掘是数据分析的提升。1.1大数据智能分析处理的普及和应用1.1.1云计算(cloudcomputing)云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源
作者:编程之家 时间:2022-09-04
美团优选大数据开发岗面试真题-附答案详细解析
公众号(五分钟学大数据)已推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂!此面试题来自牛客网友分享的美团优选一面,面试时长一小时。网友情况:海外水本,在某三线中厂工作2年。参考答案由
作者:编程之家 时间:2022-09-04
sprak-sql-基础
sql语言分为四类1.数据查询语言DQL(查询语句)2.数据操纵语言DML(删除、创建、更新)3.数据定义语言DDL(创建数据库中的各种对象—–表、视图、索引、同义词、聚簇)4.数据控制语言DCL(数据控制语言DCL用来授予或回收访问数据库的某种特权,并控制数据库操纵事务发生的时间及效果,对
作者:编程之家 时间:2022-09-04
Spark中join的类型
Spark的五种JOIN策略解析JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容:影响JOIN操作的因素Spark中JOIN执行的5种策略Spark是如何选择JOIN策
作者:编程之家 时间:2022-09-04
spark安装测试
spark安装测试spark安装测试spark-shell使用提交流程分析spark安装测试解压安装:把安装包上传到/opt/soft下,并解压到/opt/module/目录下tar-zxvfspark-2.1.1-bin-hadoop2.7.tgz-C/opt/module然后复制刚刚解压得到的目录,并命名为spark-loc
作者:编程之家 时间:2022-09-04
Spark内存管理
Spark内存管理堆内内存,JVM管理堆外内存,操作系统为什么需要堆外内存?因为jvm存在回收不及时,不能精确回收估计内存的问题,容易造成OMM.同时也避免了频繁的GC带来的程序停顿,当然JVM也是由优势的。为什么无法精确回收?因为一个对象创建后,保存在堆中。清除是由JVM处理的,spark只
作者:编程之家 时间:2022-09-04
idea开发Spark应用配置pom.xml
pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://ma
作者:编程之家 时间:2022-09-04
Spark2.x精通:Shuffle演进历程及Shuffle两阶段划分
一、概述 上篇文章:Spark2.x精通:Shuffle原理及对应的Consolidation优化机制,讲解了Spark早期版本的Shuffle原理及其优化,文章结尾也已经提及Spark2.x中已经将HashShuffle废弃,我自己也去看了Spark2.2.0的源码,在Spark-env初始化中只保留了两种Shuffle:Sort、Tungsten-Sort,下面是
作者:编程之家 时间:2022-09-04
大数据平台基础架构和常用处理工具-copy
https://blog.csdn.net/qq_27384769/article/details/80159953一、概述数据在线分析处理和常用工具大数据离线处理和常用工具OLAP和OLTP处理和常用处理工具二、数据在线分析处理和常用工具1、Flume介绍Flume专注于大数据的收集和传输,用来解决在线分析处理特点,数据源源不断的
作者:编程之家 时间:2022-09-04
spark--扩展:Java编写Spark程序
扩展:Java编写Spark程序前言演示使用JavaAPI编写Spark程序完成WordCount前言Spark的源码是使用Scala编写的,那么开发时肯定是使用Scala进行开发最好,和官方的底层源码"兼容性更好"但是有些公司觉得Scala的学习成本较高,Scala的编码风格太过于简洁,不利于新人上手,不利
作者:编程之家 时间:2022-09-04
传统数仓如何转型大数据
转:传统数仓如何转型大数据大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边的同事经历来一起分享一下。一、
作者:编程之家 时间:2022-09-04
spark--必备了解
必备了解SparkCore数据抽象RDD五大主要特征RDD数据源创建RDDRDD算子分类Transformations:转换操作,返回值为新的RDD,只会记录转换操作和依赖关系,不会立即执行Actions:动作操作,无返回值或返回值不是RDD(例collect/saveAsTextFile)特别提出来:统计操作RDD宽窄依赖Spar
作者:编程之家 时间:2022-09-04
6.2.2 Spark Act触发《KVRDD》创建, 类似map,聚合(重要),排序,JOIN,ACT《输入出》文本,CSV,JSON,Seq,对象,JDBC《算子综合》词数,PAI,广告,共同好友
目录3.6Action3.7Key-ValueRDD操作3.7.1创建PairRDD3.7.2Transformation操作 1、类似map操作 2、聚合操作【重要、难点】 3、排序操作 4、join操作3.7.3Action操作3.8输入与输出3.8.1文件输入与
作者:编程之家 时间:2022-09-04
Spark RDD算子之foreachPartition
首先,看如下代码ds.foreachRDD(rdd=>{//此处属于rdd外,在driver端执行//driver和executor数据传输需要序列化rdd.foreach{//rdd里面,在executor执行case((a,b)=>{valconn:Connection=JDBCUt
作者:编程之家 时间:2022-09-04
Spark Streaming实时流处理项目实战(七)Spark Streaming入门
SparkStreaming入门概述应用场景集成Spark生态系统的使用SparkStreaming发展史词频统计概述SparkStreaming是核心SparkAPI的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达
作者:编程之家 时间:2022-09-04
SparkCore
文章目录第1章Spark概述1.1Spark是什么1.1SparkandHadoop1.2SparkorHadoop1.3Spark核心模块第1章Spark快速上手2.1创建Maven项目2.1.1增加Scala插件2.1.2增加依赖关系2.1.3WordCount2.1.4异常处理第2章Spark运行环境3.1Local模式3.1.1解压缩文件3.1
作者:编程之家 时间:2022-09-04
Hadoop 组件scala,spark部署
1.安装Scala#解压改名[root@masterhome]#tar-zxvfscala-2.10.4.tgz-C/app/[root@masterapp]#mvscala-2.10.4/scala#配置Scala环境变量vi/etc/profileexportSCALA_HOME=/usr/local/software/scalaexportPATH=$PATH:$SCALA_HOME/bin#输入scala,进入sh
作者:编程之家 时间:2022-09-04
Spark Shuffle
SparkShuffleshuffle的分区数怎么确定?Map端由初始读取的数据源和算子计算后决定,比如:kafka的分区数Reduce端由spark.default.parallelism决定,如果没有配置,由上一个map的分区数一致Reduce怎么拉取数据?先上图:BlockManager是传输数据MapoutputTracker是通讯流程:MapOutp
作者:编程之家 时间:2022-09-04
02 Spark架构与运行流程
1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;(2)选用spark的原因1)应用于流式计算的SparkStreaming;2)应用于即席查询(Ad-hoc
作者:编程之家 时间:2022-09-04
解决spark单点故障问题——Spark HA部署
SparkHA的部署过程以及测试结果1.查看zookeeper的zoo.cfg文件2.配置spark-env.sh文件(三个节点)3.单点故障操作简单易懂,手把手带小白用VMware虚拟机安装Linuxcentos7系统Hadoop集群搭建及配置〇——Hadoop组件获取&传输文件Hadoop集群搭建及配置①——
作者:编程之家 时间:2022-09-04
01 Spark架构与运行流程
1.阐述Hadoop生态系统中,HDFS,MapReduce,Yarn,Hbase及Spark的相互关系,为什么要引入Yarn和Spark。HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。HBase构建在HDFS之上的分布式,面向列的NoSQL数据库。HBase中保存
作者:编程之家 时间:2022-09-04
02 Spark架构与运行流程
1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;(2)选用spark的原因1)应用于流式计算的SparkStreaming;2)应用于即席查询(Ad-ho
作者:编程之家 时间:2022-09-04
02 Spark架构与运行流程
02Spark架构与运行流程1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;(2)选用spark的原因1)应用于流式计算的SparkStreami
作者:编程之家 时间:2022-09-04
Spark——Spark SQL逻辑计划Logical Plan、物理计划Physical Plan和Catalyst优化器Catalyst Optimizer
文章目录TreesRulesSparkSQL中使用CatalystAnalysis逻辑优化(LogicalOptimizations)物理计划(PhysicalPlanning)代码生成(CodeGeneration)参考此篇文章,翻译之DatabricksBlog中的一篇文章——DeepDiveintoSparkSQL’sCatalystOptimizer。SparkSQL的核心是Catalys
作者:编程之家 时间:2022-09-04
Spark学习之路一
Spark的系统架构Spark采用master/worker结构,master负责管理应用和任务,worker节点负责执行任务。几个概念Sparkdriver,Spark驱动程序,指的是Spark应用中main函数的进程Executor,Spark执行器,是Spark计算资源的一个单位,Spark先以Executor为单位占用集群资源。然后将具体的任务分
作者:编程之家 时间:2022-09-04
最新版Spark 3 HelloWorld
Spark已经发布到3.1.1了,好久没看这个项目了.今天更新下本地仓库,编译下竟然出错了.$mvn compile......[ERROR] [Error] /data/code/github/bigdata/spark/core/src/main/scala/org/apache/spark/SparkContext.scala:403: type mismatch; found : Map[String,org.ap
作者:编程之家 时间:2022-09-04
Spark架构与运行流程
1.为什么要引入Yarn和Spark答:普通OS(操作系统)的功能主要是为处理器管理、存储器管理、设备管理、文件管理、作业管理和用户接口。在集群环境下,HDFS已经负责了文件管理,而设备概念较弱,故YARN主要负责统一管理集群内服务器的计算资源(主要包括CPU和内存资源)、作业调度和用户接口
作者:编程之家 时间:2022-09-04
Spark-RDD02-行动算子
导言之前和大家说完了Spark-RDD的转换算子还有RDD的行动算子,没有整理,接下来就是对Spark-RDD的行动算子来进行来说明,Spark-RDD行动算子是触发Spark-RDD执行的一个算子,就比如在执行Spark程序中,写了一系列的转换算子来对结果的转换,从而计算出我们想要的结果,但是每次在每个程序
作者:编程之家 时间:2022-09-04
Spark架构与运行流程
1、为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;(2)选用spark的原因1)应用于流式计算的SparkStreaming;2)应用于即席查询(Ad-hoc)的
作者:编程之家 时间:2022-09-04
StructuredStreaming整合Kafka
实时ETL 准备:每台节点启动zookeeper集群cd/usr/local/zookeeper/bin/./zkServer.shstartmaster上启动kafka:cd/usr/local/kafka_2.12-2.7.0/binkafka-server-start.sh../config/server.properties另开终端:cd/usr/local/kafka_2.12-2.7.0/binkafka-topics.s
作者:编程之家 时间:2022-09-04
上一页
52
53
54
55
56
57
58
59
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native