手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
数据质量 — 使用amazon deequ作为spark etl数据质量检测
目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。一、官网示例packageorg.shydow.deequimportcom.amazon.deequ.checks.CheckStatusimportcom.amazo
作者:编程之家 时间:2022-09-04
|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|------------------------------------------|Spa
[BigDataHadoop:Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节四|Hadoop|spark|sparksql:sparksql编程&Transformation操作|]一、Transformation操作###---select*fromtabwhere...group
作者:编程之家 时间:2022-09-04
2022.4.17学习成果
spark1)解压spark安装包到/usr/local/src/目录,并改名为sparkmaster机器:[root@master~]#tar-zxvf/opt/software/spark-2.0.0-bin-hadoop2.6.tgz-C/usr/local/src[root@master~]#mv/usr/local/src/spark-2.0.0-bin-hadoop2.6/usr/local/src/spark 2)将spark目录权限
作者:编程之家 时间:2022-09-04
前端生成md5指纹
需注意this指向变化问题importSparkMD5from'spark-md5'handleChangePackage(file,fileList){this.packageList=[]this.packageList=fileListconst_this=thisconstfileReader=newFileReader()constdataFile=
作者:编程之家 时间:2022-09-04
hadoop集群+spark集群部署
一、准备1.1软件版本1.2网络规划1.3软件包拷贝1.4SSH设置1.5绑定IP和修改计算机名1.5.1修改/etc/hosts,添加IP绑定,并注释127.0.1.1(不注释会影响hadoop集群)1.5.2修改/etc/hostname,为绑定计算机名。(计算机名和上面hosts绑定名必须一致)1.6SSH无密码登陆(需提前安
作者:编程之家 时间:2022-09-04
|NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.
[BigDataHadoop:Hadoop&OLAP数据库管理系统.V16] [Deployment.OLAP数据库管理系统][|Kylin:sparkcore高可用配置|]一、高可用配置:sparkstandalone集群配置###---修改spark-env.sh文件,并分发到集群中[root@hadoop01~]#vim$SP
作者:编程之家 时间:2022-09-04
Spark打包与Kerberos相关命令
发布的问题mvncleanpackageproject-am-Pcdp-DskipTests=true之后将打包好的包上传到相关路径提交任务与Kerberos文件配置spark-submit\--masteryarn\--deploy-modecluster\--driver-memory4g--num-executors4--executor-memory8g--executor-cores4
作者:编程之家 时间:2022-09-04
5.RDD操作综合实例
一、词频统计A. 分步骤实现 准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD分词排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
作者:编程之家 时间:2022-09-04
7.Spark SQL
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。SparkSQL的出现,解决了对不同数据源和不同数据的操作,例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。SparkSQL的前身是Shark,Shark中提供了类似于Hive的功能。但是Shark设计中导致了两个问题
作者:编程之家 时间:2022-09-04
|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa
[BigDataHadoop:Hadoop&Spark.V11] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理###---shuffle原理~~~Shuffle的本意是
作者:编程之家 时间:2022-09-04
|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|------------------------------------------|Spa
[BigDataHadoop:Hadoop&Spark.V09] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&TopN优化|一、TopN编程代码###---TopN编程代码优化packagecn.yanqi.sparkcoreimport
作者:编程之家 时间:2022-09-04
|NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar
[BigDataHadoop:Hadoop&Spark.V06] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式###---集群模式-
作者:编程之家 时间:2022-09-04
Spark Streaming DStream 转换操作
DStream操作和RDD的操作很类似,分为Transformations转换和OutputOperations输出两种,此外转换操作中还有一些比较复杂的算子,如:updateStateByKey(),transform()以及各种Window相关算子。1、无状态转换操作 无状态转换操作就是把简单的RDD转换操作应用到每个批次上,也就是转
作者:编程之家 时间:2022-09-04
Zeppelin中给spark添加第三方jar包
方法一:永久导入jar包在zeppelin的环境配置文件"zeppelin-env.sh" 中添加以下内容:exportSPARK_SUBMIT_OPTIONS="--jars/moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar"也可以将jar包放在HDFS上面exportSPARK_SUBMIT_OPTIONS="--jarshdfs:///spark/j
作者:编程之家 时间:2022-09-04
5.RDD操作综合实例
一、词频统计A. 分步骤实现1、准备文件1、下载小说或长篇新闻稿2、上传到hdfs上2、读文件创建RDD3、分词4、 排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(),长度小于2的词filter()5、统计词频6、按词频排序7、输出到文件
作者:编程之家 时间:2022-09-04
Spark运行架构
一Spark与hadoop三Spark的架构详解四Spark运行基本流程五Spark运行模式5.1 standalone独立集群运行模式5.1.1Standalone的client模式5.1.2Standalone的cluster模式5.1.3YARN框架原理5.1.4YARN的client运行模式5.1.5YARN的cluster运行模式5.1.6 YARN-Cl
作者:编程之家 时间:2022-09-04
5.RDD操作综合实例
一、词频统计A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上start-all.shhdfsdfs-put666.txthdfsdfs-ls2、读文件创建RDD>>>lines=sc.textFile("/home/hadoop/666.txt")>>>lines.foreach(print)3、分词>>>words=lines.flatMap(lambdali
作者:编程之家 时间:2022-09-04
执行spark任务时报错Table or view 'test' not found in database 'test_1'
执行数据入hive的spark任务时报错:org.apache.spark.sql.catalyst.analysis.NoSuchTableException:Tableorview'test'notfoundindatabase'test_1';解决问题:原因:部署环境的spark目录下conf里hive-site.xml文件没有更新,导致找不到数据库。办法:将hive的conf目录中的hive-
作者:编程之家 时间:2022-09-04
|NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&Spark.V05|------------------------------------------|Spar
[BigDataHadoop:Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:spark伪分布式模式|]一、伪分布式###---伪分布式~~~#伪分布式模式:在一台机器中模拟集群运行,相
作者:编程之家 时间:2022-09-04
5.RDD操作综合实例
5.RDD操作综合实例一、词频统计A. 分步骤实现 1.上传到hdfs上 2,读文件创建RDD3.分词 4.排除大小写lower(),map() 5.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度
作者:编程之家 时间:2022-09-04
从零开始学Spark二--了解Spark
点击关注强哥,还有100多G的面试资料等你来拿哈喽,大家好,我是强哥。不知道大家Scala学得怎么样了?不过不管你们学得怎么样,反正我是简单的过过一遍了。诶~就是这么牛逼。今天我们就开始正式学Spark了。Spark是什么?既然要学Spark,首先就要弄懂Spark是什么?或者说Spark能为我们做什么?
作者:编程之家 时间:2022-09-04
5.RDD操作综合实例
一、词频统计A. 分步骤实现 1.准备文件,下载小说或长篇新闻稿 2.上传到hdfs上 3.读文件创建RDD4.分词 5.排除大小写lower(),map() 6.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载
作者:编程之家 时间:2022-09-04
大数据Hadoop之——计算引擎Spark
目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)ClusterManager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskSched
作者:编程之家 时间:2022-09-04
|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|------------------------------------------|Spa
[BigDataHadoop:Hadoop&Spark.V12] [BigDataHadoop.Spark内存级快速计算引擎][|章节二|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&RDD编程优化|]一、RDD编程优化###---RDD复用~~~避免创建重复的RDD。
作者:编程之家 时间:2022-09-04
Spark 广播变量&累加器
Spark 为了达到高并发,高吞吐数据处理能力封装RDD外,也封装了另外两个数据对象广播变量:分布式共享只读变量累加器:分布式共享只写变量1、广播变量1.1、广播变量存在的意义如果我们需要在分布式计算里面芬达大对象,例如:集合,字典或者黑白名单等,这个都会有Driver端进行分发,一
作者:编程之家 时间:2022-09-04
【数仓项目记录3】业务数据采集
电商常识业务表,与用户的操作相关,如添加收藏夹、购物车,下单,支付,退单、退款、评价、领优惠券等后台管理系统面向公司内部开发者,维护商品信息、优惠信息等业务数据的生成使用项目提供的jar包生成某一日期下的数据,数据存储到hadoop102中的数据库中SqoopSqoop是Hadoop和关系
作者:编程之家 时间:2022-09-04
7.Spark SQL
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。SparkSQL的前身是Shark,Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件,Shark将SQL语句的转换从MapReduce作业替
作者:编程之家 时间:2022-09-04
替换Hive引擎为Spark
写在前面必须要先保证hadoop是正常启动的,hadoop安装配置见《CentOS7安装Hadoop集群》HIVE是正常的,Hive安装配置见《CentOS7安装Hive》Spark是正常的,Spark安装配置见《CentOS7安装Spark集群(yarn模式)》其它配置HDFS创建以下路径,用于存储相关jar包解压缩spark-3.0.0-bin-wit
作者:编程之家 时间:2022-09-04
Spark 源码系列 - 获取分区数
目录版本结论代码入口SparkContext->textFileSparkContext->defaultMinPartitionsSparkContext->defaultParallelismTaskSchedulerImplLocalSchedulerBackend版本本分析基于Sparkversion3.1.2结论local模式下,默认最小分区数不会超过2如果对spark.default.parallelis
作者:编程之家 时间:2022-09-04
Spark排序之SortBy
1、例子1:按照value进行降序排序defsortBy[K](f:(T)=>K,ascending:Boolean=true,//默认为正序排列,从小到大,false:倒序numPartitions:Int=this.partitions.length)(implicitord:Ordering[K],ctag:ClassTag[K]):RDD[T]返回值是T,数字
作者:编程之家 时间:2022-09-04
上一页
93
94
95
96
97
98
99
100
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native