手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Linux命令之Crontab定时任务,利用Crontab定时执行spark任务
Linux命令之Crontab定时任务,利用Crontab定时执行spark任务一、Linux命令之Crontab定时任务1.1常见Crontab任务1.1.1安装crontab1.1.2查看定时任务列表1.1.3编辑定时任务1.1.4删除定时任务1.1.5备份定时任务1.2Crontab命令执行时间的网站1.3crontabl实例1.4
作者:编程之家 时间:2022-09-04
大数据组件之Spark简介
简介ApacheSpark是一个统一的分析引擎,用于大规模数据处理。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。它为Java,Scala,Python和R以及支持一般执行图的优化引擎提供高级API。它还支持丰富的高级工
作者:编程之家 时间:2022-09-04
Ta来了,Ta来了,Spark基础能力测试题Ta来了!
因为这段时间在学习Spark,所以本篇博客为大家带来关于Spark的综合性练习一道。 码字不易,先赞后看,养成习惯! 首先让我们准备好该题所需的数据test.txt 数据结构如下依次是:班级姓名年龄性别科目成绩12宋江
作者:编程之家 时间:2022-09-04
SparkSQL如何实现多数据源交互?这篇博客或许能告诉你答案!
学了一段时间的SparkSQL,相信大家都已经知道了SparkSQL是一个相当强大的存在,它在一个项目的架构中扮演着离线数据处理的"角色",相较于前面学过的HQL,SparkSQL能明显提高数据的处理效率。正因为如此,SparkSQL就会涉及到与多种的数据源进行一个交互的过程。那到底是如何
作者:编程之家 时间:2022-09-04
大数据平台架构
大数据平台架构基于HBase和Spark构建企业级数据处理平台1.1一站式数据处理平台架构1.2典型业务场景1.2.1爬虫+搜索引擎1.2.2大数据风控系统1.2.3构建数据仓库(推荐、风控)基于HBase和Spark构建企业级数据处理平台[基于HBase和Spark构建企业级数据处理平台]:阿
作者:编程之家 时间:2022-09-04
Spark(RDD)
RDD1.所谓的RDD,其实就是一个数据结构,类似于链表中的Node2.RDD中有适合并行计算的分区操作3.RDD中封装了最小的计算单元,目的是更适合重复使用4.Spark的计算主要就是通过组合RDD的操作,完成业务需求1.从集合(内存)中创建RDD从集合中创建RDD,Spark主要提供了两个方法:parallelize和m
作者:编程之家 时间:2022-09-04
neo4j-(12)-spark操作
创建对象<dependencies><!--listofdependencies--><dependency><groupId>org.neo4j</groupId><artifactId>neo4j-connector-apache-spark_2.11</artifactId><version>4.0.1_for_spark_2.4</version
作者:编程之家 时间:2022-09-04
spark 分区 partition的理解
原文链接:https://www.cnblogs.com/jiangxiaoxian/p/9539760.html我们常认为coalesce不产生shuffle会比repartition产生shuffle效率高,而实际情况往往要根据具体问题具体分析,coalesce效率不一定高,有时还有大坑,大家要慎用。coalesce与repartition他们两个都是RDD的分区进
作者:编程之家 时间:2022-09-04
浅谈spark的数据本地性data locality
spark的数据本地性(datalocality)Spark其中一个特性就是数据本地性,简单的说就是“移动数据不如移动计算”。因为数据在网络传输中会有不小的I/O消耗,并且传输距离越长消耗越大。所以,数据本地性可以理解为数据传输距离,而我们的目的就是避免数据在网络中传输或尽量减少传输的距离。
作者:编程之家 时间:2022-09-04
大数据知识图谱笔记
大数据组件繁多,五花八门,这里花了几天时间针对以前笔记的Hadoop、Spark两大生态圈的相关组件进行了分类整理,用简短的几句话对相关特性进行了总结描述,强化记忆,供学习、选型、面试。详细组件功能介绍请参考其它博文。没有什么是一张图解决不了的,如果有就再画一张目录1集成平
作者:编程之家 时间:2022-09-04
Spark入门,概述,部署,以及学习Spark是一种快速、通用、可扩展的大数据分析引擎
1:Spark的官方网址:http://spark.apache.org/1Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容
作者:编程之家 时间:2022-09-04
07 Spark RDD编程 综合实例 英文词频统计
1.用Pyspark自主实现词频统计过程。>>>s=txt.lower().split()>>>dd={}>>>forwordins:...ifwordnotindd:...dd[word]=1...else:...dd[word]=dic[word]+1...>>>ss=sorted(dd.items(),key=operator.itemgetter(1),reverse=
作者:编程之家 时间:2022-09-04
关于Spark的面试题,你应该知道这些!
之前分享过一篇博客,????不会这20个Spark热门技术点,你敢出去面试大数据吗?,那一篇确实是非常精华,提炼出了非常重要同样非常高频的Spark技术点,也算是收到了一些朋友们的好评。本篇博客,博主打算再出个番外篇,也就是再为大家分享一些Spark面试题,敢问各位准备好了么~
作者:编程之家 时间:2022-09-04
spark的去重算子
importorg.apache.spark.{SparkConf,SparkContext}objectTest6{defmain(args:Array[String]):Unit={valsparkconf=newSparkConf().setMaster("local[*]").setAppName("wordcount")valsc=newSparkContext(sparkconf)
作者:编程之家 时间:2022-09-04
waterdrop使用cdh的spark2提交任务
有的公司使用的是cdh集群,用waterdrop同步数据的时候会遇到spark版本太低,需要切换到spark2去。特此记录一下切换过程以及遇到的问题。更改waterdrop的bin目录下的start-waterdrop.sh文件,更改spark-submit为spark2-submit更改waterdrop的config目录下的waterdrop-env.sh文件
作者:编程之家 时间:2022-09-04
Ambari2.7.3集群Oozie调度Spark示例
文章目录1.环境准备2.修改配置文件2.1解压Oozie自带样例包2.2修改workflow.xml文件2.3修改job.properties文件3.上传到HDFS4.提交任务5.监控1.环境准备集群版本:Ambari2.7.3+HDP3.0.1.0-187集群开启Kerberos身份认证,Ranger权限认证2.修改配置文件2.1解压Oozie
作者:编程之家 时间:2022-09-04
Spark
什么是SparkSpark是基于内存的快速,通用,可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分,实现了spark的基本功能,包含任务调度,错误恢复,与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集的APISparkSQL可以使用sql结构化语句来
作者:编程之家 时间:2022-09-04
【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践
简介:获取更详细的Databricks数据洞察相关信息,可至产品详情页查看:https://www.aliyun.com/product/bigdata/spark作者美的暖通与楼宇事业部先行研究中心智能技术部 美的暖通IoT数据平台建设背景美的暖通与楼宇事业部(以下简称美的暖通)是美的集团旗下五大板块之一
作者:编程之家 时间:2022-09-04
Spark——实验一:Scala安装与验证
文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本安装scala2.11.8 1.1在官网下载Scala2.11.8 1.2安装Scala2.11.8 1.3配置Scala命令的环境变量 1.4验证Scala 2.Scala实例练习 2.1创建统计单词文本 2.2创建词频统
作者:编程之家 时间:2022-09-04
02 Spark架构与运行流程补
1.为什么要引入Yarn和Spark1.部署Application和服务更加方便只需要yarn服务,包括Spark,Storm在内的多种应用程序不要要自带服务,它们经由客户端提交后,由yarn提供的分布式缓存机制分发到各个计算节点上。2.资源隔离机制yarn只负责资源的管理和调度,完全由用户和自己决定在y
作者:编程之家 时间:2022-09-04
hadoop生态圈各个组件简介
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,HDFS 还包括YARN。 1,HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。client:切分文件
作者:编程之家 时间:2022-09-04
大数据技术原理与应用之【Spark】习题
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决HadoopMapReduce的不足,试列举HadoopMapReduce的几个缺陷,并说明Spark具备哪些优点。答:(1)Hadoo
作者:编程之家 时间:2022-09-04
RDD编程初级实践
RDD编程初级实践一、pyspark交互式编程二、编写独立应用程序实现数据去重三、编写独立应用程序实现求平均值问题一、pyspark交互式编程本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStru
作者:编程之家 时间:2022-09-04
spark wordcount
1.scala-sdk 2.pom.xml:<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.0.0</version>
作者:编程之家 时间:2022-09-04
常用深度网络框架
常用深度网络框架
作者:编程之家 时间:2022-09-04
大数据Hadoop生态圈介绍
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层
作者:编程之家 时间:2022-09-04
这可能是你见过大数据岗位最全,最规范的面试准备大纲 !(建议收藏
本篇博客所分享的知识非常硬核,建议各位看官(尤其是大数据专业的同学啊),赶紧搬好小板凳,带好西瓜,我们边看边吃瓜。说错了,是带着小本,边看边记下来申明:本篇仅仅只是作为一个大纲目录,具体内容我会在后续详细展开说明!为什么这么说,继续往下看大家就明白了~文章
作者:编程之家 时间:2022-09-04
07 Spark RDD编程 综合实例 英文词频统计
>>>s=txt.lower().split()>>>dd={}>>>forwordins:...ifwordnotindd:...dd[word]=1...else:...dd[word]=dic[word]+1... >>>ss=sorted(dd.items(),key=operator.itemgetter(1),reverse=True)Traceback(mostr
作者:编程之家 时间:2022-09-04
07 从RDD创建DataFrame
07从RDD创建DataFrame 1.pandasdf与sparkdf的相互转换df_s=spark.createDataFrame(df_p)df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 PandasSpark工作方式单机singlemachinetool,没有并行机制parallelism不支持Hadoop,处理大量
作者:编程之家 时间:2022-09-04
06 Spark SQL 及其DataFrame的基本操作
1.SparkSQL出现的原因是什么?目前关系数据库在大数据时代已经不能满足各种新增的用户需求。SparkSQL的出现,填补了这个鸿沟。首先,SparkSQL可以提供DataFrameAPI,可以对内部和外部各种数据源执行各种关系操作;其次,可以支持大量的数据源和数据分析算法,组合使用SparkSQL和Spark
作者:编程之家 时间:2022-09-04
上一页
66
67
68
69
70
71
72
73
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native