手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
2020寒假生活学习日记一
安装Spark: 配置文件spark-env.sh: 修改之后: 验证Spark是否安装成功: grep命令进行过滤:
作者:编程之家 时间:2022-09-04
spark学习三
1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()flush()是清空,而不是刷新啊。一般主要用在IO中,即清空缓
作者:编程之家 时间:2022-09-04
主流开源SQLon Hadoop总结,不断改进的Hive始终遥遥领先
本文涵盖了6个开源领导者:Hive、Impala、SparkSQL、Drill、HAWQ以及Presto,还加上Calcite、Kylin、Phoenix、Tajo和Trafodion。以及2个商业化选择OracleBigDataSQL和IBMBigSQL,IBM尚未将后者更名为“WatsonSQL”。(有读者问:Druid呢?我的回答是:检查后,我同意Druid属于这
作者:编程之家 时间:2022-09-04
大三寒假生活4
感觉今天也没整出什么大的进展,在学习eclipse编写spark程序过程中,虚拟机中因为eclipse版本号的问题安装不上spark和scala插件,鼓捣了半天也没有进展,在虚拟机中下载对应的版本因为网速过于慢最终也放弃了。最终从windows中下载了对应的eclipse版本,通过ftp传到了虚拟机中。在下载的过
作者:编程之家 时间:2022-09-04
2020年寒假学习进度第七天
今天主要学习了spark实验四的内容,实验四主要为RDD编程,本实验的重点为两个编程题 1.编写独立应用程序实现数据去重对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。输入文
作者:编程之家 时间:2022-09-04
大数据实战丨如何快速搭建一个自己的Spark分布式架构
从零开始搭建我们的Spark平台1、准备centeros环境为了搭建一个真正的的集群环境,并且要做到高可用的架构,我们至少准备三个虚拟机来作为集群节点。因此我购买了三台阿里云的服务器,来作为我们的集群节点。 注意到,master是主节点,而slave顾名思义就是奴隶,自然就是为主节点工作
作者:编程之家 时间:2022-09-04
15.Spark源码分析
Spark源码分析各个组件介绍后面补充。。。。StandAlone模式在StandAlone模式的start-all的shell启动脚本下,在当前机器执行了JAVA_HOME/bin/java-cp....Master和在配置的slave的机器中执行JAVA_HOME/bin/java-cp....Worker.这两种进程在启动后通过netty进行rpc通信。M
作者:编程之家 时间:2022-09-04
SIX Spark Streaming 编程初级实践
Flume官网下载Flume1.7.0安装文件,下载地址如下:http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz下载后,把Flume1.7.0安装到Linux系统的“/usr/local/flume”目录下,⑴解压安装包1.cd~/下载2.sudotar-zxvfapache-flume-1.7.0-bin.
作者:编程之家 时间:2022-09-04
spark实验四
第四个实验是关于RDD编程的,一些语句能看懂一部分,但是还是不熟悉,需要多多了解。今天只完成了第一部分spark-shell交互式编程。 该系总共有多少学生: 该系共开设来多少门课程: Tom同学的总成绩平均分是多少: 求每名同学的选修的课程门数: 该系D
作者:编程之家 时间:2022-09-04
SparkSQL 如何自定义函数
1.SparkSql如何自定义函数2.示例:Average3.类型安全的自定义函数1.SparkSql如何自定义函数?spark中我们定义一个函数,需要继承UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式?我只要实现抽象类的中方法,具体的所有的计算步
作者:编程之家 时间:2022-09-04
Spark命令详解
本篇博客,Alice为大家带来关于Spark命令的详解。spark-shell引入 之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习
作者:编程之家 时间:2022-09-04
Spark组件间通信
1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口,接口在本地通过RPC框架的动态代理机制生成一个对应的实现类,在这个实现类中完成soket通信、远程调用等功能的逻辑包装,而在RPC的服务端既编写业务接口也编写了具体的业务实现类,通过RPC框架以接口的方式暴
作者:编程之家 时间:2022-09-04
寒假记录六
今天完成了实验任务四-RDD编程初级实践,先在网上查了一下资料。Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集,对数据的操作主要涉及RDD的创建、转换以及行动等操作,在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法,本小节将介绍RDD编程之转换(Tra
作者:编程之家 时间:2022-09-04
Spark常用参数解释及建议值
spark的默认配置文件位于堡垒机上的这个位置:$SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。需要注意的是,默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。用户再理解参数含义的基础上,可根据具体任务情况调整参数。以下常用
作者:编程之家 时间:2022-09-04
spark实验(三)--Spark和Hadoop的安装(1)
一、实验目的(1)掌握在Linux虚拟机中安装Hadoop和Spark的方法;(2)熟悉HDFS的基本使用方法;(3)掌握使用Spark访问本地文件和HDFS文件的方法。 二、实验平台操作系统:centos6.4;Spark版本:2.1.0;Hadoop版本:2.7.3。三、内容实验一:1.安装Hadoop和Spark进入Lin
作者:编程之家 时间:2022-09-04
spark学习第13天
在Scala中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值,var可以在生命周期中被多次赋值。val:1scala>valmsg=”Hello,world!”;2msg:java.lang.String=Hello,world!3scala>msg=”Helloagain,world!”;4:5:error:reassignmenttoval5
作者:编程之家 时间:2022-09-04
寒假学习进度-9spark streaming编程初级实践
1.安装Flume下载地址:http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz(1)解压安装包sudotar-zxvfapache-flume-1.7.0-bin.tar.gz-C/usr/localcd/usr/local sudomv./apache-flume-1.7.0-bin./flume sudochown-Rhadoop:hadoop
作者:编程之家 时间:2022-09-04
Hadoop Spark:全面比拼架构、性能、成本、安全
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Hadoop和Spark是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据,并将其导入HDFS或使用SparkStreaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会
作者:编程之家 时间:2022-09-04
大数据技术之Spark入门一概述
1.1什么是Spark 1.2Spark内置模块 SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集(ResilientDistributedDataSet,简称RDD)的API定义。SparkSQL:是Spark用来操作结构化数据的程
作者:编程之家 时间:2022-09-04
【2020/2/5】寒假自学——学习进度报告12
今天主要完成了北京市政百姓信件分析实战。Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。 值得一提,nc-l9999虽然也是适用的,-k是为了可以保持多个连接,所以应该还
作者:编程之家 时间:2022-09-04
用户画像-算法实例KNN
importcn.doitedu.commons.util.SparkUtilimportorg.apache.spark.ml.linalgimportorg.apache.spark.ml.linalg.{Vector,Vectors}importorg.apache.spark.sql.{DataFrame,Dataset,SparkSession}objectKnnDemo{defmain(args:Array[String]):Unit={
作者:编程之家 时间:2022-09-04
【大数据】技术选型对比
公司要开搞大数据了,针对大数据的一般姿势做了个简单调研。 一、通用架构 二、组件选择1、Hdfs、HBaseHdfs:分布式文件存储,无缝对接所有大数据相关组件。高容错(多副本)、高吞吐。适合一次写入,多次读出。不适合低延迟读取、小文件存储(寻址时间超过读取时间)。HBase:非关系
作者:编程之家 时间:2022-09-04
Ambari HDP 下 SPARK2 与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase安装完成Phoenix已经启用,Ambari界面如下所示:Spark2安装完成3、Spark2与Phoenix整合Phoenix官网整合
作者:编程之家 时间:2022-09-04
4spark sql(更新中~~~)
楔子sparksql,显然就是让我们像写sql一样去编写spark程序。但是spark它并不仅仅是sql,sql只是spark提供的功能之一,而且还支持DataFrame。想想hive,它们存在的意义都是类似的。因为熟悉sql的人是很多的,如果一款框架能够让你像sql一样去编写程序,那么它一定是灰常受欢迎的,就类似于当初
作者:编程之家 时间:2022-09-04
spark KafkaUtils.createDirectStream的一点理解
参考文章:https://www.cnblogs.comunnerjack/p/8597981.htmlhttps://blog.csdn.net/qq_41083134/article/details/99561175 一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次ConsumerAPI来实现的。receiver从Kafka中获取的数据都是
作者:编程之家 时间:2022-09-04
Ambari HDP 下 SPARK2 与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase安装完成Phoenix已经启用,Ambari界面如下所示:Spark2安装完成3、Spark2与Phoenix整合Phoenix官网整合教程:ht
作者:编程之家 时间:2022-09-04
Spark内存管理
1、spark的一大特性就是基于内存计算,Driver只保存任务的宏观性的元数据,数据量较小,且在执行过程中基本不变,不做重点分析,而真正的计算任务Task分布在各个Executor中,其中的内存数据量大,且会随着计算的进行会发生实时变化,所以Executor的内存管理才分析的重点。2、在执行Spark应用程
作者:编程之家 时间:2022-09-04
sqarkSQL中的UDF用户自定义函数理解及应用
sqarkSQL中的UDF用户自定义函数理解及应用sqarksql不是万能的有一些功能无法实现所以我们需要自定义函数例如sqarksql中的concat_ws(",",“A”,“B”)=>将两个字段合并成一个字段中间用,隔开输入一行返回一行的就叫做udf输入一行返回多行的就叫做udtf输入多行返回一
作者:编程之家 时间:2022-09-04
Spark Streaming 数据限流简述
SparkStreaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;由于流处理的数据流特征,使之数据流具有不可预测性,而且数据处理
作者:编程之家 时间:2022-09-04
Spark Streaming + Kafka 的 offset 管理方法
常见offset管理方法介绍1checkpointsSparkStreaming的checkpoints是最基本的存储状态信息的方式,一般是保存在HDFS中。但是最大的问题是如果streaming程序升级的话,checkpoints的数据无法使用,所以几乎没人使用。2ZookeeperSparkStreaming任务在启动时会去Zookeeper中
作者:编程之家 时间:2022-09-04
上一页
35
36
37
38
39
40
41
42
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native