手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
【Spark】五Spark Streaming 之 DStream 转换与输出
一、DStream转换DStream上的操作与RDD的类似,分为Transformations(转换)和OutputOperations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window相关的原语。1、无状态转化操作无状态转化操作就是把简单的RDD转化操作
作者:编程之家 时间:2022-09-04
Spark 集群搭建
下载并上传官网下载:下载Spark安装包,下载时候选择对应的Hadoop版本,然后上传到虚拟机上解压并拷贝#解压Spark安装包tarxzvfspark-2.2.0-bin-hadoop2.7.tgz#移动Spark安装包mvspark-2.2.0-bin-hadoop2.7.tgz/export/servers/spark修改配置文件配置 spar
作者:编程之家 时间:2022-09-04
Spark连接各种数据源
Spark连接各种数据源一、Spark连接mysql二、Spark连接Hive一、Spark连接mysqlimportjava.util.Propertiesimportorg.apache.spark.sql.SparkSessionobjectConnectMysql{/***spark操作mysql*1、首先将拷贝mysql-connector-java.5.1.38.jar驱动
作者:编程之家 时间:2022-09-04
大数据应用开发
1.大数据的概念维基百科的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。2.大数据主流技术数据采集:使用Flume,可进行流式日志数据的收集。使用Sqoop可以交互关系型数据库,进行导入导出数据。使用爬虫技术,可在网上爬取海量网页数据。
作者:编程之家 时间:2022-09-04
开启Hadoop/Yarn的日志监控功能,配置Spark历史服务,解决web端查看日志时的Java.lang.Exception:Unknown container问题
解放方法下来查询官方文档后,才了解到yarn的日志监控功能默认是处于关闭状态的,需要我们进行开启,开启步骤如下:Ps:下面配置的文件的位置在hadoop根目录etc/haddop文件夹下,比较老版本的Hadoop是在hadoop根目录下的conf文件夹中本文hadoop配置环境目录:/usr/local/src/hadoop
作者:编程之家 时间:2022-09-04
05Spark特征处理
Spark架构图如下:Spark的计算过程:Stage内部数据高效并行计算,Stage边缘处进行消耗资源的shuffle或者reduce操作。特征处理方法:1.类别特征:one-hot编码2.数值特征:归一化(不同类别特征权重不统一)与分桶(解决特征值分布不均与,过程:特征值高低排序->分位数->分样本->桶id作为特征值)。
作者:编程之家 时间:2022-09-04
2021年最新版大数据面试题全面总结-持续更新
更新内容和时间表大数据基础篇Part0:Java基础篇Part1:Java高级篇Part2:Java之JVM篇Part3:NIO和Netty篇Part4:分布式理论篇框架篇Part5:Hadoop之MapReducePart6:Hadoop之HDFSPart7:Hadoop之YarnPart8:Hadoop之ZookeeperPart9:Hadoop之HivePart10:Hadoop之HbasePart11:Hadoop之
作者:编程之家 时间:2022-09-04
scala学习 0 立个小目标
scala学习0:立个小目标使用scala的原因目前大数据的计算引擎主要是spark和flink。我使用的是spark。flink较spark的独特优点在于其流处理,spark是毫秒级微批处理,但目前的业务暂时不需要flink这么及时的实时处理。spark源码为scala编写,所以想要系统学习一下scala的使用,以便加深
作者:编程之家 时间:2022-09-04
VMware虚拟机搭建Spark集群
目录一、搭建方法二、准备三、系统环境配置四、软件安装与配置1.软件下载安装2.Hadoop配置3.Spark配置五、虚拟机克隆六、启动集群七、踩坑经历一、搭建方法在虚拟机上搭建集群的方法通常有两种1.类似于真实的机器上部署,首先要进行密钥授权使各台机器之间能够免密码相互访问,然
作者:编程之家 时间:2022-09-04
2020年终总结
概述昨晚在CCTV加班跨年,真是感慨很多呢,2020年在世界上对谁来说都是特殊难忘的一年。新冠病毒遍布了整个世界。而对于我自己呢?延迟返京,努力学习,面试找新工作。说大一些新冠改变了世界,也给了我坚定不移的信念。最终在成功收到几家公司的offer后,最后选择了腾讯投资的工资,而现在正在C
作者:编程之家 时间:2022-09-04
spark学习进度03入门案例、sparkshell本地文件读取,hdfs读取、本地运行、提交运行
一、编写spark代码的几种方式:(主要看重的方面:1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线)1、spark-shell (数据集的探索、测试)Sparkshell简介启动Sparkshell进入Spark安装目录后执行 spark-shell--mastermaster 就可以提交Spark
作者:编程之家 时间:2022-09-04
Spark的框架
1.组成(主从结构)client提交应用的客户端master(ResourceManager)主节点,standalone模式时,为master;yarn模式时,为ResourceManagerworker(NodeManager)从节点,standalone模式时,为worker;yarn模式时,为NodeManagerdriver负责协调应用提交后的一个分布式应用程序,包含一下内容:(1)Spa
作者:编程之家 时间:2022-09-04
Spark Sql内置函数
打开spark官网https://spark.apache.org/docs/latest/sql-programming-guide.html全部函数都在这里
作者:编程之家 时间:2022-09-04
我眼中的Hudi----数据库之Hudi
数据湖数据湖或者Hudi是由大数据厂商提出来的。数据量越大,越需要不同种类的存储,但是并不是所有企业的数据都是适合存储在廉价的HDFS集群之上的。ApacheHudi让用户可以在Hadoop兼容的基础上存储大量数据,同时它还提供了两种原语操作,使得除了经典的批处理之外,还可以在数据湖
作者:编程之家 时间:2022-09-04
Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择
引言ApacheSpark2.2以及以上版本提供的三种API-RDD、DataFrame和Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢?RDD从一开始RDD就是Spark提供的面向用户的主要API。从根本上来说,一个RDD就是你的数据的一个不可变的
作者:编程之家 时间:2022-09-04
Spark介绍与安装
Spark介绍与安装Spark概述什么是SparkSpark内置模块Spark特点Spark运行模式Spark安装地址重要角色Driver(驱动器)Executor(执行器)Local模式Local模式安装使用Standalone模式概述安装使用JobHistoryServer配置HA配置Yarn模式(重点)概述安装使用日志查看Mesos模式(了解)几种
作者:编程之家 时间:2022-09-04
spark快速入门二-------spark粗略流程简述及常见名词解释
大家元旦快乐,牛年发发发~~~~牛气冲天o(* ̄︶ ̄*)ospark粗略流程简述 (1)有算子触发Action,Driver端和hdfs的namenode进行通信,询问元数据信息。根据元数据信息及相应切分规则切分任务切片,计划分区(task),并向Master申请相应的资源(2)Master收到Driver的交互信息,并根据自己所管理的Work
作者:编程之家 时间:2022-09-04
Spark的安装和部署
0.环境准备:JDK略环境变量略Hadoop集群略1.单机模式 解压jar包,单机模式完成; 验证方式:(1)Jps查看进程;(2)打开网页http://localhost:8080/查看;(3)到spark的bin目录下./spark-shell命令查看; 2.基于standalone安装主要配置conf/slaves,conf/spark-env.sh文件(1)配
作者:编程之家 时间:2022-09-04
Flink和Spark的不同
一,Flink是真正的流处理,延迟在毫秒级,SparkStreaming是微批,延迟在秒级。flink可以做到来一条处理一条,sparkStreaming只能采用微批次二,Flink可以处理事件时间,而SparkStreaming只能处理机器时间,无法保证时间语义的正确性。flink三种时间语义,因此有水位线的概念:事件时间event
作者:编程之家 时间:2022-09-04
spark安装
1.修改hadoop配置文件yarn-site.xml<!--物理内存--><property><name>yarn.nodemanager.pmem-check-enabled<ame><value>false</value></property><!--虚拟内存--><property><name>yarn.nodemana
作者:编程之家 时间:2022-09-04
spark 优化之详尽概述
文章目录前言一、spark性能调优1.常规性能调优2.算子调优3.Shuffle调优4.JVM调优二、spark数据倾斜1.数据倾斜的表现:2.定位数据倾斜:3.解决数据倾斜方案:三、spark故障排除前言spark性能调优spark数据倾斜spark故障排除一、spark性能调优1.常规性能调优最优资源配
作者:编程之家 时间:2022-09-04
Spark Streaming
SparkStreamingSparkStreaming是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。SparkStreaming入门小程序第一步:在Linux上执行以下命令安装socket客户端工具,模拟发送数据:yum-
作者:编程之家 时间:2022-09-04
spark 系列之七 SparkStreaming数据源之kafka流
突然感觉kafka跟socket有点像,不过kafka好像具备更多的功能,是一个经典的消费者生产者模式。kafka中有不同的topic,生产者可以把数据发送到不同的topic,消费可以指定相应的topic进行消费。本文就kafka是什么,不做详细的介绍依旧是上两张图。图一:展示了kafka的强大的扩展能力,扩展能
作者:编程之家 时间:2022-09-04
spark提交任务的三种的方法
在学习Spark过程中,资料中介绍的提交SparkJob的方式主要有三种:第一种: 通过命令行的方式提交Job,使用spark自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit--classcom.learn.spark.SimpleApp--masteryarn--deploy
作者:编程之家 时间:2022-09-04
spark集群搭建一免密登入
参考https://www.cnblogs.com/purstar/p/6293605.html注意在这一步中,要在主机从机中都生成密钥。最后配置的通过,可以免密登入感想:学校网太封闭,只能内网和内网之间进行数据交换,更绝的是学校wifi和网线分配的是二个地址,他们之间也不能进行交换。傻掉
作者:编程之家 时间:2022-09-04
Spark学习--SparkSQL01
SparkSQL发展过程解决的问题SparkSQL使用Hive解析SQL生成AST语法树,将其后的逻辑计划生成,优化,物理计划都自己完成,而不依赖Hive执行计划和优化交给优化器Catalyst内建了一套简单的SQL解析器,可以不使用HQL,此外,还引入和DataFrame这样的DSL
作者:编程之家 时间:2022-09-04
Spark Udaf
//两个重点:如何从input和buffer中取出数据,如何将更改好的数据更新到buffer中!//自定义函数的深入理解和按需自定义,六个方法的作用和执行流程如何packageareatop3importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.expressions.{MutableAggregationBuffer,
作者:编程之家 时间:2022-09-04
大数据学习笔记第3课 基于Yarn的Spark实时计算
大数据学习笔记第3课基于Yarn的Spark实时计算1、说明2、hadoop单节点运行mapreduce程序3、配置Yarn集群4、使用hadoopYarn集群运行mapreduce程序5、配置spark6、基于spark运行mapreduce程序1、说明本文是在前面2课搭建好的hadoop集群的基础上进行的,如果不熟悉环境请
作者:编程之家 时间:2022-09-04
Spark学习之路 四、Spark的广播变量和累加器
目录一、概述二、广播变量broadcastvariable2.1为什么要将变量定义成广播变量?2.2广播变量图解2.3如何定义一个广播变量?2.4如何还原一个广播变量?2.5定义广播变量需要的注意点?2.6注意事项三、累加器 3.1为什么要将一个变量定义为一个累加器?3.2图
作者:编程之家 时间:2022-09-04
各种数据分析工具所能处理的数据量大概是多少?
数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 1.ExcelExcel处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。 2.PowerBIPowerBIDesktop一般处理的数据在1G左右再往上就会很卡,一般处理的规模在不大于
作者:编程之家 时间:2022-09-04
上一页
47
48
49
50
51
52
53
54
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native