手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark如何删除无效rdd checkpoint
spark可以使用checkpoint来作为检查点,将rdd的数据写入hdfs文件,也可以利用本地缓存子系统。当我们使用checkpoint将rdd保存到hdfs文件时,如果任务的临时文件长时间不删除,长此以往,hdfs会出现很多没有用的文件,spark也考虑到了这一点,因此,用了一些取巧的方式来解决这种问题。sparkcon
作者:编程之家 时间:2022-09-04
大数据学习之Storm实时计算概述及安装部署33
一:Storm概述 网址:http://storm.apache.org/ ApacheStorm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连
作者:编程之家 时间:2022-09-04
大数据行业里的两大误区
大数据这个词,恐怕是近两年IT界炒的最热的词汇之一了,各种论坛、会议,言必谈大数据,“大数据”这个词,在IT界已经成了某果一样的“街机”或者叫“街词”,不跟风说两句“大数据长,大数据短”都不好意思跟人说自己是搞IT的。从某种程度来讲,大数据这个“圈”太乱了,一点不比“贵圈”好。先从
作者:编程之家 时间:2022-09-04
网易大数据工程师学习之路分享
之所以忽然提笔,是因为这段时间正好在业余时间系统地学习Spark,整个学习思路让我想起了大学期间学习《模拟电子电路》这门课的一些方法,个人觉得可以作为一个学习模板来和大家一起交流分享(本文只谈如何系统高效地学习一项技能或者一门课程,抱有突击学习目的的请绕道)。无论是学习Sp
作者:编程之家 时间:2022-09-04
程序员想从事大数据,必须掌握这10个技能!
用雨后春笋来形容每天来自全球的新项目,一点都不为过,尤其是与大数据相关的。逆水行舟,不进则退,没有更多的技术作为支撑,程序员们小心脚步会跟不上哦。下面就来盘点10个洪荒开源大数据技术,为你倾情整理!1.ApacheBeamApacheBeam在Java中提供统一的数据进程管道开发,并且能够很好地支持Spa
作者:编程之家 时间:2022-09-04
Spark设计理念和基本架构
Spark设计理念和基本架构Spark是一个通用的并行计算框架,由加州伯克利大学(UCBerkeley)的AMP实验室开发于2009年,并于2010年开源,2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。虽然Spark是一个通用的并行计算框架,但是Spark本质上也是一个基于map-reduce算法模型
作者:编程之家 时间:2022-09-04
学习大数据相关的技术,你应该知道这些
学习大数据相关的技术,你应该知道这些虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。今天小编给大家带来的是绝对的干货!以下是我自己这
作者:编程之家 时间:2022-09-04
spark sql自定义函数
1.继承UserDefinedAggregateFunction类,多输入一输出。packagesparkRdd_practiceimportorg.apache.spark.sql.{DataFrame,Row,SparkSession}importorg.apache.spark.sql.expressions.{MutableAggregationBuffer,UserDefinedAggregateFunction}importorg.apache.sp
作者:编程之家 时间:2022-09-04
广告点击数实时统计:Spark StructuredStreaming + Redis Streams
业务场景介绍某广告公司在网页上投递动态图片广告,广告的展现形式是根据热点图片动态生成的。为了收入的最大化,需要统计每个广告的点击数来决定哪些广告可以投放的更长时间,哪些需要及时更换。大部分的广告生命周期很短,实时获取广告的点击数可以让我们快速确定哪些广告对业务是
作者:编程之家 时间:2022-09-04
Spark集群环境部署
Spark集群环境部署 集群概况:采用3台机器作为实例来演示如何搭建Spark集群:其中1台机器作为Master节点,另外两台作为Slave节点 准备工作:Spark程序包和Hadoop集群环境 安装sqark 配置环境变量 Spark配置 启动、关闭Spark集群一、 Spark集群环境部署1、Spark安装包下载地
作者:编程之家 时间:2022-09-04
这次,大数据工程师赢了!
大数据时代已经到来,它俨然成为了企业的战略资源,成为了提高竞争力的关键要素。为此,各个行业都开始用数据指导决策,从微信朋友圈、淘宝京东等电商APP的商品推荐,今日头条、抖音快手等媒体的新闻和视频推送,甚至到出行路线优化,这背后,都严重依赖于以数据为基础的决策结果。随着大数
作者:编程之家 时间:2022-09-04
Spark学习之路 五Spark伪分布式安装
讨论QQ:1586558083目录一、JDK的安装1.1上传安装包并解压1.2配置环境变量1.3验证Java版本二、配置配置sshlocalhost 2.1检测2.2生成私钥和公钥秘钥对2.3将公钥添加到authorized_keys2.4赋予authorized_keys文件600的权限2.5修改Linux映射
作者:编程之家 时间:2022-09-04
Spark学习之路 八SparkCore的调优之开发调优
讨论QQ:1586558083目录调优概述原则一:避免创建重复的RDD一个简单的例子原则二:尽可能复用同一个RDD一个简单的例子原则三:对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用s
作者:编程之家 时间:2022-09-04
Spark学习之路 六Spark Transformation和Action
讨论QQ:1586558083目录Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex1.1map1.2flatMap1.3mapPartitions1.4mapPartitionsWithIndex二、reduce、reduceByKey2.1reduce2.2reduceByKey三、union,joi
作者:编程之家 时间:2022-09-04
Spark学习之路 十七Spark分区
讨论QQ:1586558083目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1本地模式3.2YARN模式四、分区器 正文回到顶部一、分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的
作者:编程之家 时间:2022-09-04
【Spark】Spark基本操作
前言根据已有RDD创建新的RDD数据集build(1)map(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这个返回的数据集是分布式的数据集。(2)filter(func):对调用filter的RDD数据集中的每个元素都使用func,然后返回一个包含使func为true的元素构成的RDD。
作者:编程之家 时间:2022-09-04
Spark 的 python 编程环境
Spark编程环境Spark可以独立安装使用,也可以和Hadoop一起安装使用。在安装Spark之前,首先确保你的电脑上已经安装了Java8或者更高的版本。Spark安装访问Spark下载页面,并选择最新版本的Spark直接下载,当前的最新版本是2.4.2。下载好之后需要解压缩到安装文件夹中,看自
作者:编程之家 时间:2022-09-04
Spark学习之路 十五SparkCore的源码解读一启动脚本
讨论QQ:1586558083目录一、启动脚本分析1.1start-all.sh 1.2start-master.sh1.3spark-config.sh(1.2的第5步)1.4load-spark-env.sh(1.2的第6步)1.5spark-env.sh1.6spark-daemon.sh1.7spark-class1.8start-slaves.sh1.9转向start-slave.sh二、
作者:编程之家 时间:2022-09-04
Spark 学习 十一 Spark Streaming详解
一,简介1.1 概述1.2 术语定义1.3Storm和SparkStreaming比较二,运行原理2.1Streaming架构2.2容错,持久化和性能调优2.2.1 容错2.2.2 持久化2.2.3 性能调优三,编程模型3.1 如何使用SparkStreaming3.2DStrea
作者:编程之家 时间:2022-09-04
简析大数据与Java不同点 哪门语言更易学
Java,最传统,使用最为广泛的编程语言。大数据,新时代主流,未来互联网发展大势编程语言。好多同学产生了这样的疑惑:“大数据和java有什么不同呢?哪门语言更简单?”程序员高端班培训涵盖了上述两门热门语言,为大家答疑解惑。 作为两种不同的技术,Java是计算机的一门编程语言,应用
作者:编程之家 时间:2022-09-04
Spark 学习五广播变量和累加器
一,概述二,广播变量broadcastvariable2.1 定义广播变量的原因2.2 图解广播变量2.3 定义广播变量2.4 还原广播变量2.5 定义注意事项三,累加器3.1 为什么要将一个变量定义为一个累加器3.2 图解累加器3.3 定义累加器3.4 还原累
作者:编程之家 时间:2022-09-04
大数据学习——spark学习
计算圆周率[root@mini1bin]#.un-exampleSparkPi [root@mini1bin]#.un-exampleSparkPi10 [root@mini1bin]#.un-exampleSparkPi1000 运行spark-shell的两种方式:1直接运行spark-shell 单机通过多线程跑任务,只运行一个进程叫submit2
作者:编程之家 时间:2022-09-04
[Spark][spark_ml]#2_分类算法
objectMain{defmain(args:Array[String]):Unit={valconf=newSparkConf().setMaster("local").setAppName("iris")valspark=SparkSession.builder().config(conf).getOrCreate()spark.sparkContext.setLogLevel("WA
作者:编程之家 时间:2022-09-04
Spark学习之路 七Spark 运行流程
讨论QQ:1586558083目录一、Spark中的基本概念二、Spark的运行流程2.1Spark的基本运行流程三、Spark在不同集群中的运行架构3.1SparkonStandalone运行过程3.2SparkonYARN运行过程 正文回到顶部一、Spark中的基本概念(1)Application:表示你的应用
作者:编程之家 时间:2022-09-04
大数据学习——spark笔记
变量的定义vala:Int=1varb=2方法和函数区别:函数可以作为参数传递给方法方法:deftest(arg:Int):Int=>Int={方法体}valfun=(test_:Int=>(Int=>Int))=>函数体逻辑执行语句vala=if(条件){执行逻辑返回值}else{执行逻辑}whil
作者:编程之家 时间:2022-09-04
Spark 学习十 Spark 的三中Join
一,简介二,BroadcastHashJoin三,ShuffleHashJoin四,SortMergeJoin五,示例 正文一,简介Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大
作者:编程之家 时间:2022-09-04
Spark学习之路 十六SparkCore的源码解读二spark-submit提交脚本
讨论QQ:1586558083目录一、概述二、源码解读2.2find-spark-home2.3spark-class2.4SparkSubmit 正文回到顶部一、概述上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提
作者:编程之家 时间:2022-09-04
【SCALA】2、驼峰,下划线互转
1、刚开始写scala,发现确实还是很不熟悉,api以及语法的使用都不是很简洁,这写出来跟java也没差多少。。。献丑了 packagespark/***@ProjectName:cutter-point*@Package:spark*@ClassName:Demo1*@Author:xiaof*@Description:${description}*@Date:201
作者:编程之家 时间:2022-09-04
Spark 学习十一 spark使用hive的元数据信息
一,简介二,shell方式配置和使用hive元数据信息2.1 文件配置2.2 驱动包加载2.3 命令行启动三,IDEA编程方式使用hive元数据信息3.1 添加依赖3.2 程序示例 正文一,简介跟hive没太的关系,就是使用了hive的标准(HQL,元数据库、UDF、序列化、反
作者:编程之家 时间:2022-09-04
Spark学习之路 十八SparkSQL简单使用
讨论QQ:1586558083目录一、SparkSQL的进化之路二、认识SparkSQL2.1什么是SparkSQL?2.2SparkSQL的作用2.3运行原理2.4特点2.5SparkSession2.7DataFrames 三、RDD转换成为DataFrame3.1方式一:通过 caseclass 创建 DataFrames(反射)3.2方式二
作者:编程之家 时间:2022-09-04
上一页
19
20
21
22
23
24
25
26
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native