手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
hadoop,spark安装文档
1、集群win7虚拟机网络配置为桥接模式集群机器保持同个网段,能互通2、修改ip和主机名(虚拟机桌面版): vi/etc/hosts添加ip主机名:192.168.10.190master192.168.10.191slave1192.168.10.192slave2vi/etc/hostname修改为主机名,如master然后使配置文件生效source/e
作者:编程之家 时间:2022-09-04
Spark三角色和搭建
目录Spark(三)角色和搭建一、Spark集群角色介绍二、集群的搭建三、history服务四、使用spark-submit进行计算PiSpark(三)角色和搭建一、Spark集群角色介绍详见JerryLead/SparkInternals,他的图解介绍能清晰的讲清楚Spark集群二、集群的搭建2.1.架构(图片来源,Spark官网
作者:编程之家 时间:2022-09-04
大数据开发都需要什么技术?
大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等,汇集的是IT最热门、最流行的IT技术,大数据是机器学习、深度学习、AI等尖端可
作者:编程之家 时间:2022-09-04
Spark GraphX图计算结构详解【图构建器、顶点、边】
一.图构建器GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法。默认情况下,没有图构建器会重新划分图的边;相反,边保留在默认分区中。Graph.groupEdges要求对图进行重新分区,因为它假定相同的边将在同一分区上放置,因此在调用Graph.partitionBy之前必须要调用groupEd
作者:编程之家 时间:2022-09-04
spark调优——JVM调优
对于JVM调优,首先应该明确,(major)fullgc/minorgc,都会导致JVM的工作线程停止工作,即stoptheworld。JVM调优一:降低cache操作的内存占比1. 静态内存管理机制根据Spark静态内存管理机制,堆内存被划分为了两块,Storage和Execution。Storage主要用于缓存RDD数据和broadcast数据,Exe
作者:编程之家 时间:2022-09-04
大数据踩坑实录
大数据平台中JDK版本尽量使用1.8。我开始使用的是openJDK11,结果yarn启动不起来,出现了很多异常,还需要一些特殊的配置。如果hadoop集群中namenode使用了HA配置的话,在使用Spark时需要将core-site.xml和hdfs-site.xml拷贝到Spark的conf路径中,并修改spark-default.conf.template文
作者:编程之家 时间:2022-09-04
sparksql系列(六) SparkSql中UDF、UDAF、UDTF
RDD没有可以这种可以注册的方法。在使用sparksql过程中发现UDF还是有点用的所以,还是单独写一篇博客记录一下。UDF=》一个输入一个输出。相当于mapUDAF=》多个输入一个输出。相当于reduceUDTF=》一个输入多个输出。相当于flatMap。(需要hive环境,暂时未测试)UDF 其实
作者:编程之家 时间:2022-09-04
spark submit参数及调优
1.sparksubmit参数介绍你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit\--class<main-class>\--master<master-url>\--deploy-mode<deploy-mode>\--conf<key>=<value>\#otheropti
作者:编程之家 时间:2022-09-04
从Hive过渡到Spark SQL
SQLContext的使用创建一个Scala项目,创建一个主类SQLContextApppackagecom.yy.sparkimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.SQLContext/***SQLContext的使用*Spark1.x使用*/objectSQLContextAppextendsApp{varpath=arg
作者:编程之家 时间:2022-09-04
【转帖】Spark设计理念与基本架构
Spark设计理念与基本架构 https://www.cnblogs.com/swordfall/p/9280006.html 1.基本概念Spark中的一些概念:RDD(resillientdistributeddataset):弹性分布式数据集。Partition:数据分区。即一个RDD的数据可以划分为多少个分区。NarrowDependency:窄依赖,即子RDD依赖
作者:编程之家 时间:2022-09-04
初识Spark之 Spark API 初识Spark之 Spark API
API应用可以通过使用Spark提供的库获得Spark集群的计算能力,这些库都是Scala编写的,但是Spark提供了面向各种语言的API,例如Scala、Python、Java等,所以可以使用以上语言进行Spark应用开发。Spark的API主要由两个抽象部件组成:SparkContext和RDD,应用程序通过这两个部件和Spark进行交互
作者:编程之家 时间:2022-09-04
如何优雅地停止Spark Streaming Job
由于streaming流程序一旦运行起来,基本上是无休止的状态,除非是特殊情况,否则是不会停的。因为每时每刻都有可能在处理数据,如果要停止也需要确认当前正在处理的数据执行完毕,并且不能再接受新的数据,这样才能保证数据不丢不重。同时,也由于流程序比较特殊,所以也不能直接kill-9
作者:编程之家 时间:2022-09-04
[Spakr SQL] 常见SQL的Spark SQL实现
源码包:org.apache.spark.sql.Dataset.scala 数据:stu.json{"stuid":"19001","classid":"1002","name":"Michael","age":12}{"stuid":"","classid":"10
作者:编程之家 时间:2022-09-04
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志
作者:编程之家 时间:2022-09-04
Spark Streamming 共享变量之_ 如何正确使用累加器
累加器:场景:各种计数问题,这个计算需要在driver端合并。作用:Driver端和Execute端数据共享问题。 如图,需要将Driver端变量备份到Executor端,那么copy到Executor端的变量一定要是Executor级别的变量。那么如何自定义一个累加器呢,如何将累加器数据类型定义
作者:编程之家 时间:2022-09-04
Spark调用Kafka的生产者和消费者Demo,以及一些配置参数整理
kafka简介Kafka是apache开源的一款用Scala编写的消息队列中间件,具有高吞吐量,低延时等特性。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还是producer和co
作者:编程之家 时间:2022-09-04
腾讯AI主管带你深度实践Spark机器学习
前言大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心一机器学习,因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析
作者:编程之家 时间:2022-09-04
ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统 教程资源
本文配套资料获取链接:点击这里基于大众点评搜索以及推荐业务,从企业实际项目落地实践的角度出发,在使用SpringBoot加mybatis完成用户登录、注册、商家入驻以及结合前端模板搭建运营后台门店服务管理功能后,借助ElasticSearch的最新版本ES7逐步迭代,完成高相关性进阶搜索服务,并基于spa
作者:编程之家 时间:2022-09-04
Spark 实践 - 客户端使用spark-submit提交Spark应用程序及注意事项
一、客户端提交spark应用程序 是指在spark集群之外的机器,提交spark应用程序到spark集群运行。二、spark-submit提交程序语法 使用spark-submit工具提交Spark应用程序的语法:./bin/spark-submit\ --class<main-class>\ --master<master-url>\ --dep
作者:编程之家 时间:2022-09-04
big data env setup
installSparkonCentOS:https://aodba.com/how-to-install-apache-spark-in-centos-standalone/https://bigdata-etl.com/how-to-install-apache-spark-standalone-in-centos/https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm
作者:编程之家 时间:2022-09-04
spark-on-yarn 学习
1.hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2.Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”)textFile()函数会创建一个RDD对
作者:编程之家 时间:2022-09-04
spark调优——Shuffle调优
在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况,使得性能非常低下,通过调节map端缓冲的大小,可以避免频繁的磁盘IO操作,进而提升Spark任务的整体性能。map端缓冲的默认配置是32KB,如
作者:编程之家 时间:2022-09-04
初识Spark之 Spark API
API应用可以通过使用Spark提供的库获得Spark集群的计算能力,这些库都是Scala编写的,但是Spark提供了面向各种语言的API,例如Scala、Python、Java等,所以可以使用以上语言进行Spark应用开发。 Spark的API主要由两个抽象部件组成:SparkContext和RDD,应用程序通过这两个部件和Spark进行交互
作者:编程之家 时间:2022-09-04
Spark Shell及Spark2.2和Spark1.6的对比
2019-12-12 09:37:43SparkShellSpark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,可以在命令下编写Scala程序执行SparkSpark-shell多用于测试Spark-Shell启动有两种模式local模式和Cluster模式Local模式:ps:必须进入到Spark安装目录中bin目录下spark-
作者:编程之家 时间:2022-09-04
初识Spark
Spark(一):基本架构及原理 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、
作者:编程之家 时间:2022-09-04
展示hive表大小的topN
历时2天半,完成了从获取数据到清洗数据到最终的展示过程。需求:hive中有很多表,他们的存储量很大,磁盘吃紧,为了以后能清楚的看到hive库中最大的10张表,所以需要做一个展示。整理思路:获取数据的途径:使用hadoopfs-du-s-h 表的绝对路径为了后期开发简单,所以就把获取的数据尽量精
作者:编程之家 时间:2022-09-04
大数据学习路线完整详细版
大数据学习路线(完整详细版)2018年01月05日20:15:06阅读数:5550大数据学习路线 java(Javase,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,
作者:编程之家 时间:2022-09-04
spark——故障排除
故障排除一:控制reduce端缓冲大小以避免OOM在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作。reduce端task能够拉取多少数据,由reduce拉取数据的
作者:编程之家 时间:2022-09-04
SparkStreaming运行原理
SparkStreaming应用也是Spark应用,SparkStreaming生成的DStream最终也是会转化成RDD,然后进行RDD的计算,所以SparkStreaming最终的计算是RDD的计算,那么SparkStreaming的原理当然也包含了Spark应用通用的原理。SparkStreaming作为实时计算的技术,和其他的实时计算技术(比如Storm)
作者:编程之家 时间:2022-09-04
Hadoop学习之路(5)Mapreduce程序完成wordcount
程序使用的测试文本数据:DearRiverDearRiverBearSparkCarDearCarBearCarDearCarRiverCarSparkSparkDearSpark1编写主要类(1)Maper类首先是自定义的Maper类代码publicclassWordCountMapextendsMapper<LongWritable,Text,Text,IntWritable>{publ
作者:编程之家 时间:2022-09-04
上一页
31
32
33
34
35
36
37
38
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native