手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
spqrk 读取parquet文件按月、按季、按年统计
按月、按季、按年读取parquet文件案列//启动sparkyarnspark_yarn目录:./bin/spark-shell--masteryarn--deploy-modeclient--executor-cores4--num-executors3//设置基础目录:parquet文件时按日期分片存储scala>valbasePath="hdfs://192.168.88.1:8020/d
作者:编程之家 时间:2022-09-04
Sparkstreaming
一、SparkStreaming处理框架:SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,处理结果保存到HDFS,数据库等。二、SparkStreaming实时任务如何开发?1.数据的
作者:编程之家 时间:2022-09-04
spark2.1安装
规划cancer01master/workercancer02workercancer03workercancer04workercancer05worker 准备suhadoop 安装scala每台机器上cd/usr/localwgethttp://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgztarzxfscala-2.11.8.tgzmvscala-2.11.8sc
作者:编程之家 时间:2022-09-04
SparkStreaming整合SparkSql
SparkStreaming整合SparkSql的程序中spark的重要对象创建的顺序可能会导致程序报错。可按照sparkConf、SparkContext、StreamingContext、SparkSession的顺序。//TODO1、创建ssc对象valconf=newSparkConf().setAppName("BoxLogStreamingDeal").setMaster("y
作者:编程之家 时间:2022-09-04
Spark—累加器
Spark—累加器本文记录了Spark三大数据结构中累加器的相关知识文章目录Spark—累加器前言1、实现原理2、累加器的实现2.1系统累加器2.2自定义累加器(WordCount)总结前言Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应
作者:编程之家 时间:2022-09-04
大数据常见错误及解决方案
大数据常见错误及解决方案(转载)1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException:Can’tassignrequestedaddress:Service‘sparkDriver’failedafter16retries!解决方法:addexportSPARK_LOCAL_IP=“127.0.0.1”tospark-env.sh2、javaKafka
作者:编程之家 时间:2022-09-04
腾讯 angel 3.0:高效处理模型
腾讯angel3.0:高效处理模型紧跟华为宣布新的AI框架开源的消息,腾讯又带来了全新的全栈机器学习平台angel3.0。新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程、模型训练、超参数调节和模型服务。自2017年angel1.0在Github上开源以来,angel共获得星标数超过4200、
作者:编程之家 时间:2022-09-04
spark程序提交集群运行全在driver端的问题---setMaster的坑
最近开发了一个超级简单的spark程序,也就rdd运行map再运行foreach,并提交到集群(standalone模式)运行。不知道是不是我是刚入门的小白资历尚浅的问题,但是。。但是。。。但是。。。。它为什么只运行在driver上?提交参数:spark-submit--masterspark://hadoop1:7077--num-exe
作者:编程之家 时间:2022-09-04
Spark学习之路 十一SparkCore的调优之Spark内存模型
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、堆内和堆外内存规划2.1堆内内存2.2堆外内存2.3内存管理接口三、内存空间分配3.1静态内存管理3.2统一内存管理四、存储内存管理4.1RDD的持久化机制4.2RDD
作者:编程之家 时间:2022-09-04
Spark学习之路 二Spark2.3 HA集群的分布式安装
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、下载Spark安装包1、从官网下载2、从微软的镜像站下载3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩2、为安装包创建一个软连接3、进入spark/conf修改配置
作者:编程之家 时间:2022-09-04
Spark之RDD理解
RDD理解首先在理解RDD之前,我们要知道Spark的运行流程,大致分为Standalone模式和跑在其它调度器上,如yarn和Mesos,而最常见的就是跑在yarn上,跑在yarn上还分为Client和Cluster两种模式。区别在于:Client模式的Driver跑在了当前本地机器上而不是集群上,当本地机器与集群机器所在地
作者:编程之家 时间:2022-09-04
Spark学习之路 十SparkCore的调优之Shuffle调优
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理4.1未经优化的HashShuffleManager4.2优化后的HashShuffleManager五、SortShuffleManager运
作者:编程之家 时间:2022-09-04
奈学百万大数据架构师
一、数据结构与算法 1.二叉树前序、中序、后续遍历方式(递归以及非递归) 2.二叉树的深度以及广度遍历方式 3.二叉树遍历情况中所有连续节点的最大的值 4.求数组所有可能的子数组 5.给定一个数,求一个有序数组的两个数的和满足这个数(可以拓展一下
作者:编程之家 时间:2022-09-04
OFRecord 数据集加载
OFRecord数据集加载在数据输入一文中知道了使用DataLoader及相关算子加载数据,往往效率更高,并且学习了如何使用DataLoader及相关算子。在 OFrecord数据格式中,学习了OFRecord文件的存储格式。本文,将围绕OneFlow的OFRecord数据集的加载与制作展开,主要包括:OFRecord
作者:编程之家 时间:2022-09-04
SparkML三
分类逻辑回归在spark官方文档中,逻辑回归又分为二项式逻辑回归和多项式逻辑回归。逻辑回归本质是线性回归,只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和,然后将求和后的结果应用于一个g(z)函数,g(z)可以将值映射到0或者是1上面,这个函数就是Sigmoid函数
作者:编程之家 时间:2022-09-04
Spark学习之路 十七Spark分区
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1本地模式3.2YARN模式四、分区器 正文一、分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻
作者:编程之家 时间:2022-09-04
Spark—常用的RDD转换算子
Spark—常用的RDD转换算子本篇介绍了一些转换算子的基本用法文章目录一、转换算子1.Value类型1.1Map1.2mapPartitions1.3mapPartitionsWithIndex1.4flatMap1.5glom1.6groupBy1.7filter1.8sample1.9distinct1.10coalesce1.11repartition1.12sortBy2.双
作者:编程之家 时间:2022-09-04
spark_分组取topN
数据2019-6-1392019-5-21332019-6-1382019-6-2312018-3-11182018-4-23221970-8-23231970-8-832 方法一:valconf=newSparkConf().setAppName("over")setMaster("local")valsc=newSparkCont
作者:编程之家 时间:2022-09-04
Spark学习之路 十六SparkCore的源码解读二spark-submit提交脚本
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、概述二、源码解读2.2find-spark-home2.3spark-class2.4SparkSubmit 正文一、概述上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理
作者:编程之家 时间:2022-09-04
Spark学习之路 十五SparkCore的源码解读一启动脚本
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、启动脚本分析1.1start-all.sh 1.2start-master.sh1.3spark-config.sh(1.2的第5步)1.4load-spark-env.sh(1.2的第6步)1.5spark-env.sh1.6spark-daemon.sh1.7spark-cl
作者:编程之家 时间:2022-09-04
心灵奇旅
带全家去看了《soul》,相当精彩,可以说是2020年度最佳的动画电影了。每一个灵魂来到世上,都需要找到属于自己的spark,才能获得通行证,降生到地球。22号灵魂已经经过了成百上千个导师引导,但他一直都找不到对于人类生活的兴趣。非常想要回到地球的Joe和22约定好,帮助他找到spark,然
作者:编程之家 时间:2022-09-04
Spark storage 模块
目录 问题探讨:Stage3包含哪些rdd?问题探讨:小文件参数知识点复习串联RDDSpark调度流程sparkshuffle过程存储模块整体架构存储的基本单位Block块的唯一标识:BlockID块数据:BlockData块元信息:BlockInfo存储系统BlockManager存储级别StorageLevel 存储实现B
作者:编程之家 时间:2022-09-04
spark submit 常用设置
Example:./bin/spark-submit\--[yourclass]\--masteryarn\--deploy-modecluster\--num-exectors17--confspark.yarn.executor.memoryOverhead=4096\--executor-memory35G\//Amountofmemorytouseperexecutorprocess--confspark.yarn.dri
作者:编程之家 时间:2022-09-04
Spark08-SparkSQL之DataFrame
一、DataFrame1、DataFrame是什么DataFrame是SparkSQL中一个表示关系型数据库中表的函数式抽象,其作用是让Spark处理大规模结构化数据的时候更加容易.一般DataFrame可以处理结构化的数据,或者是半结构化的数据,因为这两类数据中都可以获取到Schema信息。也就是说DataFrame中有
作者:编程之家 时间:2022-09-04
Spark学习笔记
目录一、什么是Spark?1、什么是Spark?2、为什么要学习Spark?3、Spark的特点:快、易用、通用、兼容性二、Spark的体系结构与安装部署1、Spark集群的体系结构2、Spark的安装与部署一、什么是Spark?(官网:http://spark.apache.org)1、什么是Spark? 我的理解:Spark是一个针对大规模数据
作者:编程之家 时间:2022-09-04
Spark学习笔记总汇目录
Spark学习笔记总汇目录spark学习笔记一、什么是Spark?二、Spark的体系结构与安装部署三、执行SparkDemo程序四、Spark运行机制及原理分析五、Spark的算子六、SparkRDD的高级算子七、Spark基础编程案例SparkSQL学习笔记一、SparkSQL基础二、使用数据源三、性能优化
作者:编程之家 时间:2022-09-04
Spark学习之路 十八SparkSQL简单使用
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、SparkSQL的进化之路二、认识SparkSQL2.1什么是SparkSQL?2.2SparkSQL的作用2.3运行原理2.4特点2.5SparkSession2.7DataFrames 三、RDD转换成为DataFrame3.1方
作者:编程之家 时间:2022-09-04
个人介绍
这个博客我会坚持写下去:里面是一些看书的笔记,还有常用的一些东西。反正是一些记录。至于看书的笔记,可能内容非常和书的内容非常重合。这些笔记是给自己看的。我会过段时间整理这些笔记。个人介绍从大一开始写博客。这个博客是第二个博客了。第一个忘记密码了。这个是大二开的。
作者:编程之家 时间:2022-09-04
Spark 开发过程中的io.netty冲突问题
io.netty冲突问题参考文章:https://blog.csdn.net/weixin_43777983/article/details/104558048Exceptioninthread"main"java.lang.NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.defaultUseCacheForAllThreads()Z atorg.apache.spark.network.util.N
作者:编程之家 时间:2022-09-04
spark基础1
将相同国家进行分组,然后将count相加sum(count),对sum(count)进行排序,输出top5valpath="/Volumes/Data/BigData_code/data/flight-data/csv/2015-summary.csv"valdata=spark.read.option("inferSchema","true").option("header","t
作者:编程之家 时间:2022-09-04
上一页
50
51
52
53
54
55
56
57
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native