Spark - 编程之家

SparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、j

作者：编程之家时间：2022-09-04

spark搜狗日志数据分析实战

一.数据来源本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。数据下载地址为：http://www.sogo

作者：编程之家时间：2022-09-04

Spark基础知识

1、Spark编程模型1.1 术语定义应用程序（Application）：基于Spark的用户程序，包含了一个DriverProgram 和集群中多个的Executor；驱动程序（DriverProgram）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表DriverProgram；执行单元（Executor）：是为某Application

作者：编程之家时间：2022-09-04

9次Java面试经验总结，图文详解！

一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发2.原理分析3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发四、主题与分区1.主题的管理2.初识KafkaAdminCilent3.分区的管理4.如何选

作者：编程之家时间：2022-09-04

PI

packagecom.shujia.spark.coreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}importscala.util.RandomobjectDemo18PI{defmain(args:Array[String]):Unit={valconf:SparkConf=newSparkConf().setAp

作者：编程之家时间：2022-09-04

HADOOP生态圈知识概述

一.hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS、YARN和Mapreduce。随着处理任务不同，各种组

作者：编程之家时间：2022-09-04

简述Spark中共享变量广播变量和累加器的基本原理与用途

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。而广播变量用来高效分发较大的对象。共享变量出现的原因：通常在向 Spark传递函数时，比如使用

作者：编程之家时间：2022-09-04

实时流计算Spark Streaming原理介绍

1、SparkStreaming简介1.1 概述SparkStreaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCPsockets，从数据源获取数据之后，可以使用诸如map、reduce、joi

作者：编程之家时间：2022-09-04

测试开发进阶：一文教你从0到1搞懂大数据测试！

1.什么是大数据大数据是一个大的数据集合，通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析，而且它在数量、多样性、速度方法都很出色，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能

作者：编程之家时间：2022-09-04

Spark操作数据表入门【进行数据写入和读出】————附带详细步骤

文章目录0准备1使用脚本运行2使用shell执行3使用脚本执行的结果0准备运行路径为：/usr/app/spark-2.4.7-bin-hadoop2.71使用脚本运行执行脚本运行下面的python文件：exportLD_LIBRARY_PATH=$HADOOP_HOME/libativeexportPATH=$PATH:$LD_LIBRARY_PATHbin/s

作者：编程之家时间：2022-09-04

spark sql 读取kudu表向sqlserver数据库中插入70万条数据

sparksql读取kudu表向sqlserver数据库中插入70万条数据1.废话不多说。直接上代码。importjava.util.Propertiesimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionobjectKuduToSqlserver{valkuduMasters="cdh-5:xx,cdh-6:xx"

作者：编程之家时间：2022-09-04

开源至上：华为4面技术5面HR

一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发2.原理分析3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发四、主题与分区1.主题的管理2.初识KafkaAdminCilent3.分区的管理4.如何选

作者：编程之家时间：2022-09-04

Python3实战Spark大数据分析及调度学习资源

Python3实战Spark大数据分析及调度学习资源一、实例分析1.1数据student.txt1.2代码![在这里插入图片描述](https://img-blog.csdnimg.cn/20191015172251705.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3

作者：编程之家时间：2022-09-04

Python+大数据学习笔记(一)

PySpark使用pyspark:•pyspark=python+spark•在pandas、numpy进行数据处理时，一次性将数据读入内存中，当数据很大时内存溢出，无法处理；此外，很多执行算法是单线程处理，不能充分利用cpu性能spark的核心概念之一是shuffle，它将数据集分成数据块，好处是：•在读取数据时，不

作者：编程之家时间：2022-09-04

测试开发：一文教你从 0 到 1 搞懂大数据测试！

#1.什么是大数据大数据是一个大的数据集合，通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析，而且它在数量、多样性、速度方法都很出色，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化

作者：编程之家时间：2022-09-04

Spark学习第二步 SparkSql

Spark学习第二步SparkSql文章目录Spark学习第二步SparkSql前言一、是什么？二、使用步骤1.配置依赖（Maven）以及文件2.读入数据问题总结前言一、是什么？示例：pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.配置依赖（Maven）以及文

作者：编程之家时间：2022-09-04

三台虚拟机spark的配置与安装

静态Ip的配置vim/etc/sysconfigetwork-scripts/ifcfg-en33添加内容BOOTPROTO='static'IPADDR=192.168.15.46NETMASK=255.255.255.0GATEWAY=192.168.15.2DNS1=114.114.114.114systemctlrestartnetwork修改主机名vim/etc/hostname(master、slave1、slave2)

作者：编程之家时间：2022-09-04

2021年暑假周总结1

本周学习了hadoop的前三个短视频，笔记如下：存储框架：HDFS(分布式文件存储系统)，HBASE(分布式数据库系统)，KAFKA(分布式消息缓存系统)运算框架：（帮助用户把逻辑在多机器上运行）mapreduce，离线批处理，spark，离线批处理/实时流式计算，storm只能做实时流式计算。辅助类的工具：HIVE数据仓库工具

作者：编程之家时间：2022-09-04

java.lang.String cannot be cast to org.apache.spark.unsafe.types.UTF8String

问题最近遇到一个问题，在用spark读取tensorflow的文件并写入时//读数据valdf=spark.read.format("tfrecords").load(readPath).toDF()//写数据df.write.mode(SaveMode.Overwrite).format("tfrecords").option("recordType","Example").save(writePath)

作者：编程之家时间：2022-09-04

三万字，Spark学习笔记

Spark基础Spark特性Spark使用简练优雅的Scala语言编写，基于Scala提供了交互式编程体验，同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景”的设计理念，逐渐形成了一套完整的生态系统（包括Spark提供内存计算框架、SQL即席查询（Spark SQL）、流式计算（Spark Str

作者：编程之家时间：2022-09-04

spark面试题-简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task个数?

简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task个数?宽依赖：父RDD的分区数据会分发到子RDD的多个分区窄依赖：父RDD的分区数据会分发到子RDD的一个分区spark的DAGScheduler根据宽窄依赖将DAG划分为多个stage，spark以stage作为task的模板，生成一个

作者：编程之家时间：2022-09-04

spark学习

Spark概述Spark定义spark是一种基于内存的快速、通用、可扩展S的大数据分析计算引擎SparkCore中提供了Spark最基础核心的功能SparkSQL是Spark用来操作结构化数据的组件SparkStreaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的ApISpark和Had

作者：编程之家时间：2022-09-04

大数据技术栈详解

相信很多学Java的同学都有想转大数据或者学大数据的想法，但是一看到网上那些大数据的技术栈，就一脸懵逼，什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。童鞋们可能一下子就慌了，像学Java的也就SSM、Springboot、SpringC

作者：编程之家时间：2022-09-04

spark为dataframe增加一列常数值

查了好几篇，太麻烦，我是想增加一列新列，而withclomns（“列名”“原有列存在的列”）不是我想要的pass用lit函数解决导包很重要，不然找不到 importorg.apache.spark.sql.functions.lit df.withCloumn("大宝丽“，lit(666)) lit里可以写你任意的常数值。终结。附图一张，此处我

作者：编程之家时间：2022-09-04

spark dstaframe 多字段统计

valaggCols=List("Pclass","Age","Fare").map(colName=>functions.avg(colName).as("avg_"+colName))df.groupBy("Survived").agg(aggCols.head,aggCols.tail:_*).show()

作者：编程之家时间：2022-09-04

Spark braodcast join timeout 300

BroadCastTimeOut300.org.apache.spark.SparkException:Couldnotexecutebroadcastin300secs.Youcanincreasethetimeoutforbroadcastsviaspark.sql.broadcastTimeoutordisablebroadcastjoinbysettingspark.sql.autoBroadcastJoinThresholdto-1一个s

作者：编程之家时间：2022-09-04

Spark 开源新特性：Catalyst 优化流程裁剪

摘要：为了解决过多依赖Hive的问题,SparkSQL使用了一个新的SQL优化器替代Hive中的优化器,这个优化器就是Catalyst。本文分享自华为云社区《Spark开源新特性：Catalyst优化流程裁剪》，作者：hzjturbo。1.问题背景上图是典型的SparkCatalyst优化器的布局，一条由用户输入

作者：编程之家时间：2022-09-04

spark 内核笔记

执行启动命令jar、wordcountsparkSubmit:yarnclient->submitApplication->ResourceManagebin/java在NodeManager启动进程，ApplicationMasterApplicationMaster进程启动后，需要向ResourceManage注册ApplicationMaster

作者：编程之家时间：2022-09-04

spark streaming 3 RDD To DS

packagecom.shujia.spark.streamingimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.{Durations,StreamingContext}importorg.apache.spark.streaming.dstream.{DS

作者：编程之家时间：2022-09-04

Caused by: java.lang.RuntimeException: native snappy library not available: this version of libhadoo

使用hive时插入的数据，由于在hive配置中设置输出的是snappy格式文件，文件如下。在hadoop中检测支持的库：在使用spark-sql读取hive的这个表时，出现以下错误：Causedby:java.lang.RuntimeException:nativesnappylibrarynotavailable:thisversionoflibhadoopw

作者：编程之家时间：2022-09-04