1、有状态转换
1.UpdateStateByKey
updateStateByKey 操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功能,你需要做下面两步:
使用 updateStateByKey 需要对检查点目录进行配置,会使用检查点来保存状态。
2.编写代码
package com.zch.spark.streaming
import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{InputDStream, ReceiverInputDStream}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}
/**
* Author: zhaoHui
* Date: 2022/01/03
* Time: 19:03
* Description: 有状态操作
*/
object sparkStreaming05_State {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf()
.setMaster("local[*]")
.setAppName("state")
val ssc = new StreamingContext(sparkConf, Seconds(3))
ssc.checkpoint("F:\\JAVA\\bigdata2107\\zch\\spark\\src\\main\\resources\\sparkStreamingStates")
// 无状态操作,只对当前的采集周期内的数据进行处理
// 在某些场合下,需要保留数据统计结果(状态),实现数据汇总
// 使用有状态操作时,需要设置checkpoint路径
val datas: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
val wordToOne = datas.map((_, 1))
// updateStateByKey:根据key对数据的状态进行更新
// 传递的参数中含有两个值
// 第一个值表示相同的key的value数据
// 第二个值表示缓存区相同key的value数据
val state = wordToOne.updateStateByKey(
(seq:Seq[Int],buff:Option[Int]) => {
val newCount = buff.getorElse(0) + seq.sum
Option(newCount)
}
)
state.print()
ssc.start()
ssc.awaitTermination()
}
}
2、优雅的关闭
优雅的关闭:计算节点不在接收新的数据,而是将现有的数据处理完毕后,然后关闭。
package com.zch.spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext, StreamingContextState}
/**
* Author: zhaoHui
* Date: 2022/01/03
* Time: 19:03
* Description: 有状态操作
*/
object sparkStreaming05_State_Close {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf()
.setMaster("local[*]")
.setAppName("close")
val ssc = new StreamingContext(sparkConf, Seconds(3))
val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
val wordToOne: DStream[(String, Int)] = lines.map((_, 1))
wordToOne.print()
ssc.start()
// 如果想要关闭采集器,就要启动一个新的线程
// 而且需要在第三方增加关闭状态
new Thread(
() => {
// 优雅的关闭
// 计算节点不在接收新的数据,而是将现有的数据处理完毕后,然后关闭
// MysqL
// Redis
// 等等
while (true){
if (true){ // 相当于MysqL存入数据了
// 获取SparkStreaming状态
val state: StreamingContextState = ssc.getState()
if (state == StreamingContextState.ACTIVE){
ssc.stop(stopSparkContext = true, stopGracefully = true)
}
}
Thread.sleep(5000)
System.exit(0)
}
}
).start()
ssc.awaitTermination()
}
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。