SparkStreaming实时流处理笔记（9)——SparkStreaming高级功能

作者：手机用户2602900587 | 来源：互联网 | 2023-10-11 19:59

1高级功能带状态的算子：UpdateStatByKeypackagecom.myspark.comimportorg.apache.spark.SparkConf

1 高级功能

带状态的算子&＃xff1a; UpdateStatByKey

package com.myspark.comimport org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext}object StatefulWordCount {def main(args: Array[String]): Unit &＃61; {val sparkConf &＃61; new SparkConf().setAppName("StatefulWordCount").setMaster("local[2]")val ssc &＃61; new StreamingContext(sparkConf, Seconds(5))/** 使用了 stateful 算子&＃xff0c;必须要设置 checkpoint* 在生产环境中&＃xff0c;建议把 checkpoint 设置到 HDFS 的某个文件夹中* */ssc.checkpoint(".")val lines &＃61; ssc.socketTextStream("localhost", 6789)val result &＃61; lines.flatMap(_.split(" ")).map((_, 1))val state &＃61; result.updateStateByKey[Int](updateFunction _)state.print()ssc.start()ssc.awaitTermination()}def updateFunction(currentValues: Seq[Int], preValues: Option[Int]): Option[Int] &＃61; {val current &＃61; currentValues.sumval pre &＃61; preValues.getOrElse(0)Some(current &＃43; pre)}}
2 实战

计算到目前为止出现的单词个数写入到 MySQL

2.1 创建表

mysql> use spark_test; Database changed mysql> create table wordcount( word varchar(50) default null, wordcount int(10) default null ); Query OK, 0 rows affected (0.04 sec)mysql>

2.2 源码

修改 pom 文件

<dependency><groupId>mysqlgroupId><artifactId>mysql-connector-javaartifactId><version>5.1.38version>dependency>

package com.myspark.comimport java.sql.DriverManagerimport org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext}/* * * 使用 Spark Streaming 完成词频统计&＃xff0c;并将结果写入到 MySQL * */ object ForeachRDDApp {def main(args: Array[String]): Unit &＃61; {val sparkConf &＃61; new SparkConf().setAppName("ForeachRDDApp").setMaster("local[2]")val ssc &＃61; new StreamingContext(sparkConf, Seconds(5))/** 使用了 stateful 算子&＃xff0c;必须要设置 checkpoint* 在生产环境中&＃xff0c;建议把 checkpoint 设置到 HDFS 的某个文件夹中* */val lines &＃61; ssc.socketTextStream("localhost", 6789)val result &＃61; lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ &＃43; _)//state.print()/*result.foreachRDD(rdd &＃61;> {val connection &＃61; createConnection()rdd.foreach { record &＃61;>val sql &＃61; "insert into wordcount(word,wordcount) values(&＃39;"&＃43;record._1&＃43;"&＃39;,"&＃43;record._2&＃43;")"connection.createStatement().execute(sql)}})*/result.print()/** 存在问题&＃xff1a;对于已有的数据做更新&＃xff0c;所有的数据均为insert** 改进思路&＃xff1a;(1)在插入数据前先判断单词是否存在&＃xff0c;如果存在就 update,不存在就insert* (2) HBase /Redis** 每个 rdd 的partition 创建 connection,建议改为连接池* */result.foreachRDD(rdd &＃61;> {rdd.foreachPartition(partitionOfRecords &＃61;> {val connection &＃61; createConnection()partitionOfRecords.foreach(record &＃61;> {val sql &＃61; "insert into wordcount(word,wordcount) values(&＃39;" &＃43; record._1 &＃43; "&＃39;," &＃43; record._2 &＃43; ")"connection.createStatement().execute(sql)})connection.close()})})ssc.start()ssc.awaitTermination()}/** 获取 MySQL 的连接* */def createConnection() &＃61; {Class.forName("com.mysql.jdbc.Driver")DriverManager.getConnection("jdbc:mysql://localhost:3306/spark_test", "root", "root")}}

2.3 运行

在这里插入图片描述

3 窗口函数

定时的进行一个时间段内的数据处理
window length : 窗口的长度
sliding interval : 窗口的间隔
这2个参数和 batch size 有关系&＃xff1a; 倍数
每隔多久计算某个范围内的数据&＃xff08;每隔 sliding interval 统计前 window length的值&＃xff09;

4 黑名单过滤 (transform)

4.1 例子

访问日志&＃xff08;&＃61;>DStream&＃xff09;

001,aa 002,bb 003,cc

&＃61;>(aa:001,aa) (bb:002,bb) (cc:003,cc)
2. 黑名单列表&＃xff08;&＃61;>RDD&＃xff09;

aa cc

&＃61;> (aa:true) (cc:true)
3. leftjoin

(aa:[<001,aa>,]) (bb:[<002,bb>,]) (cc:[<003,cc>,])

4.2 源码

package com.myspark.comimport org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext}/* * 黑名单过滤 * */ object TransformApp {def main(args: Array[String]): Unit &＃61; {val sparkConf &＃61; new SparkConf().setMaster("local[2]").setAppName("TransformApp")val ssc &＃61; new StreamingContext(sparkConf, Seconds(5))//构建黑名单val blacks &＃61; List("aa", "cc")val blacksRDD &＃61; ssc.sparkContext.parallelize(blacks).map(x &＃61;> (x, true))val lines &＃61; ssc.socketTextStream("localhost", 6789)val clicklog &＃61; lines.map(x &＃61;> (x.split(",")(1), x)).transform(rdd &＃61;> {rdd.leftOuterJoin(blacksRDD).filter(x &＃61;> x._2._2.getOrElse(false) !&＃61; true).map(x &＃61;> x._2._1)})clicklog.print()ssc.start()ssc.awaitTermination()} }

4.3 结果

在这里插入图片描述

推荐阅读

main
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
list
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
list
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
main
解决java开源项目apache commons email简单使用报错的方法

本文介绍了解决java开源项目apache commons email简单使用报错的方法，包括使用正确的JAR包和正确的代码配置，以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]

蜡笔小新 2023-12-09 17:35:16
main
流数据流和IO流的使用及应用

本文介绍了流数据流和IO流的基本概念和用法，包括输入流、输出流、字节流、字符流、缓冲区等。同时还介绍了异常处理和常用的流类，如FileReader、FileWriter、FileInputStream、FileOutputStream、OutputStreamWriter、InputStreamReader、BufferedReader、BufferedWriter等。此外，还介绍了系统流和标准流的使用。 ... [详细]

蜡笔小新 2023-12-09 09:12:53
python
数据库技术:Python实现mysql数据库中的SQL文件生成和导入分享

目录1、将mysql数据导出到SQL文件中（数据库存在的情况）2、将现有的sql文件数据导入到数据库中（前提数据库存在） 3、利用Navicat导出SQL文件和导入SQL文件1）从 ... [详细]

蜡笔小新 2023-10-17 20:14:33
main
kotlin动画实现上下移动、放大缩小、旋转功能

本文介绍了使用kotlin实现动画效果的方法，包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果，并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例，可以用来实现放大缩小的效果。 ... [详细]

蜡笔小新 2023-12-14 17:29:08
stream
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
python
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
stream
php 主动断掉http,怎么在PHP项目中实现一个HTTP断点续传功能

怎么在PHP项目中实现一个HTTP断点续传功能发布时间：2021-01-1916:26:06来源：亿速云阅读：96作者：Le ... [详细]

蜡笔小新 2023-12-12 17:17:29
stream
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
version
Java如何导入和导出Excel文件的方法和步骤详解

本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤，包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码，并将代码上传至GitHub供访问。 ... [详细]

蜡笔小新 2023-12-09 20:27:00
version
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
list
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29

手机用户2602900587

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章