当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:SparkJavaAPI之CountVectorizer

作者：手机用户2502897247 | 来源：互联网 | 2023-10-16 16:53

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Spark Java API 之 CountVectorizer相关的知识，希望对你有一定的参考价值。

Spark Java API 之 CountVectorizer

由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据，而是数值型向量。因此，需要进行转换。而将文本数据转换成数值型的向量有很多种方法，CountVectorizer是其中之一。

A CountVectorizer converts a collection of text documents into a vector representing the word count of text documents.

在构建向量时，有两个重要的参数：VocabSize和MinDF。前者表示词典的大小，后者表示当文档中某个Term出现的次数小于MinDF时，则不计入词典（该Term不属于词典中的单词）。

比如说现在有两篇文档：【"w1", "w2", "w4", "w5", "w2"】，【"w1", "w2", "w3"】

CountVectorizer cv = new CountVectorizer().setInputCol("text").setOutputCol("feature") .setVocabSize(3).setMinDF(2);

根据上面代码中的参数设置，词典大小为3，即一共可以有三个Term。由于在所有的文档中，"w1"出现2次，"w2"出现2次，因此计入词典。而"w3"、"w4"、"w5"只出现一次，不属于词典中的单词(Term)。如下图所示：词典中只有两个Term

When the dictionary is not defined CountVectorizer iterates over the dataset twice to prepare
the dictionary based on frequency and size.

CountVectorizer 首先扫描Dataset（文本数据）生成词典，然后再次扫描生成向量模型（CountVectorizerModel）

在构造Dataset 时，需要指定模式。用模式来解释Dataset中每一行的数据。

StructType schema = new StructType(new StructField[]{ new StructField("text", new ArrayType(DataTypes.StringType, true), false, Metadata.empty()) });

A field inside a StructType. param: name The name of this field. param: dataType The data type of this field. param: nullable Indicates if values of this field can be null values. param: metadata The metadata of this field. The metadata should be preserved during transformation if the content of the column is not modified

第一个参数是：名称；第二个参数是dataType 数据类型；第三个参数是标识该字段的值是否可以为空；第四个参数为字段的元数据信息。

整个示例代码：

import org.apache.spark.ml.feature.CountVectorizer; import org.apache.spark.ml.feature.CountVectorizerModel; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowFactory; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.*; import java.util.Arrays; import java.util.List; public class CounterVectorExample { public static void main(String[] args) { SparkSession spark = SparkSession.builder().appName("CountVectorizer").master("spark://172.25.129.170:7077").getOrCreate(); List data = Arrays.asList( // RowFactory.create(Arrays.asList("a", "b", "c")), // RowFactory.create(Arrays.asList("a", "b", "b", "c", "a")), // RowFactory.create(Arrays.asList("a", "b", "a", "b")) RowFactory.create(Arrays.asList("w1", "w2", "w3")), RowFactory.create(Arrays.asList("w1", "w2", "w4", "w5", "w2")) ); StructType schema = new StructType(new StructField[]{ new StructField("text", new ArrayType(DataTypes.StringType, true), false, Metadata.empty()) }); Dataset df = spark.createDataFrame(data, schema); CountVectorizer cv = new CountVectorizer().setInputCol("text").setOutputCol("feature") .setVocabSize(3).setMinDF(2); CountVectorizerModel cvModel = cv.fit(df); //prior dictionary CountVectorizerModel cvm = new CountVectorizerModel(new String[]{"a", "b", "c"}).setInputCol("text") .setOutputCol("feature"); // cvm. cvModel.transform(df).show(false); spark.stop(); } }

输出结果默认是以稀疏向量表示：

A sparse vector represented by an index array and a value array.
param: size size of the vector. param: indices index array, assume to be strictly increasing. param: values value array, must have the same length as the index array.

第一个字段代表：向量长度，由于这里词典中只有2个Term，因此转换出来的向量长度为2；第二个字段：索引下标；第三个字段：索引位置处相应的向量元素值。由上图中位置0处的Term是 w2，位置1处的Term是w1，因此，输出：

当然，我们也可以预先定义词典：在构造CountVectorizerModel的时候指定词典：【"w1", "w2", "w3"】

//prior dictionary CountVectorizerModel cvm = new CountVectorizerModel(new String[]{"w1", "w2", "w3"}).setInputCol("text").setOutputCol("feature"); cvm.transform(df).show(false);

对于文本：[w1,w2,w3]，每个Term都在词典中，且出现了一次，因此稀疏特征向量表示为：(3,[0,1,2],[1.0,1.0,1.0])。其中，3代表向量的长度为3维向量；[0,1,2]表示向量的索引；[1.0,1.0,1.0]表示，在相应的索引处，每个元素值为1.0（即各个Term只出现了一次）。而对于文本[w1, w2, w4, w5, w2]，因为w4和w5不在词典中，w1出现一次，w2出现2次，故其特征如下：

可以看出：对于CountVectorizerModel，向量长度就是词典的大小。

系列文章：

spark JAVA 开发环境搭建及远程调试

原文：https://www.cnblogs.com/hapjin/p/9899164.html

推荐阅读

ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
int
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
string
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
select
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
fetch
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
fetch
Android开发实现的计时器功能示例

本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ... [详细]

蜡笔小新 2023-12-12 22:51:19
ip
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
ip
GreenDAO快速入门

前言之前在自己做项目的时候，用到了GreenDAO数据库，其实对于数据库辅助工具库从OrmLite，到litePal再到GreenDAO，总是在不停的切换，但是没有真正去了解他们的 ... [详细]

蜡笔小新 2023-12-11 12:31:00
ip
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
replace
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
select
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
ip
知识图谱表示吱吱了了

知识图谱表示概念：知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]

蜡笔小新 2023-10-17 17:32:42
int
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10
replace
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
int
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38

手机用户2502897247

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章