当前位置: 开发笔记 > 编程语言 > 正文

ApacheSpark中的高效字符串匹配

作者：矮辛楚楚拉_760 | 来源：互联网 | 2023-02-04 09:36

如何解决《ApacheSpark中的高效字符串匹配》经验，为你挑选了1个好方法。

使用OCR工具我从截图中提取文本(每个约1-5个句子).但是,在手动验证提取的文本时,我注意到有时会出现几个错误.

鉴于文本"你好!我真的喜欢Spark❤️!",我注意到:

1)像"I","!"和"l"这样的字母被"|"代替.

2)Emojis未被正确提取并被其他字符替换或被遗漏.

3)不时删除空格.

结果,我可能会得到一个像这样的字符串:"你好7l |真实|喜欢Spark!"

因为我试图将这些字符串与包含正确文本的数据集相匹配(在这种情况下"Hello there!我真的很喜欢Spark❤️!"),我正在寻找一种有效的方法来匹配Spark中的字符串.

任何人都可以建议一个有效的Spark算法,它允许我比较提取文本(〜100.000)与我的数据集(约1亿)？

1> hi-zir..：

我不会首先使用Spark,但如果你真的致力于特定的堆栈,你可以结合一堆ml变换器来获得最佳匹配.你需要Tokenizer(或split):

import org.apache.spark.ml.feature.RegexTokenizer

val tokenizer = new RegexTokenizer().setPattern("").setInputCol("text").setMinTokenLength(1).setOutputCol("tokens")



NGram (例如3克)

import org.apache.spark.ml.feature.NGram

val ngram = new NGram().setN(3).setInputCol("tokens").setOutputCol("ngrams")


Vectorizer(例如CountVectorizer或HashingTF):

import org.apache.spark.ml.feature.HashingTF

val vectorizer = new HashingTF().setInputCol("ngrams").setOutputCol("vectors")


并且LSH:

import org.apache.spark.ml.feature.{MinHashLSH, MinHashLSHModel}

// Increase numHashTables in practice.
val lsh = new MinHashLSH().setInputCol("vectors").setOutputCol("lsh")


结合 Pipeline

import org.apache.spark.ml.Pipeline

val pipeline = new Pipeline().setStages(Array(tokenizer, ngram, vectorizer, lsh))


适合示例数据:

val query = Seq("Hello there 7l | real|y like Spark!").toDF("text")
val db = Seq(
  "Hello there ! I really like Spark ??!", 
  "Can anyone suggest an efficient algorithm"
).toDF("text")

val model = pipeline.fit(db)


改变两者:

val dbHashed = model.transform(db)
val queryHashed = model.transform(query)


并加入

model.stages.last.asInstanceOf[MinHashLSHModel]
  .approxSimilarityJoin(dbHashed, queryHashed, 0.75).show


+--------------------+--------------------+------------------+                  
|            datasetA|            datasetB|           distCol|
+--------------------+--------------------+------------------+
|[Hello there ! ...|[Hello there 7l |...|0.5106382978723405|
+--------------------+--------------------+------------------+


在Pyspark中可以使用相同的方法

from pyspark.ml import Pipeline
from pyspark.ml.feature import RegexTokenizer, NGram, HashingTF, MinHashLSH

query = spark.createDataFrame(
    ["Hello there 7l | real|y like Spark!"], "string"
).toDF("text")

db = spark.createDataFrame([
    "Hello there ! I really like Spark ??!", 
    "Can anyone suggest an efficient algorithm"
], "string").toDF("text")


model = Pipeline(stages=[
    RegexTokenizer(
        pattern="", inputCol="text", outputCol="tokens", minTokenLength=1
    ),
    NGram(n=3, inputCol="tokens", outputCol="ngrams"),
    HashingTF(inputCol="ngrams", outputCol="vectors"),
    MinHashLSH(inputCol="vectors", outputCol="lsh")
]).fit(db)

db_hashed = model.transform(db)
query_hashed = model.transform(query)

model.stages[-1].approxSimilarityJoin(db_hashed, query_hashed, 0.75).show()
# +--------------------+--------------------+------------------+
# |            datasetA|            datasetB|           distCol|
# +--------------------+--------------------+------------------+
# |[Hello there ! ...|[Hello there 7l |...|0.5106382978723405|
# +--------------------+--------------------+------------------+


有关


优化Spark作业,必须为每个条目相似度计算每个条目,并为每个条目输出前N个相似项目

        
我正在努力计算1000万到7000万行大小的桌子之间的levenshtein距离.那当然需要时间,这真的很多.我有两个问题:上面提到的算法有多快,如果不使用spark你会怎么做？




    
        
                        python
                        apache
                        spark
                        search
                        string
                        match
                        ocr
                        emoji
                        算法
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        input
                        javascrip中的函数参数个数未知时的用法
                    

                    
                                                
                        巧用arguments在Javascript的函数中有个名为arguments的类数组对象。它看起来是那么的诡异而且名不经传，但众多的Javascript库都使用着它强大的功能。所 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 19:06:27
                    

                

                
                                
                    
                        split
                        Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法
                    

                    
                                                
                        本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 12:09:33
                    

                

                                
                    
                    
                
                
                                
                    
                        input
                        开发笔记:Spark Java API 之 CountVectorizer
                    

                    
                                                
                            
                        
                                                
                        篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 16:53:30
                    

                

                
                                
                    
                        input
                        python的re模块是自带的吗_Python正则re模块使用步骤及原理解析
                    

                    
                                                
                        python中使用正则表达式的步骤：1.导入re模块：importre2.初始化一个Regex对象：re.compile()3.刚刚创建的 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 11:13:21
                    

                

                
                                
                    
                        range
                        logistic回归（线性和非线性）的开发笔记
                    

                    
                                                
                        本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 21:40:43
                    

                

                
                                
                    
                        list
                        Spring源码解密之默认标签的解析方式分析
                    

                    
                                                
                            
                        
                                                
                        本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 17:24:50
                    

                

                
                                
                    
                        list
                        Android开发实现的计时器功能示例
                    

                    
                                                
                            
                        
                                                
                        本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 22:51:19
                    

                

                
                                
                    
                        input
                        绕过WAF的XSS检测机制及构建XSS payload的方法
                    

                    
                                                
                        本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 19:42:30
                    

                

                
                                
                    
                        input
                        Android自定义控件绘图篇之Paint函数大汇总
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 23:11:57
                    

                

                
                                
                    
                        input
                        使用圣杯布局模式实现网站首页的内容布局
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用圣杯布局模式实现网站首页的内容布局的方法，包括HTML部分代码和实例。同时还提供了公司新闻、最新产品、关于我们、联系我们等页面的布局示例。商品展示区包括了车里子和农家生态土鸡蛋等产品的价格信息。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 20:09:23
                    

                

                
                                
                    
                        split
                        正则表达式及其范例
                    

                    
                                                
                            
                        
                                                
                        为什么80%的码农都做不了架构师？一、前言部分控制台输入的字符串，编译成java字符串之后才送进内存，比如控制台打\， ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 20:18:36
                    

                

                
                                
                    
                        range
                        Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）
                    

                    
                                                
                        Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 17:02:44
                    

                

                
                                
                    
                        input
                        字符串匹配RabinKarp算法讲解
                    

                    
                                                
                            
                        
                                                
                        问题描述：Rabin-Karp的预处理时间是O(m)，匹配时间O((n-m1)m)既然与朴素算法的匹配时间一样，而且还多了一些预处理时间& ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 20:38:32
                    

                

                
                                
                    
                        range
                        ElasticSearch介绍和基本用法(二)
                    

                    
                                                
                        2.ElasticSearch练习索引 ： sms-logs-index类型：sms-logs-type   数据导入部分PUTsms_logs_indexsms_logs_typ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 17:08:37
                    

                

                
                                
                    
                        range
                        ReadDataFromCheckpoint
                    

                    
                                                
                        packagecom.bjsxt.spark.others;importorg.apache.spark.SparkConf;importorg.apache.spark.api. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 12:29:43

















    

    
        
            
            
                
                
            

            
                矮辛楚楚拉_760            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    include
                
                                
                    version
                
                                
                    client
                
                                
                    byte
                
                                
                    grid
                
                                
                    install
                
                                
                    httprequest
                
                                
                    list
                
                                
                    python
                
                                
                    golang
                
                                
                    cpython
                
                                
                    cSharp
                
                                
                    heap
                
                                
                    python3
                
                                
                    chat
                
                                
                    cookie
                
                                
                    header
                
                                
                    callback
                
                                
                    config
                
                                
                    hashtable
                
                                
                    select
                
                                
                    split
                
                                
                    loops
                
                                
                    subset
                
                                
                    utf-8
                
                                
                    input
                
                                
                    tags
                
                                
                    dagger
                
                                
                    range
                
                                
                    timestamp
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1转：Gulp的目标是取代Grunt
                
                                
                    2效率↑ 整洁↑ 浙大人专属电脑桌面分区壁纸，限时下载！
                
                                
                    3auto.js id为参数滑动_浅析NestedScrolling嵌套滑动机制之实践篇仿写饿了么商家详情页
                
                                
                    4WatirRuby + Watir环境安装
                
                                
                    5Vue 2.X中状态管理vuex的示例分析
                
                                
                    6以怪兽为设计元素的LOGO设计
                
                                
                    7win11添加新硬盘教程
                
                                
                    8大数据_8月，云创大数据发生了哪些大事？
                
                                
                    9RecyclerView缓存的问题
                
                                
                    10Spring 5.x 源码之旅六十二AOP事务实战三
                
                                
                    11STL源码剖析nth_element()&&partition()
                
                                
                    12html5弹性布局有什么优点和缺点,互联网常识：HTML5弹性布局有什么优点
                
                                
                    13明朝的内行厂是什么机构？有什么作用呢？
                
                                
                    14冬季健身牢记八不宜 不宜空腹进行锻炼
                
                                
                    15aspx基础开始