LuceneSimilarity

作者：拍友2502878393 | 来源：互联网 | 2023-06-04 09:44

Lucene系列介绍Similarity类实现打分（scoring）的API，它的子类实现了检索打分的算法。DefaultSimilari

Lucene系列介绍

Similarity类实现打分&＃xff08;scoring&＃xff09;的API&＃xff0c;它的子类实现了检索打分的算法。DefaultSimilarity类是缺省的打分的实现&＃xff0c;SimilarityDelegator类是用于委托打分&＃xff08;delegating scoring&＃xff09;的实现&＃xff0c;在Query.getSimilarity(Searcher)}的实现里起作用&＃xff0c;以便覆盖&＃xff08;override&＃xff09;一个Searcher中Similarity实现类的仅有的确定方法&＃xff08;certain methods&＃xff09;。

查询q相对于文档d的分数与在文档和查询向量&＃xff08;query vectors&＃xff09;之间的余弦距离&＃xff08;cosing-distance&＃xff09;或者点乘积&＃xff08;dot-product&＃xff09;有关系&＃xff08;correlates to&＃xff09;&＃xff0c;文档和查询向量存于一个信息检索&＃xff08;Information Retrieval&＃xff0c;IR&＃xff09;的向量空间模型&＃xff08;Vector Space Model&＃xff0c;VSM&＃xff09;之中。一篇文档的向量与查询向量越接近&＃xff08;closer to&＃xff09;&＃xff0c;它的得分也越高&＃xff08;scored higher&＃xff09;&＃xff0c;这个分数按如下公式计算&＃xff1a;

其中&＃xff1a;

1. tf(t in d) 与term的出现次数有关系&＃xff0c;定义为term t在当前打分的文档d中出现的次数。对一个给定的term&＃xff0c;那些出现此term的次数越多的文档将获得越高的分数。缺省的tf(t in d)算法实现在DefaultSimilarity类中&＃xff0c;公式如下&＃xff1a;

2. idf(t) 代表逆文档频率&＃xff08;Inverse Document Frequency&＃xff09;。这个分数与逆的docFreq&＃xff08;出现过term t的文档数目&＃xff09;有关系&＃xff0c;numDocs是总的文档数目。这个分数的意义是越不常出现的term将为最后的总分贡献更多的分数。缺省idf(t in d)算法实现在DefaultSimilarity类中&＃xff0c;公式如下&＃xff1a;

3. coord(q,d) 是一个评分因子&＃xff0c;基于有多少个查询terms在特定的文档中被找到。通常一篇包含了越多的查询terms的文档将比另一篇包含更少查询terms的文档获得更高的分数。这是一个搜索时因子&＃xff0c;是在搜索的时候起作用&＃xff0c;它在Similarity对象的coord(q,d)函数中计算。

4. queryNorm(q) 是一个修正因子&＃xff08;normalizing factor&＃xff09;&＃xff0c;用来使不同查询间的分数更具有可比较性&＃xff08;comparable&＃xff09;。这个因子不影响文档的排名&＃xff08;ranking&＃xff09;&＃xff08;因为搜索排好序的文档&＃xff08;ranked document&＃xff09;会增加相同的因数&＃xff09;&＃xff0c;更确切地说只是为了尝试使得不同查询条件&＃xff08;甚至不同索引&＃xff08;different indexes&＃xff09;&＃xff09;之间更可比较性。这是一个搜索时因子是在搜索的时候起作用&＃xff0c;由Similarity对象计算。缺省queryNorm(q)算法实现在DefaultSimilarity类中&＃xff0c;公式如下&＃xff1a;

sumOfSquaredWeights&＃xff08;查询的terms&＃xff09;是由查询Weight对象计算的&＃xff0c;例如一个布尔&＃xff08;boolean&＃xff09;条件查询的计算公式为&＃xff1a;

5. t.getBoost() 是一个搜索时的代表查询q中的term t的boost数值&＃xff0c;具体指定在查询的文本中&＃xff08;参见查询语法&＃xff09;&＃xff0c;或者由应用程序调用setBoost()来指定。需要注意的是实际上没有一个直接的API来访问一个多个term的查询中的一个term 的boost值&＃xff0c;更确切地说&＃xff0c;多个terms在一个查询里的表示形式是多个TermQuery对象&＃xff0c;所以查询里的一个term的boost值的访问是通过调用子查询的getBoost()方法实现的。

6. norm(t,d) 是提炼取得&＃xff08;encapsulate&＃xff09;一小部分boost值&＃xff08;在索引时间&＃xff09;和长度因子&＃xff08;length factor&＃xff09;&＃xff1a;

document boost – 在添加文档到索引之前通过调用doc.setBoost()来设置。

Field boost – 在添加Field到文档之前通过调用field.setBoost()来设置。

lengthNorm(field) – 在文档添加到索引的时候&＃xff0c;根据文档中该field的tokens数目计算得出&＃xff0c;所以更短的field会贡献更多的分数。lengthNorm是在索引的时候起作用&＃xff0c;由Similarity类计算得出。

当一篇文档被添加到索引的时候&＃xff0c;所有上面计算出的因子将相乘起来。如果文档拥有多个相同名字的fields&＃xff0c;所有这些fields的boost值也会被一起相乘起来&＃xff1a;

然而norm数值的结果在被存储之前被编码成一个单独的字节。在检索的时候&＃xff0c;这个norm字节值从索引目录中读取出来&＃xff0c;并解码回一个norm浮点数值。这个编/解码&＃xff08;encoding/decoding&＃xff09;行为&＃xff0c;会缩减索引的大小&＃xff0c;这得自于&＃xff08;come with&＃xff09;精度损耗的代价&＃xff08;price of precision loss&＃xff09;- 它不保证decode(encode(x))&＃61;x&＃xff0c;举例来说decode(encode(0.89))&＃61;0.75。还有需要注意的是&＃xff0c;检索的时候再修改评分&＃xff08;scoring&＃xff09;的这个norm部分已近太迟了&＃xff0c;例如&＃xff0c;为检索使用不同的Similarity。

参考文献&＃xff1a;

Similarity&＃xff1a;http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/search/similarities/Similarity.html
TFIDFSimilarity&＃xff1a;http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html

转:https://www.cnblogs.com/bluepoint2009/archive/2012/11/02/lucene-similarity.html

推荐阅读

int
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
int
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
int
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
int
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
select
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
select
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
select
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
int
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
string
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
int
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
int
iOS Swift中如何实现自动登录？

本文介绍了在iOS Swift中如何实现自动登录的方法，包括使用故事板、SWRevealViewController等技术，以及解决用户注销后重新登录自动跳转到主页的问题。 ... [详细]

蜡笔小新 2023-12-12 11:13:05
future
to_a和to_ary有什么区别？ - What's the difference between to_a and to_ary?

Whatsthedifferencebetweento_aandto_ary?to_a和to_ary有什么区别？ ... [详细]

蜡笔小新 2023-12-11 19:30:04
int
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
request
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
select
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08

拍友2502878393

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章