当前位置: 开发笔记 > 编程语言 > 正文

lucene添加扩展词需要重新索引_Lucene的索引详解

作者：手机用户2502937541 | 来源：互联网 | 2023-05-30 06:03

IndexWriter之前讲解了Lucene的分词器，这节记录下Lucene的索引。Lucene索引创建API示例Lucene索引创建代码示例创建使用的分词器Anal

IndexWriter
之前讲解了Lucene的分词器&＃xff0c;这节记录下Lucene的索引。
Lucene索引创建API示例
Lucene索引创建代码示例
// 创建使用的分词器Analyzer analyzer &＃61; new IKAnalyzer4Lucene7(true);// 索引配置对象IndexWriterConfig config &＃61; new IndexWriterConfig(analyzer);try ( // 索引存放目录 // 存放到文件系统中 Directory directory &＃61; FSDirectory .open((new File("d:/test/indextest")).toPath()); // 也可以存放到内存中 // Directory directory &＃61; new RAMDirectory(); // 创建索引写对象 IndexWriter writer &＃61; new IndexWriter(directory, config);) { // 准备document Document doc &＃61; new Document(); // 商品id&＃xff1a;字符串&＃xff0c;不索引、但存储 String prodId &＃61; "p0001"; doc.add(new StoredField("prodId", prodId));// 往document中添加商品名称字段 String name &＃61; "ThinkPad X1 Carbon 20KH0009CD/25CD 超极本轻薄笔记本电脑联想";doc.add(new TextField("name", name, Store.YES));.......
IndexWriter涉及类
IndexWriterConfig&＃xff1a;写索引配置&＃xff0c;装载着分词器&＃xff0c;提供着配置信息
使用的分词器&＃xff0c;
如何打开索引(是新建&＃xff0c;还是追加)。
还可配置缓冲区大小、或缓存多少个文档&＃xff0c;再刷新到存储中。
还可配置合并、删除等的策略
Directory&＃xff1a; 索引存储的方式&＃xff0c;文件系统或者内存或数据库
Document&＃xff1a;索引存储的内容
IndexWriter 用来创建、维护一个索引。它的API使用流程&＃xff1a;
`// 创建索引写对象IndexWriter writer &＃61; new IndexWriter(directory, config);// 创建documentDocument doc &＃61; new Document();// 将文档添加到索引writer.addDocument(doc);// 删除文档//writer.deleteDocuments(terms);//修改文档//writer.updateDocument(term, doc);// 刷新writer.flush();// 提交writer.commit();`
那Document是如何存储的呢&＃xff1f;

Document
Document
Document即文档&＃xff0c;要索引的数据记录、文档在lucene中的表示&＃xff0c;是索引、搜索的基本单元。一个Document由多个字段Field构成。就像数据库的记录-字段。
IndexWriter按加入的顺序为Document指定一个递增的id(从0开始)&＃xff0c;称为文档id。反向索引中存储的是这个id&＃xff0c;文档存储中正向索引也是这个id。业务数据的主键id只是文档的一个字段。
Filed
Filed即字段&＃xff1a;由字段名name、字段值value(fieldsData)、字段类型 type 三部分构成。字段值可以是文本(String、Reader 或预分析的 TokenStream)、二进制值(byte[])或数值。
IndexableFieldType
字段类型&＃xff1a;描述该如何索引存储该字段
字段可选择性地保存在索引中&＃xff0c;这样在搜索结果中&＃xff0c;这些保存的字段值就可获得。一个Document应该包含一个或多个存储字段来唯一标识一个文档。未存储的字段&＃xff0c;从索引中取得的document中是没有这些字段的。
Document 类关系&＃xff1a;
IndexableFieldType&＃xff1a;提供了是否分词&＃xff0c;是否存储&＃xff0c;是否标准化&＃xff0c;如何索引等方法。
包括&＃xff1a;stored&＃xff0c;tokenized&＃xff0c;indexOptions&＃xff0c;storeTermVectors&＃xff0c;omitNorms&＃xff0c;
docValueType&＃xff0c;point
IndexOptions
IndexOptions&＃xff1a; 索引选项
NONE&＃xff1a; Not indexed 不索引
DOCS&＃xff1a;反向索引中只存储了包含该词的文档id&＃xff0c;没有词频、位置
DOCS_AND_FREQS&＃xff1a;反向索引中会存储文档id、词频
DOCS_AND_FREQS_AND_POSITIONS &＃xff1a;反向索引中存储文档id、词频、位置
DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS&＃xff1a;反向索引中存储文档id、词频、位置、偏移量
例如在百度搜索Lucene
显示的信息&＃xff1a;有一个标题&＃xff0c;下面是正文的简单的描述&＃xff0c;再下面是跳转的链接。搜索词Lucene的红色的高亮的显示。
当我们创建索引的时候&＃xff0c;标题需要被索引&＃xff0c;分词&＃xff0c;存储。文章的链接&＃xff0c;不是被索引&＃xff0c;分词&＃xff0c;只需要将它存储。文章的内容需要分词&＃xff0c;建立索引&＃xff0c;但不需要将部分描述存储。
有的情况下&＃xff0c;如果要实现短语查询、临近查询(跨度查询)&＃xff0c;例如&＃xff1a;搜索包含“张三” “李四”&＃xff0c;且两词之间跨度不超过5个字符。
这时&＃xff0c;需要存储分项的偏移量&＃xff0c;位置等信息。
但是有的情况下某个字段不需要进行短语查询、临近查询&＃xff0c;那么在反向索引中就不需要保存位置、偏移数据。可以降低反向索引的数据量&＃xff0c;提升效率。
为了提升反向索引的效率&＃xff0c;这样的字段的位置、偏移数据是不应该保存到反向索引中的。这也你前面看到 IndexOptions为什么有那些选项的原因。在lucene4.0以前&＃xff0c;反向索引中总会存储这些数据&＃xff0c;4.0后改进为可选择的。
那对于做高亮显示&＃xff0c;或者斜体&＃xff0c;黑体(或得到搜索结果后需要使用这些信息)的字段怎么办&＃xff1f;用IndexOptions可能不能满足需求&＃xff0c;或者比较困难。
storeTermVectors
一个字段分词器分词后&＃xff0c;每个词项会得到一系列属性信息&＃xff0c;如出现频率、位置、偏移量等&＃xff0c;这些信息构成一个词项向量 termVectors。
对于不需要在搜索反向索引时用到&＃xff0c;但在搜索结果处理时需要的位置、偏移量、附加数据(payLoad) 的字段&＃xff0c;我们可以单独为该字段存储(文档--->词项向量)的正向索引。
boolean storeTermVectors() 是否存储词项向量
boolean storeTermVectorPositions() 是否在词项向量中存储位置
boolean storeTermVectorOffsets() 是否在词项向量中存储偏移量
boolean storeTermVectorPayloads() 是否在词项向量中存储附加信息
FieldType实现类中有对应的set方法
什么是附加信息Payloads
粉色&＃xff1a;代表一个文档Id&＃xff0c;DocId
绿色&＃xff1a;词频&＃xff0c;出现几次
橙色&＃xff1a;词的位置
黑色&＃xff1a;附加信息
a这个词&＃xff0c;DocId为2&＃xff0c;在文章出现一个&＃xff0c;位置索引为2的位置
is的词&＃xff0c;在DocId为1的文章中&＃xff0c;出现一次&＃xff0c;位置为1&＃xff0c;附加信息为下划线。
附加信息非常有用&＃xff0c;可用它来存储特殊信息&＃xff0c;及减少词项数等。
我们往往需要对搜索的结果支持按不同的字段进行排序&＃xff0c;如商品搜索结果按价格排序、按销量排序等。以及对搜索结果进行按某字段分组统计&＃xff0c;如按品牌统计。
假如我们按关键字“娃娃”搜索后得到相关的文档id列表 {10,21,18,48,29,…..} 要对它们进行按价格排序有的人想看销量排序有时需要按品牌统计数量…
反向索引对排序有用吗&＃xff1f; 需得到每个id对应的价格或销售是多少、品牌是什么&＃xff0c;再进行排序、统计。这个价格、销量、品牌数据在哪里&＃xff1f; 如果搜到的文档列表量很大&＃xff0c;排序会有什么问题没&＃xff1f;
空间换时间
对这种需要排序、分组、聚合的字段&＃xff0c;为其建立独立的文档->字段值的正向索引、列式存储。这样我们要加载搜中文档的这个字段的数据就快很多&＃xff0c; 耗内存少。
docValuesType
IndexableFieldType 中的 docValuesType方法就是让你来为需要排序、分组、聚合的字段指定如何为该字段创建文档->字段值的正向索引的。
DocValuesType 选项说明:
NONE 不开启docvalue
NUMERIC 单值、数值字段&＃xff0c;用这个
BINARY 单值、字节数组字段用
SORTED 单值、字符字段用&＃xff0c; 会预先对值字节进行排序、去重存储
SORTED_NUMERIC 单值、数值数组字段用&＃xff0c;会预先对数值数组进行排序
SORTED_SET 多值字段用&＃xff0c;会预先对值字节进行排序、去重存储
DocValuesType是强类型要求的&＃xff1a; 字段的值必须保证同类型。需要排序、分组、聚合、分类查询(面查询)的字段才创建docValues。
具体使用选择&＃xff1a;
字符串&＃43;单值会选择SORTED作为docvalue存储
字符串&＃43;多值会选择SORTED_SET作为docvalue存储
数值或日期或枚举字段&＃43;单值会选择NUMERIC 作为docvalue存储
数值或日期或枚举字段&＃43;多值会选择SORTED_SET作为docvalue存储
Point
IndexableFieldType中最后定义的的pointDimensionCount()&＃xff0c; pointNumBytes() 是做何用的&＃xff1f; Lucene6以后引入了点的概念来表示数值字段&＃xff0c;废除了原来的IntField等。在Point 字段类中提供了精确、范围查询的便捷方法。注意&＃xff1a;只是引入点的概念&＃xff0c;并未改变数值字段的本质。既然是点&＃xff0c;就有空间概念&＃xff1a;维度。一维&＃xff1a;一个值&＃xff0c;二维&＃xff1a;两个值的&＃xff1b;…… pointDimensionCount() 返回点的维数 pointNumBytes() 返回点中数值类型的字节数。
以下为一个代码示例&＃xff1a;
// 创建使用的分词器 Analyzer analyzer &＃61; new IKAnalyzer4Lucene7(true); // 索引配置对象 IndexWriterConfig config &＃61; new IndexWriterConfig(analyzer); try ( // 索引存放目录 // 存放到文件系统中 Directory directory &＃61; FSDirectory .open((new File("d:/test/indextest")).toPath()); // 存放到内存中 // Directory directory &＃61; new RAMDirectory(); // 创建索引写对象 IndexWriter writer &＃61; new IndexWriter(directory, config);) { // 准备document Document doc &＃61; new Document(); // 商品id&＃xff1a;字符串&＃xff0c;不索引、但存储 String prodId &＃61; "p0001"; FieldType onlyStoredType &＃61; new FieldType(); onlyStoredType.setTokenized(false); onlyStoredType.setIndexOptions(IndexOptions.NONE); onlyStoredType.setStored(true); onlyStoredType.freeze(); doc.add(new Field("prodId", prodId, onlyStoredType)); // 等同下一行 // doc.add(new StoredField("prodId", prodId)); // 商品名称&＃xff1a;字符串&＃xff0c;分词索引(存储词频、位置、偏移量)、存储 String name &＃61; "ThinkPad X1 Carbon 20KH0009CD/25CD 超极本轻薄笔记本电脑联想"; FieldType indexedAllStoredType &＃61; new FieldType(); indexedAllStoredType.setStored(true); indexedAllStoredType.setTokenized(true); indexedAllStoredType.setIndexOptions( IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS); indexedAllStoredType.freeze(); doc.add(new Field("name", name, indexedAllStoredType)); // 图片链接&＃xff1a;仅存储 String imgUrl &＃61; "http://www.dongnao.com/aaa"; doc.add(new Field("imgUrl", imgUrl, onlyStoredType)); // 商品简介&＃xff1a;文本&＃xff0c;分词索引(不需要支持短语、临近查询)、存储&＃xff0c;结果中支持高亮显示 String simpleIntro &＃61; "集成显卡英特尔酷睿 i5-8250U 14英寸"; FieldType indexedTermVectorsStoredType &＃61; new FieldType(); indexedTermVectorsStoredType.setStored(true); indexedTermVectorsStoredType.setTokenized(true); indexedTermVectorsStoredType .setIndexOptions(IndexOptions.DOCS_AND_FREQS); indexedTermVectorsStoredType.setStoreTermVectors(true); indexedTermVectorsStoredType.setStoreTermVectorPositions(true); indexedTermVectorsStoredType.setStoreTermVectorOffsets(true); indexedTermVectorsStoredType.freeze(); doc.add(new Field("simpleIntro", simpleIntro, indexedTermVectorsStoredType)); // 价格&＃xff0c;整数&＃xff0c;单位分&＃xff0c;不索引、存储、要支持排序 int price &＃61; 999900; FieldType numericDocValuesType &＃61; new FieldType(); numericDocValuesType.setTokenized(false); numericDocValuesType.setIndexOptions(IndexOptions.NONE); numericDocValuesType.setStored(true); numericDocValuesType.setDocValuesType(DocValuesType.NUMERIC); numericDocValuesType.setDimensions(1, Integer.BYTES); numericDocValuesType.freeze(); doc.add(new MyIntField("price", price, numericDocValuesType)); // 与下两行等同 // doc.add(new StoredField("price", price)); // doc.add(new NumericDocValuesField("price", price)); // 类别&＃xff1a;字符串&＃xff0c;索引不分词&＃xff0c;不存储、支持分类统计,多值 FieldType indexedDocValuesType &＃61; new FieldType(); indexedDocValuesType.setTokenized(false); indexedDocValuesType.setIndexOptions(IndexOptions.DOCS); indexedDocValuesType.setDocValuesType(DocValuesType.SORTED_SET); indexedDocValuesType.freeze(); doc.add(new Field("type", "电脑", indexedDocValuesType) { &＃64;Override public BytesRef binaryValue() { return new BytesRef((String) this.fieldsData); } }); doc.add(new Field("type", "笔记本电脑", indexedDocValuesType) { &＃64;Override public BytesRef binaryValue() { return new BytesRef((String) this.fieldsData); } }); // 等同下四行 // doc.add(new StringField("type", "电脑", Store.NO)); // doc.add(new SortedSetDocValuesField("type", new BytesRef("电脑"))); // doc.add(new StringField("type", "笔记本电脑", Store.NO)); // doc.add(new SortedSetDocValuesField("type", new // BytesRef("笔记本电脑"))); // 商家索引(不分词)&＃xff0c;存储、按面(分类)查询 String fieldName &＃61; "shop"; String value &＃61; "联想官方旗舰店"; doc.add(new StringField(fieldName, value, Store.YES)); doc.add(new SortedDocValuesField(fieldName, new BytesRef(value))); // 上架时间&＃xff1a;数值&＃xff0c;排序需要 long upShelfTime &＃61; System.currentTimeMillis(); doc.add(new NumericDocValuesField("upShelfTime", upShelfTime)); writer.addDocument(doc); } catch (IOException e) { e.printStackTrace(); }}public static class MyIntField extends Field { public MyIntField(String fieldName, int value, FieldType type) { super(fieldName, type); this.fieldsData &＃61; Integer.valueOf(value); } &＃64;Override public BytesRef binaryValue() { byte[] bs &＃61; new byte[Integer.BYTES]; NumericUtils.intToSortableBytes((Integer) this.fieldsData, bs, 0); return new BytesRef(bs); }}

推荐阅读

get
java boolean 大小_java boolean 大小

先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]

蜡笔小新 2023-12-12 13:36:56
object
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
input
纠正网上的错误：自定义一个类叫java.lang.System/String的方法

本文纠正了网上关于自定义一个类叫java.lang.System/String的错误答案，并详细解释了为什么这种方法是错误的。作者指出，虽然双亲委托机制确实可以阻止自定义的System类被加载，但通过自定义一个特殊的类加载器，可以绕过双亲委托机制，达到自定义System类的目的。作者呼吁读者对网上的内容持怀疑态度，并带着问题来阅读文章。 ... [详细]

蜡笔小新 2023-12-11 16:54:20
input
java后台图片大小kb查看_java 根据图片地址获取到图片的大小，单位kb或者Mb

***byte(字节)根据长度转成kb(千字节)和mb(兆字节)**parambytes*return*publicstaticStringbytes2kb(longbytes){ ... [详细]

蜡笔小新 2023-12-11 11:47:46
python
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
object
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
string
JVM 学习总结（三）——对象存活判定算法的两种实现

本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法：引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活，虽然简单高效，但无法解决循环引用的问题；可达性分析算法通过判断对象是否可达来确定存活对象，是主流的Java虚拟机内存管理算法。 ... [详细]

蜡笔小新 2023-12-13 18:59:46
get
Java中包装类的设计原因以及操作方法

本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中，除了对象类型，还有八大基本类型，为了将基本类型转换成对象，Java引入了包装类。文章通过介绍包装类的定义和实现，解答了为什么需要包装类的问题，并提供了简单易用的操作方法。通过本文的学习，读者可以更好地理解和应用Java中的包装类。 ... [详细]

蜡笔小新 2023-12-12 15:48:10
get
配置IPv4静态路由实现企业网内不同网段用户互访

本文介绍了通过配置IPv4静态路由实现企业网内不同网段用户互访的方法。首先需要配置接口的链路层协议参数和IP地址，使相邻节点网络层可达。然后按照静态路由组网图的操作步骤，配置静态路由。这样任意两台主机之间都能够互通。 ... [详细]

蜡笔小新 2023-12-12 13:12:08
input
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
python
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
get
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
object
Java面经整理及相关概念解析

本文整理了Java面试中常见的问题及相关概念的解析，包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]

蜡笔小新 2023-12-10 22:17:08
object
C# Word模版打印方案详解

本文详细介绍了使用C#实现Word模版打印的方案。包括添加COM引用、新建Word操作类、开启Word进程、加载模版文件等步骤。通过该方案可以实现C#对Word文档的打印功能。 ... [详细]

蜡笔小新 2023-12-10 14:09:00

手机用户2502937541

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章