当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:solr7+tomcat8+mysql实现solr7基本使用(安装集成中文分词器定时同步数据库数据以及项目集成)

作者：robioven | 来源：互联网 | 2023-06-05 18:59

篇首语：本文由编程笔记#小编为大家整理，主要介绍了solr 7+tomcat 8 + mysql实现solr 7基本使用(安装集成中文分词器定时同步数据库数据以及项目集成)相关的知识，希望对你有一定的

篇首语：本文由编程笔记#小编为大家整理，主要介绍了solr 7+tomcat 8 + mysql实现solr 7基本使用(安装集成中文分词器定时同步数据库数据以及项目集成)相关的知识，希望对你有一定的参考价值。

基本说明

Solr是一个开源项目，基于Lucene的搜索服务器，一般用于高级的搜索功能；

solr还支持各种插件(如中文分词器等)，便于做多样化功能的集成；

提供页面操作，查看日志和配置信息，功能全面。

solr 7 + tomcat 8实现solr 7的安装

Solr自带集成jetty，但是一般都不直接使用，而是将solr另外和tomcat或jetty服务器集成到一起，形成搜索引擎。
Solr 7解压后的目录：
这里写图片描述

solr 7安装步骤：

将solr的server/solr-webapp/webapp目录复制到tomcat的webapps目录下，修改名为solr；

将solr的server/solr-webapp/lib/ext下的所有jar包复制到上一步solr/WEB-INF/lib下；

将solr的server/solr-webapp/lib下的metrics-*和gmetric4j-1.0.7.jar复制到上一步的lib目录下；

将solr的server/resources目录下的log4j.properties文件复制到WEB-INF/classes目录下，默认没有classes目录，自己创建；

将solr的server/solr目录复制到tomcat下，命名为solr-home；

改tomcat/webapps/solr/WEB-INF/web.xml文件如下：

-entry> -entry-name>solr/home-entry-name> -entry-value>D:\\apache-tomcat-8.5.24\\solr-home-entry-value> -entry-type>java.lang.String-entry-type> -entry>

<security-constraint> <web-resource-collection> <web-resource-name>Disable TRACEweb-resource-name> <url-pattern>/url-pattern> <http-method>TRACEhttp-method> web-resource-collection> <auth-constraint/> security-constraint> <security-constraint> <web-resource-collection> <web-resource-name>Enable everything but TRACEweb-resource-name> <url-pattern>/url-pattern> <http-method-omission>TRACEhttp-method-omission> web-resource-collection> security-constraint>

solr-home是solr的核心目录，主要的配置文件，索引以及基本数据的保存，插件和数据库的集成都是在此目录下进行配置。
到此solr的基本搭建结束，可以启动tomcat检查solr是否已经安装成功。
查看安装成功：
这里写图片描述

solr核心core创建

每个实例对应一个core，这内部存储的就是当前core下的所有配置文件，这个的core可以创建多个。创建过程：

在下面的界面输入核心core的信息，点击添加后会报错，不用担心，到solr-home下看会多一个core目录，目录下是空的；

在此目录下新建一个data和conf目录；

将solr的/server/solr/configsets/_default/conf目录下的所有内容复制到刚才创建的conf目录下。
此时再点击创建就可以完成创建。需要注意的是，在老版本的solr里面schema文件的名称是schema.xml，但在新的版本(5.0以后)中，虽然创建界面显示名称还是schema.xml，但是对应到conf目录下的文件是managed-schema。

Solr集成中文分词器

在早期版本solr集成的中文分词器都是IK，IK分词器是国产的开源项目，但是在2012年后IK分词器就停止了更新，但是Lucene和solr的版本不断的在迭代，IK分词器也不能很好的支持，虽然有人对其进行改写，但是有点坑，这里放弃使用IK，还好solr6以后就有自带的中文分词器，也是比较好用，下面以此为例。

步骤

将solr下的/contrib/analysis-extras/lucene-libs下所有的jar包复制到solr/WEB-INF/lib下；

修改solr-home/core/conf/managed-schema文件：

<fieldType name="text_ik" class="solr.TextField" positiOnIncrementGap="100"> <analyzer type="index"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/> analyzer> <analyzer type="query"> <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/> analyzer> fieldType> <field name="solrKey" type="text_ik" indexed="true" stored="false" multiValued="true"/>

集成很简单，重新启动tomcat，进入到实例core下，查看schema是否已经配置成功。
这里写图片描述
检验集成后的结果：

图片内容分析：
选择刚创建的core，采用模拟分词analysis，输入中文内容，左边表示需要建立索引的字段值，右边表示需要搜索的内容，分析字段选择solrKey，因为在所有字段中，只有solrKey使用了中文分词器，在分析处理的结果显示，”帅哥”两个字已经匹配到。

Solr集成数据库(基本)

solr是作为一个搜索引擎，为什么不直接使用数据库来实现搜索，对于这种搜索都是采用的模糊查询(like %关键字%)，在使用like查询的时候，如果关键字前面加上%就会导致查询不会走索引，也就意味着建立索引也是白搭，另外随着数据的增长，这种搜索的效率会很低，在插入更新数据的时候，索引的维护也会影响操作效率，所有一般都会使用第三方搜索工具，solr就是其中之一。为了将数据库数据同步到solr中，这里就会将solr和数据库建立连接，从数据库中同步数据到solr中。

实现步骤

将solr的contrib、dist目录复制到solr-home下；

修改solrconfig.xml配置文件：

"${solr.install.dir:../}/contrib/extraction/lib" regex=".*\\.jar" /> "${solr.install.dir:../}/contrib/analysis-extras/lucene-libs" regex=".*\\.jar"/> "${solr.install.dir:../}/dist/" regex="solr-cell-\\d.*\\.jar" /> "${solr.install.dir:../}/contrib/clustering/lib/" regex=".*\\.jar" /> "${solr.install.dir:../}/dist/" regex="solr-clustering-\\d.*\\.jar" /> "${solr.install.dir:../}/contrib/langid/lib/" regex=".*\\.jar" /> "${solr.install.dir:../}/dist/" regex="solr-langid-\\d.*\\.jar" /> "${solr.install.dir:../}/contrib/velocity/lib" regex=".*\\.jar" /> "${solr.install.dir:../}/dist/" regex="solr-velocity-\\d.*\\.jar" />

这里的solr.install.dir表示的是当前solrconfig.xml所在的conf目录，第一步将contrib、dist复制到solr-home下，和conf差一级目录，所有solr.install.dir后加的是../，但是实际情况实际分析去修改../。

复制连接数据库需要的jar包到solr-home/contrib/dataimporthandler/lib(dataimporthandler下默认没有lib目录，需要创建)目录下，两个jar分别是：
/dist下的solr-dataimporthandler-7.2.0.jar和mysql-connector-java-5.1.17.jar(需要下载)；

修改solrconfig.xml配置文件：

<lib dir="${solr.install.dir:../}/contrib/dataimporthandler/lib" regex=".*\\.jar" /> <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xmlstr> lst> requestHandler>

创建data-config.xml文件，文件放在core/conf目录下，文件基本内容如下：

<dataConfig> <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/solr" user="root" password="root"/> <document> <entity name="userInfo" query="SELECT ID,USER_NAME,SOLR_KEY FROM USER_INFO "> <field column="ID" name="id"/> <field column="USER_NAME" name="userName"/> <field column="SOLR_KEY" name="solrKey"/> <field column="UPDATE_TIME" name="updateTime"/> entity> document> dataConfig>

修改managed-schema文件，添加数据库字段solr_key、user_name、update_time

"solrKey" type="text_smartcn" indexed="true" stored="true" multiValued="false"/> "userName" type="string" indexed="false" stored="false" multiValued="false"/> "updateTime" type="pdate" indexed="false" stored="true" multiValued="false"/>

到此集成数据库结束，重新启动tomcat，验证成果：
这里写图片描述
说明：如果集成成功直接查询是查询不到结果的，需要先将数据同步到solr里面，同步如下：(手动同步)

如果如上直接集成数据库，是不会查到数据，因为solr查询数据是从自己的缓存中查询，并不是从数据库中查询，因此就需要定时的去访问数据库，将数据库中更新的数据同步到solr中。

Solr集成数据库(进阶)

实现步骤

下载dataimportscheduler-1.2.jar，放到solr/WEB-INF/lib下；

修改data-config.xml文件，在entity上添加一个同步的sql信息，如下：

<dataConfig> <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/solr" user="root" password="root"/> <document> <entity name="userInfo" pk="ID" query="SELECT ID,USER_NAME,SOLR_KEY,UPDATE_TIME FROM USER_INFO " deltaImportQuery="SELECT ID,USER_NAME,SOLR_KEY,UPDATE_TIME FROM USER_INFO WHERE ID>\'${dih.delta.ID}\'" deltaQuery="SELECT ID FROM USER_INFO where UPDATE_TIME > \'${dataimporter.last_index_time}\'"> <field column="ID" name="id"/> <field column="USER_NAME" name="userName"/> <field column="SOLR_KEY" name="solrKey"/> <field column="UPDATE_TIME" name="updateTime"/> entity> document> dataConfig>

修改dataimport.properties文件信息：

userInfo.last_index_time=2018-01-06 01\\:11\\:57 last_index_time=2018-01-06 01\\:11\\:57 # 异步同步 syncEnabled=1 # core核心的名称 syncCores=core # 服务地址 # 默认localhost server=localhost # solr项目端口 # 默认8080 port=8080 # 项目名称，也就是solr在tomcatwebapp下项目目录名称 # 如果不是solr，这里需要修改为实际对应值 webapp=solr # 增量更新执行命令 params=/dataimport?command=delta-import&clean=false&commit=true # 增量更新间隔时间(单位：分钟) # 默认30分钟 interval=1 # 索引重建的间隔时间(单位：分钟) # 默认7200分钟(5天) reBuildIndexInterval=7200 # 重建索引执行命令 reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true # 索引重建的执行时间 reBuildIndexBeginTime=03:10:00

这里的dataimport.properties和managed-schema同目录下的dataimport.properties不是同一个，这里需要在solr-home下创建一个conf目录，里面创建dataimport.properties，上面的内容填入此配置文件中。
到这里就成功了，可以查看tomcat的日志，每隔一分钟就会有一次更新，这里还有一个需要注意的点就是数据表中的update_time时间，这个时间一定要和solr的时间同步，或者稍微比solr时间高，因为增量导入更新就靠这个字段，如果update_time小于solr的时间，solr是感知不到其发生了修改。

说明

Solr关联数据库后，会将数据缓存都solr中，当查询的时候实际上查询的是solr里面的内容。

物理删除会存在问题，应为物理删除记录直接消失，没有所谓的更新时间，这个需要看实际需求来修改查询sql，如果是逻辑删除，注意增量更新中加上逻辑删除的查询条件。

solr的查询语句语法，本博客没有提及，需要使用的可以找万能的google或者度娘。（solr查询语法推荐博文）

坑里来，坑里去：

interval格式化失败
在实现同步的时候，interval设置的值是1，reBuildIndexBeginTime相关参数没有配置，这个时候启动项目会出现interval不能格式化为数值，因为在dataimportscheduler源码里面读取dataimport.properties文件中参数后，会有逻辑来给未设置值的参数设置默认值，这里有个错误就是在判断reBuildIndexBeginTime参数为空后，修改了interval值为00:00:00，导致不能格式化为数值，然后将interval默认的为30分钟。因此在配置的时候需要将reBuild相关参数加上。

时间问题，就是上面提到的solr时间和数据库时间同步问题，因为根据上面的deltaQuery可以看出来，更新数据时通过UPDATE_TIME的时间比较实现，如果出现数据库时间比solr时间迟，就会导致更新延迟现象。

Jar包问题，在项目中涉及到很多将contrib、dist目录下的jar复制到solr/WEB-INF/lib下，其实也可以不这样，因为这些jar包相当于是solr/WEB-INF/lib的拓展，但是这些拓展并不是都能使用到，所以都会习惯性的将需要的复制到solr/WEB-INF/lib下，其实这样是不科学的，随着使用功能的复杂，jar包的管理就会变的比较乱。也可以通过在solrconfig.xml文件中配置contrib、dist目录实现。
如下：

这里就没有将dataimporthandler和mysql的依赖复制到solr/WEB-INF/lib，而是在solrconfig.xml中指定jar的位置。
在本文中，涉及到复制jar，也涉及到上面的直接引用，不是很整洁，有兴趣的可以整理一下，这里不做太多的赘述。

solr-solrj项目查询整合

依赖引入

<dependencies> <dependency> <groupId>org.apache.solrgroupId> <artifactId>solr-solrjartifactId> <version>5.0.0version> dependency> <dependency> <groupId>org.slf4jgroupId> <artifactId>slf4j-apiartifactId> <version>1.7.21version> dependency> <dependency> <groupId>log4jgroupId> <artifactId>log4jartifactId> <version>1.2.17version> dependency> <dependency> <groupId>junitgroupId> <artifactId>junitartifactId> <version>4.12version> <scope>compilescope> dependency> <dependency> <groupId>commons-logginggroupId> <artifactId>commons-loggingartifactId> <version>1.2version> dependency> dependencies> <build> <plugins> <plugin> <groupId>org.apache.maven.pluginsgroupId> <artifactId>maven-compiler-pluginartifactId> <version>3.1version> <configuration> <source>1.8source> <target>1.8target> configuration> plugin> plugins> build>

代码实现

public class SolrConnectTest { private SolrClient solrClient = null; private String url = "http://192.168.153.129:8080/solr/core"; @Before public void initClient() { solrClient = new HttpSolrClient(url); } @Test public void query() throws SolrServerException { String queryStr = "solrKey:\\"文远\\""; SolrQuery solrQuery = new SolrQuery(queryStr); QueryResponse respOnse= solrClient.query(solrQuery); SolrDocumentList solrRes = response.getResults(); solrRes.forEach(System.out::println); } }

测试查询结果：
这里写图片描述

推荐阅读

spring
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
jar
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
web
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
main
开发笔记：spring boot项目打成war包部署到服务器的步骤与注意事项

本文介绍了将spring boot项目打成war包并部署到服务器的步骤与注意事项。通过本文的学习，读者可以了解到如何将spring boot项目打包成war包，并成功地部署到服务器上。 ... [详细]

蜡笔小新 2023-12-10 11:49:29
数组
Spring框架《一》简介

Spring框架《一》1.Spring概述1.1简介1.2Spring模板二、IOC容器和Bean1.IOC和DI简介2.三种通过类型获取bean3.给bean的属性赋值3.1依赖 ... [详细]

蜡笔小新 2023-12-09 20:10:11
jar
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56
jar
Jboss的EJB部署描述符standardjaws.xml配置步骤详解

本文详细介绍了Jboss的EJB部署描述符standardjaws.xml的配置步骤，包括映射CMP实体EJB、数据源连接池的获取以及数据库配置等内容。 ... [详细]

蜡笔小新 2023-12-09 18:15:53
web
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
main
使用集算器将日志文件结构化，轻松使用SQL查询

本文介绍了一种轻巧方便的工具——集算器，通过使用集算器可以将文本日志变成结构化数据，然后可以使用SQL式查询。集算器利用集算语言的优点，将日志内容结构化为数据表结构，SPL支持直接对结构化的文件进行SQL查询，不再需要安装配置第三方数据库软件。本文还详细介绍了具体的实施过程。 ... [详细]

蜡笔小新 2023-12-11 13:27:46
main
在虚拟服务器上安装oracle 10g客户端的问题及解决方法

本文讨论了在VMWARE5.1的虚拟服务器Windows Server 2008R2上安装oracle 10g客户端时出现的问题，并提供了解决方法。错误日志显示了异常访问违例，通过分析日志中的问题帧，找到了解决问题的线索。文章详细介绍了解决方法，帮助读者顺利安装oracle 10g客户端。 ... [详细]

蜡笔小新 2023-12-11 13:08:10
数组
无法使用fetch在服务器端读取/获取发布的数据

本文介绍了一个React Native新手在尝试将数据发布到服务器时遇到的问题，以及他的React Native代码和服务器端代码。他使用fetch方法将数据发送到服务器，但无法在服务器端读取/获取发布的数据。 ... [详细]

蜡笔小新 2023-12-11 11:26:28
window
使用eclipse创建一个Java项目的步骤

本文介绍了使用eclipse创建一个Java项目的步骤，包括启动eclipse、选择New Project命令、在对话框中输入项目名称等。同时还介绍了Java Settings对话框中的一些选项，以及如何修改Java程序的输出目录。 ... [详细]

蜡笔小新 2023-12-11 10:24:49
jar
Android工程中三种库的区别：Private Libraries、Referenced Libraries、Dependency Libraries

android ... [详细]

蜡笔小新 2023-10-17 17:55:10
search
es的分布式原理？es是如何实现分布式的？

Elasticsearch设计的理念是分布式搜索引擎，底层其实是基于lucene。核心思 ... [详细]

蜡笔小新 2023-10-12 18:29:23

robioven

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章