当前位置: 开发笔记 > 后端 > 正文

mysql全文索引中文问题的解决（转）_MySQL

作者：一号小蘑菇妖 | 来源：互联网 | 2018-04-16 14:37

mysql全文索引中文问题的解决（转）

MySQL从3.23.23开始就逐渐支持全文索引和搜寻。
全文索引就是建index，全文搜寻就是去查index。
LIKE是用Regular Expression去做查询。
MySQL全文索引是一种index type：FULLTEXT。
全文索引的index只能用在MyISAM表格的char、varchar和text的字段上。
全文索引的index可以在create table、alter table和create index时产生。
create table...
CREATE TABLE article (
id INT AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT(title, body)
) TYPE=MYISAM;
alter table...
create index...
要倒大量的数据到有全文索引index的table速度会很慢，建议先拿掉全文索引index再倒数据，倒完后再加上全文索引index。
全文搜寻的语法：
MATCH (col1, col2,...) AGAINST (expr [search_modifier])
三种搜寻方式：
IN BOOLEAN MODE
IN NATURAL LANGUAGE MODE
IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION / WITH QUERY EXPANSION

IN NATURAL LANGUAGE MODE
expr就是要搜寻的字符串。
没有特殊字符。
套用Stopwords。
剔除一半row以上都有的字，譬如说，每个row都有mysql这个字的话，那用mysql去查时，会找不到任何row，这在row的数量无敌多时很有用，因为把所有row都找出来是没有意义的，这时，mysql几乎被当作是stopword；但是当row只有两笔时，是啥鬼也查不出来的，因为每个字都出现50%以上，要避免这种状况，请用IN BOOLEAN MODE。
预设的搜寻方式。
SELECT *
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
预设搜寻是不分大小写，若要分大小写，columne的character set要从utf8改成utf8_bin。
预设MATCH...AGAINST是以相关性排序，由高到低。
MATCH...AGAINST可以跟所有MySQL语法搭配使用，像是JOIN或是加上其他过滤条件。
-- 第一种count
SELECT COUNT(*)
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
-- 第二种count
SELECT COUNT(IF(MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE), 1, NULL)) AS count
FROM article
当符合的笔数较多时，第一种count比较慢，因为MATCH...AGAINST会先依相关性排序。
当符合的笔数较少时，第二种count比较慢，因为第二种count会扫过所有数据。
MATCH(title, body)里的字段必须和FULLTEXT(title, body)里的字段一模一样，如果只要单查title或body一个字段，那得另外再建一个FULLTEXT(title)或FULLTEXT(body)，也因为如此，MATCH()的字段一定不能跨table，但是另外两种搜寻方式好像可以。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article;
这样可以取得相关值，而且也因为没有WHERE和ORDER BY，所以不会排序。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article
WHERE MATCH(title, body)
AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
排序又取得相关性，虽然MATCH...AGAINST用了两次，但是MySQL知道这两个MATCH...AGAINST是一样的，所以只会用一次。
SELECT id, MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE) as score
FROM article
ORDER BY score desc;
为啥不这样用就好？
MySQL的FULLTEXT怎么断字：
字母、数字、底线的组合视为一个字，不会把底线断字。
会被断字的字符：空白、逗号（,）与点（.），但不用这些断字的语言，如中文，就得自行手动断字。
可以自行实做一个断字的外挂来取代内建的断字parser。
接受一个单引号，如aaa'bbb视为一个字，但是aaa''bbb就是两个字。
前缀或字尾的单引号会被去掉，如'aaa或aaa'。
全文搜寻时，stopword与少于四个字符的字符串会被忽略。
可以覆写内建的stopword清单。
可以修改最少四个字符的设定。

IN BOOLEAN MODE
expr里有特殊字符辅助特殊的搜寻语法。
SELECT *
FROM article
WHERE MATCH(title, body)
AGAINST ('+mysql -yoursql' IN BOOLEAN MODE);
一定要有msysql，且不要有yoursql。
IN BOOLEAN MODE的特色：
不剔除50%以上符合的row。
不自动以相关性反向排序。
可以对没有FULLTEXT index的字段进行搜寻，但会非常慢。
限制最长与最短的字符串。
套用Stopwords。
搜寻语法：
+：一定要有。
-：不可以有，但这个「不可以有」指的是在符合的row里不可以有指定的字符串，所以不能只下「-yoursql」这样是查不到任何row的，必须搭配其他语法使用。
：（什么都没）预设用法，表示可有可无，有的话排比较前面，没有的排后面。
>：提高该字的相关性。
<：降低相关性。
( )：条件可以巢状。
+aaa +(>bbb ~：将其相关性由正转负，表示拥有该字会降低相关性，但不像「-」将之排除，只是排在较后面。
*：万用字，不像其他语法放在前面，这个要接在字符串后面。
" "：用双引号将一段句子包起来表示要完全相符，不可拆字。

IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
也可以用WITH QUERY EXPANSION。
IN NATURAL LANGUAGE MODE的衍生版。
先用IN NATURAL LANGUAGE MODE做搜寻，得到最相关的字段的字再加到原expr里，再查一次。
神奇功能之一：可以用database查出mysql或oracle，第一次查询用databae得到一些结果，从这些结果里抽取字符串，此时得到mysql与oracle的机率相当高，最后用database和这些出取出来的字符串做一次查询。
神奇功能之二：无法拼出正确字符串时，第一次用「相似」的错误字符串查询，很有可以得到正确的字符串，再用正确的字符串急可以得到想要的结果。
因为这种查询方式会让「噪声」爆增，所以建议第一次的查询字符串尽量精简。
Stopwords请参考http://dev.mysql.com/doc/refman/5.1/en/fulltext-stopwords.html。
全文搜寻的限制：
只能用在MyISAM表格上。
支援UTF-8。
中文支持问题：
MySQL不会断中文字：MySQL内建的字依据是空白、逗号和点，对此内建机制的白痴解法是，存中文字时自行塞入空白断字，但是还是有下面的限制。
查询字符串最少四个字符的限制：所以一二三个中文字都不能查，必须将ft_min_word_len从预设的4改成1。
虽然同一个表格可以有不同字符集的字段，但是同一个FULLTEXT index里的字段必须是同一个字符集与collation。
MATCH里的字段必须和FULLTEXT里的一模一样，IN BOOLEAN MODE允许不一样，甚至使用未FULLTEXT index的字段，但速度很慢。
AGAINST里必须是字符串，不可以是变量或域名。
全文搜寻使index hint受限。
MySQL全文搜寻设定：
大部分的参数都是启动参数，也就是修改后必须重新启动MySQL。
有些参数修改必须重新产生索引文件。
mysql> SHOW VARIABLES LIKE 'ft%';

ft_boolean_syntax + -><()~*:""&|
ft_min_word_len 4
ft_max_word_len 84
ft_query_expansion_limit 20 ft_stopword_file (built-in)

ft_min_word_len：最短的索引字符串，默认值为4，修改后必须重建索引文件。
ft_max_word_len：最长的索引字符串，默认值因版本而不同，余同上一点。
[mysqld]
ft_min_word_len=1
ft_stopword_file：stopword档案路径，若留空白不设定表示要停用stopword过滤，修改后必须重新启动MySQL和重建索引；stopword档案内容可以用分行空白与逗号区隔stopword，但底线和单引号视为合法的字符串字符。
50%的门坎限制：配置文件在storage/myisam/ftdefs.h，将 #define GWS_IN_USE GWS_PROB 改为 #define GWS_IN_USE GWS_FREQ，然后重新编译MySQL，因为近低门坎会影响数据的精准度，所以不建议如此，可用IN BOOLEAN MODE即可以避开50%的限制。
ft_boolean_syntax：改变IN BOOLEAN MODE的查询字符，不用重新启动MySQL也不用重建索引。
修改字符串字符的认定，譬如说将「-」认定为字符串的合法字符：
方法一：修改storage/myisam/ftdefs.h的true_word_char()与misc_word_char()，然后重新编译MySQL，最后重建索引。
方法二：修改字符集档，然后在FULLTEXT index的字段使用该字符集，最后重建索引。
重建索引：
每个有FULLTEXT index的表格都要这么做。
mysql> REPAIR TABLE tbl_name QUICK;
要注意如果用过myisamchk，会导致上述的设定值回复成默认值，因为myisamchk不是用MySQL的设定值。
解法一：将修改过得设定值加到myisamchk的参数里。
shell> myisamchk --recover --ft_min_word_len=1 tbl_name.MYI
解法二：两边都要设定。
[mysqld]
ft_min_word_len=1
[myisamchk]
ft_min_word_len=1
解法三：用REPAIR TABLE、ANALYZE TABLE、OPTIMIZE TABLE与ALTER TABLE取代myisamchk语法，因为这些语法是由MySQL执行的。

推荐阅读

html
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
html
Oracle Database 10g许可授予信息及高级功能详解

本文介绍了Oracle Database 10g许可授予信息及其中的高级功能，包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明，指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]

蜡笔小新 2023-12-14 13:12:10
html
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
python
Java实战之电影在线观看系统的实现

本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述，然后展示了系统的效果图。接着介绍了系统的核心代码，包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明，包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]

蜡笔小新 2023-12-14 15:52:03
python
mysql分组排序_在MySQL中实现分组排序功能

在数据分析工作中，我们通常会遇到这样的问题，一个业务部门由若干业务组构成，需要筛选出每个业务组里业绩前N名的业务员。这其实是一个分组排序的 ... [详细]

蜡笔小新 2023-12-14 14:41:26
python
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
python
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
localhost
SpringBoot集成前端模版（thymeleaf）的配置步骤

本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤，包括在application.properties配置文件中添加thymeleaf的配置信息，引入thymeleaf的jar包，以及创建PageController并添加index方法。 ... [详细]

蜡笔小新 2023-12-14 10:11:46
localhost
PHP中的MySQL函数库及其常用函数介绍

本文由编程笔记小编整理，介绍了PHP中的MySQL函数库及其常用函数，包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 08:19:53
localhost
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
localhost
数据库知识集合

数据库（外键及其约束理解）（https:www.cnblogs.comchenxiaoheip6909318.html）My ... [详细]

蜡笔小新 2023-12-13 19:24:01
localhost
yum安装_Redis —yum安装全过程

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Redis—yum安装全过程相关的知识，希望对你有一定的参考价值。访问https://redi ... [详细]

蜡笔小新 2023-12-13 17:27:43
localhost
ASP.NET Tips: 获取插入记录的ID的方法详解

本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法，包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数，以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时，还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说，本文提供了一些有用的技巧和建议。 ... [详细]

蜡笔小新 2023-12-13 17:03:18
localhost
解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法

本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题，并给出了正确的解决方法。详细描述了问题的出现情况和报错信息，并提供了解决该问题的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-13 16:31:57
localhost
高质量SQL书写的30条建议

本文提供了30条关于优化SQL的建议，包括避免使用select *，使用具体字段，以及使用limit 1等。这些建议是基于实际开发经验总结出来的，旨在帮助读者优化SQL查询。 ... [详细]

蜡笔小新 2023-12-13 13:24:33

一号小蘑菇妖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章