热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

mysql数据库中IN和EXISTS的误区

前言:最近在看《高性能mysql第三版》这本书,读到子查询优化那章,书中说mysql会将in子查询改写成exists查询(书

       前言:最近在看 《高性能mysql第三版》 这本书,读到子查询优化那章,书中说mysql会将in子查询改写成exists查询(书中基于的mysql版本是5.1.50和5.5),于是乎我又上网找了下资料,发现网上说法几乎都是:

       in 子查询是把外表和内表hash关联,先查询内表,再把内表结果与外表匹配,对外表使用索引(外表效率高,可用大表),而内表多大都需要查询,不可避免,故外表大的使用in,可加快效率。

       exists 是对外表做loop循环,每次loop循环再对内表(子查询)进行查询,那么因为对内表的查询使用的索引(内表效率高,故可用大表),而外表有多大都需要遍历,不可避免(尽量用小表),故内表大的使用exists,可加快效率;

       发现竟然和书上说的不一样,因为按照书上说所,in 和 exists 应该是一样的(会重写 in 查询为 exists ) ,于是想在本地mysql测试一下,本地装的是5.7版本,数据库中有两个表 userinfo 和  syslog 表:

       这里使用两个表的主键id进行关联,sql 和分析计划表如下:

explain select * from syslog where id in(select id from userinfo);show WARNINGS;

       可以看到优先执行userinfo表,再去和syslog进行比对,看起来似乎和网上说的一样,接着我们将顺序颠倒:

explain select * from userinfo where id in(select id from syslog);show WARNINGS;

       结果竟然和上面执行计划运行顺序是一致的???我们打开结果二那一栏查看mysql优化器将sql重写后的结果,分别如下:

原SQL:
select * from syslog where id in(select id from userinfo);
优化后的SQL:
/* select#1 */
SELECT`test`.`syslog`.`id` AS `id`,`test`.`syslog`.`user_name` AS `user_name`,`test`.`syslog`.`type` AS `type`,`test`.`syslog`.`operation` AS `operation`,`test`.`syslog`.`method` AS `method`,`test`.`syslog`.`params` AS `params`,`test`.`syslog`.`ip` AS `ip`,`test`.`syslog`.`operation_time` AS `operation_time`
FROM`test`.`userinfo`
JOIN `test`.`syslog`
WHERE(`test`.`syslog`.`id` = `test`.`userinfo`.`id`)

原SQL:
select * from userinfo where id in(select id from syslog);
优化后的SQL:
/* select#1 */
SELECT`test`.`userinfo`.`id` AS `id`,`test`.`userinfo`.`user_id` AS `user_id`,`test`.`userinfo`.`user_name` AS `user_name`,`test`.`userinfo`.`age` AS `age`,`test`.`userinfo`.`gender` AS `gender`,`test`.`userinfo`.`address` AS `address`,`test`.`userinfo`.`user_pass` AS `user_pass`
FROM`test`.`syslog`
JOIN `test`.`userinfo`
WHERE(`test`.`userinfo`.`id` = `test`.`syslog`.`id`)

       可以看到 mysql将两个in子查询全都改写成了内连接查询 ,这也就可以解释两个分析计划表为什么总是先查找userinfo表了,因为在内连接的情况下mysql优化器始终会先访问数据量小的那张表,这样可以减少不必要的IO

第一个sql改写后首先运行的是 select id from userinfo 使用了主键覆盖索引(Extra 为 using index),将查询的结果和 syslog 进行匹配,所以syslog表使用了主键索引+where条件过滤(Extra 为 using Where)。


第二个sql改写后首先运行的的是 select * from userinfo ,所以计划中显示的是全表扫描,然后将查询后的结果和 syslog 进行匹配,这里因为查找的是select id from syslog where id = ? ,所以计划中显示是覆盖索引+where条件过滤(Extra 为 using where + using index)。

       我们再来看一下 exists 的分析情况:

explain select * from syslog where exists(select * from userinfo where userinfo.id = syslog.id);

explain select * from userinfo where exists(select * from syslog where syslog.id = userinfo.id);

可以看到exists查询是一个相关子查询,内部的查询需要依赖外部的查询结果,所以两个sql的分析计划都是先将外部的表进行全表扫描再和子查询表进行比对,如果外部的表数据量小的话性能可能不会太差,数据量大的情况下性能会非常糟糕。

结论:1、mysql5.5以前会将 in 子查询改写成 exists 查询,如果外部表数据量大的情况下性能会非常糟糕。

           2、mysql5.7(5.6没有测过,感兴趣的同学可以测测)对 in 子查询进行了优化,会将sql改写成 join 连接,这样优化器就可以始终优先访问数据量小的表格,减少IO,性能和直接写连接查询几乎是一样的(这点和网上书上说的是有出入的)。

           3、exists查询会被分解成一个外部查询和相关子查询(DEPENDENT SUBQUERY),这样子查询会依赖于外部查询的结果,所以始终会对外部表进行全表扫描,外部表数据量大的时候要尤其注意。


推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何在MySQL中将零值替换为先前的非零值的方法,包括使用内联查询和更新查询。同时还提供了选择正确值的方法。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 本文详细介绍了MySQL表分区的创建、增加和删除方法,包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]
author-avatar
kobe0390
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有