热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

MySQL中JOIN查询详解

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景选择一个或几个性能优异的核心算法作为引擎,然后努力将一些非主要应用场景作为该算法的特例或变种植入到引擎当中。
MySQL、PostgreSQL 等就是这么做的。 在 MySQL 的 SELECT 查询当中,其核心算法就是 JOIN 查询算法。其他的查询语句都相应向 JOIN 靠拢:单表查询被当作 JOIN 的特例;子查询被尽量转换为 JOIN 查询……
这里将从 MySQL 5.0 的源代码入手,简要分析 MySQL 处理 JOIN 查询的流程和思路。

1. MySQL SELECT处理流程
下图是一个 SELECT SQL 传到 MySQL 服务端以后经过的主要函数流程图。图上每个小矩形框内代表一个函数,箭头的起点为调用者,终点为被调函数。箭头指向一个大框,则表示调用者调用了一组函数,顺序基本是从上向下。
注:这里所说的 SQL 都不包含 UNION 子句,因为 MySQL 用了单独的 UNION 引擎来处理对应 SQL,而对于一般开发而言我们也很少使用 UNION 查询。
在上面所有函数中,mysql_excute_command() 函数是 MySQL 处理各类 SQL 语句的统一入口。SQL 语句在经过简单的语法解析以后,送到这里,由该函数作进一步分析,并调用相应的handle接口作后续处理。对于 SELECT 相关的语句,主要调用 handle_select() 和 mysql_select() 两个函数。
handle_select() 可以处理 SELECT 中含有 UNION 子句的情况。在不含 UNION 的简单结构中,也会直接调用 mysql_select() 函数。
mysql_select() 函数就是不带 UNION 子句的 SELECT 语句的入口点函数。通常状况下,每次调用以后,它会依次调用 JOIN 类的 prepare() 、optimize() 、exec() 三个函数来完成 SELECT 语句的预处理、优化、执行和结果输出功能。
JOIN::prepare() 是一个前处理函数。主要进行参数合法性检查、语法分析并生成更准确的计算机描述、打开记录表、子查询转换等操作。
JOIN::optimize() 是整个 SELECT 流程的关键所在,它负责对前面生成的各种描述结构进行各种优化。优化过程基于大量的规则进行,这些规则我们后面再详细讲述。 JOIN::optimize() 调用的一系列函数我们不一一述及,也将各函数内的优化规则总结、概括到后面去一并讲解。
JOIN::exec() 也会进行一些运行时优化,这些优化过程会导致实际执行过程与 EXPLAIN 中显示的不一致。但大多数情况下,JOIN::exec() 会遵照前面优化的过程执行,,因此 JOIN 的流程也基本在 optimize() 中确定。
JOIN::exec() 与 JOIN 最相关的部分是调用 do_select() 函数执行取数据的操作。do_select() 会调用 sub_select() 函数,该调用采用递归的方法将两两相邻的表按照依赖关系进行归并,逐步得到最终的结果集。
结果集返回的操作也在 JOIN::exec() 中执行,或返回到临时表,或输入到文件,或发送到 socket。这些不是我们关注的重点,因此也一笔带过。

2. MySQL优化规则
MySQL 优化器的工作是基于规则设计的,如果规则存在缺陷,相应部分的应用也会有一些性能损失。与一些先进的大型数据库不同,MySQL 的这些性能损失可能是永久的(对固定版本而言)。因为大型数据库在执行过程中会对各种优化结果的执行情况进行统计评估以便自动改进后续的执行优化状况,而 MySQL 目前没有这些功能。因此,了解 MySQL 的优化规则,对于较好地设计 SQL 语句,提高执行效率有很大的指导意义。
下面列出 MySQL 5 在处理SELECT查询时设计的一些规则。

规则1:如果操作只涉及常表,则去除 DISTINCT 子句;否则如果只有一个表,在以下情况下会将 DISTINCT 转为 GROUP BY 查询:

GROUP BY 可以通过索引实现(不用对索引排序),ORDER BY 只需对选择出的记录集排序(该情况下,优化器会对 GROUP BY 和 ORDER BY 进行额外的优化)。
没有使用 LIMIT,所以要作全表扫描。
全表扫描发生的情况通常为以下两种:

查询中使用了 SQL_CALC_FOUND_ROWS。
使用的 ORDER BY 子句无法优化。
当 SELECT 语句包含了 LIMIT 子句(这里和后文提及 LIMIT 子句的时候,默认是没有 SQL_CALC_FOUND_ROWS 子句存在的情况)时,优化器将不使用这一优化规则,因为该情况下优化器将创建临时表放置 LIMIT 所限制的记录数,然后返回。
注:LIMIT 子句跟 DISTINCT、GROUP BY、ORDER BY等子句共存的状况比较复杂。此时使用 LIMIT 子句除了减少了发送记录过程中的耗时以外,通常不应期望有更多的速度提高。因为后面三个子句中的任一个都可能会使得不管是否存在 LIMIT 子句都要做同样多,甚至更多一点点的计算。

这里顺便介绍常表的概念。 所谓常表,包括以下类型:

一个没有记录或只有一行记录的表。
一个表的表达式受 WHERE 子句限制,表达式形式为“column = constant”,并且该 column 是该表的 PRIMARY KEY 或 UNIQUE KEY(假设该 UNIQUE 列同时被定义为 NOT NULL)。
规则2:优化器在以下情况会考虑创建临时表:

SELECT 语句中存在 DISTINCT 子句(基于准则1可以优化掉的 DISTINCT 已经优化掉了)。
对表链(table list)中第二及后面的表施加了 ORDER BY 或 GROUP BY 操作。
使用了不同的 ORDER BY 和 GROUP BY 顺序,或排序操作较为复杂。
用户希望我们缓冲结果。
使用了 LIMIT 子句。
是否要创建临时表,会在所有表都读入之前确定。

规则3:尽量将 OUTER JOIN 转换为 INNER JOIN,并尽可能地嵌套。相应地,ON 子句的条件表达式也会被移动到 WHERE 子句。
如果嵌套循环JOIN的 WHERE 子句或 ON 子句中有一个条件表达式剔除了内表中某属性为 NULL 的所有值,则 OUTER JOIN 可以替换为 INNER JOIN 。

例如,下面的查询中:
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a WHERE t2.b <5 条件 t2.b <5 剔除了 NULL 项,该查询首先被转换为:
SELECT * FROM t1 INNER JOIN t2 ON t2.a=t1.a WHERE t2.b <5 然后转换为等价形式:
SELECT * FROM t1, t2 ON t2.a=t1.a WHERE t2.b <5 AND t2.a=t1.a

类似地,下面的查询:
SELECT * FROM t1 LEFT JOIN (t2, t3) ON t2.a=t1.a t3.b=t1.b WHERE t2.c <5 转化为:
SELECT * FROM t1, (t2, t3) WHERE t2.c <5 AND t2.a=t1.a t3.b=t1.b

一个转换可能会触发另一个
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a
LEFT JOIN t3 ON t3.b=t2.b
WHERE t3 IS NOT NULL 将转换为:
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a, t3
WHERE t3 IS NOT NULL AND t3.b=t2.b 再转换为:
SELECT * FROM t1, t2, t3
WHERE t3 IS NOT NULL AND t3.b=t2.b AND t2.a=t1.a

规则4:尽量将多个等式转换连等式。

规则5:ORDER BY 操作尽量施加在结果集而不是源集上。
但在 JOIN 操作的 ON 子句中有等式或不等式(指不包括"!="在内的其他比较符号)且等式两边没有常数时,可能会先对源集进行排序,然后进行归并联接。

规则6:如果某个索引可以获取所有 SELECT 语句需要的列,则优先考虑该索引。

规则7:尽量将子查询转换为 JOIN。
大多数情况下,子查询可能需要较多的临时表存储,并且查询速度较之 JOIN 要慢得多。

规则8:在允许的情况下,对 JOIN 的各个表重排次序,提高执行的速度。
数据量较小的表可能会被放在最前面先处理,数据量较大的表会稍后处理。但如果 ON 子句明确指定了依赖关系,根据依赖关系处理,顺序不可调整。

linux

推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 推荐一个ASP的内容管理框架(ASP Nuke)的优势和适用场景
    本文推荐了一个ASP的内容管理框架ASP Nuke,并介绍了其主要功能和特点。ASP Nuke支持文章新闻管理、投票、论坛等主要内容,并可以自定义模块。最新版本为0.8,虽然目前仍处于Alpha状态,但作者表示会继续更新完善。文章还分析了使用ASP的原因,包括ASP相对较小、易于部署和较简单等优势,适用于建立门户、网站的组织和小公司等场景。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何在MySQL中将零值替换为先前的非零值的方法,包括使用内联查询和更新查询。同时还提供了选择正确值的方法。 ... [详细]
  • 在数据分析工作中,我们通常会遇到这样的问题,一个业务部门由若干业务组构成,需要筛选出每个业务组里业绩前N名的业务员。这其实是一个分组排序的 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 本文介绍了通过mysql命令查看mysql的安装路径的方法,提供了相应的sql语句,并希望对读者有参考价值。 ... [详细]
  • mysql-cluster集群sql节点高可用keepalived的故障处理过程
    本文描述了mysql-cluster集群sql节点高可用keepalived的故障处理过程,包括故障发生时间、故障描述、故障分析等内容。根据keepalived的日志分析,发现bogus VRRP packet received on eth0 !!!等错误信息,进而导致vip地址失效,使得mysql-cluster的api无法访问。针对这个问题,本文提供了相应的解决方案。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
author-avatar
手机用户2502894277
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有