执行一条select语句，期间发生了什么？

作者: 烟花三月下扬州_2020 | 来源:发表于2025-06-10 20:08 被阅读0次

执行一条 SQL 语句，期间发生了什么？
这半年时间学Mysql的总结
1 of ORDER BY clause is not in G
explain的属性详解与提速百倍的优化示例
除非另外还指定了 TOP 或 FOR XML，否则，ORDER
python day26_mysql数据库
mysql中视图事务索引与权限管理
一条select语句，Mysql的执行过程
执行update语句，用没用到索引，区别大吗？
为什么我的SQL语句使用了索引，但还是会记录到慢查询中？

执行一条 `SELECT` 语句是一个涉及数据库管理系统多个层次协同工作的复杂过程。以下是其核心步骤的详细分解（以关系型数据库如 MySQL, PostgreSQL, Oracle 等为例）：

1. **建立连接与接收请求 (Connection & Request Handling):**

* 客户端应用程序（如你的程序、数据库管理工具）通过特定的数据库驱动（如 JDBC, ODBC, Python DB-API）与数据库服务器建立网络连接。

* 连接通常经过认证（用户名/密码）和授权（检查是否有执行该查询的权限）。

* 客户端将 `SELECT` SQL 语句通过网络发送给数据库服务器的**连接处理器**。

2. **解析 (Parsing):**

* **语法解析：** **解析器** 接收 SQL 字符串。它检查语句的**语法**是否正确（例如，关键字拼写、括号匹配、子句顺序）。任何语法错误（如 `SELEC * FROM users;`）会在此阶段抛出。

* **语义解析：** 解析器检查语句的**语义**是否有效。这包括：

* 验证提到的**表名**和**视图名**是否存在于当前数据库或指定的 Schema 中。

* 验证提到的**列名**是否存在于对应的表或视图中。

* 检查数据类型兼容性（例如，尝试用字符串比较数值列）。

* 验证用户对涉及的表和列是否有足够的**访问权限** (`SELECT` 权限)。

* 如果语义检查失败（如表不存在或权限不足），错误会在此阶段抛出。

* 输出：解析器生成一个**解析树**。这是一个内部数据结构，以树状形式精确地表示查询的结构（哪些表、哪些列、过滤条件、连接关系、分组、排序等）。

3. **查询优化 (Query Optimization) - 关键且复杂的一步:**

* 解析树被传递给**查询优化器**。这是数据库的“大脑”，负责找出执行查询的**最高效**方式（通常是耗时最短或资源消耗最少）。

* **逻辑优化：**

* 优化器分析解析树，应用一系列**重写规则**来生成语义等价但可能执行更高效的逻辑查询计划。

* 例如：简化条件（`WHERE 1=1` -> 移除）、常量表达式计算（`WHERE price > 10+5` -> `WHERE price > 15`）、视图展开、子查询转换（尝试将相关子查询转换为连接）、谓词下推（尽早过滤数据）、去除不必要的 DISTINCT 或 GROUP BY 等。

* **物理优化 / 计划生成：**

* 优化器考虑所有可能的**物理执行路径**来完成查询。

* **核心任务：选择访问路径和连接顺序/算法。**

* **访问路径选择：** 对于每个表，决定如何读取数据。主要选项：

* **全表扫描：** 顺序读取表中所有数据页。当没有索引可用、查询需要大部分数据或索引选择性差时使用。

* **索引扫描：** 使用索引查找满足条件的行。有多种类型：

* **索引范围扫描：** 使用索引查找某个范围内的行（`WHERE id BETWEEN 10 AND 20`）。

* **索引唯一扫描：** 使用唯一索引或主键查找单行（`WHERE id = 42`）。

* **全索引扫描：** 顺序读取整个索引（当索引包含所有需要的列时，可能避免读表）。

* **索引跳跃扫描：** 某些数据库支持，用于复合索引的非前导列条件。

* **连接顺序与算法选择：** 对于涉及多个表的连接查询，优化器需要决定：

* 表的连接**顺序**（哪个表作为驱动表？）。

* 每个连接使用的**算法**：

* **嵌套循环连接：** 适合小数据集驱动大数据集，或有高效索引支持内表查找时。

* **哈希连接：** 通常适合中等或大数据集的等值连接。为驱动表建哈希表，探测另一表。

* **排序合并连接：** 适合大数据集的非等值连接（如范围连接）。先对两表按连接键排序，然后合并。

* **成本估算：** 优化器使用**统计信息**（存储在系统目录中）来估算每个可能的执行计划的“成本”。

* 统计信息包括：表的总行数、每个列的数值分布（直方图）、不同值的数量（基数）、索引的层级和大小、数据页数量等。

* 成本模型通常基于估算的 I/O 次数（读取磁盘页）、CPU 使用量（比较、计算、排序）、内存使用量、网络传输量（分布式数据库）等因素。

* **选择计划：** 优化器比较所有可行计划的估算成本，选择它认为**成本最低**的那个执行计划。

* 输出：生成一个**最优（或接近最优）的执行计划**。这是一个详细的、分步的操作指令序列，指定了如何访问表、使用哪些索引、如何连接、如何排序分组、如何应用过滤条件等。计划通常表示为**执行计划树**。

4. **查询执行 (Query Execution):**

* **查询执行引擎**接收到优化器生成的执行计划。

* 引擎充当“执行者”，按照计划树的步骤协调工作：

* 调用**存储引擎** API 来访问实际存储在磁盘（或内存）上的数据。

* 管理内存结构（如排序区、哈希表、连接缓冲区）。

* 执行具体的操作：

* 从存储引擎获取数据行（通过全表扫描或索引扫描）。

* 应用 `WHERE` 子句中的过滤条件。

* 执行 `JOIN` 操作（使用选定的算法：嵌套循环、哈希、排序合并）。

* 执行 `GROUP BY` 分组和聚合函数计算（`SUM`, `COUNT`, `AVG`, `MAX`, `MIN`）。这通常涉及排序或哈希。

* 执行 `HAVING` 子句对分组结果进行过滤。

* 执行 `ORDER BY` 子句对最终结果集进行排序（如果未通过索引或分组自然获得顺序）。

* 应用 `DISTINCT` 消除重复行（通常通过排序或哈希实现）。

* 处理 `LIMIT`/`OFFSET` 或 `TOP` 子句，限制返回的行数。

* 计算表达式和函数调用。

* **关键交互：** 执行引擎与**存储引擎**紧密合作：

* 存储引擎负责底层数据的存储（表空间、数据文件）、检索（通过扫描或索引）、缓存管理（Buffer Pool）、事务支持（ACID）、锁管理（确保并发一致性）、日志记录（Write-Ahead Logging - WAL）等。

* 执行引擎告诉存储引擎“读什么”（如“读取 users 表 id 索引中范围 10-20 对应的行”），存储引擎负责高效地找到并返回这些数据页/行。

* **事务与锁：**

* 在执行过程中，数据库会根据事务隔离级别（如 Read Committed, Repeatable Read）获取必要的**锁**（如行锁、页锁、表锁），以防止脏读、不可重复读、幻读等问题，确保数据一致性。

* 如果查询涉及写操作（如 `SELECT ... FOR UPDATE`），还会获取写锁。

* **资源管理：** 引擎管理内存使用（避免溢出到磁盘），并在必要时将中间结果写入临时磁盘空间。

5. **结果返回 (Result Set Return):**

* 一旦执行引擎处理完所有数据并准备好最终结果集：

* 结果集通常缓存在数据库服务器的内存缓冲区中。

* 结果集通过网络连接逐步发送回客户端。

* 客户端驱动接收数据流，并将其转换为客户端程序可用的数据结构（如 Java 中的 `ResultSet` 对象、Python 中的元组列表）。

* 客户端可以逐行（游标）或批量获取结果。

* 当结果集完全发送或客户端关闭结果集/连接时，与该查询相关的服务器端资源（如临时表、游标、部分锁）会被释放。数据库连接本身可能保持打开以供后续查询使用。

**总结关键组件协作：**

1. **连接处理器：** 接收请求。

2. **解析器：** 检查语法语义，生成解析树。

3. **优化器：** 基于统计信息和成本模型，生成最佳执行计划。

4. **执行引擎：** 协调执行计划，调用存储引擎。

5. **存储引擎：** 实际读写磁盘数据，管理缓存、事务和锁。

6. **系统目录：** 提供元数据（表结构、索引、统计信息）。

7. **客户端驱动：** 建立连接、发送查询、接收结果。

理解这个过程对于编写高效 SQL、分析查询性能（使用 `EXPLAIN` 查看执行计划）、设计数据库模式和索引至关重要。不同数据库的具体实现细节（如优化器策略、存储引擎架构）会有差异，但核心流程是相似的。

网友评论

本文标题：执行一条select语句，期间发生了什么？

本文链接：https://www.haomeiwen.com/subject/rfndwjtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

执行一条select语句，期间发生了什么？

相关文章

执行一条 SQL 语句，期间发生了什么？

这半年时间学Mysql的总结

1 of ORDER BY clause is not in G

explain的属性详解与提速百倍的优化示例

除非另外还指定了 TOP 或 FOR XML，否则，ORDER

python day26_mysql数据库

mysql中视图事务索引与权限管理

一条select语句，Mysql的执行过程

执行update语句，用没用到索引，区别大吗？

为什么我的SQL语句使用了索引，但还是会记录到慢查询中？

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读