数据库内核入门-05 - 查询处理与优化

June 2, 2021 · 4 min read

ULis3h

Ex-ISCAS Software Engineer,

简述

这是数据库内核入门系列的第五篇文章，主要介绍数据库查询处理和优化的基本概念和实现原理。

查询处理概述

查询处理是将用户提交的高级查询语言（如SQL）转换为底层执行计划并高效执行的过程。

查询处理的主要阶段

查询解析

查询解析是将SQL语句转换为内部表示形式的过程。

词法分析

将SQL语句分解为标记（Token），如关键字、标识符、运算符等。

语法分析

根据SQL语法规则，将标记序列构建成语法树。

语义分析

检查SQL语句的语义正确性，如表和列是否存在、类型是否匹配等。

查询重写

查询重写阶段对原始查询进行等价变换，以便于后续优化。

常见的查询重写技术

视图展开：将视图定义替换为对应的查询
子查询展平：将嵌套子查询转换为连接操作
谓词下推：将过滤条件尽早应用，减少中间结果集大小
常量折叠：预先计算常量表达式

查询优化

查询优化是选择最高效执行计划的过程。

基于规则的优化

使用启发式规则进行查询转换，如：

尽早执行选择操作
将笛卡尔积转换为连接
合并连续的投影操作

基于成本的优化

根据统计信息和成本模型评估不同执行计划的代价，选择代价最小的计划。

统计信息

表的大小（行数）
列的基数（不同值的数量）
直方图（值分布）
索引信息

成本模型

CPU成本：处理每个元组的CPU时间
I/O成本：读取数据页的磁盘访问时间
网络成本：在分布式环境中传输数据的时间

查询执行

查询执行是根据执行计划实际获取和处理数据的过程。

物理操作符

表扫描：顺序读取表中的所有数据
索引扫描：通过索引定位和读取数据
嵌套循环连接：对外表的每一行，扫描内表
哈希连接：基于哈希表的连接算法
排序合并连接：先排序后合并的连接算法

执行策略

火山模型（迭代器模型）：每个操作符实现Next()接口，按需获取数据
物化模型：每个操作符一次性计算所有结果
向量化执行：批量处理多个元组，提高CPU缓存利用率

查询优化技术

连接顺序优化

在多表连接查询中，连接顺序对性能影响巨大。

优化方法

动态规划：适用于连接表数量较少的情况
贪心算法：适用于连接表数量较多的情况
遗传算法：通过模拟进化过程搜索最优连接顺序

索引选择

选择合适的索引可以显著提高查询性能。

索引选择考量

查询的选择性
索引的覆盖性（是否包含查询所需的所有列）
索引的维护成本

分区裁剪

对于分区表，可以根据查询条件跳过不需要访问的分区。

分区策略

范围分区：基于连续值范围
列表分区：基于离散值列表
哈希分区：基于哈希函数
复合分区：组合多种分区策略

查询执行引擎

并行执行

利用多核CPU或分布式环境提高查询执行效率。

并行策略

分区并行：不同处理单元处理不同的数据分区
流水线并行：不同处理单元执行查询的不同阶段
操作内并行：单个操作符内部的并行执行

自适应执行

在查询执行过程中根据实际情况动态调整执行计划。

自适应技术

运行时统计信息收集
执行计划重优化
操作符替换

下一篇预告

在下一篇文章中，我们将介绍数据库的索引技术，包括B-Tree索引、哈希索引、全文索引等不同类型的索引结构及其应用场景。

简述​

查询处理概述​

查询处理的主要阶段​

查询解析​

词法分析​

语法分析​

语义分析​

查询重写​

常见的查询重写技术​

查询优化​

基于规则的优化​

基于成本的优化​

统计信息​

成本模型​

查询执行​

物理操作符​

执行策略​

查询优化技术​

连接顺序优化​

优化方法​

索引选择​

索引选择考量​

分区裁剪​

分区策略​

查询执行引擎​

并行执行​

并行策略​

自适应执行​

自适应技术​

下一篇预告​

简述