Mysql 索引详解

原创已于 2025-02-24 11:27:20 修改 · 1k 阅读

28 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#mysql #数据库

于 2025-02-14 17:50:39 首次发布

Mysql 专栏收录该内容

10 篇文章

订阅专栏

MySQL的索引是提高查询性能的关键，它通过一种高效的数据结构帮助快速定位数据行。了解MySQL索引的底层原理，有助于更好地设计数据库，优化查询性能。下面详细解析MySQL常见的索引类型、底层数据结构以及它们是如何工作的。

1. B-Tree 索引（B+Tree）

B-Tree（B+Tree）索引是 MySQL 默认的索引类型，特别适用于范围查询（如 BETWEEN、>、<、IN）和等值查询（如 =）。

1.1 创建 B-Tree 索引

首先，假设有一个 employees 表，结构如下：

CREATE TABLE employees (
    id INT PRIMARY KEY,       -- 主键索引（聚簇索引）
    name VARCHAR(100),
    department VARCHAR(100),
    salary INT
);

你可以创建一个普通的 B-Tree 索引：

CREATE INDEX idx_department ON employees(department);

这个索引会将 department 列的值按顺序排列，帮助加速通过 department 查找数据的速度。

1.2 B-Tree 索引底层实现

假设我们有以下数据：

id	name	department	salary
1	Alice	HR	50000
2	Bob	IT	60000
3	Charlie	HR	55000
4	David	IT	70000
5	Eve	Finance	80000

创建 idx_department 索引后，B+Tree 可能长这样：

                  [ Finance | HR | IT ]
                   /          |        \
      [Finance]     [HR]     [IT]    (NULL)

B+Tree 的每个节点都包含了多个键（如 Finance、HR 和 IT）。
叶子节点存储了对应的数据行（或者是数据行的指针）。
当查询 SELECT * FROM employees WHERE department = 'HR'; 时，MySQL 通过索引找到 HR，然后返回对应的行数据。

1.3 B-Tree 索引的查询

如果查询条件是一个范围查询，比如 SELECT * FROM employees WHERE salary BETWEEN 50000 AND 70000;，B+Tree 索引会非常高效地定位到范围内的所有数据，而不需要扫描全表。

2. 哈希索引

2.1 哈希索引简介

哈希索引适用于快速的等值查询（=），但是不支持范围查询。它通过哈希函数将键值转换为一个哈希值，然后直接定位到数据。

假设我们有以下数据表：

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    email VARCHAR(100)
);

我们可以创建一个哈希索引（通常只在 MEMORY 存储引擎下使用）：

CREATE INDEX idx_email ON users(email) USING HASH;

2.2 哈希索引底层实现

哈希索引的底层实现是通过哈希函数来映射键值。假设 email 列包含以下数据：

id	name	email
1	Alice	alice@mail.com
2	Bob	bob@mail.com
3	Carol	carol@mail.com

哈希索引的结构可能会像这样：

哈希值: hash('alice@mail.com') -> id: 1
哈希值: hash('bob@mail.com') -> id: 2
哈希值: hash('carol@mail.com') -> id: 3

当我们执行查询 SELECT * FROM users WHERE email = 'alice@mail.com'; 时，哈希索引直接通过哈希函数得到该值，快速定位到 Alice 的记录。

2.3 哈希索引的限制

哈希索引 只支持等值查询，因此无法支持范围查询。
如果查询是 SELECT * FROM users WHERE email LIKE '%@mail.com';，哈希索引就无法加速查询了。

3. 全文索引（Full-Text Index）

3.1 全文索引简介

全文索引适用于大文本字段（如 TEXT 类型），用于支持文本内容的搜索，通常用于搜索引擎功能。它通过倒排索引来提高搜索速度，特别适合像 MATCH...AGAINST 这样的查询。

假设我们有一个文章表：

CREATE TABLE articles (
    id INT PRIMARY KEY,
    title VARCHAR(255),
    content TEXT,
    FULLTEXT(title, content) -- 创建全文索引
);

3.2 全文索引底层实现

当创建全文索引时，MySQL 会对 title 和 content 字段进行词项拆分，构建倒排索引。倒排索引的基本思想是将每个单词作为索引项，然后记录该单词在哪些文档中出现过。

例如，假设我们有如下数据：

id	title	content
1	MySQL Basics	This is an introduction to MySQL.
2	Advanced MySQL	Learn advanced techniques in MySQL.

MySQL 会为每个单词建立倒排索引：

Word	Document ID (Positions)
MySQL	[1, 2]
introduction	[1]
basics	[1]
learn	[2]
advanced	[2]
techniques	[2]

3.3 全文索引查询

假设你想搜索包含单词 MySQL 和 advanced 的文章，可以使用如下查询：

SELECT * FROM articles WHERE MATCH(title, content) AGAINST('MySQL advanced');

这个查询会通过全文索引快速定位到包含这些词汇的文章，返回相关文档。

3.4 全文索引的局限性

适用于 TEXT 类型字段，不适合小字段（如 VARCHAR）。
仅支持 MATCH...AGAINST 查询，而不能直接用于 WHERE 子句的普通比较。

4. 空间索引（Spatial Index）

4.1 空间索引简介

空间索引是 MySQL 用于处理空间数据（如地理位置数据）的索引。它支持 GEOMETRY 类型的数据，并使用 R-Tree 数据结构来存储空间数据。

假设我们有一个 locations 表，存储用户位置数据：

CREATE TABLE locations (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    coordinates POINT,
    SPATIAL INDEX(coordinates)
);

4.2 空间索引底层实现

空间索引通过 R-Tree 数据结构将二维空间数据存储在树形结构中。每个节点包含一个矩形区域（bounding box），存储空间数据的范围。R-Tree 索引能够高效地查询位置数据，如判断一个点是否在某个区域内。

4.3 空间索引查询

假设我们要查询位置在特定范围内的用户，可以使用以下查询：

SELECT * FROM locations
WHERE ST_Contains(ST_GeomFromText('POLYGON((...))'), coordinates);

这将使用 R-Tree 索引来快速判断位置是否在给定的多边形内。

总结

通过这些例子，你可以看到 MySQL 的不同索引类型如何在底层实现中优化查询：

B-Tree 索引：适用于范围查询和等值查询，采用 B+Tree 数据结构，广泛用于默认的索引。
哈希索引：适用于等值查询，底层通过哈希表实现，不支持范围查询。
全文索引：专门用于文本搜索，采用倒排索引，支持复杂的文本匹配。
空间索引：用于存储和查询空间数据（如地理位置），采用 R-Tree 数据结构。

每种索引类型的选择都应该根据具体的查询需求来决定，理解它们的底层实现有助于优化数据库性能。