MySQL 基础（二）

锁

锁是协调多线程并发访问某一资源的机制。
锁机制可以保证数据并发访问的安全性，但是也会导致数据库的并发性能下降。

锁的分类

写锁（排他锁）：一次只能加一个写锁，一旦加了写锁无法再加其他锁。
读锁（共享锁）：可以多次加读锁，一旦加了读锁无法再加写锁。
乐观锁：
- 假设出现并发写资源的概率较低。
- 全程不加锁，只有提交数据时，才会判断是否违反数据完整性。
- 实现方式：对数据加版本号，写入时把之前读取的版本号作为条件同时对版本号加 1，执行后检查影响行数。
- 如果读取后版本号发生过变更，那么将会出现写入失败。
悲观锁：假设并发读写资源的概率较高，读写锁属于悲观锁。

锁的粒度

全局锁：对整个数据库加锁，阻塞所有写操作，用于数据库备份等维护操作。
表锁：粒度大，加锁快，不会出现死锁，并发性差。
行锁：粒度小，加锁慢，会出现死锁，并发性好，包括：
- 记录锁，锁一行记录。
- 间隙锁，锁一段范围，不包括记录本身，用于防止范围内插入新记录。

死锁

死锁是指两个或多个事务在同一资源上相互占用，并请求锁定对方的资源，从而导致恶性循环的现象。

日志

慢查询日志

记录执行时间超过阈值的 SQL 语句。
默认关闭，可以通过设置参数 slow_query_log 临时开启。
默认阈值是 10s。
可以用自带的 mysqldumpslow 命令分析日志。

二进制日志（Binlog）

记录对数据进行修改的操作日志，用于数据恢复和主从复制。
默认关闭，需要修改配置开启。
格式：
- Statement：记录写数据的原始 sql，当有函数时可能出现不一致。
- Row：记录修改的数据，日志量较大。
- Mixed：混合模式，根据执行的 SQL 语句选择日志记录方式。

重放日志（Redolog）

记录对数据页物理改动的日志。
用于数据库崩溃后的数据恢复，确保事务的持久性。
与Binlog差别：
- Binlog 是逻辑日志，效率低，理论上无限大.
- Redolog 是物理日志，效率高，循环写.

回滚日志（Undolog）

记录用于回滚的日志。
对于插入，只记录主键，回滚时删除则可。
对于删除和修改，除了原记录外还记录用于 MVCC 的字段。
事务在快照读时，会生成一个读视图，基于回滚日志生成。

查询优化

减少 select 中的字段数量，避免使用复杂查询。
使用索引。
优化表结构，避免可空类型，合理设置数据类型和长度。
使用分区表。
分析执行计划，在 sql 前加 explain，输出信息中：
- type 列，从快到慢分别为：
- system：系统表，不需要磁盘 IO
- const：常量，固定值
- eq_ref：主键或唯一索引，返回结果最多只有一行
- ref：非唯一索引，返回结果可能有多一行
- range：索引范围扫描
- index：索引全扫描
- ALL：全表扫描
- key 列为使用的索引。
- extra 列，包含以下信息时可能索引失效，需要优化
- Using filesort：无法利用索引排序，使用文件排序
- Using temporary：使用了临时表，效率较差。
- Using index：使用了覆盖索引，效率较高。
- rows 列表示找到记录需要读取的行数，越少越好。

分区

表分区用于将表数据分成多个文件存储。
只能水平拆分（按行），不能垂直拆分。

表的文件结构

InnoDB，一张表存储为2个文件：表结构，表数据和索引。
MyISAM，一张表存储为3个文件：表结构，表数据，表索引。

分区好处

提升查询性能，只扫描特定分区，而不是全表。
易于管理和维护，可以只处理特定分区的文件。
更好的数据安全性和可用性，不同分区存储在不同的设备上，如将热数据放在高速存储上。

分区缺点

增加复杂性，需要设计合理的分区策略。
索引效率下降，跨分区查询效率降低。

分区表限制

无法使用外键约束。
分区数量有限，5.6.7 之后最多8192 个分区。
分区键必须是主键或唯一索引的部分或全部字段。

分区类型

RANGE：按范围分区。
LIST：按离散值分区。
HASH：按哈希值分区，分区键必须是整数。
KEY：类似按哈希值分区，分区键支持除 BLOB 和 TEXT 外的类型。

常见场景：按日期字段的年份分区：

create table tbl(
  id int not null,
  content varchar(255),
  created_at timestamp not null
) partition by range (year(created_at)) (
partition p0 values less than (2023),
partition p1 values less than (2024),
partition p2 values less than MAXvalue
);

分库分表

垂直分表

定义：将一张表按列拆分到多张表中。
何时需要垂直分表：表字段过多影响读写效率，将冷热字段拆分到不同表中。
带来的问题：
- 跨表查询复杂，需要表连接。
- 修改多张表时需要用事务保证原子性。
- 增加维护成本。

水平分表

定义：将一张表的数据按行拆分到多张表中。

何时需要水平分表

单表数据量超过 1KW 时，B+树可能超过3层导致查询时IO次数过多性能下降。
一般，单表数据量超过500W 需要考虑分表。
如果预估数据量会超过500W，可以提前规划分表。

如何选择分表键

原则：数据均匀分布，避免触发全表扫描。
查询条件尽可能利用分表键过滤。
根据业务，如按时间、地区、用户ID等。

非分表键如何查询

数据冗余到 ES 查询，推荐做法。
遍历所有表。

分表策略（类似分区策略）

范围：有利于扩容，可能存在分布不均问题。
哈希取模：扩容麻烦，分布较均匀。
一致性哈希：用哈希环，避免扩容时大量数据迁移。
范围+哈希取模：结合两种策略。

分布式 ID

分表后不能依赖表自增ID会重复，需使用分布式ID保证唯一性。
雪花算法：
- 将64位整数分成三部分：时间、机器、序列号。
- 第 1位符号位，不用。
- 41 位时间戳，表示毫秒级的时间，最多表示69年，需要约定开始时间。
- 10 位机器 ID，可以部署 1024 个节点。
- 12 位序列号，同一毫秒内最多生成 4096 个 ID。

不停服拆表

加数据库访问代理层，通过配置开关决定访问新旧 DAO。
读旧表，双写，新增和修改在新旧表都执行。
通过脚本进行数据迁移。
读新表，仍然维持双写
稳定运行一段时间后再停写旧表。

分表中间件

简化开发。
如 Sharding-JDBC、go-orm/sharding。

分库

定义：将一个库的数据拆分到多个库中。

何时需要分库

单库数据量超过 5KW 时，需要拆分。

跨库表连接问题解决

字段冗余，避免连接。
全局表，所有库都保存一份。
应用层组装。

跨库事务问题解决

使用分布式事务。
如2PC、3PC、TCC、SAGA 等。

集群架构

集群作用

提高可用性，避免单点故障。
提高性能，分摊计算压力。

主从复制

主从复制是实现集群的基础。
同步复制：主库必须等待从库复制完成才能返回写入成功。
异步复制：主库不需要等待，只负责写入，从库负责复制。
半同步复制：主库等待至少一个从库复制完成，再返回成功。
并行复制：从库多线程处理数据同步，降低复制延迟。

集群模式

一主多从

读写分离，读负载均衡。
使用MHA（Master High Availablity），可以实现主库的故障切换。

级联复制

部分从库不连接主节点，而是连接从节点复制。
用于避免主从复制增加主节点负载。

双主复制

互为主从，相互复制。
复杂容易出现不一致，不建议使用。

多主一从

用于多源复制，即汇总多个不同库的数据到一个库中。
垂直或水平分库之后，可能使用此模式。

主从复制实现原理

主库开启 binlog。
从库两个线程，一个 IO 线程，一个 SQL 线程。
IO 线程请求主库 binlog，写入relay log（中继日志）。
SQL 线程读取 relay log，回放写入操作。
主库通过 log dump 线程，给从库传 binlog。

MySQL 基础（二）

TTS

MySQL 基础（二）

锁

锁的分类

锁的粒度

死锁

日志

慢查询日志

二进制日志（Binlog）

重放日志（Redolog）

回滚日志（Undolog）

查询优化

分区

表的文件结构

分区好处

分区缺点

分区表限制

分区类型

分库分表

垂直分表

水平分表

何时需要水平分表

如何选择分表键

非分表键如何查询

分表策略（类似分区策略）

分布式 ID

不停服拆表

分表中间件

分库

何时需要分库

跨库表连接问题解决

跨库事务问题解决

集群架构

集群作用

主从复制

集群模式

一主多从

级联复制

双主复制

多主一从

主从复制实现原理