分布式系统中的分库分表问题

2020-03-18 约 1090 字预计阅读 3 分钟次阅读

随着用户数的不断增加，以及数据量的不断增加，通过分库与分表的方式提高查询性能的同时，带来了一系列分布式困境。

数据迁移与扩容问题

水平分表策略归纳总结为随机分表和连续分表两种情况。

连续分表的操作比较容易，不需要考虑迁移旧的数据，只需要添加分表就可以自动扩容。但有可能存在数据热点的问题，有些表可能会被频繁地查询从而造成较大压力，热数据的表就成为了整个库的瓶颈，而有些表可能存的是历史数据，很少需要被查询到。

随机分表的数据比较均匀，不容易出现热点和并发访问的瓶颈。但是，扩容时需要迁移旧的数据。对于数据迁移的问题，一般做法是通过程序先读出数据，然后按照指定的分表策略再将数据写入到各个分表中。

针对于水平分表的设计至关重要，需要评估中短期内业务的增长速度，对当前的数据量进行容量规划，综合成本因素，推算出大概需要多少分片。

在单库单表的情况下，联合查询非常容易。但是，随着分库与分表的演变，联合查询就遇到跨库关联和跨表关联问题。在设计之初就应该尽量避免联合查询，可以通过在程序中进行拼装，或者通过反范式化设计进行规避。

一般情况下，列表分页时需要按照指定字段进行排序。在单库单表的情况下，分页和排序也是非常容易的。但是，随着分库与分表的演变，也会遇到跨库排序和跨表排序问题。

为了最终结果的准确性，需要在不同的分表中将数据进行排序并返回，并将不同分表返回的结果集进行汇总和再次排序，最后再返回给用户。

随着分库与分表的演变，一定会遇到分布式事务问题，那么如何保证数据的一致性就成为一个必须面对的问题。目前，分布式事务并没有很好的解决方案，难以满足数据强一致性，一般情况下，使存储数据尽可能达到用户一致，保证系统经过一段较短的时间的自我恢复和修正，达到数据最终一致性。

在单库单表的情况下，直接使用数据库自增特性来生成主键ID，这样确实比较简单。在分库分表的环境中，数据分布在不同的分表上，不能再借助数据库自增长特性。需要使用全局唯一 ID，例如 UUID、GUID等。关于如何选择合适的全局唯一 ID，目前有多种实现方案和框架可以选择。

分库与分表主要用于应对当前互联网常见的两个场景：高并发和海量数据。然而，分库与分表是一把双刃剑，虽然很好的应对海量数据和高并发对数据库的冲击和压力，但是却提高了系统的复杂度和维护成本。

因此，大佬建议：结合实际需求，不宜过度设计，在项目一开始不采用分库与分表设计，而是随着业务的增长，在无法继续优化的情况下，再考虑分库与分表提高系统的性能。