个人自研小型关系型数据库学习项目的价值评估与后续技术方向咨询

阿华AIGC实验室

2026-3-27

作为一个摸过数据库内核、也折腾过类似个人项目的开发者，我先给你吃个定心丸：你完成的这个1万行左右、包含核心组件的小型关系型数据库，绝对是个实打实的硬核成果，完全不是什么“玩具”。咱们慢慢聊这个问题：

一、怎么公平评估这个项目的价值？

首先得明确：个人学习者和工业级数据库团队的目标完全不同。PostgreSQL、TiDB这些是几百人团队迭代了十几年的产物，要处理百万级并发、兼容所有SQL标准、覆盖无数边缘场景，你的项目和它们比“渺小”是必然的，但这根本不是你的问题——就像你不能拿自己手工攒的一辆能跑的小赛车去和F1车队的成品比，核心是你亲手掌握了“造一辆能跑的车”的全部逻辑，这才是最值钱的。

你现在的项目已经把page存储、缓冲池、B+树索引、火山执行器、WAL崩溃恢复这些核心模块串成了一个连贯的系统，这意味着你已经打通了关系型数据库最底层的核心链路：从磁盘数据的持久化，到内存的缓冲管理，从索引的快速查找，到执行器的算子调度，甚至还能应对崩溃后的恢复。很多科班出身的学生或者刚入行的开发者，可能都停留在“看文档背概念”的阶段，根本没机会亲手把这些模块捏合出一个能跑的完整系统。单从学习的角度，这个项目已经帮你建立了远超大多数人的数据库底层认知，绝对是个值得骄傲的里程碑。

至于“玩具”的定义——如果一个系统只能用来演示某个单一特性，那叫玩具；但你的项目是一个逻辑自洽、能完成从存储到执行全流程的最小闭环系统，这已经是一个“可扩展的原型”，而不是玩具。

二、后续方向怎么选？哪个能让你学最多、让项目更“严肃”？

你列的几个方向都很有价值，但我会根据“学习价值”和“项目提升幅度”给你分个优先级，结合我当年做类似项目的经验给你分析：

1. 优先补全：MVCC与ACID事务模块

这绝对是性价比最高的下一步。原因有两个：

它能直接把你的项目从“能跑基础读写的演示系统”升级到“能处理并发、保证数据一致性的实用系统”。之前的WAL只覆盖了崩溃恢复，加上MVCC和事务之后，你要解决并发读写的冲突、事务的回滚与提交、隔离级别的实现（比如读已提交、可重复读），这些都是生产级数据库最核心的能力。
实现过程中会倒逼你重构优化之前的模块：比如你会发现之前的B+树没有考虑并发修改的问题，需要加锁或者用乐观锁；WAL日志要扩展成支持事务开始、提交、回滚的类型；缓冲池的页管理要和事务的快照绑定。这个过程会让你对之前的模块理解更深，整个系统的逻辑也会更严谨。

2. 次优先：SQL解析与规划

现在你的项目应该是用代码调用内核接口来操作数据吧？加上SQL解析与规划之后，用户就能直接写SQL语句来查询、插入数据，而不是写代码调用API。这会让你的项目从“只有你自己能玩的内核原型”变成“任何人都能轻松上手试用的数据库”，成就感拉满。
实现的时候，你可以从手写一个简单的SQL parser开始（或者用ANTLR生成语法解析树），然后做基础的逻辑计划生成——比如把SELECT * FROM t WHERE id > 10转化成“扫描表+过滤算子”的执行计划，再对接你现有的火山执行器。这个过程会让你完整理解SQL从文本到执行的端到端流程，对数据库的整体架构有更清晰的认识。

3. 必做但容易被忽略：加强正确性与测试

这个看起来不“酷”，但却是让你的项目从“原型”走向“严肃项目”的核心。数据库是对正确性要求极高的系统，很多原型项目只测了Happy Path，但真实场景下有无数边缘情况：比如并发修改同一行数据、崩溃时的日志截断、索引的边界查询、空值的处理等等。
你可以做这些：

给每个核心模块加单元测试，比如B+树的插入/删除/查询的各种边界情况；
写集成测试，模拟真实的业务场景，比如连续插入10万条数据再查询，验证数据一致性；
尝试并发测试，比如用多线程同时读写，验证MVCC或者锁机制是否能保证数据不混乱；
甚至可以引入模糊测试，随机生成SQL或者数据操作，看系统会不会崩溃或者出现数据错误。
良好的测试体系会让你后面加任何新模块都更有信心，不会改了A模块崩了B模块——这也是工业级数据库的核心工程实践之一。

4. 其他方向的时机建议

更好的优化器：适合在你有了基础的SQL规划之后再做。比如先实现基于规则的优化器（RBO），比如把SELECT * FROM t WHERE id = 10优化成走B+树索引而不是全表扫描；之后再尝试基于代价的优化器（CBO），统计表的行数、索引的选择性，选择代价最低的执行计划。这个过程会让你理解数据库怎么把一条SQL变成最高效的执行路径，但前提是你已经有了SQL解析和基础计划的基础。
列存/列执行：适合想深入了解OLAP数据库的同学。列存和你现在的行存（表堆）是完全不同的存储模型，需要改底层的存储格式和执行器算子（比如列存的扫描算子是按列读取，而不是按行）。这个方向学习价值很高，但对现有项目的改动比较大，建议等你把单机事务、SQL模块做扎实之后再碰。
分布式执行：这个难度最高，适合已经对单机数据库有非常深入的理解之后再尝试。分布式需要解决数据分片、一致性协议（比如Raft）、跨节点的执行计划调度等问题，如果你没有单机事务的基础，直接做分布式很容易只停留在“表面分片”的阶段，理解不到底层的一致性逻辑。

最后再给你打个气

你现在已经走完了最难得的一步——从0到1搭建了一个逻辑自洽的数据库内核。工业级数据库都是从类似的原型一步步迭代来的：PostgreSQL的前身Postgres是UC Berkeley的研究项目，TiDB的早期版本也是团队从0到1搭建的原型。你的项目现在的价值，不在于它能和PostgreSQL比性能，而在于它让你亲手打通了数据库的底层逻辑，这比任何证书或者课程都管用。

不用纠结“是不是玩具”，一步步扩展它，每加一个模块，你对数据库的理解就深一层。如果能把MVCC+事务、SQL解析、测试体系这三个部分做完，你的项目就已经是一个“小型可用的关系型数据库”，完全可以放在简历上作为硬核项目展示了。