数据库索引与主键对比测试：IO数据表结构设计咨询

阿华AIGC实验室

2026-5-20

对比「主键+索引」与「仅使用索引」的性能差异及设计合理性

Hey there! Let's break down your two table structure options clearly—since you're dealing with IO sampling data that has duplicates, this is a super common scenario in industrial/time-series data setups. First, let's clarify what each option typically entails to avoid confusion:

方案定义

「主键+索引」方案：采样数据表有一个显式的唯一主键（比如自增的SampleID），同时在(ioid, machinenum)上建立非唯一索引（适配重复数据场景）。
「仅使用索引」方案：采样数据表不设置显式主键，仅在(ioid, machinenum)上建立非唯一索引（注意：多数数据库如InnoDB会自动生成一个隐藏的6字节ROWID作为默认聚簇索引，所以你没法完全避开主键的维护）。

性能差异对比

1. 写入性能

「主键+索引」：如果用自增主键（比如INT AUTO_INCREMENT），写入时是顺序IO，数据库维护聚簇索引的开销极低。额外的(ioid, machinenum)索引会增加少量写入开销，但这是换取查询性能的必要代价。如果主键用复合结构而非自增，写入时会产生随机IO，碎片化增加，性能会明显下降——所以优先选自增单一主键。
「仅使用索引」：数据库会自动维护隐藏的ROWID聚簇索引，写入开销和自增主键方案几乎相当，但你失去了对主键的控制权。如果你的自定义索引是联合索引（比如加了时间戳），写入时的索引维护开销和方案1一致，没有明显优势。

2. 查询性能

「主键+索引」：当你按ioid和machinenum查询时，数据库会先通过二级索引找到对应的主键值，再回表查询完整数据（即聚簇索引中的记录）。如果你的查询只需要索引覆盖的字段（比如只查采样值和时间戳），可以建(ioid, machinenum, timestamp, value)的联合索引，实现覆盖索引查询，完全避免回表，性能拉满。
「仅使用索引」：查询流程和方案1类似——先通过自定义索引找到隐藏ROWID，再回表。但因为ROWID是隐藏的，你无法利用它做精准查询或关联操作，而且如果后续需要扩展查询条件（比如按时间范围过滤），联合索引的设计逻辑和方案1一致，没有性能优势。

设计合理性分析

「主键+索引」方案：更稳妥的选择

符合数据库设计规范：主键是每条记录的唯一标识，这是关系型数据库的核心设计原则。即使存在重复采样数据，主键依然能精准区分单条记录，方便后续的更新、删除或纠错操作（比如删除某条错误的采样值）。
更好的可维护性：多数ORM框架、数据分析工具都依赖主键，显式主键能让后续开发、排查问题更顺畅。
可控的碎片化：自增主键的聚簇索引是顺序组织的，数据碎片化程度低，长期运行后查询性能更稳定。

「仅使用索引」方案：不推荐的原因

没有真正减少开销：数据库会自动生成隐藏主键，你并没有避开主键的维护，只是失去了对它的控制。
操作风险高：没有显式主键时，修改或删除单条记录需要匹配所有字段，容易误操作重复数据，数据溯源也会变得困难。
兼容性问题：部分数据库或工具对无显式主键的表支持不佳，可能出现意想不到的性能或功能问题。

总结建议

优先选择**「主键+索引」**方案：

给采样表设置自增单一主键（比如SampleID INT UNSIGNED AUTO_INCREMENT PRIMARY KEY）；
根据查询需求建立联合索引，比如INDEX idx_io_machine_time (ioid, machinenum, timestamp)，既能快速定位设备点位，又能高效过滤时间范围。

内容的提问来源于stack exchange，提问作者Tacitus86