PostgreSQL中GIN索引的两种用法：gin_trgm_ops与to

PostgreSQL中GIN索引的两种用法：gin_trgm_ops与to_tsvector的差异解析

阿华AIGC实验室

2026-5-25

嘿，我来帮你把这两种PostgreSQL GIN索引的差异掰扯清楚——虽然它们都用了GIN，但根本是为不同场景设计的，完全不是一回事儿👇

两种PostgreSQL GIN索引实现检索的核心差异

先从你的示例出发，这两个索引的底层逻辑、适用场景天差地别，咱们逐个拆解：

-- 注意：需要先启用pg_trgm扩展
CREATE EXTENSION IF NOT EXISTS pg_trgm;
CREATE INDEX users_name_idx ON users USING gin (name gin_trgm_ops);

这种方式依赖PostgreSQL的pg_trgm扩展，核心逻辑是把字符串拆成「三元组（trigram）」——比如"Alice"会被拆成" A", "Al", "li", "ic", "ce", "e "这类由3个字符组成的片段。

专门对付模糊匹配需求：比如用LIKE '%lice%'、ILIKE '%Alice%'做包含/前缀/后缀查询，或者用similarity()函数做字符串相似度打分时，这个索引能把原本全表扫描的慢查询提速N倍
完全不关心语言规则：不管是英文、中文还是乱码，都只按字符拆分，没有词干提取、停用词过滤这些操作
更适合短文本：比如用户名、商品名称这类短字符串的模糊检索

CREATE INDEX users_name_idx ON users USING gin (to_tsvector('english', name));

这是PostgreSQL原生的全文搜索方案，核心是把字符串转换成tsvector（文本向量），转换过程会做这些关键处理：

针对真正的全文搜索需求：比如用to_tsquery('english', 'run')查询所有包含run相关词汇的记录（running、ran都会被匹配到）
支持复杂查询语法：比如逻辑与（&）、逻辑或（|）、前缀匹配（:*）等高级检索
更适合长文本：比如文章内容、产品描述这类长文本的语义级检索

举个直观例子：

如果要找所有名字里包含"lice"的用户，用gin_trgm_ops索引配合SELECT * FROM users WHERE name LIKE '%lice%';效率最高
如果要找所有名字里有「跑步」相关含义的用户（比如叫"RunningMan"），用to_tsvector索引配合SELECT * FROM users WHERE to_tsvector('english', name) @@ to_tsquery('english', 'run');会更精准

内容的提问来源于stack exchange，提问作者user5182503