PostgreSQL格鲁吉亚语全文搜索配置问题：获取、应用及自定义配置故障排查

阿华AIGC实验室

2026-4-22

一、格鲁吉亚语文本搜索配置的获取与基础思路

首先，PostgreSQL默认支持的语言确实有限，要实现格鲁吉亚语的全文搜索，核心是找到对应语言的拼写/词干词典，常用的就是Hunspell/Ispell或者Snowball词典，你通过搜索找到格鲁吉亚语的Hunspell词典（ka_GE.dic和ka_GE.aff）是完全正确的方向。

这些词典文件一般可以从开源的语言本地化项目或者Hunspell官方的词典仓库获取，拿到后需要放到PostgreSQL的共享词典目录里，你可以用这条SQL找到目录路径：

SELECT current_setting('sharedir') || '/tsearch_data/' AS dictionary_directory;

把下载好的.dic和.aff文件放到这个目录，还要确保PostgreSQL进程有读取权限。

二、你当前遇到的解析器问题排查与解决

你说用ts_debug测试时，格鲁吉亚语单词ვაშლი被识别成了blank（空白符号），这问题很明确：PostgreSQL的默认解析器default是基于ASCII和常见欧洲语言字符设计的，它不认识格鲁吉亚语的非拉丁字母，所以把这些字符当成了无法识别的空白/特殊符号，自然没法按单词处理。

不用慌，不需要从头写自定义解析器，有两种更简单的解决方式：

方法1：调整数据库的LC_CTYPE locale（优先推荐）

PostgreSQL的默认解析器是依赖系统的LC_CTYPE设置来识别字符类型的，如果你的系统安装了格鲁吉亚语的locale，直接调整数据库的字符分类规则即可：

先检查系统是否有格鲁吉亚语locale：在服务器终端执行locale -a，看看有没有ka_GE.UTF-8这个选项。如果没有，先安装它（比如Ubuntu上执行sudo locale-gen ka_GE.UTF-8，CentOS/RHEL上用sudo localedef -i ka_GE -f UTF-8 ka_GE.UTF-8）。
修改数据库的LC_CTYPE：如果是新建数据库，创建时指定：
```
CREATE DATABASE your_db_name WITH LC_CTYPE='ka_GE.UTF-8' LC_COLLATE='ka_GE.UTF-8' ENCODING='UTF8';
```
如果是现有数据库，需要先备份，然后修改postgresql.conf里的lc_ctype和lc_collate参数，重启PostgreSQL服务。
重新测试：设置完成后再执行ts_debug，应该就能把ვაშლი识别为word类型的token了，你的Hunspell字典也能正常处理它。

方法2：自定义解析器的字符分类（适用于无法修改locale的场景）

如果没法调整系统或数据库的locale，你可以创建一个自定义解析器，把格鲁吉亚语的Unicode字符范围（U+10A0到U+10FF）标记为字母：

CREATE TEXT SEARCH PARSER georgian_parser (
    START = prsd_start,
    GETTOKEN = prsd_nexttoken,
    END = prsd_end,
    LEXTYPES = prsd_lextype,
    HEADLINE = prsd_headline,
    CHARMAP = (
        '0' = 'blank',
        'a-z,A-Z' = 'alpha',
        '0-9' = 'digit',
        '\u10A0-\u10FF' = 'alpha', -- 加入格鲁吉亚语字符范围
        '_' = 'blank',
        '.' = 'blank',
        ',' = 'blank'
    )
);

然后用这个自定义解析器创建你的文本搜索配置：

CREATE TEXT SEARCH CONFIGURATION georgian_hunspell_configuration (parser = georgian_parser);
ALTER TEXT SEARCH CONFIGURATION georgian_hunspell_configuration
ALTER MAPPING FOR asciiword, asciihword, hword_asciipart, word, hword, hword_part
WITH georgian_hunspell;

这样解析器就能正确识别格鲁吉亚语单词了。

三、验证配置是否生效

完成上述步骤后，你可以用以下命令验证：

检查token识别：
```
select * from ts_debug('georgian_hunspell_configuration', 'ვაშლი');
```
正常情况下会显示word类型的token，词典也会输出对应的词干。

测试全文搜索：

-- 创建测试表并插入数据
CREATE TABLE test_geo (id serial, content text);
INSERT INTO test_geo (content) VALUES ('ვაშლი არის სუფرة');

-- 生成tsvector并搜索
SELECT * FROM test_geo 
WHERE to_tsvector('georgian_hunspell_configuration', content) 
@@ to_tsquery('georgian_hunspell_configuration', 'ვაშლი');

应该能正确返回匹配的行。