如何用正则表达式从多语言产品描述中提取规格名与对应值

阿华AIGC实验室

2026-5-21

从多语言产品描述中提取规格名与值（无需复杂正则）

嘿，我完全懂你不想跟正则表达式死磕的心情，尤其是还要处理多语言的产品规格提取。这里有几个实用的思路，不用深钻正则也能搞定你的需求：

1. 基于固定分隔符的拆分（适合格式规范的文本）

像你给出的例子，所有规格都是「规格名：规格值」的统一格式，这种情况直接按分隔符拆分就好，完全不用正则。拿Python举个例子：

# 你的产品描述文本
product_text = "品牌名称：Lenovo，型号：IdeaPad 320，尺寸：15.6''，CPU：Intel Core i3 - U，操作系统：Free Dos，容量：500GB，GPU：Intel，内存大小：4GB，分辨率：1366x768，光驱：DVD-RW (Dual Layer)，颜色：红色，连接端口：HDMI、USB 3.0、USB Type-C，功能特性：HDD 5400RPM、Intel Skylake Processor、全尺寸键盘、蓝牙，保修期限：1年。"

specs_dict = {}
# 先按中文逗号拆分每个独立的规格项
for item in product_text.split('，'):
    # 只拆分一次冒号（避免值里出现冒号导致错误）
    if '：' in item:
        spec_name, spec_value = item.split('：', 1)
        # 去掉前后多余空格
        specs_dict[spec_name.strip()] = spec_value.strip()

# 输出结果
for name, value in specs_dict.items():
    print(f"{name}: {value}")

这个方法的优点是简单直接，不管是中文、英文还是其他语言，只要规格项的分隔符（比如冒号、逗号）统一，就能轻松提取。

2. 多语言关键词匹配法（应对格式不统一的文本）

如果遇到格式混乱的文本，比如有的写「Brand: Lenovo」，有的写「品牌：联想」，可以先预设一批多语言的规格关键词，然后通过字符串查找来匹配对应的值。比如：

# 多语言规格关键词映射，把不同语言的同一规格归为一类
keyword_groups = {
    "品牌": ["品牌名称", "Brand", "Marca", "Marke"],
    "型号": ["型号", "Model", "Modèle", "Modelo"],
    "尺寸": ["尺寸", "Screen Size", "Taille d'écran"],
    # 其他规格可以继续补充...
}

# 示例：从混合语言文本中提取
mixed_text = "Brand: Lenovo, 型号：IdeaPad 320, Screen Size: 15.6''"
extracted_specs = {}

for standard_name, keywords in keyword_groups.items():
    for keyword in keywords:
        if keyword in mixed_text:
            # 找到关键词的位置，截取后面的值直到下一个分隔符
            start_idx = mixed_text.find(keyword) + len(keyword) + 1  # +1跳过冒号/空格
            end_idx = mixed_text.find(',', start_idx)
            if end_idx == -1:
                end_idx = len(mixed_text)
            spec_value = mixed_text[start_idx:end_idx].strip()
            extracted_specs[standard_name] = spec_value
            break  # 找到一个匹配的关键词就停止，避免重复

print(extracted_specs)

这种方法灵活性很高，能覆盖多语言场景，只要你把业务中常见的规格关键词都整理进去就行。