构建语言模型用字符级BPE算法：训练语料形式的技术咨询

阿华AIGC实验室

2026-4-27

关于字符级BPE训练语料形式的正确选择

首先给你明确结论：保留清洗后的完整文本序列（包括处理后的空格）是最优选择，下面拆解你的几个疑问：

1. 直接使用维基百科的整行清洗文本？

这是最推荐的方式，但关键要正确处理空格——你提到的把空格替换为U+0120是非常合理的做法。因为空格是自然语言中重要的单词边界标记，BPE需要同时学习单词内部的字符组合（比如ing、un-）和单词之间的模式（比如空格后接大写首字母、常见搭配的开头）。

你的clean_text函数已经把多余的空格合并成单个空格，这一步做得很好，接下来只需要把这些单个空格替换为U+0120（或者其他不与普通文本字符冲突的特殊Unicode字符），这样BPE会把这个特殊空格当作普通字符来统计和合并，不会丢失单词分隔的关键信息。

2. 仅提取单词（丢失空格）？

绝对不建议这么做。丢失空格意味着完全抹除了单词之间的边界，BPE无法区分单词内部的字符组合和跨单词的组合，训练出的分词器会无法正确处理自然语言结构，生成文本时也会出现单词粘连的问题，完全违背了BPE用于语言模型的初衷。

3. 将语料处理为所有字符构成的数组？

这和第一种方式本质等价。BPE算法的核心就是在连续的字符序列上统计字符对频率，然后迭代合并最频繁的对。整行文本拆成字符数组，只是把文本存储形式从字符串变成了列表，对BPE的训练逻辑没有任何影响。你可以根据代码实现习惯选择：如果BPE代码基于列表操作，就转成字符数组；如果基于字符串遍历，直接用处理后的字符串即可。

举个简单的例子

假设清洗后的文本是：Natural language processing is fun
替换空格为U+0120后变成：Natural␣language␣processing␣is␣fun
对应的字符数组就是：['N','a','t','u','r','a','l','␣','l','a','n','g','u','a','g','e','␣',...]

不管用哪种形式，BPE都会遍历这个序列，统计像al、ng、␣l这类字符对的出现频率，然后逐步合并成更高阶的token。