求助：无法找到解析文本文件识别段落的正确RegEx

阿华AIGC实验室

2026-5-26

解析文本识别段落的正则表达式解决方案

看起来你现在卡在段落识别的正则上了，我来帮你捋捋。你当前用的[\n]+其实问题在于：它会把**任何连续的换行（哪怕是单个）**都当成段落分隔符，但很多时候文本里的单个换行只是排版需要（比如为了适应宽度换行），并不是真正的段落结束，这就会导致一个完整的段落被拆成好几块。

正确的正则选择（分场景）

根据常见的文本段落分隔规则，给你两种最实用的方案：

场景1：段落以「空白行」分隔（最通用）

大部分文本里，真正的段落分隔是两个及以上连续的换行符（也就是空白行），单个换行属于段落内的换行。对应的正则是：

\n{2,}

如果考虑空白行前后可能有空格、制表符等空白字符，可以优化为：

\s*\n{2,}\s*

示例代码（以Python为例）：

import re

# 你的示例文本
sample_text = """Das Pensionat Klinger war bereits etwas zusammengeschmolzen, als das junge Ehepaar daselbst eintrat. Es war ein unfreundlicher, regnerischer Sommer gewesen. 
Klagen überall ... aus der Schweiz -- vom Salzkammergut her, wo der berüchtigte »Schnürlregen« tagaus tagein herabgoß -- Klagen vom Ostseestrande und aus dem Engadin ... 

Klagen endlich auch aus dem lie..."""

# 用空白行分割段落
paragraphs = re.split(r'\s*\n{2,}\s*', sample_text.strip())

# 处理段落内的单个换行（可选，把换行换成空格）
cleaned_paragraphs = [re.sub(r'\n', ' ', para) for para in paragraphs]

# 输出结果
for idx, para in enumerate(cleaned_paragraphs, 1):
    print(f"段落 {idx}: {para}")