如何用sed/awk处理含换行段落的|分隔TXT数据集适配R readr导入

阿华AIGC实验室

2026-5-7

解决多行段落合并问题的sed/awk方案

没问题！这个场景刚好是sed和awk擅长处理的行合并需求，我给你准备了两种可行方案，附详细说明：

用awk实现（推荐，逻辑更直观）

awk的写法可读性强，容易理解和调整，适合这种按特定前缀合并行的需求：

awk '/^AA\|/ { if (prev != "") print prev; prev = $0; next } { prev = prev " " $0 } END { print prev }' your_input.txt > cleaned_output.txt

sed通过保持空间（hold space）来暂存内容，适合喜欢用单行命令的场景：

sed -n '/^AA\|/{x;/./p;x;H};/^AA\|/!{H};${x;p}' your_input.txt > cleaned_output.txt

-n：关闭sed的自动输出模式，只打印我们指定的内容
/^AA\|/{x;/./p;x;H}：匹配到AA|开头的行时：
1. x：交换保持空间和模式空间的内容
2. /./p：如果保持空间非空（有内容），就打印它
3. x：再次交换回来，恢复当前行到模式空间
4. H：把当前行追加到保持空间末尾
/^AA\|/!{H}：非AA|开头的行，直接追加到保持空间
${x;p}：处理到最后一行时，交换保持空间和模式空间，打印最终合并后的内容