R语言处理DataFrame字符串：如何去除末尾多余短横线？

阿华AIGC实验室

2026-5-9

解决R语言DataFrame字符串末尾多余短横线及格式清理问题

看起来你已经做了不少前期处理，现在卡在了末尾短横线去除和格式统一的环节上。结合你的DataFrame数据特点，我们可以用stringr包的正则表达式工具精准处理，一步到位得到和true_values完全一致的结果。

先梳理你的数据噪声类型

你的identifier列主要存在三类问题：

字符串前后夹杂空格、随机数字、点号、负号等无关字符
部分条目缺失分隔短横线（比如1901098260031）
部分条目末尾多了冗余短横线（比如190109-2018362-）

可行解决方案代码

我们可以分两步处理：先提取核心的目标格式片段，再统一补充分隔短横线（如果缺失）：

library(stringr)

# 你的原始数据集
df <- data.frame(identifier = c("9562231945200505501901190109-5405303 ", "190109-8731478", "1901098260031", " .9..43675190109-3690341", "-1103214010200000190109-8841419", "-190109-5232506-.08001234-111", "190109-2018362-","51770217835901218103304190109-9339765 "), true_values = c("190109-5405303","190109-8731478","190109-8260031","190109-3690341","190109-8841419", "190109-5232506","190109-2018362","190109-9339765"))

# 第一步：提取以190109开头的核心有效片段
df$cleaned_identifier <- str_extract(df$identifier, "190109-?\\d{7}")

# 第二步：统一格式，确保中间有分隔短横线
df$cleaned_identifier <- str_replace(df$cleaned_identifier, "(190109)(\\d{7})", "\\1-\\2")

# 验证结果是否和true_values一致
all.equal(df$cleaned_identifier, df$true_values)
# 输出：TRUE

代码细节解释

str_extract(df$identifier, "190109-?\\d{7}")：
- 正则表达式190109-?\\d{7}的意思是：匹配固定前缀190109 + 可选的短横线-? + 7位数字\\d{7}
- 不管字符串前后有多少无关噪声，都会精准抓取我们需要的核心内容，同时自动忽略末尾的冗余短横线（因为末尾的-不在匹配规则里）
str_replace(df$cleaned_identifier, "(190109)(\\d{7})", "\\1-\\2")：
- 针对像1901098260031这种缺失分隔线的条目，我们用分组捕获把前6位和后7位数字分开，再用短横线拼接，统一成标准格式