如何使用正则表达式拆分句子为不含空格的分词单元

阿华AIGC实验室

2026-5-19

用正则表达式实现无空格的文本拆分

嘿，这个问题我刚好碰到过！用正则的findall方法就能完美解决，根本不用处理那些烦人的空格～

核心思路是只匹配我们需要保留的内容，让空格直接被忽略，而不是先分割再过滤。具体的正则模式可以这么写：r"\w+|[^\w\s]"，我给你拆解下每个部分的作用：

直接上代码示例，连大小写转换也一起处理了（因为你要的是小写的she）：

import re

original_text = "She's so nice!"
split_result = re.findall(r"\w+|[^\w\s]", original_text.lower())
print(split_result)

运行这段代码后，输出就是你想要的：['she', "'", 's', 'so', 'nice', '!']

这个正则还能适配更多场景哦，比如碰到"Don't stop-go!"这种带连字符的句子，会拆成['don', "'", 't', 'stop', '-', 'go', '!']，完全符合拆分逻辑。

内容的提问来源于stack exchange，提问作者Amily

火山引擎最新活动

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠