如何使用正则表达式拆分句子为不含空格的分词单元
用正则表达式实现无空格的文本拆分
嘿,这个问题我刚好碰到过!用正则的findall方法就能完美解决,根本不用处理那些烦人的空格~
核心思路是只匹配我们需要保留的内容,让空格直接被忽略,而不是先分割再过滤。具体的正则模式可以这么写:r"\w+|[^\w\s]",我给你拆解下每个部分的作用:
\w+:匹配一个或多个字母、数字(这里刚好对应英文单词,比如she、so)|:表示“或”的逻辑,匹配两边任意一种规则[^\w\s]:匹配非单词且非空白的字符,也就是各种标点符号,比如'、!
直接上代码示例,连大小写转换也一起处理了(因为你要的是小写的she):
import re original_text = "She's so nice!" split_result = re.findall(r"\w+|[^\w\s]", original_text.lower()) print(split_result)
运行这段代码后,输出就是你想要的:['she', "'", 's', 'so', 'nice', '!']
这个正则还能适配更多场景哦,比如碰到"Don't stop-go!"这种带连字符的句子,会拆成['don', "'", 't', 'stop', '-', 'go', '!'],完全符合拆分逻辑。
内容的提问来源于stack exchange,提问作者Amily




