You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

如何使用正则表达式拆分句子为不含空格的分词单元

用正则表达式实现无空格的文本拆分

嘿,这个问题我刚好碰到过!用正则的findall方法就能完美解决,根本不用处理那些烦人的空格~

核心思路是只匹配我们需要保留的内容,让空格直接被忽略,而不是先分割再过滤。具体的正则模式可以这么写:r"\w+|[^\w\s]",我给你拆解下每个部分的作用:

  • \w+:匹配一个或多个字母、数字(这里刚好对应英文单词,比如sheso
  • |:表示“或”的逻辑,匹配两边任意一种规则
  • [^\w\s]:匹配非单词且非空白的字符,也就是各种标点符号,比如'!

直接上代码示例,连大小写转换也一起处理了(因为你要的是小写的she):

import re

original_text = "She's so nice!"
split_result = re.findall(r"\w+|[^\w\s]", original_text.lower())
print(split_result)

运行这段代码后,输出就是你想要的:['she', "'", 's', 'so', 'nice', '!']

这个正则还能适配更多场景哦,比如碰到"Don't stop-go!"这种带连字符的句子,会拆成['don', "'", 't', 'stop', '-', 'go', '!'],完全符合拆分逻辑。

内容的提问来源于stack exchange,提问作者Amily

火山引擎 最新活动