如何提取字符串首个单词或首分号前内容？多场景截取方案咨询

阿华AIGC实验室

2026-5-12

提取字符串开头的连续字母内容

针对你提到的各种场景——不管是遇到分号、空格、句号还是其他非字母字符，都要保留开头的abc这类连续字母——用正则表达式是最简洁通用的方案。

核心思路

我们需要匹配字符串开头的连续大小写字母，直到遇到第一个非a-z/A-Z的字符就停止匹配。对应的正则表达式是：
^[a-zA-Z]+

正则说明

^：锚定字符串的开头，确保我们从第一个字符开始匹配
[a-zA-Z]：匹配任意一个大小写字母
+：表示匹配一个或多个前面的字符（也就是连续的字母）

这个正则会自动忽略开头字母之后的所有非字母内容，刚好满足你所有场景的需求。

各场景测试验证

针对你列出的所有字符串，用这个正则提取的结果都是abc：

输入"abc" → 输出abc
输入"abc;" → 输出abc
输入"abc; def" → 输出abc
输入"abc def" → 输出abc
输入"abc. def" → 输出abc
甚至输入"abc123!xyz" → 输出也是abc

具体代码示例

JavaScript 实现

function getFirstLetterSequence(str) {
  const result = str.match(/^[a-zA-Z]+/);
  // 如果没有匹配到字母（比如字符串开头就是非字母），返回空字符串
  return result ? result[0] : '';
}

// 测试你的所有场景
console.log(getFirstLetterSequence("abc")); // "abc"
console.log(getFirstLetterSequence("abc;")); // "abc"
console.log(getFirstLetterSequence("abc; def")); // "abc"
console.log(getFirstLetterSequence("abc def")); // "abc"

Python 实现

import re

def get_first_letter_sequence(s):
    match_result = re.match(r'^[a-zA-Z]+', s)
    return match_result.group() if match_result else ''

# 测试用例
print(get_first_letter_sequence("abc")) # "abc"
print(get_first_letter_sequence("abc;")) # "abc"
print(get_first_letter_sequence("abc; def")) # "abc"
print(get_first_letter_sequence("abc def")) # "abc"