能否仅用正则表达式查找最长前后缀重叠子串？

阿华AIGC实验室

2026-5-6

如何用单个正则表达式找出同时作为前缀和后缀的最长重叠子串？

先明确核心需求：我们要找字符串里最长的子串S，满足三个条件：

S是原字符串的前缀
S是原字符串的后缀
S在原字符串的中间位置至少出现一次（允许重叠，但不能只在开头和结尾存在）

比如你给出的例子：

在aabaaabaaaaab里，最长符合要求的是aab
在babababab里，最长的是babab
在xyzxyzxyzxyzxyz里，最长的是xyzxyzxyz

你之前用的通用正则r'(?=((\w+).*\2.*\2))'是找出现三次的子串，没针对「必须是前缀+后缀」的场景优化，加^和$锚点没找对方向；自己写的代码逻辑没问题，但频繁调用text.find拖慢了性能，确实挺闹心的。

解决方案：针对性优化的正则表达式

我们可以直接写一个锚定前缀和后缀的正则，同时保证子串在中间出现过，全程不需要额外的find调用，性能会提升很多。

先上可运行的代码：

import re

def get_longest_valid_substring(text):
    # 核心正则：精准匹配「前缀=后缀且中间存在」的子串
    pattern = r'^(?=(.+))(?=.*\1(?!$)).*\1$'
    longest_sub = ""
    # 遍历所有匹配的候选子串，保留最长的那个
    for match in re.finditer(pattern, text):
        candidate = match.group(1)
        # 排除整个字符串本身的情况（如果不需要排除可去掉此判断）
        if len(candidate) > len(longest_sub) and len(candidate) < len(text):
            longest_sub = candidate
    return longest_sub

# 测试你的示例文本
test_texts = [
    "aabaaabaaaaab",
    "babababab",
    "xyzxyzxyzxyzxyz"
]

for txt in test_texts:
    result = get_longest_valid_substring(txt)
    print(f"字符串「{txt}」的最长匹配子串：{result}")