如何用正则表达式从中文日期文本提取并转换年月为yyyyMM格式

如何用正则表达式从中文日期文本提取并转换年月为yyyyMM格式

阿华AIGC实验室

2026-5-14

简洁高效的日期提取与格式转换方案

针对你需要从带「年/月」的文本中提取日期并转为yyyyMM格式的需求，不用拆分多个正则，可以用单正则分组匹配+补零处理的方式一步到位，比你之前的方案简洁太多了。

核心思路

用一个正则直接匹配出4位年份和1-2位月份的分组，再将月份补零到两位，最后拼接成年份+月份的格式。

推荐正则表达式

(\d{4})年(\d{1,2})月

(\d{4})：捕获4位数字的年份（比如2019、2020）
年：匹配固定的「年」字作为分隔符
(\d{1,2})：捕获1或2位数字的月份（比如9、12）
月：匹配固定的「月」字作为终止标识，避免匹配到「下旬」这类后缀里的字符

代码实现示例（以Python为例）

import re

def format_date(text):
    # 用search匹配文本中的日期片段
    match_result = re.search(r'(\d{4})年(\d{1,2})月', text)
    if match_result:
        year = match_result.group(1)
        # 用zfill(2)自动给1位月份补零（比如9→09）
        month = match_result.group(2).zfill(2)
        return f"{year}{month}"
    # 没有匹配到日期时返回None或自定义提示
    return "未找到有效日期"

# 测试你的案例
print(format_date("2019年9月予定"))  # 输出: 201909
print(format_date("2020年5月"))      # 输出: 202005
print(format_date("2019年8月下旬"))  # 输出: 201908

为什么你的原有方案不够理想？

你之前尝试的(?<!年)(\d)和(?<!月)(\d)这类反向环视正则，在这个场景下精准度不足：

(?<!年)(\d)能匹配月份的单个数字，但没法区分年份和月份的数字边界
(?<!月)(\d)会错误匹配年份里的数字，因为年份后面是「年」不是「月」，完全满足反向环视的条件，导致匹配混乱

而用分组匹配的方式，直接锁定「年」和「月」之间的月份数字，逻辑更清晰，也不会出现误匹配的问题。

内容的提问来源于stack exchange，提问作者Goul

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠