构建Python应用时，向外部AI API发送用户输入前如何防止敏感数据泄露？

阿华AIGC实验室

2026-4-27

这确实是个关乎用户隐私的核心问题——直接把未过滤的用户数据发给外部AI API，风险真的很高。我来分享几个从实践中总结出来的靠谱方案，覆盖从快速落地到专业级的处理方式：

一、正则表达式：快速入门但需谨慎

正则是最直接的入门方案，适合处理邮箱、手机号这类格式相对固定的敏感数据，但要注意它的局限性。

比如你可以写简单的掩码逻辑：

import re

def mask_basic_sensitive(text):
    # 掩码邮箱：保留前2位字符和域名，中间用***代替
    text = re.sub(r'([a-zA-Z0-9._%+-]{2})[a-zA-Z0-9._%+-]*@([a-zA-Z0-9.-]+\.[a-zA-Z]{2,})', r'\1***@\2', text)
    
    # 掩码国内11位手机号：保留前3位和后4位，中间用****代替
    text = re.sub(r'1([3-9]\d{2})\d{4}(\d{4})', r'1\1****\2', text)
    
    return text

# 测试示例
user_input = "我的邮箱是abcdefg@example.com，手机号是13812345678"
print(mask_basic_sensitive(user_input))
# 输出：我的邮箱是ab***@example.com，手机号是138****5678

但正则的短板很明显：

适配性差：不同地区的手机号、身份证号格式差异大，要覆盖所有场景需要维护大量正则规则；
误判/漏判：如果用户输入的敏感数据是变形的（比如手机号加空格、邮箱用中文标点），正则很可能漏匹配；
扩展性弱：遇到信用卡号、护照号这类更复杂的敏感数据，正则很难精准识别。

二、专用脱敏库：专业场景的首选

如果你的应用需要更可靠的敏感数据识别和处理，推荐使用Presidio——微软开源的专门用于数据脱敏的工具包，支持多种语言，内置几十种敏感实体的识别规则（邮箱、手机号、身份证、信用卡号等），还能自定义实体类型。

安装与使用示例：

首先安装依赖：

pip install presidio-analyzer presidio-anonymizer spacy
# 下载中文语言模型（如果处理中文数据）
python -m spacy download zh_core_web_lg

然后编写脱敏逻辑：

from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import OperatorConfig

def anonymize_sensitive_data(text):
    # 初始化分析器（识别敏感实体）和脱敏器（处理敏感内容）
    analyzer = AnalyzerEngine()
    anonymizer = AnonymizerEngine()
    
    # 指定要识别的敏感实体类型，这里选邮箱、手机号、身份证号
    sensitive_entities = ["EMAIL_ADDRESS", "PHONE_NUMBER", "CHINESE_ID"]
    # 分析文本，找出所有敏感实体
    analysis_results = analyzer.analyze(text=text, entities=sensitive_entities, language="zh")
    
    # 对敏感实体进行掩码处理，用***替代
    anonymized_result = anonymizer.anonymize(
        text=text,
        analyzer_results=analysis_results,
        operators={"DEFAULT": OperatorConfig("replace", {"new_value": "***"})}
    )
    
    return anonymized_result.text

# 测试示例
user_input = "我的邮箱是abcdefg@example.com，手机号是13812345678，身份证号是110101199001011234"
print(anonymize_sensitive_data(user_input))
# 输出：我的邮箱是***，手机号是***，身份证号是***

Presidio的优势在于：