如何在Pandas中检测推文数据集的URL存在情况并创建对应特征

如何在Pandas中检测推文数据集的URL存在情况并创建对应特征

阿华AIGC实验室

2026-4-30

没问题！处理推文里的URL确实得靠正则表达式来覆盖各种格式，我给你整理了两种特征的实现方法，直接就能用到你的Pandas代码里：

解决方案：正则匹配URL实现两种特征

第一步：定义适配多格式的URL正则表达式

首先我们需要一个能覆盖常见URL格式的正则，它可以匹配：

http:///https://开头的完整URL
www.xxx.com这类无协议前缀的URL
example.com/page这类直接以域名开头的URL

对应的正则字符串是：

url_pattern = r'https?://\S+|www\.\S+|\b\w+\.\w+(\.\w+)*\S*'

简单拆解下各部分的作用：

https?://\S+：匹配http/https开头的URL，\S+表示匹配到下一个空白字符为止
www\.\S+：匹配www.开头的URL
\b\w+\.\w+(\.\w+)*\S*：匹配多级域名（比如example.co.uk），\b是词边界，避免误匹配类似abc.def这种非域名内容

第二步：创建「是否存在URL」的二进制特征

用str.contains配合正则匹配，再转成0/1的二进制值：

# 假设你的数据集DataFrame是df，推文列名为TWEET
df['HAS_URL'] = df['TWEET'].str.contains(url_pattern, na=False).astype(int)

na=False：把缺失值（NaN）视为「无URL」，对应0
astype(int)：把布尔值（True/False）转成1/0的数值

第三步：创建「URL数量」的数值特征

用str.findall提取所有匹配的URL，再计算列表长度得到数量：

df['URL_COUNT'] = df['TWEET'].str.findall(url_pattern).str.len()

str.findall会返回每条推文里所有匹配的URL列表
str.len()计算列表长度，没有URL的话会返回0

示例演示

给你一个完整的小例子，方便你测试：

import pandas as pd

# 模拟推文数据
sample_data = {'TWEET': [
    'Check out my new post at https://www.myblog.com/2024!',
    'Visit www.test.co.uk/page1 and example.net/archive',
    'Just a regular tweet with no links here',
    'Two links: http://blog.org/post #tech and www.news.io'
]}
df = pd.DataFrame(sample_data)

# 定义正则
url_pattern = r'https?://\S+|www\.\S+|\b\w+\.\w+(\.\w+)*\S*'

# 生成特征
df['HAS_URL'] = df['TWEET'].str.contains(url_pattern, na=False).astype(int)
df['URL_COUNT'] = df['TWEET'].str.findall(url_pattern).str.len()

print(df)

运行后输出结果：

TWEET  HAS_URL  URL_COUNT
0  Check out my new post at https://www.myblog.co...        1          1
1  Visit www.test.co.uk/page1 and example.net/archive        1          2
2                  Just a regular tweet with no links here        0          0
3  Two links: http://blog.org/post #tech and www.n...        1          2

小提示

如果你的数据集里有一些特殊格式的URL没被匹配到（比如带特殊符号的短链接），可以微调正则表达式。比如如果需要匹配带@或者_的域名，可以把\w+改成[\w@_]+。

内容的提问来源于stack exchange，提问作者doelie247

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠