如何基于词首自定义停用词？使用tm包清理含HTTPS链接的文本语料

免费开始使用

如何基于词首自定义停用词？使用tm包清理含HTTPS链接的文本语料

阿华AIGC实验室

2026-5-26

解决方案：用tm包过滤HTTPS开头的链接

当然有可行的方案！在处理报纸文章这类带大量外链的语料时，传统停用词列表肯定满足不了需求——我们需要针对前缀匹配的自定义过滤逻辑。下面给你两种在tm包工作流里实现的实用方法：

方法1：预处理阶段直接清除链接

最推荐的方式是在文本清洗早期就把HTTPS链接彻底移除，避免它们进入后续分词步骤。我们可以写一个自定义的内容转换函数，结合正则表达式精准匹配并删除所有链接：

library(tm)

# 自定义函数：移除所有HTTP/HTTPS开头的链接
removeHTTPSLinks <- function(text) {
  # 正则表达式匹配：http/https开头，直到空白字符结束的所有内容
  gsub(pattern = "https?://\\S+", replacement = "", x = text)
}

# 加载你的语料库（示例：从目录加载）
# your_corpus <- VCorpus(DirSource("path_to_your_newspaper_articles"))

# 应用自定义清洗步骤，再结合常规预处理
clean_corpus <- tm_map(your_corpus, content_transformer(removeHTTPSLinks))
clean_corpus <- tm_map(clean_corpus, content_transformer(tolower))
clean_corpus <- tm_map(clean_corpus, removePunctuation)
clean_corpus <- tm_map(clean_corpus, removeNumbers)
clean_corpus <- tm_map(clean_corpus, removeWords, stopwords("english"))

正则逻辑说明

https?://：匹配http://或https://（?表示前面的s可选，兼容两种链接格式）
\\S+：匹配所有非空白字符，确保捕获整个链接直到空格或换行处

如果你的链接存在大写形式（比如HTTPS://），可以给gsub加上ignore.case = TRUE参数，确保全大小写都能被匹配清除。

方法2：分词后过滤词项

如果已经完成了部分预处理，甚至已经生成了TermDocumentMatrix，也可以事后过滤掉以HTTPS开头的词项：

# 假设你已经有了未过滤的tdm对象
raw_tdm <- TermDocumentMatrix(clean_corpus)

# 过滤掉所有以https开头的词项（忽略大小写）
filtered_tdm <- raw_tdm[!grepl(pattern = "^https", x = rownames(raw_tdm), ignore.case = TRUE), ]

这里的^https是词首匹配，确保只有开头是HTTPS的词项被过滤，不会误删其他包含https字符串的正常词汇。

这两种方法都能完美解决你的需求，优先推荐方法1——在预处理阶段清除链接能让后续主题建模流程更干净，避免无效词项占用计算资源。

内容的提问来源于stack exchange，提问作者Alessio Levis

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠