使用Wikipedia Extractor解析维基百科数据转储文件时出现EOFError: Ran out of input错误，如何解决？

使用Wikipedia Extractor解析维基百科数据转储文件时出现EOFError: Ran out of input错误，如何解决？

阿华AIGC实验室

2026-4-29

解决WikiExtractor处理维基百科bz2转储文件的常见问题

刚好之前处理维基百科中文转储时踩过类似的坑，结合WikiExtractor的常见故障场景，给你几个针对性的排查和解决方向：

1. 先确认文件路径与权限

检查你的bz2文件路径D:\wikiextractor-master\wikiextractor\zhwiki-latest-pages-articles.xml.bz2是否完全正确，有没有文件名拼写错误、多余空格或者路径层级搞错的情况（Windows下路径分隔符用\没问题，但要注意不要漏写目录）。
确保输出目录extracted的读写权限正常：如果是Windows系统，右键该文件夹，在「安全」选项里确认当前用户有读写权限；或者直接用管理员身份打开命令行再执行命令。

2. 验证bz2文件的完整性

维基百科转储文件体积很大，下载过程中很容易出现损坏：

尝试用7-Zip、WinRAR等工具手动解压这个bz2文件，如果解压失败，说明文件确实损坏了，必须重新下载（建议用官方提供的校验值，比如SHA-256，来验证下载文件的完整性）。
如果解压成功，你可以用解压后的xml文件直接测试WikiExtractor，看看是不是bz2解压环节出的问题。

3. 调整命令参数与检查运行环境

Python版本兼容性：WikiExtractor只支持Python 3.6及以上版本，如果你用的是Python 2.x，肯定会报错。先执行python --version确认版本，不行就切换到Python 3环境。
块大小参数调整：你设置的-b 85M可能过大，导致内存不足。可以先试试更小的块大小，比如-b 10M，看看能不能正常运行。
依赖检查：虽然WikiExtractor依赖很少，但确保Python的bz2模块正常可用（标准库自带，一般没问题，但如果是精简版Python可能会缺失）。

4. 用最简命令测试定位问题

先去掉多余参数，执行最基础的命令：

python Wikiextractor.py -o extracted D:\wikiextractor-master\wikiextractor\zhwiki-latest-pages-articles.xml.bz2

如果这个基础命令能运行，再逐步添加-b参数，就能定位是不是块大小导致的问题。

如果以上方法都没解决，建议把错误信息的具体内容（比如报错的堆栈提示）贴出来，这样能更精准地定位故障点~

内容的提问来源于stack exchange，提问作者stacy1212

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠