如何配置JDownloader以仅从Archive.org搜索结果下载每个条目中的单个PDF文件
如何配置JDownloader以仅从Archive.org搜索结果下载每个条目中的单个PDF文件
我完全懂你现在的困扰——想用JDownloader批量从Archive.org抓取上千个PDF文件,结果它把每个条目里的5、6种格式全扒下来了,试了右侧菜单和自定义规则都没效果,刚装的最新版却不好用,属实头疼。别慌,我给你一步步拆解精准配置的方法,针对最新版JDownloader绝对有效:
第一步:设置全局文件类型过滤(先砍掉非PDF的所有链接)
- 打开JDownloader,点击顶部菜单栏的「Settings」→「Downloads」→「Filetype Filter」
- 在「Allowed Filetypes」输入框里,只保留
pdf(小写,不要加任何符号),删掉其他所有文件类型 - 勾选「Enable Filetype Filter」,确保全局范围内只允许下载PDF格式文件
第二步:创建Archive.org专属过滤规则(确保每个条目只留一个PDF)
- 切换到右侧的「Linkgrabber」面板,找到你添加的Archive.org搜索结果链接组
- 右键点击该链接组,选择「Link Filter」→「Create New Filter」
- 在过滤器设置界面:
- 名称自定义为「Archive.org Single PDF Only」方便识别
- 在「URL Pattern」中输入
*.pdf,确保只匹配PDF格式的链接 - 找到「Grouping & Duplicate Handling」选项,选择「Group by Parent Item」(按Archive.org的条目分组),然后勾选「Keep only one entry per group」(每组只保留一条)
- 如果你想优先抓取最完整的PDF版本,可以在「Sorting」里选择「File Size (Descending)」(按文件大小降序排列),这样每组会自动保留最大的那个PDF(通常是最清晰完整的版本)
第三步:验证配置并重新抓取
- 先清空Linkgrabber里已抓取的所有旧链接,避免干扰
- 重新添加你的Archive.org搜索结果页面链接
- 等待抓取完成后,检查Linkgrabber里的条目:每个Archive.org条目应该只对应一个PDF链接,没有其他格式的文件。如果还有多余内容,检查一下过滤规则是否勾选启用,或者URL/文件类型的匹配规则有没有写错
额外小技巧
- 如果有些条目有多个PDF变种(比如带
_lowres、_1后缀的),你可以在过滤器的「Filename Pattern」里添加!*_*.pdf,这样会自动排除带下划线后缀的PDF,只保留主文件 - 因为你已经更新到最新版JDownloader,所以不用顾虑旧版本的规则bug,只要按上面的步骤设置,就能稳定生效
备注:内容来源于stack exchange,提问作者western duplek




