You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

如何判断PDF文件是否包含嵌入式文本?

如何判断PDF文件是否包含嵌入式文本?

很多PDF看起来都有能读的文字,但这里面其实有个关键区别:一种是文字仅以位图形式存在——说白了就是把文字当成图片显示,只有人眼能认出是文字,电脑根本“读不懂”;另一种则是包含电脑可识别的嵌入式文本。

这点在扫描生成的PDF里特别容易混淆:有时候你看到的还是扫描出来的模糊文字图片,但实际上这个PDF已经做过OCR识别了,嵌入式文本就藏在文件里,只是平时阅读的时候没体现出来。

你可以用这两个简单方法快速判断:

  • 尝试用鼠标选文字:如果能像选普通Word文档里的文字那样精准选中某段、某个词,说明文件里有嵌入式文本;要是只能选中整个图片区域,或者根本选不动,那大概率只是纯扫描的位图。
  • 尝试搜索某个关键词:输入你确定在文档里的词,如果能搜到并直接定位到对应位置,那肯定有嵌入式文本;搜不到的话,要么没做过OCR,要么OCR只处理了部分内容。

另外还要注意,有时候会出现部分文本完成了OCR识别,另一部分没做的情况,这时候你选文字或搜索时就会发现,有的内容能正常识别,有的不行。

备注:内容来源于stack exchange,提问作者rwallace

火山引擎 最新活动