如何判断PDF文件是否包含嵌入式文本?
如何判断PDF文件是否包含嵌入式文本?
很多PDF看起来都有能读的文字,但这里面其实有个关键区别:一种是文字仅以位图形式存在——说白了就是把文字当成图片显示,只有人眼能认出是文字,电脑根本“读不懂”;另一种则是包含电脑可识别的嵌入式文本。
这点在扫描生成的PDF里特别容易混淆:有时候你看到的还是扫描出来的模糊文字图片,但实际上这个PDF已经做过OCR识别了,嵌入式文本就藏在文件里,只是平时阅读的时候没体现出来。
你可以用这两个简单方法快速判断:
- 尝试用鼠标选文字:如果能像选普通Word文档里的文字那样精准选中某段、某个词,说明文件里有嵌入式文本;要是只能选中整个图片区域,或者根本选不动,那大概率只是纯扫描的位图。
- 尝试搜索某个关键词:输入你确定在文档里的词,如果能搜到并直接定位到对应位置,那肯定有嵌入式文本;搜不到的话,要么没做过OCR,要么OCR只处理了部分内容。
另外还要注意,有时候会出现部分文本完成了OCR识别,另一部分没做的情况,这时候你选文字或搜索时就会发现,有的内容能正常识别,有的不行。
备注:内容来源于stack exchange,提问作者rwallace




