微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

linux – 用于检查PDF的BASH脚本是ocr’d

不知道从哪里开始真的

我有一个超过8000 PDf的Linux服务器,需要知道哪些PDF已经过了,哪些没有.

正在考虑某种脚本调用XPDF检查pdf,但老实说不确定这是否可行

在此先感谢您的帮助

解决方法:

确保安装了命令行工具pdffonts. (这有两个版本:一个作为xpdf-utils的一部分发布,另一个作为poppler-utils的一部分.)

所有由扫描页面组成的PDF都不会使用任何字体(既不是嵌入式字体也不是非嵌入式字体).

命令行

pdffonts /path/to/scanned.pdf

然后不会显示文件的任何字体信息.

这可能已足以让您将文件分成两个不同的集合.

如果您的PDF具有混合的扫描页面和“普通”页面(或已修改页面),那么您将不得不扩展和完善上述简单方法.有关详细信息,请参阅man pdffonts或pdffonts –help.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐