不知道从哪里开始真的
我有一个超过8000 PDf的Linux服务器,需要知道哪些PDF已经过了,哪些没有.
正在考虑某种脚本调用XPDF检查pdf,但老实说不确定这是否可行
在此先感谢您的帮助
解决方法:
确保安装了命令行工具pdffonts. (这有两个版本:一个作为xpdf-utils的一部分发布,另一个作为poppler-utils的一部分.)
所有由扫描页面组成的PDF都不会使用任何字体(既不是嵌入式字体也不是非嵌入式字体).
命令行
pdffonts /path/to/scanned.pdf
这可能已足以让您将文件分成两个不同的集合.
如果您的PDF具有混合的扫描页面和“普通”页面(或已修改的页面),那么您将不得不扩展和完善上述简单方法.有关详细信息,请参阅man pdffonts或pdffonts –help.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。