微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

PDFMiner 特性 Python PDF 解析器

程序名称:PDFMiner 特性

授权协议: MIT

操作系统: 跨平台

开发语言: Python

PDFMiner 特性 介绍

PDFminer 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF
相关的工具不同,它侧重的是获取和分析文本数据。PDFminer 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把
PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性

  • 完全用 Python 编写

  • 解析、分析和转换 PDF 文档

  • PDF-1.7 规范支持

  • CJK 语言和垂直书写脚本支持

  • 支持各种字体类型(Type1、TrueType、Type3 和 CID)

  • 基本加密(RC4)支持

  • 大纲(TOC)提取

  • 标记内容提取

  • 自动布局分析

PDFminer 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF
你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug
,但是它也可能用于提取一些有意义的内容(比如图片)。

PDFMiner 特性 官网

https://euske.github.io/pdfminer/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐