PDFTextStream 介绍
PDFTextStream 是为了满足最迫切的 PDF 文本以及元数据内容提取需求而产生的(非开源)。
其 API 非常全面,并且包括以下特征:
- 广泛支持 PDF 文件格式规范以及所有未知变量.
- 完全的 Unicode-capable 文本提取工具,包括支持提取以水平或者垂直模式书写的 Chinese, Japanese, 以及 Korean 文本。
- 完全支持更新交互式 AcroForms (包括文本、检查框、单选按钮以及选择自动)。
- 能够全面的访问 PDF 文档元数据。
- 经由 com.sNowtide.pdf.Page 的页面级对象模式, 提供了指定页面的文本提取,以及页面属性(高、宽、旋转角度等)。
- Acroform (交互式表格)数据提取.
- PDF 书签访问.
- PDF 注释访问(包括 Link(web URL) 注释).
- 无缝地整合了.
- EncryptionInfo API:提供了对 PDF 文档加密参数的访问.
- 用于超级快速文本提取的文本管道 API 提供了用于自定义 PDF 文本提取是如何格式化的钩子(如当需要维护每一页的视觉布局时)。
- 自带了选择性文本提取,这非常适合于从固定格式表中提取数据.
- 能够任意的对内存进行操作.
- 自带了 PDF 合并功能.
- 提供了从 PDF 到 HTML 的输出器.
- PDFTextStream 的子类 java.io.Reader, 它提供了一个简单、熟悉的接口,并且能够直接与期望 java.io.Reader 实例的现存组件进行整合。
- 灵活的日志工具包钩子。
PDFTextStream 官网
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。