当前位置: 代码迷 >> java >> 使用Tika进行PDF解析区域
  详细解决方案

使用Tika进行PDF解析区域

热度:87   发布时间:2023-08-04 09:15:33.0

我正在使用什么 :我正在使用Apache Tika在Java应用程序上解析PDF。

我需要什么 :我需要解析PDF的某个区域(即由Rectangle对象定义),就像我通常对iText所做的那样。

问题 :是否可以使用Apache Tika解析PDF的定义区域? 怎么样?

Apache Tika将为您提供文档的简化的,标准化的HTML表示。 对于基于页面的格式,例如PDF或PPT,它将标记页面边界,但是对于非基于页面的格式(例如,基于运行的.doc),则不会。

您需要做的就是进入 ,这是为Tika中的PDF解析器提供动力的底层库。 使用PDFBox,您可以获取给定页面上对象的位置,确定它们是否在所需范围内,并获取它们的文本。 这将不像使用Apache Tika那样简单,但是对于这种控制级别,您需要更多地参与。