问题描述
我正在使用什么 :我正在使用Apache Tika在Java应用程序上解析PDF。
我需要什么 :我需要解析PDF的某个区域(即由Rectangle对象定义),就像我通常对iText所做的那样。
问题 :是否可以使用Apache Tika解析PDF的定义区域? 怎么样?
1楼
Apache Tika将为您提供文档的简化的,标准化的HTML表示。 对于基于页面的格式,例如PDF或PPT,它将标记页面边界,但是对于非基于页面的格式(例如,基于运行的.doc),则不会。
您需要做的就是进入 ,这是为Tika中的PDF解析器提供动力的底层库。 使用PDFBox,您可以获取给定页面上对象的位置,确定它们是否在所需范围内,并获取它们的文本。 这将不像使用Apache Tika那样简单,但是对于这种控制级别,您需要更多地参与。