当前位置: 代码迷 >> ASP.NET >> 怎么正确的从PDF中读取数据
  详细解决方案

怎么正确的从PDF中读取数据

热度:5481   发布时间:2013-02-25 00:00:00.0
如何正确的从PDF中读取数据?
最近手头上有一个PDF,需要做一些工作取得该文件里的部分数据。
思路
1.将PDF转换为Excel,解析Excel获取数据
2.使用组件PDFBox,调用函数getText读数据
3.使用组件IText,调用函数GetPageContent读数据

思路1 导出的表格页与页间衔接格式不正确,导致解析起来比较麻烦。
思路2 函数读出的纯文本中格式有问题,数据插行严重。
思路3 函数读出的数据为字节流,解析字节流比较麻烦,并且存在文本格式插行现象。

请问高手有什么好的解决方案能正确(格式正确、无中文乱码)的导出PDF中的数据吗?


------解决方案--------------------------------------------------------
  相关解决方案