当前位置:
代码迷
>>
J2SE
>> 如何用jsoup将网页中的正文提取成txt文本
详细解决方案
如何用jsoup将网页中的正文提取成txt文本
热度:
74
发布时间:
2016-04-23 22:52:03.0
怎么用jsoup将网页中的正文提取成txt文本
想用jsoup将一个网页中的文字提取出来存储在另外一个txt文档中。
不知道该怎么用。
System.out.println(doc.title()); 提取出来了网页的title。
正文不知道该怎么提取。。。
------解决方案--------------------
JS中可以用document.body.innerText取网页的文本,你看看jsoup中有没有类似的方法或属性。
相关解决方案
jsoup 处置HTML 坑记录
jsoup 良好html解析工具
Jsoup-1.6.0的一个bug―解析html标签内容只是零被忽略掉了
jsoup 兑现浏览器网页另存为
jsoup 默许抓取页面大小为1M
Jsoup 爬不已 iframe 中的内容
Java jsoup 获得html中的table里的内容
jsoup 解析有关问题
提取 HTML 中的文本
标签 JSOUP
JSOUP 网络爬虫