当前位置: 代码迷 >> Java Web开发 >> 高手!去页面所有标签!然后去掉只留内容
  详细解决方案

高手!去页面所有标签!然后去掉只留内容

热度:90   发布时间:2016-04-17 12:21:34.0
请教各位高手!去页面所有标签!然后去掉只留内容!
我现在面临的困难是:现在别人给我一段代码(以html代码为例),此段代码含有比较多的标签属性:例如 有如下代码片段:
<body>
 <h1>hello</h1> 
 <table name="tbName" border="1">
  <tr id="trId">
  <td>Cotent</td>
  </tr>
 </table>
</body>
我这是要获取其中的
  <body>
  <h1>
  </h1>
  <table name="tbName" border="1">
  <tr id="trId"> 
  <td>
  </td>
  </tr>
  </table>
  </body>
取出来这些标签之后再把这些标签去掉!也就是使之为空,只留其中的内容部分!有哪位高手有好的方法给与指教!小弟非常感激!

------解决方案--------------------
str.replaceAll("<.?*>","");
------解决方案--------------------
用正则应该可以,html,wml形式都差不多
Java code
 Pattern p = Pattern.compile("<[^>]+>|</[^>]+>",Pattern.CASE_INSENSITIVE ); String htmlContent = "...<body>.....</body>..."  Matcher m = p.matcher(htmlContent); String content = m.replaceAll("");
  相关解决方案