<li class="unit"><a href="/ilist/list" class="t" boss="btnViewMyList" rel="http://1.t.qq.com/asyn/list.php" type="list"><span class="text">名单</span></a></li>从这句中
(1)如何提取出"名单"对应的url
(2)如何获取名单这个页面所对应的源码
希望做过的朋友能给出写思路!谢谢!
------解决方案--------------------------------------------------------
关于第一个“提取”的问题,给你个参考:
- Java code
String html="<li class=\"unit\"><a href=\"/ilist/list\" class=\"t\" boss=\"btnViewMyList\" rel=\"http://1.t.qq.com/asyn/list.php\" type=\"list\"><span class=\"text\">名单</span></a></li>"; Pattern p = Pattern.compile("<a\\s.*?href=\"([^\"]*)(.*?)</a>", Pattern.CASE_INSENSITIVE); Matcher m = p.matcher(html); while (m.find()) { if (m.group(2).indexOf("名单")>= 0) { System.out.println("HREF: " + m.group(1) + "\t\tWITH: " + m.group(2)); } }