当前位置: 代码迷 >> VB Dotnet >> 匹配网页源代码里URL地址的正则表达式
  详细解决方案

匹配网页源代码里URL地址的正则表达式

热度:1631   发布时间:2013-02-26 00:00:00.0
求一个匹配网页源代码里URL地址的正则表达式
http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?


网上找到的这个表达式,虽然也能匹配出一些结果,但这些结果还需要处理,有一些结果是乱七八糟的,里面有空格,但这还不是最主要的。

我发现这个表达式用在网易的首页源代码时,根本抓不下几个链接。

就去仔细看了下网页的URL,发现它里面有很多地址是

<li class="order-num-1"><a href="http://news.163.com/13/0124/08/8LVID9O000014JB5#f=wwwrank" title="黑龙江上访妇女劳教期满获释 又被关太平间三年">黑龙江上访妇女劳教期满获释 又被关太平间三年</a></li>

<a href="http://news.163.com/13/0124/08/8LVID9O000014JB5#f=wwwrank"就是这样的地址,上面的正则表达式就不能匹配了,希望能有人帮我修改下,能匹配像网易的URL。

正则表达式 url

------解决方案--------------------------------------------------------
(https?://)?[^"'\s] 
------解决方案--------------------------------------------------------
https?://([\w-]+\.)+[\w-]+([\w-\ ./?%&=#]*)?
------解决方案--------------------------------------------------------
你要大概理解正则表达式才好的
上面的表达式改为:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=#]*)?
就可以了,就是后面增加一个#好,还是老老实实看看正则的介绍吧