本人现在在做一个网页标签TITLE抓取的小玩具,但是在中国亚马逊网站可以抓取到正确的标题,但是抓取日本亚马逊的时候,出现了问题
这是代码,用了HtmlAgilityPack
HtmlWeb webClient = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = webClient.Load(txtWeb.Text.Trim());
HtmlNodeCollection hrefList = doc.DocumentNode.SelectNodes(".//a[@title]");
if (hrefList != null)
{
foreach (HtmlNode href in hrefList)
{
HtmlAttribute att = href.Attributes["title"];
lbWorr.Items.Add( att.Value);
}
}
http://www.amazon.co.jp/s/ref=nb_sb_ss_i_0_1/376-5481676-7706030?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&url=search-alias%3Daps&field-keywords=%E8%8A%B1%E7%8E%8B&sprefix=%E8%8A%B1%2Caps%2C522这是抓取的页面
抓取出来的标题变成这样
メリーズ テープ(tape) さらさらエアスルー Mサイズ(size) (6~11kg) 168枚 (42枚×4)
是了很多转码方式都不行 希望指教
------解决思路----------------------
Server.UrlDecode("メリーズ テープ(tape) さらさらエアスルー Mサイズ(size) (6~11kg) 168枚 (42枚×4)")
不知道你抓得哪部分,但这个是UrlEncode后的结果,不是head的title