一、引言
古语有云:“活到老学到老”。表达出一种“生命不止,学习不止”的学习进取精神,是一种乐观的激励!作为程序员更应该如此,否则就会被淘汰。今天我所要讲的不是如何去学习,而是怎么在网上找到我们所需求的资源。
二、百度网盘搜索方法
找资源的方法有很多,如:百度,谷歌搜索。而我讲的是如何搜索“百度网盘”里面的资源。
具体方法:在搜索引擎中搜索:site:pan.baidu.com 关键词,如下图。亲测必应,谷歌可以。
三、写了一个程序
为了自己搜索方便,索性写了一个程序去爬取必应的搜索结果,如下图。演示地址:http://139.129.12.162/ResourcesCrawl
四、程序介绍
1、通过抓包工具,分析必应搜索的url,如下图。我们最终可以获取到:http://cn.bing.com/search?q=关键词&first=第几条开始
2、向此url(http://cn.bing.com/search?q=site:pan.baidu.com 关键词&first=第几条开始)发起Http请求(GET方式),得到html,通过正则表达式和xPath解析源代码,提取信息。
3、代码概览。
*DotNet.Http.Core:Http请求专用库。
*Resouces.Crawl.Common:一些.Net扩展方法。
*Resource.Crawl.Services:解析Html源代码,并返回信息的库。
*Resource.Crawl.Web:展示层。
五、源码下载(Visual Studio 2013)
- 2楼asos
- 速度有点慢
- Re: 青风坠
- @asos,购买的服务器配置有点低
- 1楼杀士比亚
- 膜拜大神,像请教下博主,爬虫程序是用什么语言写的,本人是一个刚入行的java程序员,对爬虫方面的知识很感兴趣,想知道要学会写爬虫程序要有什么知识,或者有什么书可以介绍下吗?感谢博主分享
- Re: 青风坠
- @杀士比亚,Http请求协议,正则表达式