JAVA crawler_综合

最近在做一个从数据库下载生物信息的数据库，在基于OpenURL时，采用网络抓取的形式获取结果页，其中遇到这样的错误：

Server returned HTTP response code: 403 for URL: http://www……………………而可以使用浏览器正确访问

因为服务器的安全设置不接受Java程序作为客户端访问

解决方案：设置User Agent

即在url.openConnection()后添加：

connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

下载下来的是html文件。