node.js通过get访问该网址,返回302?
网址:http://search.jd.com/Search?keyword=笔记本&enc=utf-8 该网址是京东搜索笔记本的url;
5 回复
浏览器访问是200 所以, 你试试将ua设置为浏览器的ua试试.
模仿浏览器失败了,被人家认出来了。
用Superagent实现了,。。。它是用代理?
这是爬虫常见问题,短时间ip访问次数太多 有些服务器就会返回一个302 跳一个手动验证页面,防止爬虫太多影响服务器并发,主要代表是 58同城 途牛还有百姓网 还有一些土豪公司则完全不care 比如 京东 淘宝和1号店这种
解决方法一般是用agent换ip,或者多做几个爬虫 用调度程序控制并发的进度