http://www.kuaidaili.com/free/inha/2/ 这个网站 防爬 防得这么好?
我已经加了所有的header和cookie,然而并没有什么卵用。依旧访问不了这个网站。对了,我用的是postman。。。。。。有大手子帮帮忙么。。。
9 回复
我试了试,它的策略确实是需要研究一下才能搞定。去试试phantomjs来抓吧,反正抓它的频率也不高。
nightmare也可以吧
应该是用了类似 csrf 的技术,对于初次访问的ua做了判断。初次访问的ua需要具备js执行能力
好吧 ,谢谢啦
其实你可以写浏览器的插件版爬虫. 所有网站 都防不了浏览器插件…
var request = require("request");
var options = {
method: 'GET',
gzip:true,
url: 'http://www.kuaidaili.com/free/inha/3/',
};
request(options, function (error, response, body) {
if (error) throw new Error(error);
console.log(body);
});
设置下gzip,我这能正常请求回来,使用的是request模块
@jiangli373 谢谢啦。。。
用代理爬吧。我用的快代理30/天的, 爬了一天的kuaidaili 没出现什么问题
估计就是没设置gzip的问题