刚学nodejs,学写采集。为什么踩着踩着,socket 就hang up了。是代码原因还是什么原因
用的needle, 学着采集baidu图片。设定采集2000张。但是程序运行一会后就会socket hang up。请问这是代码的问题还是什么啊.
9 回复
刚写了个爬虫,考察过needle,不过decode的处理不够好,而且缺乏任务调度,不能很好的满足我的需求,因为我主要就是需要任务调度,不然很快就会被识别出是爬虫而被禁止访问,所以自己用request+async+iconv-lite+cheerio简单写了个
分享下? 似乎这个项目也用到了iconv-lite
由于刚学,所以关于任务调度还不是很清楚。不过decode对于我够用了,改了一下,一般的gbk,big5都行。
var max = 10;
http.globalAgent.maxSockets = (max || 5);
你不会一憋气采集2000张图片吧? 我采集的时候把任务分开,隔几秒采集一些。让人家服务器也缓缓气。
你是指百度的服务器?我没有抓百度。
@leapon 我没说百度。我是说,你们把爬虫挂在什么服务器上工作的?或者是本机?
@cony138 本机