刚学nodejs,学写采集。为什么踩着踩着,socket 就hang up了。是代码原因还是什么原因
发布于 12 年前 作者 creati5 9504 次浏览 最后一次编辑是 8 年前

用的needle, 学着采集baidu图片。设定采集2000张。但是程序运行一会后就会socket hang up。请问这是代码的问题还是什么啊.

9 回复

刚写了个爬虫,考察过needle,不过decode的处理不够好,而且缺乏任务调度,不能很好的满足我的需求,因为我主要就是需要任务调度,不然很快就会被识别出是爬虫而被禁止访问,所以自己用request+async+iconv-lite+cheerio简单写了个

分享下? 似乎这个项目也用到了iconv-lite

https://github.com/scottkiss/nodegrass

由于刚学,所以关于任务调度还不是很清楚。不过decode对于我够用了,改了一下,一般的gbk,big5都行。

var max = 10;
http.globalAgent.maxSockets = (max || 5);

http://nodejs.org/api/http.html#http_agent_maxsockets

你不会一憋气采集2000张图片吧? 我采集的时候把任务分开,隔几秒采集一些。让人家服务器也缓缓气。

@leapon @creati5 你们挂的什么服务器,我写了爬虫但是找不到合适的服务器挂

你是指百度的服务器?我没有抓百度。

@leapon 我没说百度。我是说,你们把爬虫挂在什么服务器上工作的?或者是本机?

回到顶部