写了个爬豆瓣top250的小程序，如果几千几万条的数据，该用什么办法来爬呢？ - CNode技术社区

https://github.com/Kevinzhang29/doubanSpider github如上，只有十页用的是for循环，如果几千几万几百万条数据的话，爬虫该怎么写呢？

godghdai 1楼•9 年前

分而治之

Yuki-Minakami 2楼•9 年前

把获取url和爬取过程分离开可以考虑用生产消费模型配合async+多进程这是我的一个例子，也是千万级别的请求数量 : ) https://github.com/Yuki-Minakami/PHelper

as13579e 3楼•9 年前

分开来处理

Kevinzhang29 4楼•9 年前作者

@Yuki-Minakami 好的谢谢参考一下！

Kevinzhang29 5楼•9 年前作者

@godghdai 谢谢

Kevinzhang29 6楼•9 年前作者

@as13579e 好的看一下上面的老哥代码

nullcc 7楼•9 年前

爬虫前端多进程爬取，通过消息队列路由到后端，后端单DB起启动多个消费者接收处理数据并落地，在不是很大的并发量的情况下都可以扛住。

Kevinzhang29 8楼•9 年前作者

@nullcc 谢谢最近正在做个demo测试一下

回到顶部