写了个爬豆瓣top250的小程序,如果几千几万条的数据,该用什么办法来爬呢?
发布于 7 年前 作者 Kevinzhang29 3865 次浏览 来自 问答

https://github.com/Kevinzhang29/doubanSpider github如上,只有十页用的是for循环,如果几千几万几百万条数据的话,爬虫该怎么写呢?

8 回复

把获取url和爬取过程分离开 可以考虑用生产消费模型 配合async+多进程 这是我的一个例子,也是千万级别的请求数量 : ) https://github.com/Yuki-Minakami/PHelper

分开来处理

@Yuki-Minakami 好的谢谢参考一下!

@as13579e 好的看一下上面的老哥代码

爬虫前端多进程爬取,通过消息队列路由到后端,后端单DB起启动多个消费者接收处理数据并落地,在不是很大的并发量的情况下都可以扛住。

@nullcc 谢谢 最近正在做个demo测试一下

回到顶部