求介绍好用的爬虫框架!
发布于 10 年前 作者 alexcc4 28748 次浏览 最后一次编辑是 8 年前

####最近想要实现爬虫功能,本来用nodejs爬指定的少量网站,用request加cheerio就足够了,但是现在要爬几百个网站,解析dom的规则也不尽相同,所以想问问有没有成熟一点的爬虫框架来专门应对这种情况的。nodejs的最好(不过估计不太可能有),python也可以。 ###希望大家能给点建议~感激不尽。

14 回复

额 爬虫还需要框架。。

那解析不同网站,要一个一个手写解析规则? 还有爬取的深度加深呢?扩展性呢?

作为一个专业得crawler告诉你, 还是不要用node。js 做大规模爬行,还是用python 或者 go

python 的scrapy? 会不会超了论坛的范围啊…

可以参考,其实没啥必要用框架,我自己那套,基本是自己写,框架不一点适用

可以看下nodejs的htmlparserjsdom~

我总感觉爬虫用框架非常不顺手

比 cheerio 好用?

手写程序,一个规则对应一个网站吗?多的话,,会不会很苦逼阿

ruby nokogiri 用了都说好

昨天也看到了,谢谢介绍。我先自己写一写,然后再参考这个框架。谢谢各位了

回到顶部