现在用node写网页爬虫用phantomjs和jsdom各有什么利弊?
发布于 11 年前 作者 foomorrow 17136 次浏览 最后一次编辑是 8 年前

目前用phantomjs 遇到很多问题。 看了网上的demo 用child_process来调用phantomjs 只能从stdout获取数据,或者用phantomjs写到文件里再用node打开文件获取数据。 phantomjs开发时不好调试,有时报错stdout就卡着不动了,没法查问题。

jsdom就好多了 可以用jquery直接抓dom

12 回复

一般用request & cherrio基本就没问题了,有ajax的上phantomjs

这两样不能一起比吧?

node.js 调试确实头疼。。

用宝石写爬虫不是更好么?

对于ajax的页面,我只好用phantom了。。。但也遇到和楼主一样的困惑,非得将数据拉下来写文件,再让node拿,感觉好不爽。至于解析dom,推荐cherrio。

node.js调试再简单不过了吧,连ide都不用,试试node-inspector

宝石有什么高明之处?

这坟挖的,cnodejs是不是要考虑下跟v2ex一样的帖子排序

回到顶部