现在用node写网页爬虫用phantomjs和jsdom各有什么利弊?
目前用phantomjs 遇到很多问题。 看了网上的demo 用child_process来调用phantomjs 只能从stdout获取数据,或者用phantomjs写到文件里再用node打开文件获取数据。 phantomjs开发时不好调试,有时报错stdout就卡着不动了,没法查问题。
jsdom就好多了 可以用jquery直接抓dom
12 回复
cherrio …
一般用request & cherrio基本就没问题了,有ajax的上phantomjs
这两样不能一起比吧?
顶
+1
node.js 调试确实头疼。。
用宝石写爬虫不是更好么?
对于ajax的页面,我只好用phantom了。。。但也遇到和楼主一样的困惑,非得将数据拉下来写文件,再让node拿,感觉好不爽。至于解析dom,推荐cherrio。
node.js调试再简单不过了吧,连ide都不用,试试node-inspector
宝石有什么高明之处?
@youxiachai 是cheerio
这坟挖的,cnodejs是不是要考虑下跟v2ex一样的帖子排序