学着做了一个Nodejs爬虫

一直想用Nodejs做点好玩的东西，感觉做爬虫是最简单的，于是参考其他大神的爬虫，学着写了一个。爬取目标选择的是cnBeta，因为每天一上班就要上去逛个把钟头，第一想到的爬取目标就是它了。功能实现就是最简单的保存新闻内容和图片，貌似西贝也没做什么防爬措施，因此没遇到特别大的困难，从一篇文章开始，异步取得关联文章id就可以实现连续爬取了，期间遇到个301跳转的问题，也很容易就解决了。

完整代码见 Github 思路分析： Nodejs爬虫实践小记

PirateD311 1楼•9 年前

对爬虫有兴趣的话可以交流下，近期在考虑是否可以搞一个node的爬虫框架，见https://cnodejs.org/topic/5943a5915ee4f56e642e8753 对大规模数据爬取来说，能请求到数据和储存只是基础，还有很多其他的特性要有才能满足实际的数据挖掘需求

leavesdrift 2楼•8 年前

@PirateD311 想问下爬虫框架目前是什么状况呢？我挺感兴趣的

PirateD311 3楼•8 年前

@leavesdrift 哈哈，一直太忙了，就没怎么搞，现在直接用python的pyspider了