nodejs豆瓣爬虫
发布于 11 年前 作者 bsspirit 16923 次浏览 最后一次编辑是 8 年前

alt nodejs豆瓣爬虫

从零开始nodejs系列文章,将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发。Nodejs框架是基于V8的引擎,是目前速度最快的Javascript引擎。chrome浏览器就基于V8,同时打开20-30个网页都很流畅。Nodejs标准的web开发框架Express,可以帮助我们迅速建立web站点,比起PHP的开发效率更高,而且学习曲线更低。非常适合小型网站,个性化网站,我们自己的Geek网站!!

目录:

使用类库介绍 win7安装jquery – 失败 ubuntu安装jQuery – 成功 豆瓣爬虫

请查看博客文章
http://blog.fens.me/nodejs-crawler-douban/

11 回复

太简单了吧 呵

嗯,一般来说爬虫分为URL规则,页面分析,下载器和项目管道这4部分。

还有cookie 保存认证和代理服务器,自动切换IP等,你那个东西只存一个url是不合理的。。

有关爬虫的具体文章,求地址??

  • -可以参考其他框架的,例如python下的Scrapy
  1. URL改个参数,就可以传各种URL了 http://movie.douban.com/subject/11529526/

  2. 解析网页与jquery

  3. 代理服务器,自动切换IP,是完善的事情不是础功能。

  4. cookie,不需要登陆的网页,不用做cookie

基础功能就是很简单,把整个豆瓣的页面分析,无非就是多写几行xpath解析了。

学长好。。。~

爬豆瓣的话,其实用https://github.com/MatthewMueller/cheerio 更合适。。

感觉能用得上jsdom的地方,只有cheerio实在搞不定的情况下。。。

好的,我试一下。

其实我是在爬电影,爬取几十个字段,自己写xpath维护的成本不小的。 如果有成型的包,解析dom,当然是最理想的事了。

回到顶部