nodejs豆瓣爬虫 - CNode技术社区

alt nodejs豆瓣爬虫

从零开始nodejs系列文章，将介绍如何利Javascript做为服务端脚本，通过Nodejs框架web开发。Nodejs框架是基于V8的引擎，是目前速度最快的Javascript引擎。chrome浏览器就基于V8，同时打开20-30个网页都很流畅。Nodejs标准的web开发框架Express，可以帮助我们迅速建立web站点，比起PHP的开发效率更高，而且学习曲线更低。非常适合小型网站，个性化网站，我们自己的Geek网站！！

目录：

使用类库介绍 win7安装jquery – 失败 ubuntu安装jQuery – 成功豆瓣爬虫

请查看博客文章
 http://blog.fens.me/nodejs-crawler-douban/

goooto 1楼•13 年前

太简单了吧呵

hexie 2楼•13 年前

嗯，一般来说爬虫分为URL规则，页面分析，下载器和项目管道这4部分。

hexie 3楼•13 年前

还有cookie 保存认证和代理服务器，自动切换IP等，你那个东西只存一个url是不合理的。。

fyddaben 4楼•13 年前

有关爬虫的具体文章，求地址？？

hexie 5楼•13 年前

-可以参考其他框架的，例如python下的Scrapy

bsspirit 6楼•13 年前作者

URL改个参数，就可以传各种URL了 http://movie.douban.com/subject/11529526/
解析网页与jquery
代理服务器，自动切换IP，是完善的事情不是础功能。
cookie，不需要登陆的网页，不用做cookie

bsspirit 7楼•13 年前作者

基础功能就是很简单，把整个豆瓣的页面分析，无非就是多写几行xpath解析了。

hexie 8楼•13 年前

学长好。。。~

youxiachai 9楼•13 年前

爬豆瓣的话，其实用https://github.com/MatthewMueller/cheerio 更合适。。

感觉能用得上jsdom的地方，只有cheerio实在搞不定的情况下。。。

bsspirit 10楼•13 年前作者

好的，我试一下。

其实我是在爬电影，爬取几十个字段，自己写xpath维护的成本不小的。如果有成型的包，解析dom，当然是最理想的事了。

mz121star 11楼•13 年前

比较good

回到顶部