从零开始nodejs系列文章,将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发。Nodejs框架是基于V8的引擎,是目前速度最快的Javascript引擎。chrome浏览器就基于V8,同时打开20-30个网页都很流畅。Nodejs标准的web开发框架Express,可以帮助我们迅速建立web站点,比起PHP的开发效率更高,而且学习曲线更低。非常适合小型网站,个性化网站,我们自己的Geek网站!!
目录:
使用类库介绍 win7安装jquery – 失败 ubuntu安装jQuery – 成功 豆瓣爬虫
太简单了吧 呵
嗯,一般来说爬虫分为URL规则,页面分析,下载器和项目管道这4部分。
还有cookie 保存认证和代理服务器,自动切换IP等,你那个东西只存一个url是不合理的。。
有关爬虫的具体文章,求地址??
- -可以参考其他框架的,例如python下的Scrapy
-
URL改个参数,就可以传各种URL了 http://movie.douban.com/subject/11529526/
-
解析网页与jquery
-
代理服务器,自动切换IP,是完善的事情不是础功能。
-
cookie,不需要登陆的网页,不用做cookie
基础功能就是很简单,把整个豆瓣的页面分析,无非就是多写几行xpath解析了。
学长好。。。~
爬豆瓣的话,其实用https://github.com/MatthewMueller/cheerio 更合适。。
感觉能用得上jsdom的地方,只有cheerio实在搞不定的情况下。。。
好的,我试一下。
其实我是在爬电影,爬取几十个字段,自己写xpath维护的成本不小的。 如果有成型的包,解析dom,当然是最理想的事了。
比较good