github : https://github.com/vfasky/cnbeta-rss
cnbeta-rss
-
cnbeta 全文 + 热门评论 feed 输出
-
基于 nodejs , mongoDb 性能强劲
-
在 2 分钟内完成与 cnbeta.com 新内容的同步
demo :
-
http://cnbeta.cnodejs.net NAE 云引擎
-
http://vfasky.hp.af.cm appfog 云引擎
特色 :
-
简单实现的 MVC , 可以当入门示例
-
实现了简单的定时任务
-
性能明显优于我写的PHP版 : http://cnbetarss.sinaapp.com/
版权声明 :
-
程序抓取的内容,版权归原作者所有
-
不得利用抓取的内容取得任何形式的收入,除非原作者授权
-
程序源代码的授权是 : BSD
为什么会有这个程序?
-
cnbeta.com 的广告太多了, 打开速度相当慢
-
已经习惯用 RSS 阅读器看新闻, cnbeta 的 RSS 没有全文输出
开源了的吗??
@vfasky 我能理解这是数据抓取工具不?? ^_^
@jaicc 不是工具,因为它不通用,只能作为一个小实验 :)
@vfasky 用nodejs 抓取网页的原理不懂。具体涉及哪些知识,不知能否请教下
@jaicc 就是定时执行任务 跟 字符串解释
地址能否测试一下,你抓取的记录数量(希望万级以上)的和时间,评估一下性能?
地址: http://cnbeta.cnodejs.net
现在才运行1星期,到达万级需要一个月(视 cnbeta 每天的更新量)
@szext2009 抓取的时间完全取决于网速。 node 相对于 php 的优势在于 node 的抓取是异步非阻塞。 这个特性决定了 node 同时抓取多个页面时 , 性能优于 php 。
@vfasky 同意
很厉害的样子,马上订阅。
LZ您好,下载了你的仓库然后安装完所有依赖的packages后运行node app.js显示以下错误,不知道哪里做的不对: vents.js:71 throw arguments1; // Unhandled ‘error’ event ^ Error: listen EACCES at errnoException (net.js:769:11) at Server._listen2 (net.js:892:19) at listen (net.js:936:10) at Server.listen (net.js:985:5) at Object.<anonymous> (/Users/liaau003f/n/cnbeta-rss/cnbeta/app.js:52:27) at Module._compile (module.js:449:26) at Object.Module._extensions…js (module.js:467:10) at Module.load (module.js:356:32) at Function.Module._load (module.js:312:12) at Module.runMain (module.js:492:10)