cnbeta-rss : 抓取 cnbeta 全文 + 热门评论 [开源]
发布于 12 年前 作者 vfasky 18091 次浏览 最后一次编辑是 8 年前

github : https://github.com/vfasky/cnbeta-rss

cnbeta-rss

  • cnbeta 全文 + 热门评论 feed 输出

  • 基于 nodejs , mongoDb 性能强劲

  • 在 2 分钟内完成与 cnbeta.com 新内容的同步

demo :

特色 :

版权声明 :

  • 程序抓取的内容,版权归原作者所有

  • 不得利用抓取的内容取得任何形式的收入,除非原作者授权

  • 程序源代码的授权是 : BSD

为什么会有这个程序?

  • cnbeta.com 的广告太多了, 打开速度相当慢

  • 已经习惯用 RSS 阅读器看新闻, cnbeta 的 RSS 没有全文输出

12 回复

开源了的吗??

@vfasky 我能理解这是数据抓取工具不?? ^_^

@jaicc 不是工具,因为它不通用,只能作为一个小实验 :)

@vfasky 用nodejs 抓取网页的原理不懂。具体涉及哪些知识,不知能否请教下

@jaicc 就是定时执行任务 跟 字符串解释

地址能否测试一下,你抓取的记录数量(希望万级以上)的和时间,评估一下性能?

地址: http://cnbeta.cnodejs.net
现在才运行1星期,到达万级需要一个月(视  cnbeta  每天的更新量)

@szext2009 抓取的时间完全取决于网速。 node 相对于 php 的优势在于 node 的抓取是异步非阻塞。 这个特性决定了 node 同时抓取多个页面时 , 性能优于 php 。

很厉害的样子,马上订阅。

LZ您好,下载了你的仓库然后安装完所有依赖的packages后运行node app.js显示以下错误,不知道哪里做的不对: vents.js:71 throw arguments1; // Unhandled ‘error’ event ^ Error: listen EACCES at errnoException (net.js:769:11) at Server._listen2 (net.js:892:19) at listen (net.js:936:10) at Server.listen (net.js:985:5) at Object.<anonymous> (/Users/liaau003f/n/cnbeta-rss/cnbeta/app.js:52:27) at Module._compile (module.js:449:26) at Object.Module._extensions…js (module.js:467:10) at Module.load (module.js:356:32) at Function.Module._load (module.js:312:12) at Module.runMain (module.js:492:10)

enter image description here

回到顶部