发布一个node-readability模块，提取出网页的文章内容

Readability是从一个开源项目发展而来的产品，该项目托管在Google Code上，不过现在已经不再维护。由于其最初设计在浏览器上运行，在node.js中难以使用，而且转换效果和Readability现在的服务也相差较大。所以这几天我重写了这个项目。

我希望达到的目的是把网页中文章的结构提取出来，而不包括样式和行为。感觉jsdom对于这个模块来说笨重了一些，速度有些慢，可能只用htmlparser就能实现，正在研究中。

最后希望这个模块对大家有用:-) (这是我发布到npm的第一个模块，欢迎大家提些意见~)

byvoid 1楼•14 年前

能不能簡單舉個例子，什麼叫把「文章結構提取出來」？

rekey 2楼•14 年前

好东西.可以用来做一些收藏文章的东东.

luinlee 3楼•14 年前作者

类似readability和read it later的东西。可以去除网页中的无用信息（如广告，logo，评论，侧边栏），把网页中的正文提取出来

guilin 4楼•14 年前

如何识别正文呢, 不是所有网站的结构都是一样的啊

luinlee 5楼•14 年前作者

有很多规则，比如类名，文本长度，标点，层次结构，前后关系…具体可以看看源码

byvoid 6楼•14 年前

@luinlee 原來是基於規則啊，我還以爲是基於機器學習的人工智能實現的正文提取算法呢。

guilin 7楼•14 年前

@luinlee 试了一下, 很不错