发布一个node-readability模块,提取出网页的文章内容
Readability是从一个开源项目发展而来的产品,该项目托管在Google Code上,不过现在已经不再维护。由于其最初设计在浏览器上运行,在node.js中难以使用,而且转换效果和Readability现在的服务也相差较大。所以这几天我重写了这个项目。
具体见:http://zihua.li/2012/03/node-readability-release/
我希望达到的目的是把网页中文章的结构提取出来,而不包括样式和行为。感觉jsdom对于这个模块来说笨重了一些,速度有些慢,可能只用htmlparser就能实现,正在研究中。
最后希望这个模块对大家有用:-) (这是我发布到npm的第一个模块,欢迎大家提些意见~)