cx-extractor:基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
发布于 4 年前 作者 jiangzhuo 3175 次浏览 来自 分享

https://code.google.com/archive/p/cx-extractor 的node实现 https://github.com/jiangzhuo/cx-extractor 由于不解析DOM树,所有速度很快。 带来的缺点就是就是正文内容比较集中的网页效果很好,比如新闻之类的,但是对于论坛帖子之类的网页就较差。

还有很多能改进的地方比如使用trim替换正则,解决压缩的html问题等等 欢迎大家一起完善。

抓去新闻效果 http://world.huanqiu.com/exclusive/2016-12/9838402.html

中美顺利解决潜航器事件 美媒:中国欠美国一个道歉_国际新闻_环球网
                          【环球时报综合报道】“中国周二向美国移交了上周在南海捕获的美国海军的一个潜航器,对于威胁可能在特朗普就任前点燃海上紧张的一场军事对峙而言,这是一个和平方案。”美国《华盛顿邮报》评论说。
  20日下午,中国国防部网站发表简短声明称,中美双方经友好协商,于当天中午在南海有关海域顺利完成美无人潜航器的移交工作。
  五角大楼试图释放更多信息,其声明称,解放军派出的是海军510舰,双方交接地点是15日事发处附近,即苏比克湾西北约50海里的国际水域,美军派出的是“马斯廷”号导弹驱逐舰。声明还称,美方当时的作业“完全符合国际法”,并习惯性地强调坚持“航行和飞越自由”。
  俄罗斯军事专家丹德金20日对俄联邦新闻网表示,美国的潜航器在这一地区从事侦察活动,为其军舰活动创造条件,其收集的信息对中国来说可能具有重要意义,因此中国阻止美国这一行动是正确的。俄媒引述一些俄海军军官的观点说,如果是纯民用船舶在根据世界航行警告系统发布相应警告并向南海所有沿海国家专门通报后开展工作,美国还有机会诉诸联合国公约。但它没有发布警告,又带有军事标志,那么中方将潜航器捞出不存在任何法律障碍。
  “不能拽超人的斗篷。”美国《国家利益》杂志19日借该国民谣歌手吉米·克鲁斯的歌词称,超人不怒自威,中国欠美国的不仅是一个15万美元的潜航器,还有一个道歉。“只归还潜航器,同样的事可能再度发生。而道歉将确认,从国际海域拿走美国政府的财产不是中国的政策”。文章威胁称,如中方和;潜航器相对普通,并非那么先进;这起事件发生在战略学家认为的灰色区域;地区盟友不希望看到美国过于强硬。
  【环球时报驻美国、日本记者 萧达 蓝雅歌  环球时报记者 郭媛丹  崔杰通 汪析 柳直】
阅读更多内容请参见今日出版的《环球时报》或下载登录新版“环球TIME”客户端。

ps:写完这个发现对于我们的需求的几个垂直行业的网站效果不太好,所以发出来了。 最后我还是决定使用@luinlee实现的readability。

2 回复

你@错了,是https://cnodejs.org/user/luinlee

确实是很快

回到顶部