web站点抓取beat1.0出世啦。

目前主要是抓取文档型网站。现在抓取http://w3school.com.cn/这个站点 6688个html页面用时大约140s node的并发确实给力不过内存飙升。其他网站还没有抓取测试呢 https://github.com/jackzhaojun/GrabWeb 有兴趣的一起来玩啊

yakczh 1楼•13 年前

怎么抽取数据，只是抓整个html页面吗？

chinawomen 2楼•13 年前作者

嗯。然后制作成chm。后续会加点别的功能抽取数据正则了