web站点抓取beat1.0出世啦。
目前主要是抓取文档型网站。 现在抓取http://w3school.com.cn/这个站点 6688个html页面用时大约140s node的并发确实给力 不过内存飙升。 其他网站还没有抓取测试呢 https://github.com/jackzhaojun/GrabWeb 有兴趣的一起来玩啊
2 回复
怎么抽取数据,只是抓整个html页面吗?
嗯。然后制作成chm。后续会加点别的功能 抽取数据正则了