web站点抓取beat1.0出世啦。
发布于 12 年前 作者 chinawomen 4675 次浏览 最后一次编辑是 8 年前

目前主要是抓取文档型网站。 现在抓取http://w3school.com.cn/这个站点 6688个html页面用时大约140s node的并发确实给力 不过内存飙升。 其他网站还没有抓取测试呢 https://github.com/jackzhaojun/GrabWeb 有兴趣的一起来玩啊

2 回复

怎么抽取数据,只是抓整个html页面吗?

嗯。然后制作成chm。后续会加点别的功能 抽取数据正则了

回到顶部