抓取网页得到html文档后,如何分析其中的dom?
发布于 10 年前 作者 ciiii 6253 次浏览 最后一次编辑是 8 年前

小白一个。 抓取网页得到html文档后,得到一个大字符串,什么方法分析其中的dom比较好呢?正则?jquery可以用吗?

14 回复

@alsotang 3q3q,;))

用ruby把:)

JQ是操作Dom的,但是cherrio和Dom有啥关系? 怎么扯到JQ Core了?

@ciiii 这个好用些,其它用起来会有版本问题。

npm install jsdom 但window不用的时候记得调用window.close, 不然会有内存泄漏,然后内存爆了node.js也就停了

@gitchs 3q,我去看看。虽然cheerio已经能解决

@ciiii 古人云:jsdom能用的地方,cheerio都够了

@yaochun ;)))

cheerio 很方便, 你可以看看这个 npm webrobber https://www.npmjs.org/package/webrobber

@tanker327 webrobber是在cheerio之上又包装的,是吗?

@ciiii 是的,其实就是把 http 和cheerio 包装了一下,这样大家可以直接拿来用。

回到顶部