怎么反爬 puppeteer
发布于 7 年前 作者 ianchn 7804 次浏览 来自 问答

像 phantom.js 之类的特征还是挺明显的,puppeteer 该怎么判断,是不是没特征跟 Chrome 完全一样,大家有没有什么思路?

5 回复

一般好的爬虫工程师是不会让你有机会从header里面发现是爬虫的, 网页端的应用理论上无法做到反爬,但可以让对方的工作变得复杂,当复杂到一定程度之后,有些人就会放弃了。 做爬虫的还是第一次听说puppeteer T_T ,原理应该就是完全模拟浏览器行为,类似的还有webdriver,对于这类爬虫方案可以设置一些强制人机交互步骤,比如拖动小方块到图片中某一个位置(简单图片验证码没有用)

@yyrdl 感谢回复,修正一下问题:puppeteer 有没有像 phantom.js 中 window._phantom 这样的 API 来做简单的判断挡住一般的小白?

好吧自问自答一个: puppeteer 的 无头模式下 User-Agent 里 有 headless 字样。

@ianchn 如果page.setUserAgent(userAgent)怎么办

@idsaynever 最近又发现很多办法,比如无头模式下没有 navigator.plugin 等 API, chromium 不能播 mp4 之类的,总之有很多跟正常浏览器不同的特征。

回到顶部