做知乎爬虫的过程中,遇到了一些问题
发布于 7 年前 作者 majinliang123 4420 次浏览 来自 问答

写一个爬虫,但是遇到了一些问题,想向大家请教一下

  • 知乎获取下一页的方法是滚动条滚到最下边,我现在只能获取到第一页,请问怎么获取下一页
  • (假设我可以获取下一页)我应该在对每一页分别处理,还是获取到足够的页数后统一处理。
  • 如果我对每一页分别处理,我怎样将每一页分开
  • 怎样可以提高我爬取数据的效率
4 回复

没爬过zhihu,但你可以试试selenium,可以模拟浏览器动作

刚刚看了下知乎,点击查看更多,会访问这个地址 https://www.zhihu.com/api/v4/questions/60522025/answers 当然后面还有一堆参数。修改下其中的offset和limit就可以获得答案。不过需要登录。

打开控制台查看network网络状态,然后往下拉看是否有数据加载,然后模拟调用相关api即可

回到顶部