两个爬虫问题请教- 图片直接转存问题, 下拉刷新下一页的获取问题
爬虫问题
- 墙外的图片能不能直接根据 url 地址转为 base64的图片存在数据库中? 不是整个列表的图片,是单个文章的图片,所以压力不会太大,而且只是实验性质
- 下拉刷新的网站,抓取第二页的时候,如何操作呢?
4 回复
- 只要网络通,图片响应到本地,格式怎么转都可以,node的buffer还是很方便的
- 两个方向:容器内模拟行为让容器帮你发第二页请求,你摸清请求规则自己发第二页请求
@soda-wy 多谢了, 我 用的是 graphcool的服务器, 其实没有提供文件操作的任何内容,但是底层仍然是 express 服务器,开放了一个解析函数(resolver),在里面实际就是 node.js 的操作,而且服务器是在国外的, 访问到图片资源应该是没有问题. 我去试试.
puppeteer 模拟下拉,拦截新发的请求
第一点,可以考虑用一些 第三方文件存储服务 境外将图片存入服务商,境内从服务商获取.