抓取网页时碰到GZIP怎么办?
抓取网页时碰到GZIP怎么办?有些网页RES HEADER Content-Encoding gzip,即便中文也能正确解码,但有些网页不能正确解码?这个是和GZIP有关,还是和charset有关?
2 回复
和charset有关。 需要正确解码,可以使用一些第三方库 IConv、iconv-lite等等 http://www.cnodejs.org/topic/53142ef833dbcb076d007230 这里解决了中文乱码问题 。不知道你的是什么问题
用zlib可以解码gzip