爬虫那些事,我不是老司机
发布于 1 年前 作者 blackmatch 3059 次浏览 来自 分享

啰嗦几句

这是我在cnode发的第一个帖子,观望了大半年,从各位大牛的帖子里学到了很多有用的东西。感谢各位大牛的无私奉献~~

这个帖子分享什么

简单的说:这是一个爬虫程序,爬的是pornhub(貌似号称全球最大的xx网站),目前支持边爬边下载视频。

为什么写这个

估计很多童鞋开始学node的兴趣有一部分是为了写爬虫,我也是的,哈哈哈。我记得我正儿八经看node的教程是看@alsotang的《node包教不包会》,其中有一节的内容就是爬虫的,然后就兴趣越来越大了。还有一个原因是,pornhub的爬虫有很多很多了,比如这个WebHubBot,这是用Python写的,把爬到的内容写到mongodb(貌似说可以一天爬500万条数据),但是爬到的下载链接只有半个小时的有效期。所以就想写一个边爬边下载的程序,我的第一个想法就是先写一个根据URL下载文件的模块(在狼叔的小密圈请教过,狼叔一定是太忙了,哈哈哈),虽然这样的轮子已经有很多了,接下来就是爬的时候根据下载链接下载完视频后再去爬下一个视频。其实写这个的初心是,希望能把自己的想法用代码实现,程序员不就好这口么?(Talk is cheap, show me the code.)

项目的代码质量

这个项目的代码质量和楼主的技术水平一样,都是渣到不行,大牛们板砖轻点拍。真的没啥技术含量,爬虫部分主要用superagentcheerio,下载视频部分是自己写的。获取下载链接的时候甚至用了字符串切割,哈哈哈哈~~~~

项目

在这里:pornhub-downloader
还是贴个图吧: progress.png

其他

cnode能发这样的帖子么?会不会被关小黑屋啊!如有不适立删。想不到要说啥了,多看书多撸代码吧。明天要上班了。。。。。

10 回复

玩玩还行,那些视频真要看的话还是算了,每次我自己找都得找老久才能找到能看的。

来自酷炫的 CNodeMD

樯橹灰飞烟灭…

直接放代码不如写下思路

目前营养是跟不上了

@tgxhx 哈哈哈哈,Google很强大的。

@ResJay 有空补一个,其实我写的真的很简单很简单。哈哈哈

@zy445566 多写点代码锻炼身体啊!

求楼主的部分源码跟思路

其实我是来看网站的

@gregLINm 代码都在GitHub了,思路的话,我有空整理一下放到readme.

回到顶部