搞了一个磁力链接的爬虫,有兴趣的可以自己跑跑看
发布于 10 年前 作者 keenwon 27620 次浏览 最后一次编辑是 8 年前 来自 分享

学习nodejs,顺便写来玩玩的,可以抓取dht网络里活跃的资源,也就bt下载的资源。
爬虫在一台1核1G的VPS上跑了几个月了,目前收集到300W+资源。
成品地址http://findit.keenwon.com
Github地址https://github.com/keenwon/antcolony

38 回复

必须点赞。

赞,貌似搜索页的源码不在这里么

@luicfer 对的,这个只是爬虫,搜索的部分没什么技术含量,Express.js做个简单的站点就好了,Elasticsearch有nodejs的客户端程序,很方便的。

@luicfer 而且目前 http://findit.so 的功能比较简单。但是只要能爬到数据,不管用什么语言、设计什么功能、玩什么创意,都是可以的,看想象力了。

对于大牛们,我只能欣然点赞

真的很牛逼啊,学了nodejs这么久,都没有脑子去做这种东西

现在出现个蛋疼的问题,mongodb一不小心已经15G了,VPS总空间才20G左右,硬盘剩余不足5%。 打算新开一个更大的vps转移一下数据,有什么好方法,再不停机的情况下以最快的速度搞定?

赞,最近我也在看DHT的东西~~~

楼主简直淫才啊,造福广大淫民群众

我擦。。。楼主真的太牛了。。。。必须点赞!

哭晕了,晚点电影看一半,收到邮件mongodb的服务器挂了,打开findit试试,果然打不开了 重启服务器,坑爹的mongo起不来了 删除lock文件,执行repair,磁盘空间不足 9152357162005.gif 上digitalocean rezie成20刀的VPS,总算是重启来了。。。

这站小心被封

@satrong 封了就不玩了,我都没钱充VPS了 %>_<%

最近正好在搞反爬虫,有机会让你测测~哈哈

大神,能发点爬虫的资料嘛2692387426@qq.com ,正被要求写爬虫,写的我不要不要的

@CarlosRen @DoubleSpout 其实也不算爬虫,只是伪装成一个p2p的节点,等待别的用户向我“询问”资源,然后我把这个资源记录下来而已

@keenwon 我这工作需要一个事实的外汇接口,动态的每隔一段时间爬一次外汇的数据,网址是http://quote.fx168.com/showration/ 您能给我点思路吗? 我现在卡在如何用cheerio去分析提取数据

@CarlosRen cheerio这个我star了,但是没用过,最简单的就是直接http.request获取网页内容,然后用cheerio或者正则提取数据了。

@keenwon http://www.shousibaocai.com/ 您能看出这个网站的实现思路吗? 也是做的p2p?

@keenwon https://cnodejs.org/topic/551a0078687c387d2f5b2af1 我把问题详尽的描述了下,就是cheerio不太会用,您看能帮忙出出主意吗

@CarlosRen 思路是一样的

@CarlosRen 下面已经有两个人回复你了,数据是异步加载进来的(jsonp),所以直接爬页面是看不到数据的,不过这样更省事,你可以直接调用他的接口,cheerio或者正则什么的都不需要了

@keenwon 多谢 顺便请教一下您关于爬虫的经验 什么场景或者条件下使用爬虫比较合适?

@CarlosRen 好大的问题啊,爬虫也没什么准确定义,所以只要实现你的需求就好了 就算你直接访问jsonp接口可以取到数据,不需要获取页面,从页面里抽取数据,这样的程序也可以叫爬虫呀。

@DoubleSpout 怎么做的?到时候分享一下

@CarlosRen 你感觉实在搞不定的这种页面,推荐用 casperjs, 再加一个redis的pubsub就能实时坚挺他们家的数据

感谢,已经hold住了,当时主要是对cheerio的$不理解

这种网站很多。

btbook.net btku.org

被举报存证,楼主等着洗干净屁股进去吧。

@fising 好害怕啊

用mysql应该可以节省一半以上空间。虽然mongodb很方便。

好网站。。

🐂 自豪地采用 CNodeJS ionic

$1YVQC@A%8I5PN1_GTDYL}3.jpg 我只能说:好人一生平安

如果是国内资源搜出来磁力链接磁力链接用处也不大,本来活跃度就很有限,很多得手动加tracker才可能下完,现在国内BT太不济了,都被迅雷抢了流量。

回到顶部