搞了一个磁力链接的爬虫，有兴趣的可以自己跑跑看 - CNode技术社区

学习nodejs，顺便写来玩玩的，可以抓取dht网络里活跃的资源，也就bt下载的资源。
爬虫在一台1核1G的VPS上跑了几个月了，目前收集到300W+资源。
成品地址： http://findit.keenwon.com
Github地址： https://github.com/keenwon/antcolony

jackhutu 1楼•11 年前

必须点赞。

keenwon 2楼•11 年前作者

QQ截图20150326104440.png

luicfer 3楼•11 年前

赞,貌似搜索页的源码不在这里么

keenwon 4楼•11 年前作者

@luicfer 对的，这个只是爬虫，搜索的部分没什么技术含量，Express.js做个简单的站点就好了，Elasticsearch有nodejs的客户端程序，很方便的。

keenwon 5楼•11 年前作者

@luicfer 而且目前 http://findit.so 的功能比较简单。但是只要能爬到数据，不管用什么语言、设计什么功能、玩什么创意，都是可以的，看想象力了。

zaozaool 6楼•11 年前

对于大牛们，我只能欣然点赞

kenshinhu 7楼•11 年前

赞一个

CocaCola183 8楼•11 年前

真的很牛逼啊，学了nodejs这么久，都没有脑子去做这种东西

keenwon 9楼•11 年前作者

现在出现个蛋疼的问题，mongodb一不小心已经15G了，VPS总空间才20G左右，硬盘剩余不足5%。打算新开一个更大的vps转移一下数据，有什么好方法，再不停机的情况下以最快的速度搞定？

buctyoyo 10楼•11 年前

赞，最近我也在看DHT的东西~~~

joney-pinkman 11楼•11 年前

楼主简直淫才啊，造福广大淫民群众

yaonie084 12楼•11 年前

我擦。。。楼主真的太牛了。。。。必须点赞！

keenwon 13楼•11 年前作者

哭晕了，晚点电影看一半，收到邮件mongodb的服务器挂了，打开findit试试，果然打不开了重启服务器，坑爹的mongo起不来了删除lock文件，执行repair，磁盘空间不足上digitalocean rezie成20刀的VPS，总算是重启来了。。。

satrong 14楼•11 年前

这站小心被封

kuake 15楼•11 年前

不错 mark

yatsen-yang 16楼•11 年前

赞赞赞

keenwon 17楼•11 年前作者

@satrong 封了就不玩了，我都没钱充VPS了 %>_<%

DoubleSpout 18楼•11 年前

最近正好在搞反爬虫，有机会让你测测~哈哈

CarlosRen 19楼•11 年前

大神，能发点爬虫的资料嘛2692387426@qq.com ，正被要求写爬虫，写的我不要不要的

keenwon 20楼•11 年前作者

@CarlosRen @DoubleSpout 其实也不算爬虫，只是伪装成一个p2p的节点，等待别的用户向我“询问”资源，然后我把这个资源记录下来而已

CarlosRen 21楼•11 年前

@keenwon 我这工作需要一个事实的外汇接口，动态的每隔一段时间爬一次外汇的数据，网址是http://quote.fx168.com/showration/ 您能给我点思路吗？我现在卡在如何用cheerio去分析提取数据

keenwon 22楼•11 年前作者

@CarlosRen cheerio这个我star了，但是没用过，最简单的就是直接http.request获取网页内容，然后用cheerio或者正则提取数据了。

CarlosRen 23楼•11 年前

@keenwon http://www.shousibaocai.com/ 您能看出这个网站的实现思路吗？也是做的p2p？

CarlosRen 24楼•11 年前

@keenwon https://cnodejs.org/topic/551a0078687c387d2f5b2af1 我把问题详尽的描述了下，就是cheerio不太会用，您看能帮忙出出主意吗

keenwon 25楼•11 年前作者

@CarlosRen 思路是一样的

keenwon 26楼•11 年前作者

@CarlosRen 下面已经有两个人回复你了，数据是异步加载进来的（jsonp），所以直接爬页面是看不到数据的，不过这样更省事，你可以直接调用他的接口，cheerio或者正则什么的都不需要了

CarlosRen 27楼•11 年前

@keenwon 多谢顺便请教一下您关于爬虫的经验什么场景或者条件下使用爬虫比较合适？

keenwon 28楼•11 年前作者

@CarlosRen 好大的问题啊，爬虫也没什么准确定义，所以只要实现你的需求就好了就算你直接访问jsonp接口可以取到数据，不需要获取页面，从页面里抽取数据，这样的程序也可以叫爬虫呀。

satrong 29楼•11 年前

@DoubleSpout 怎么做的？到时候分享一下

yaonie084 30楼•11 年前

@CarlosRen 你感觉实在搞不定的这种页面，推荐用 casperjs，再加一个redis的pubsub就能实时坚挺他们家的数据

CarlosRen 31楼•11 年前

感谢，已经hold住了，当时主要是对cheerio的$不理解

fising 32楼•11 年前

这种网站很多。

btbook.net btku.org

被举报存证，楼主等着洗干净屁股进去吧。

keenwon 33楼•11 年前作者

@fising 好害怕啊

HuarenYu 34楼•11 年前

用mysql应该可以节省一半以上空间。虽然mongodb很方便。

kidbai 35楼•11 年前

好网站。。

jues 36楼•11 年前

🐂 自豪地采用 CNodeJS ionic

yessirpopesama 37楼•11 年前

$1YVQC@A%8I5PN1_GTDYL}3.jpg 我只能说：好人一生平安

danglouge 38楼•6 年前

如果是国内资源搜出来磁力链接磁力链接用处也不大，本来活跃度就很有限，很多得手动加tracker才可能下完，现在国内BT太不济了，都被迅雷抢了流量。

回到顶部