号召搞个Node爬虫框架，大家觉得有意义吗，可行吗 - CNode技术社区

公司业务需要，有比较大的数据爬取需求，有本人负责完成，没找到node里有类似python Scrapy 这种完整的爬虫框架，只能自己不断踩坑碰墙，一步步把爬虫也完善了不少。目前拥有的一些特性: 1.0回调,所有异步操作async化,这个感觉是基础。 2.请求失败的重试、重新登录、账号切换、切换账号Profile等特性 3.多样化数据实时存储，文件方式或数据库方式 4.爬取过程的详细日志,失败任务从断点重新开始等 5.单个爬虫任务以参数启动，配套一个身份账号配置，爬虫任务监控、创建、启动等一系列管理操作的web界面

想搞个类似 Scrapy 的框架，配套各种爬取常用的特性，爬虫的状态监控、日志系统、批量爬取任务管理等等特性，让node开发者在做数据爬取的时候只需要聚焦在爬虫自身的逻辑上，大家觉得有意义吗？可行性有多少？

PirateD311 1楼•9 年前作者

感觉没必要或者没用的也可以说说，求不沉

ztplz 2楼•9 年前

意义不大既然有了一个现成好用的轮子scrapy 为什么还要造一个nodejs版的 python的上手难度又不高

caiyuncheng 3楼•9 年前

node版的大部分受益群体是前端…难点在于后续维护和更新

XGHeaven 4楼•9 年前

1

我觉得还是有点意义的，毕竟全世界都在 Node.js 化，手动滑稽

来自酷炫的 CNodeMD

PirateD311 5楼•9 年前作者

@ztplz 最近也在学习python的scrapy，感觉确实很强大和完善，但是python要熟练操作到能应对各种复杂爬取和数据解析存储还是要花些时间的，在想如果搞个简化版的node爬虫框架多少会帮助到node开发者

PirateD311 6楼•9 年前作者

@caiyuncheng 前端对数据挖掘的需求还是很小的，受众应该还是有数据爬取需求的node服务端开发者吧。维护和更新是难，所以想先看看大家到底觉得这个东西有必要没

PirateD311 7楼•9 年前作者

@XGHeaven 多谢支持，不过其实我也不清楚搞个node版除了对node开发者友好以外，对数据挖掘本身有没有帮助，或者说对比python有没有自己的优势

linjie2017 8楼•9 年前

支持呀！

wangchaoduo 9楼•9 年前

为啥不用Scrapy 神他妈好用

PirateD311 10楼•9 年前作者

@wangchaoduo 已经在学习着用Scrapy了，自己node版的一些东西也是借鉴的Scrapy，只是在想node需不需要一个类似Scrapy的东西

PirateD311 11楼•9 年前作者

@linjie2017 谢谢支持，不过真的实践着搞起来感觉还需要更多人支持

jiangzhuo 12楼•9 年前

早就有了，意义不大，社区没有scrapy大

PirateD311 13楼•9 年前作者

@jiangzhuo 可以说下名字吗，去github上看看

vanishcode 14楼•9 年前

1

如果是自己搞研究或者写着玩的话，可以一搞，不过要是想在业务中实际应用的话，还是选择相对来说很成熟的Scrapy。上手的话，我只会一点Python，不过一中午的时间就用框架弄好了一个简单的爬虫，麻烦一点或者说难一点的话，就是链接MySQL数据库这里

vincent178 15楼•9 年前

公司项目不建议，个人项目支持。

tomoya92 16楼•9 年前

@ztplz 这说的就不对了，如果就是不喜欢python呢？就只想用nodejs，如果有了这个不是好事吗？就比如，有了sublime，为啥还要开发vscode, atom呢？

yuu2lee4 17楼•9 年前

https://www.npmjs.com/package/crawler

lei2231 18楼•9 年前

楼主搞出来没？搞出来分享下

PirateD311 19楼•9 年前作者

@lei2231 前端时间发版本，有些忙，上面提到的大部分特性在自己实际爬虫代码里都是已经应用了的，只是还没有优化和抽象出来，等过段时间有时间了考虑先把一些基本代码和特性抽象成一些扩展性强的类库，就当抛砖引玉了

PirateD311 20楼•9 年前作者

@yuu2lee4 谢谢分享，瞅瞅再说

wolfFN 21楼•9 年前

lz加油，期待lz开源出来

kaimZhou 22楼•9 年前

支持楼主

来自酷炫的 CNodeMD

zhongs 23楼•9 年前

支持

hankewins 24楼•9 年前

支持

zaaack 25楼•9 年前

还是有意义的，建议支持插件，可以自定义phantomjs，headless chrome爬取。。

来自酷炫的 CNodeMD

zaaack 26楼•9 年前

nodejs异步爬取也是很有价值的

来自酷炫的 CNodeMD

a69694510 27楼•9 年前

支持，能有好用的爬虫框架就太好了。

来自酷炫的 CNodeMD

回到顶部