公司业务需要,有比较大的数据爬取需求,有本人负责完成,没找到node里有类似python Scrapy 这种完整的爬虫框架 ,只能自己不断踩坑碰墙,一步步把爬虫也完善了不少。 目前拥有的一些特性: 1.0回调,所有异步操作async化,这个感觉是基础。 2.请求失败的重试、重新登录、账号切换、切换账号Profile等特性 3.多样化数据实时存储,文件方式或数据库方式 4.爬取过程的详细日志,失败任务从断点重新开始等 5.单个爬虫任务以参数启动,配套一个身份账号配置,爬虫任务监控、创建、启动等一系列管理操作的web界面
想搞个类似 Scrapy 的框架,配套各种爬取常用的特性,爬虫的状态监控、日志系统、批量爬取任务管理等等特性,让node开发者在做数据爬取的时候只需要聚焦在爬虫自身的逻辑上,大家觉得有意义吗?可行性有多少?
感觉没必要或者没用的也可以说说,求不沉
意义不大 既然有了一个现成好用的轮子scrapy 为什么还要造一个nodejs版的 python的上手难度又不高
node版的大部分受益群体是前端…难点在于后续维护和更新
我觉得还是有点意义的,毕竟全世界都在 Node.js 化,手动滑稽
来自酷炫的 CNodeMD
@ztplz 最近也在学习python的scrapy,感觉确实很强大和完善,但是python要熟练操作到能应对各种复杂爬取和数据解析存储还是要花些时间的,在想如果搞个简化版的node爬虫框架多少会帮助到node开发者
@caiyuncheng 前端对数据挖掘的需求还是很小的,受众应该还是有数据爬取需求的node服务端开发者吧。 维护和更新是难,所以想先看看大家到底觉得这个东西有必要没
@XGHeaven 多谢支持,不过其实我也不清楚搞个node版除了对node开发者友好以外,对数据挖掘本身有没有帮助,或者说对比python有没有自己的优势
支持呀!
为啥不用Scrapy 神他妈好用
@wangchaoduo 已经在学习着用Scrapy了,自己node版的一些东西也是借鉴的Scrapy,只是在想node需不需要一个类似Scrapy的东西
@linjie2017 谢谢支持,不过真的实践着搞起来感觉还需要更多人支持
早就有了,意义不大,社区没有scrapy大
@jiangzhuo 可以说下名字吗,去github上看看
如果是自己搞研究或者写着玩的话,可以一搞,不过要是想在业务中实际应用的话,还是选择相对来说很成熟的Scrapy。上手的话,我只会一点Python,不过一中午的时间就用框架弄好了一个简单的爬虫,麻烦一点或者说难一点的话,就是链接MySQL数据库这里
公司项目不建议,个人项目支持。
@ztplz 这说的就不对了,如果就是不喜欢python呢?就只想用nodejs,如果有了这个不是好事吗?就比如,有了sublime,为啥还要开发vscode, atom呢?
楼主搞出来没?搞出来分享下
@lei2231 前端时间发版本,有些忙,上面提到的大部分特性在自己实际爬虫代码里都是已经应用了的,只是还没有优化和抽象出来,等过段时间有时间了考虑先把一些基本代码和特性抽象成一些扩展性强的类库,就当抛砖引玉了
@yuu2lee4 谢谢分享,瞅瞅再说
lz加油,期待lz开源出来
支持楼主
来自酷炫的 CNodeMD
支持
支持
还是有意义的,建议支持插件,可以自定义phantomjs,headless chrome爬取。。
来自酷炫的 CNodeMD
nodejs异步爬取也是很有价值的
来自酷炫的 CNodeMD
支持,能有好用的爬虫框架就太好了。
来自酷炫的 CNodeMD