对于Node服务的内存泄露，大家怎么看？

近期的工作中，开始从纯前端转向为Node+前端，遇到最大的一个难题就是内存泄露。我遇到的问题是：一个日均几千万pv的Node服务，在进程运行超过10个小时之后内存量就会接近1.4G的默认内存上限，然后进程就会报出stack trace的内存溢出，然后被线上环境的pm2重启，然后内存缓慢增长直至10多个小时之后再一次溢出 pm2重启,如此往复… 问题1：这样程度的问题算不算内存泄露？问题2：线上环境内存溢出之后被pm2重启进程，对于20-30qps的node服务来说影响大不大？问题3：这样的内存溢出问题该如何定位内存溢出的点呢，因为线上环境的centos版本较老而且线上机环境不太容易安装像memwatch v8-profiler等调试模块进行堆内存快照分析，线下似乎又很难模拟出线上的情况。我把内存溢出定位在了一个module内，但是在线下环境对这个module进行各种benchmark，将snapshot放到profiler里进行comparison显示根本没有内存泄露

真的很头疼，请教各位大神的看法

zhangzifa 1楼•9 年前

用用这个alinode

ncuzp 2楼•9 年前

内存泄漏目前应该还是没有什么有效的检查手段，很大程序上靠经验, 深入浅出那本书提出了三种类型的内存泄漏即:

内存当缓存用不小心使得存的数据不断暴涨
作用域没有即时的释放相关引用
队列消费不及时(例如简单的生产者消费者模型, 产能过剩引起数据堆积).

当然上面所讲的都是宏观层面的, 具体到程序中主要需要自己检查了, 例如除了我们自己写代码产生的内存泄漏之外，对于引入的一些第三方模块使用不当也可能发生内存泄漏，例如上次碰到的一个pm2.connect这个函数, 其实这个方法只需要调用一次以确保pm2正常工作了，但是如果你连续多次调用就会导致内存泄漏, 这是因为该模块内有个事件监听导致的作相关变量未销毁.

目前查找手段的话本质上大都都是打出heapdump.snapshot快照查看大对象方式的，当然也有个做了OneHeap的(点这里查看, 这个也只能针对打出的快照小于5M左右, 大了的话根本不可用, 这个可以分析相关引用，参考下也有助于理解快照

期待你解决问题了也分享下~~

magicdawn 3楼•9 年前

我的 hexo 主题内存泄露还没解决… https://cnodejs.org/topic/5743f7c4754d17df1e44d97d

zhuyingda 4楼•9 年前作者

@ncuzp 嗯我就是内存当缓存用的情况，不过我写了一套LRU算法的实现，理论上数据不会持续暴涨。但从目前线上机运行时内存的曲线来看，是存在内存泄露的，问题也确实定位在了自己写的这个缓存模块里。然而，追查这个问题的难度在于我们的线上机器环境导致无法直接安装像v8-profiler 或者memwatch等类似的npm包，因为这些模块都是需要编译C++ addon的。在线下测试环境上面，我尝试模拟线上高并发环境对这个缓存模块的读写，然而对进程定时快照之后发现，并没有明显内存泄露迹象。这个问题牵扯到我们线上机的稳定性，我肯定会继续研究直到得出结论的。同时，感谢你的回复

im-here 5楼•9 年前

jiangliqin 6楼•9 年前

我们服务也遇到了，通过监控和定位，发现是网络请求会出现网络异常，导致http没有及时关闭，作用域没有及时释放内存，这种问题不是很严重的内存泄露，你可以升级node试下

MirrorWang 7楼•9 年前

mark From Noder

lanhaoxiang 8楼•9 年前

遇到一样的问题，目前在看 Node.js 调试 GC 以及内存暴涨的分析楼主如果解决了的话分享一下哈

xinyu198736 9楼•9 年前

如果在测试服务复现，那还是用alinode吧，不过是收费的。

另外， 1，为啥要在进程里存数据呢？这样你的应用就不能横向扩展了，甚至连开多个进程都不行。 2，控制不好数据的生成和回收，很容易就溢出了，占用了应用本身的内存。 3，按照正常的js写法，其实很难溢出的，通过代码做一次排查吧。 4，是不是http服务或者其他io（例如数据库）达到瓶颈了，导致io队列堆积，内存和cpu都会暴涨。

JarvisQJ 10楼•9 年前

检查代码中是不是使用了占用内存不断变大的全局变量，这种变量需要自己做回收。

huangdh3 11楼•9 年前

讲一下我个人的方法：首先使用压测方法，因为只有长时间的压测才能定位到问题。例如可以使用并发100，总请求10000的数据。打断点，两个断点分析heapdump抓取内存快照，分别是5000请求与10000请求的时候的抓取到快照以后，使用chrome的profile进行对比分析，查看其中的内存变化，具体是因为哪些对象增多导致的。

Chunlin-Li 12楼•9 年前

我自己之前的两次 node debug 记录，没有实际解决问题，但也许会给你一些启发。 https://github.com/Chunlin-Li/Chunlin-Li.github.io/blob/master/blogs/javascript/node_debug_20160305.md https://github.com/Chunlin-Li/Chunlin-Li.github.io/blob/master/blogs/javascript/node_debug_20160524.md

后来内存问题解决了，给每一个请求加一个 timeout, 比如 500ms，超过这个时间，则直接返回个空。至少这个方案对我的情况有效。node单进程 qps 100左右。原因可能是有些请求没能尽快响应，或是没响应，导致对应的请求一直停留在内存中。

Chunlin-Li 13楼•9 年前

另外，线上环境抓 dump 也很容易。我 node 跑在 docker 里也照样抓。写段代码，轮训检查 process.memUsage(好像是这个名)，如果 heap 超过 XXX，就关闭 setInterval, httpServer close. 启动 heapdump， dump 到 /tmp 或者随便你喜欢的路径。 dump 成功后进程自杀。睡一觉第二天上班捡尸体。