模型运行过程中占内存的中间变量

显存占用

通常一个模型占用的显存是两部分：

模型自身的参数(params) 模型
计算产生的中间变量(memory)

2占了很大的比例，又包括激活中间变量和优化器部分；

激活中间变量

网络训练使用链式法则进行参数更新，如下图：
在这里插入图片描述其中 $\frac{\partial f}{\partial z}$ 是激活函数的导数，
假设激活函数是sigmoid，则导数的值为 $\sigma'(x)=\sigma(x)(1-\sigma'(x))$
如果不暂存 $\sigma(x)$ 的话，我们就需要用 $x$ 进行前向运算重新计算一遍；

在这里插入图片描述
为了方便参数更新，一般会将 $\sigma(x)$ 暂时保存下来，非常占显存，
也可以不保存下来，需要用到的时候再用 $x_i$ 计算一遍，做一遍前向运算，会减少显存的使用，但是会增加耗时。

具体激活函数产出的临时变量会占多大的显存呢？是否比参数占的要多的多呢？

参考：

1、重新认识一下激活函数和non-zero-centered 问题

2、如何在Pytorch中精细化利用显存

相关阅读:
子切片的长度和容量
【Pygame实战】怀旧经典—这款给娃的棋类游戏，你还记得叫什么吧？（一定要收藏）
吉利高端品牌领克汽车携手体验家，重塑智能创新的汽车服务体验
Python 潮流周刊#55：分享 9 个高质量的技术类信息源！
首届昇腾AI创新大赛，“照见”好学不倦的“后浪”
气膜体育馆开启绿色运动新时代
远程小组软件开发过程(2):工具
C/C++ 入门（7）vector类（STL）
【小沐学QT】QT学习之Web控件的使用
LISTAGG函数:“字符串连接的结果太长“

原文地址：https://blog.csdn.net/m0_37477175/article/details/126288347