欢迎关注我的公众号 [极智视界],获取我的更多经验分享
大家好,我是极智视界,本文来介绍一下 算一算大模型显存占用。
邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:https://t.zsxq.com/0aiNxERDq
大模型现在很火热,有一种比较有趣的称法是叫 百模大战。
说到大模型,很多人会称呼为百万参数级大模型、百亿参数级大模型等。
大模型在部署的时候,肯定离不开一个概念,叫显存占用。部署大模型,很多时候难点就在于它的大,之因为大,所以要么就根本跑不起来 (显存溢出),要么就推理很慢 (模型太大了)。所以对于大模型的推理优化,它跟 "小模型" CNN 的推理优化存在明显的不同之处,当然这里重要不是说这个,这里主要来看怎么计算大模型的显存占用。
比如对于目前比较流行的大模型 LLama2 来说,它就有 7B、13B、70B 三个版本。B 这个单位是十亿的意思,而 M 这个单位是百万的意思。所以像 LLama2 这种大模型,就可以称之为十亿、百亿级的大模型了。
然后还要清楚一个概念是模型精度,对于深度学习模型来说,一般有的精度就是 float32、float16、int8、int4 这些,后面的 int8