1 Efficient高效
2 Pretraining
3 plug and play 插即用模块
4 Dataset,evaluation,summary 数据集,评测,综述文章
整理自 B站Bryanyzhu老师,原视频链接如下
大模型时代下做科研的四个思路【论文精读·52】_哔哩哔哩_bilibili
2023年初Facebook开源了自己的大语言模型LLaMA,为了让模型更加亲民
LLaMA的参数量有四个等级,分别是70亿(7 Billion)、130亿(13 Billion)、330亿(33 Billion)、650亿(65 Billion)这四个等级
比较好玩的是Facebook命名模型的时候是大语言模型,但是在他的发布博文里,他通篇都”谦逊“称呼小模型 Smaller Model
不过这个确实是看和谁比了,如果和GPT3 1750亿 (175Billion)比,或者Google的PaLM的5400亿 (540BIllion)比,还是小了一个数量级
但是比我们日常中用的很多模型都大多了
至于CV领域,在2月10号,Google放出了更大的模型VIT 参数量22B (220亿参数)可以说在视觉领域也有了非常大的模型了
bryanyzhu 老师给出了自己的四点建议
把原来做不了或者做的很慢的工作,通过模型上的改进,使得用少量的计算资源就可以完成!
作者举了自己的一篇工作
之前视频理解的工作需要微调时间空间网络,参数量很大,耗时很长
而他们仿照自然语言处理那边的工作在不同位置添加了adapter层(可学习参数),主干网络参数冻住进行微调
效果非常好,而且由于添加的层参数量很少,内存占用和所用时间也很少
还有前几天怎么把attention做出Efficient attention
当没有足够多的资源的时候,尽量不去碰pre_trainning
尽量选择一些topic比较新的
这些方向数据集比较小,backbone也比较小
模型上的一些模块
或者一些新的loss损失函数之类的
或者是一个数据增强的方法
评测,综述文章的话对于卡的占用就比较少了
而且可以加深我们对于一个领域的理解
在刚开始一个领域的时候,写写综述的帮助是非常大的