• 大模型时代下做科研的四个思路


    1 Efficient高效

    2 Pretraining

    3 plug and play 插即用模块

    4 Dataset,evaluation,summary 数据集,评测,综述文章

    整理自 B站Bryanyzhu老师,原视频链接如下

    大模型时代下做科研的四个思路【论文精读·52】_哔哩哔哩_bilibili

    2023年初Facebook开源了自己的大语言模型LLaMA,为了让模型更加亲民

    LLaMA的参数量有四个等级,分别是70亿(7 Billion)、130亿(13 Billion)、330亿(33 Billion)、650亿(65 Billion)这四个等级

    比较好玩的是Facebook命名模型的时候是大语言模型,但是在他的发布博文里,他通篇都”谦逊“称呼小模型 Smaller Model

    不过这个确实是看和谁比了,如果和GPT3 1750亿 (175Billion)比,或者Google的PaLM的5400亿 (540BIllion)比,还是小了一个数量级

    但是比我们日常中用的很多模型都大多了

    至于CV领域,在2月10号,Google放出了更大的模型VIT 参数量22B (220亿参数)可以说在视觉领域也有了非常大的模型了

    bryanyzhu 老师给出了自己的四点建议

    1 Efficient高效

    把原来做不了或者做的很慢的工作,通过模型上的改进,使得用少量的计算资源就可以完成!

    作者举了自己的一篇工作

    之前视频理解的工作需要微调时间空间网络,参数量很大,耗时很长

    而他们仿照自然语言处理那边的工作在不同位置添加了adapter层(可学习参数),主干网络参数冻住进行微调

    效果非常好,而且由于添加的层参数量很少,内存占用和所用时间也很少

    还有前几天怎么把attention做出Efficient attention

    2 Pretraining

    当没有足够多的资源的时候,尽量不去碰pre_trainning

    尽量选择一些topic比较新的

    这些方向数据集比较小,backbone也比较小

    3 plug and play 插即用模块

    模型上的一些模块

    或者一些新的loss损失函数之类的

    或者是一个数据增强的方法

    4 Dataset,evaluation,summary 数据集,评测,综述文章

    评测,综述文章的话对于卡的占用就比较少了

    而且可以加深我们对于一个领域的理解

    在刚开始一个领域的时候,写写综述的帮助是非常大的

  • 相关阅读:
    2023山东科技大学计算机考研信息汇总
    定制密钥管理系统的好处 安当加密
    为什么要使用BGP?
    IOC 和 AOP
    按周的日期下拉组件
    【C++】STL——vector模拟实现
    jquery访问浏览器本地存储cookie,localStorage和sessionStorage
    pandas read_excel 参数及使用
    在 kubernetes 环境中实现 gRPC 负载均衡
    IMX6Q的SD卡启动使用教程【超完整】(2):busybox交叉编译根文件系统
  • 原文地址:https://blog.csdn.net/Q52099999/article/details/133612056