码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大模型微调方法


    下面是一些参数高效的微调大模型方法:

    Adapter

    模型总览

    Adapter

    Adapter作为一个插件加入到大模型内,微调下游任务时,固定大模型参数,只训练Adapter参数。

    LoRA

    LoRA名为大语言模型的低阶适应,最初设计用于微调LLM,但却在文生图领域大放异彩,并逐渐被人数知。其思想跟ResNet非常相似,通过在大模型旁侧添加一路分支,冻结大模型参数,学习分支参数(也即残差),达到微调效果。

    模型总览

    lora

    formula

    如果 Δ W \Delta W ΔW 跟 W 0 W_0 W0​ 一样,也是 R d × d \mathbb{R}^{d \times d} Rd×d,那么残差学习同样需要训练大量的参数,并没有达到参数高效的目标。而在我们学习中,常用的减少矩阵参数大小方法就是矩阵分解,因此作者对输入先降采样,再上采样,实现输入与输出维度一致。

    Prefix-Tuning

    该方法主要用来做NLG任务(Table-to-text Generation、 Summarization),在输入token之前构造一段任务相关的virtual tokens作为Prefix,然后训练的时候只更新Prefix部分的参数,而大模型参数冻结。

    模型总览

    prefix tuning

    Prefix tokens初始化如下:

    init

    需要注意的是,在低资源场景下,用任务相关的单词来初始化prefix tokens,效果更好:

    words

    Prompt-tuning

    Prompt-Tunning算是prefix-Tunning的简化版本,面向NLU任务,进行了更全面的效果对比,并且在大模型上成功打平了LM微调的效果。

    模型总览

    prompt tuning

    • 初始化:Prompt-tuning在输入层前置多个可训练的tokens,固定住大模型参数。实验结果表明用类标签来初始化prompts效果最好。
    • prompt ensembling:针对同一个任务,构造多个不同的prompts,就相当于训练了多个模型。

    ensemble

    Prompt-tuning 与 Prefix-Tuning 不同
    • 两者的基座模型不同,一个是T5,一个是BART和GPT2
    • 前者关注NLU,后者关注NLG
    • 前者参数更少,只需微调embeding层;后者需要微调所有层embedding,以及需要在输入层之后接一个MLP来稳定训练

    P-tuning V1 & P-tuning V2

    P-tuning主要用GPT来做NLU任务,达到甚至超过BERT同等水平。

    模型总览

    v1

    v1做了如下两点优化:

    • 考虑到预训练模型本身的embedding就比较离散了(随机初始化+梯度传回来小,最后只是小范围优化),同时prompt本身也是互相关联的,所以作者先用LSTM对prompt进行编码。
    • 在prompt模板中,加入一些anchor tokens效果会更好。

    v2主要是在大模型的每一层加入可训练prompts:

    v2


    参考

    • 解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning
    • Prompt范式第二阶段|Prefix-tuning、P-tuning、Prompt-tuning
    • 大模型参数高效微调技术原理综述(四)-Adapter Tuning及其变体
  • 相关阅读:
    HAL库笔记(重要库函数)
    el-select的某一项选中后显示id
    两万字带你认识黑客在kali中使用的工具
    自学Java很困难?那是你没找到方法
    ​企业该如何做好源代码防泄密工作
    Spring Boot 实现接口幂等性的 4 种方案
    我常用的5个效率小工具,强烈推荐
    【LeetCode每日一题】——445.两数相加 II
    【cocos creator】编辑器里自动播放spine动画
    APP 页面秒开优化方面总结~
  • 原文地址:https://blog.csdn.net/transformer_WSZ/article/details/133004376
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号