码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 文本生成中的采样策略


    用于测试deocder解码阶段

    怎么拓展句子的多样性

    通过概率分布来选择每一步生成的单词,会使得系统为了达到生成结果的概率最大,就会产生很多通用一致的回复。

    1.贪心搜索

    每个时间步都选择分布中概率最大的作为当前解码的单词,问题在于,容易生成很多重复的句子。

    2.beam search

    在每个时间步保留topK的结果,最后选择一个概率最大的结果。

    2.1beam search的优化

    Length Normlization:在语言模型中,随着句子的越来越长,极大似然的累乘会变得越来越小。
    Coverage Normalization:如果attention学习的不好,就会让模型只过多的关注某些词,然后导致重复翻译的现象,通过Coverage惩罚可以让decoder均匀的关注x中的词,防止一些token获得过多的注意力。
    设置decoder最大输出长度限制

    3.topK采样

    4.随机采样

    怎么停止解码

    在测试解码的时候,不需要限定解码的长度,等模型预测出EOS这个token,解码就停止了。

    文本生成领域其他的一些trick

    输入不仅包括token还包括一些句子,然后query不变,key,value增加了了那些句子。

  • 相关阅读:
    SpringBoot使用@JsonDeserialize和@JsonSerialize注解的功能简介说明
    淀粉2207空头逼仓,玉米认沽大涨1-6倍,淀粉09-01正套2022.6.30
    docker 简单在线安装教程
    configure: error: library ‘crypto‘ is required for OpenSSL
    【linux-centos7下KVM安装相关文档】
    备受以太坊基金会青睐的 Hexlink,构建亿级用户涌入 Web3的入口
    VS保存后Unity不刷新
    leetcode17. 电话号码的字母组合
    锐捷EG易网关 phpinfo.view.php 信息泄露
    6.12ctf练习
  • 原文地址:https://blog.csdn.net/weixin_42887772/article/details/127577998
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号