码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Attention is all you need (一)


    论文地址:https://arxiv.org/abs/1706.03762

    1、本篇论文提出的模型是 Transformer。

    2、适用的任务是 sequence modeling(例语言模型) 和 sequence transduction(例机器翻译)。

    3、目前主流的方法是用基于RNN的或CNN的encoder-decoder结构,在encoder和decoder中间用attention机制做连接。

    4、Transformer 解决的问题是,减少计算时间复杂度,加快训练速度,提升模型效果。

    5、Transformer 解决的方法是,用attention替代encoder和decoder中的RNN结构,Transformer中只有attention。

             本篇读

    0 Abastract

    7 Conclusion

    浅看一下

    3 Model Architecture

    6 Results


    0 Abastract

    目前机器翻译的主流模型用的是基于RNN或CNN的encoder-decoder模型,encoder和decoder中间用attention进行连接会取得更好的效果。

    本篇论文提出的Transformer,仅仅有 attention mechanisms的网络结构,不依赖与RNN 和 CNN的网络结构。

    实验效果:效果更好,更加并行化,训练时间少。

    7 Conclusion

    1、本篇论文首次提出一个完全基于attention的sequence transduction模型,称为Transformer。用multi-headed self-attention替代encoder-decoder结构中常见的RNN。

    2、在翻译的任务上,Transformer的训练速度明显快于基于RNN和CNN的结构。

    3、未来展望:计划将Transformer应用在其他任务上;将Transformer扩展到输入输出为图像、音频、视频的任务上(这盛世如你所愿!)

    4、代码地址:https://github.com/tensorflow/tensor2tensor

    (用pytorch的推荐:GitHub - jadore801120/attention-is-all-you-need-pytorch: A PyTorch implementation of the Transformer model in "Attention is All You Need".)

    3 Model Architecture

    1、模型结构图

     

    2、attention、RNN、CNN 的时间复杂度对比

     

    6 Results

    三个实验数据:翻译、调参、英语成份句法分析

    1、Machine Translation

    在EN-DE,EN-FR的翻译任务上,对比下列模型的BLEU指标和训练成本。

     2、Model Variations

    为评估Transformer的不同组成部分的重要性,改变attention相关的几个参数:muti-heads中N的个数,self-attention中key 和 value的维度。

    3、English constituency Parsing

    为评估Transformer是否可以用于其他任务,用英语成份句法分析做了实验对比。

  • 相关阅读:
    线性表-顺序表学习笔记(基础)
    蓝桥杯刷题--python-20-多路归并,贡献法
    常见数据库介绍对比之SQL关系型数据库
    QXlsx 使用
    GMS地下水数值模拟丨GMS各模块、三维地质模型构建及与MODFLOW耦合、地下水流动数值模拟及报告编制、地下水溶质运移模型、反应性溶质运移等
    【ElasticSearch】深入了解 ElasticSearch:开源搜索引擎的力量
    52_数据结构
    Chapter20: Machine Learning for In Silico ADMET Prediction
    阿里云服务器配置怎么选择?几核几G?带宽系统盘怎么选?
    044-WEB攻防-PHP应用&SQL盲注&布尔回显&延时判断&报错处理&增删改查方式
  • 原文地址:https://blog.csdn.net/hangzuxi8764/article/details/126764917
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号