码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 现代循环神经网络 - 双向循环神经网络


    文章目录

    • 双向循环神经网络
      • 1 - 隐马尔可夫模型中的动态规划
      • 2 - 双向模型
        • 定义
        • 模型的计算代价及其应用
      • 3 - 双向循环神经网络的错误应用
      • 4 - 小结

    双向循环神经网络


    1 - 隐马尔可夫模型中的动态规划



    2 - 双向模型

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sW4PPAM8-1662903858314)(imaes/d6.png)]

    定义

    模型的计算代价及其应用

    3 - 双向循环神经网络的错误应用

    由于双向循环神经网络使用了过去和未来的数据,所以我们不能盲目地将这一语言模型应用于任何观察任务

    尽管模型产生的困惑度是合理的,该模型预测未来词元的能力却可能存在严重缺陷。我们用下面的实例代码引以为鉴,以防止在错误的环境中使用它们

    import torch
    from torch import nn
    from d2l import torch as d2l
    
    # 加载数据
    batch_size, num_steps, device = 32, 35, d2l.try_gpu()
    train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
    
    # 通过设置“bidirective=True”来定义双向LSTM模型
    vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
    num_inputs = vocab_size
    lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
    model = d2l.RNNModel(lstm_layer, len(vocab))
    model = model.to(device)
    
    # 训练模型
    num_epochs, lr = 500, 1
    d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    perplexity 1.1, 115267.0 tokens/sec on cuda:0
    time travellerererererererererererererererererererererererererer
    travellerererererererererererererererererererererererererer
    
    • 1
    • 2
    • 3

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EGcxvXIE-1662903858315)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209112131557.svg)]

    上述结果显示不如人愿,关于如何更高效地使用双向循环神经网络,在以后会有更详细的讨论

    4 - 小结

    • 在双向循环神经网络中,每个时间步的隐状态由当前时间步的前后数据同时决定
    • 双向循环神经网络与概率图模型中的“前向-后向”算法具有相似性
    • 双向循环神经网络主要用于序列编码和给定双向上下文的观测统计
    • 由于梯度链更长,因此双向循环神经网络的训练代价非常高
  • 相关阅读:
    spark hdfs azure对象存储
    三台服务器使用docker搭建redis一主二从三哨兵,概念-搭建-整合springboot【保姆级】
    微服务项目:尚融宝(33)(服务调用(3))
    JMeter运行在Linux方法
    【小沐学前端】Node.js实现基于Protobuf协议的UDP通信(UDP/TCP)
    Centos安装postgresql
    存储过程,循环中定义变量
    软考 系统架构设计师 简明教程 | 系统运行与软件维护
    基于ssm的校园二手物品交易平台(idea+spring+springmvc+mybatis+jsp)
    MASM 64汇编
  • 原文地址:https://blog.csdn.net/mynameisgt/article/details/126810085
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号