码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 百度&飞桨&蜜度文本智能较对大赛经验分享(17/685)


    🚀 优质资源分享 🚀

    学习路线指引(点击解锁) 知识定位 人群定位
    🧡 Python实战微信订餐小程序 🧡 进阶级 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
    💛Python量化交易实战💛 入门级 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

    引言

    我上两个月参加了一个中文文本智能校对大赛,拿了17名,虽然没什么奖金但好歹也是自己solo下来的比赛吧,期间也学到了一些BERT应用的新视角和新的预训练方法,感觉还挺有趣的,所以在这里记录一下这期间学到的知识,分享一下自己的比赛过程,方案在此处:https://github.com/qftie/MiduCTC-competition 。这个赛题任务大概就是,选择网络文本作为输入,从中检测并纠正错误,实现中文文本校对系统。即给定一段文本,校对系统从中检测出错误字词、错误类型,并进行纠正。

    任务定义

    系统/模型的输入为原始序列X=(x1,x2,…,xn)X=(x1,x2,…,xn),输出为纠错后的序列 Y=(y1,y2,…,ym)Y=(y1,y2,…,ym)X可能已经是完全正确的序列,所以X可能与Y相同。系统/模型需要支持多种粒度的序列,包括:字词、短语、句子、短文。

    中文错误类型

    一般包含三种,从字词到语义错误,难度依次递增

    Soft-Masked BERT (ACL2020,字节跳动)

    论文:Spelling Error Correction with Soft-Masked BERT

    注意该模型只能处理输入序列和输出序列等长度的纠错场景!

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4MIc8EIe-1666199155155)(https://secure2.wostatic.cn/static/s8Z4xwJGgzHV9S95Z58CEM/image.png)]

    **模型简介:**整个模型包括检错网络和改错网路:

    • 检错网络是一个简单的Bi-GRU+MLP的网络,输出每个token是错字的概率
    • 改错网络是BERT模型,创新点在于,BERT的输入是原始Token的embbeding和 [MASK]的embbeding的加权平均值,权重就是检错网络的概率,这也就是所谓的Soft-MASK,即 ei=pi∗emask+(1−pi)∗eiei=pi∗e_{mask}+(1−p_i)∗e_i 。极端情况下,如果检错网络输出的错误概率是1,那么BERT的输入就是MASK的embedding,如果输出的错误概率是0,那么BERT的输入就是原始Token的embedding。

    在训练方式上采用Multi-Task Learning的方式进行,L=λ·Lc+(1−λ)·LdL=λ·L_c+(1−λ)·L_d,这里λ取值为0.8最佳,即更侧重于改错网络(Lc means correction)的学习。

    模型结果:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vNAKKXY1-1666199155156)(https://secure2.wostatic.cn/static/8qTPphvdUu8LVG9AaaZMML/image.png)]

    该结果是句子级别的评价结果,Soft-MASK BERT在两个数据集上均达到了新的SOTA,相比仅使用BERT在F1上有2-3%的提升。

    该模型处理错误的情况,主要有以下缺点,模型没有推理能力不能处理逻辑错误(语义错误),模型缺乏世界知识不能处理知识错误(地名等)

    用MLM-p

  • 相关阅读:
    【endnote】如何将参考文献放到想放的位置
    [node文件的上传和下载]一.node实现文件上传;二、Express实现文件下载;三、遍历下载文件夹下的文件,拼接成一个下载的url,传递到前端
    解决QT中文乱码
    存储器的分类
    「格创东智」获数亿元B轮融资,深度聚焦半导体和新能源数智升级
    入门JavaWeb之 Response 下载文件
    [工业互联-6]:PLC工业控制系统快速概览
    【论文精读】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
    Flink Operator 使用指南 之 Flink Operator安装
    MHA实验和架构
  • 原文地址:https://blog.csdn.net/m0_56069948/article/details/127419060
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号