码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unlabele


    Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unlabeled Learning

    目录

    • Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unlabeled Learning
      • 前言
      • 论文核心
      • 论文建模
        • conf计算 二分类问题,0表示positive class,1表示negative class。目标是建立决策函数,减少决策的错误。
        • 标准的二分类监督
        • 在binary PU learning中
        • 模型的使用
      • 总结

    前言

    面向远程监督数据集中,噪声问题;
    面向在给定正例数据集和无标注数据集条件下,数据集label策略。
    (一般是在实体词典的基础上,做回标,会造成数据质量较低)

    在解决distant_NER,一项工作侧重于设计深度学习架构,以应对具有高误报率的训练数据,以部分减轻有缺陷的远程注释的影响(Shang 等人,2018 年;Liang 等人,2020 年)。另一项工作应用部分条件随机场 (CRF) 为未标记样本分配所有可能的标签并最大化整体概率

    PUlearning:二元正和未标记(PU)学习应用于 DS-NER 任务(Peng 等人,2019)。 PU 学习仅使用有限的标记正数据和未标记数据进行分类,因此自然适用于处理远程监督,其中外部知识通常对正样本的覆盖范围有限。在实际应用时,一般会将n个type的实体识别问题,建模为n个二分类任务。
    PU learning的基本假设是:未标注数据的分布和整体数据的分布相同。

    论文核心

    首先,计算每个token被估计为实体的置信度分值。
    之后,提出了Conf-MPU风险估计,被用来训练一个多类别分类网络。

    1. 对于distant labeled training data,我们首先进行token级别的二进制分类来估计token作为实体token的置信度分数([0, 1]中的概率值)
    2. 然后,我们使用神经网络模型和提出的 Conf-MPU 风险估计器执行 NER 分类,该模型结合了从风险估计的第一步获得的置信度分数。

    论文建模

    涉及到一些数据公式的推导,概率论部分的数学公式。

    conf计算 二分类问题,0表示positive class,1表示negative class。目标是建立决策函数,减少决策的错误。

    这一块,作者给出了比较详细的公式推导

    标准的二分类监督

    是从标准的二分类监督学习中,出发的,
    定义的决策函数是:
    前半部分是正例的loss,后半部分是neg的loss和,π是比率,每部分占的先验概率。
    在这里插入图片描述
    在这里插入图片描述


    在binary PU learning中

    在这里插入图片描述
    然后,经过推导,得到的最终公式:
    在这里插入图片描述

    多出的两部分是,是作者考虑到,未标记数据的分布 pU(x) 可能与整体分布 p(x) 不同,这就与最初的PU的假设相违背。在这种情况下,未标记的数据将具有更接近真实负数据分布 pN(x) 的分布,而不是整体分布 p(x)。
    因此,将Pu部分的概率分布,分为了正负数据分开考虑的。
    在这里插入图片描述


    最终的risk estimator,可以表示为(分为pos和neg两部分):
    在这里插入图片描述

    模型的使用

    损失函数是:
    label是y

    在这里插入图片描述

    总结

    作者补充了一些提高训练性能的方法,比如,例如基于模型预测迭代丰富字典(Peng et al., 2019),或迭代训练师生框架(梁等人,2020)。
    在实验中,作者发现,随着实体字典越发丰富,整个模型的准确率和recall是呈现下降的趋势的。给出的解释是,认为,当字典呈现高收敛的时候,PU中的分布假设,即未标注部分的数据服从整体数据分布,并不成立,而是更趋近于negative data部分的数据分布。

    这篇的文章的实用性,我觉得是可以的。
    需要再次翻阅。

  • 相关阅读:
    艾美捷人重组MEGACD40L蛋白(可溶性)实例展示
    防护装备穿戴监测 靠人工更靠SkeyeVSS防护装备视频监测系统
    Python自动化测试框架之unittest使用详解!
    Springboot整合SpringCache+redis简化缓存开发
    matplotlib.show() 阻塞程序怎么解决
    InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇
    大数据_数据中台_数据分层
    (STM32)从零开始的RT-Thread之旅--PWM驱动ST7735调光
    口袋参谋:如何实时监控对手数据?
    php+mysql实现补齐24小时时间段同时赋值0的后端解决方案
  • 原文地址:https://blog.csdn.net/Hekena/article/details/126503224
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号