码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 2022 CCF BDCI 小样本数据分类任务 baseline


    最近,2022 CCF BDCI系列赛正式开始了。本人曾参加过几场NLP赛事,算是比较熟悉NLP赛题的解题流程,所以趁着休闲时间,针对小样本分类任务搭建了个简单的baseline。接下来让我们进入本文的正题。

    赛题介绍:

    比赛方公开958条专利数据,包括专利权人、专利标题、专利摘要和分类标签,其中分类标签经过脱敏处理,共36类。要求选手设计一套算法,完成测试数据的分类任务。本次赛题公布的训练数据量较小,属于基于小样本训练数据的分类任务。小样本分类任务作为近年来研究的热点问题,学界提出了远程监督、数据增强、预训练模型、PET范式等方案。希望选手充分发挥创造力,将学界的研究成果落地到本赛题中来。详情请见赛题链接:

    小样本数据分类任务https://www.datafountain.cn/competitions/582

    方案描述:

    (1)模型结构:模型采用预训练模型(macbert)提取输入的文本特征,然后经过输出层得到分类结果。
    (2)数据处理:将专利名称(title)、专利权人(assignee)和专利摘要(abstract)拼接成长文本,截取最大长度为320(如果GPU显存允许,设置更大长度可能会有更好的效果)。
    (3)数据划分:由于训练集数量仅有900多条,一共36类,平均下来每个类别仅有30条数据,所以本文没有随机划分数据集,而是采用StratifiedKFold对每个类别均匀采样划分验证集,StratifiedKFold使用方式如下:

    1. sfolder = StratifiedKFold(n_splits=5, random_state=args.seed, shuffle=True).split(dataset, labels)
    2. for i, j in sfolder:
    3. train_index, val_index = i, j
    4. break
     
    

    模型共训练10个epoch,线下0.42,线上0.419(trick:训练更多轮数,效果可能会更好哦)。

    接下来可以在以下方面进行尝试:
    (1)更换roberta、nezha等预训练模型,选择一个较好的backone。
    (2)已有的预训练模型是在公开的数据集上训练得到的参数权重,利用训练集和测试集文本数据进行预训练,使模型能够在本赛题的任务中表现得更好。(3)训练相关的trick:fgm、pgd、ema以及swa等。
    (4)在模型达到较高收益的时候,可以利用伪标签,毕竟测试集数据有2w多条。
    (5)few shot相关技术。

    以上便是我的baseline的实现方案,具体代码实现可参考github: 
    https://github.com/wbchief/2022CCF_BDCI_fewshot_data_classification_baseline

    欢迎star!

  • 相关阅读:
    高性能存储 SIG 月度动态:erofs 新增支持多个重要特性,持续构建容器场景竞争力
    十七、Rust集成MQTT Client
    Git 常用命令汇总
    安装项目运行环境(python依赖包+allure)
    LeetCode刷题---合并两个有序链表
    一年经验年初被裁面试 1 月有余无果,还遭前阿里面试官狂问八股,人麻了
    第四章:Python中的字典(下)
    Verilog HDL
    pdf只要其中一页 pdf只要第一页怎么办 pdf只要前几页怎么弄
    05、Python 简单计算器和进制转换
  • 原文地址:https://blog.csdn.net/Mr____Cheng/article/details/126803308
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号