• 2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛—— C 题:竞赛论文的辅助自动评阅完整思路与源代码分享


    一、问题背景
    近年来我国各领域各层次学科竞赛百花齐放,层出不穷,学生参与度也越来越高。随着参赛队伍的增 加,评阅论文的工作量急剧增加,这对评阅论文的人力要求也越来越大。因此引入机器辅助评阅成为竞赛主办方的现实需求。 在学术界,建立基于 AI 的学术论文自动评审模型已得到了许多研究者的关注。论文的自动评阅涉及多 种传统的自然语言处理技术如文本分类、信息抽取、论辩挖掘等。近年来,随着深度学习和自然语言处理技术的不断发展,特别是以 GPT 为代表的大语言模型的出现,进一步促进了论文自动评阅技术的发展,使得利用 AI 进行文本的自动评阅变得越来越可行,逐步从实验室走向学校和更多组织机构,成为当前的技术热点。但是在特定领域实现论文自动评阅仍然存在很多挑战,需要利用预训练的大语言模型适配具体的应用场景 来解决问题。

    二、解决问题

    1、构造论文质量特征

    每个指标的分数范围为 0-10 分。

    (1)论文的完整性评价

    对照赛题,比对竞赛论文中相关问题的章节或段落,对论文的完整性进行评价。评估竞赛论文是否能完整解答赛题,并给出评价论文完整性的技术手段和评分标准。

    (2)论文有无实质性工作

    对照赛题评阅要点,查找竞赛论文中相关问题的章节或段落,考察论文是否就赛题问题做出了相关的研究。需给出相关的技术方法和评价标准。

    (3)摘要质量

    摘要与内容的一致性评价。评价摘要是否如实反映正文的中心思想,即衡量内容摘要与正文的相关性、一致性。需给出摘要质量评价指标及其依据。

    (4)写作水平评价

    评价文字流畅性、写作规范(图、表、摘要)性和论文逻辑性。在传统论文评分(essay scoring)技术基础上,从文本通顺、立意分析、篇章结构、论证挖掘等维度进行探索,挖掘文本蕴含的论点论据、论证关系、结构信息,结合论证挖掘角度评估论文一致性、逻辑性,综合给出论文写作水平的评分。(完整附件见文末!)

    1. 数据预处理:首先,我们需要从PDF文件中提取出每篇论文的文本内容。
    2. 建立问题模板:针对每个要评估的指标(完整性、实质性工作、摘要质量、写作水平),我们需要设计适当的问题模板,确保向ChatGPT提出的问题能够得到有意义的回答。问题模板应该具有明确的语义,以便ChatGPT理解并给出相关的回复。
    3. 调用ChatGPT接口:利用建立的问题模板,我们向ChatGPT接口发送请求,将论文内容作为输入,并期待ChatGPT生成针对每个问题的回答。我们可以设置合适的参数来确保生成的回答质量和相关性。
    4. 解析回答结果:得到ChatGPT生成的回答后,我们需要解析这些结果,并将其转化为数值化的评分。这可能涉及到自然语言处理技术,例如情感分析、语义理解等,以确保对回答的准确解读。
    5. 综合评估:在对每个指标进行评估后,我们需要将各个指标的评分综合起来,得到每篇论文的综合评分。这一步可以根据不同指标的重要性进行加权处理,以确保综合评分更加准确地反映论文的整体质量。

    结果:

    2、竞赛论文辅助评分

    根据上面构造的各项评分指标建立论文的整体评分模型,根据提供的论文集,按照十分制给出每篇论文的综合评分,将结果保存到 result.xlsx 文件中。综合评分结果要求满足如下限制条件:8-10 分的不超过 3%;6-7 分的不少于 10%,6-10 分不超过 15%;4-5 分不少于 20%,4-10 分不超过 35%;其他的为 0-3 分。一般而言,在综合评分中论文的完整性和写作水平的分数占比之和不超过 40%。(完整附件见文末!)

    1.计算每篇论文的综合评分

    对每篇论文进行完整性、实质性工作、摘要质量和写作水平等方面的评分,可以利用之前构造的评分函数来完成。

    根据评分指标的重要性,可以为每个评分指标设置合适的权重,然后对各项评分进行加权求和,得到每篇论文的综合评分。

    2.根据评分要求进行限制:

    根据给定的评分要求,确定各个评分区间的数量限制,例如8-10分的不超过3%,6-7分的不少于10%,以及4-5分的不少于20%等。

    遍历每篇论文的综合评分,根据评分要求对评分进行调整,确保满足数量限制。

    3.检查评分结果:

    检查所得的评分结果,确保满足了给定的评分要求,并且符合预期的逻辑。

    附件:

  • 相关阅读:
    排序算法-----归并排序
    干货分享 | 关于同星硬件接口卡及TSMaster软件常见问题Q&A指南
    CentOS Stream9 安装远程桌面服务 Xrdp
    Python自学知识点
    我们为什么要阅读webpack源码
    总结常用9种下载(限速、多线程加速、ZIP、导Excel)
    若依VUE前端打包到测试环境
    无法解析符号 ‘SpringBootApplication’
    requestAnimationFrame实现vue虚拟滚动插件
    C语言之存储类,枚举,结构体,共用体,typedef
  • 原文地址:https://blog.csdn.net/weixin_52051317/article/details/136790907