码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • LLM - 大语言模型(LLM) 的 评估体系


    欢迎关注我的CSDN:https://spike.blog.csdn.net/
    本文地址:https://blog.csdn.net/caroline_wendy/article/details/138160155

    LLM

    大语言模型(LLM)的评估是复杂且多维的过程,涉及多个方面,包括评估体系、评估方法、评估实践。评估体系包括评估数据集、模型输出、样本/输出变换、
    真值(Ground Truth)、评估媒介、性能报告。评估方法包括直接评估指标、基于辅助模型的评估、基于模型的评估。评估实践主要包括,避免数据泄漏、测试样本的覆盖率、测试评估样本与任务无关、数据集划分和表述改写、随机数种子、准确率与召回率的权衡。

    1. 评估体系

    评估体系

    大型语言模型(LLM)的评估,需要考虑多个维度,主要包括:

    1. 知识与能力评估:关注模型的知识表示、推理能力和语言生成能力。评估方法包括自然语言处理任务、推理、生成、多语言任务和自然语言真实性等。
    2. 伦理与安全评估:考虑模型的伦理问题、偏见、隐私和安全性。评估方法包括检测模型是否存在偏见、是否满足隐私保护要求,以及是否
  • 相关阅读:
    微信小程序踩坑记录
    基于物联网技术的校园智慧消防管理平台-Susie 周
    C 练习实例15
    推荐系统
    十四、Docker的基本操作
    单目标应用:遗传算法(Genetic Algorithm,GA)求解微电网优化MATLAB
    从数据的crud开始讲起,回顾一下Buffer Pool在数据库里的地位
    OutOfMemoryError不常见,但你必须了解!面试问一个挂一个
    html、js、css3制作一款辉光管时钟
    【WINDOWS / DOS 批处理】if命令中的比较运算符
  • 原文地址:https://blog.csdn.net/u012515223/article/details/138160155
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号