• 深入探讨基于大语言模型的数据标注


    文章地址: https://arxiv.org/pdf/2402.13446

    数据标注是将原始数据用相关信息进行标注,对于提高机器学习模型的效果至关重要。然而,这一过程往往需要大量人力和资金支持。先进大语言模型(LLMs)的出现,例如GPT-4,为彻底改变和自动化复杂的数据标注过程提供了前所未有的机会。

    尽管现有的调研已经广泛涵盖了LLM的架构、训练和一般应用,但本文独特地专注于它们在数据标注中的具体用途。

    本次调研主要贡献于三个核心方面:

    • 基于LLM的数据标注

    • 评估LLM生成的标注

    • 利用LLM生成的标注进行学习

    此外,本文还包括了对利用LLM进行数据标注的方法的深入分类、对整合LLM生成的标注的模型的学习策略的全面调查,以及对使用LLM进行数据标注的主要挑战和局限性的详细讨论。本次调研旨在引导研究人员和从业者探索最新LLM在数据标注方面的潜力,促进这一关键领域的未来发展。

    为此提供了一份全面的论文list,可访问:

    https://github.com/Zhen-Tan-dmml/LLM4Annotation.git

    基于LLM的辅助标注工具和软件

    LangChain

    Stack AI

    UBIAI

    Prodigy

    介绍

    在复杂的机器学习和自然语言处理领域中,数据标注凸显出作为一个关键但具有挑战性的步骤,超越了简单的标签本身,涵盖了丰富的辅助预测信息。这个详细的过程通常涉及以下几个方面:

    ❶ 对原始数据进行分类,使用类别或任务标签进行基本分类;

    ❷ 添加中间标签以增加上下文深度;

    ❸ 分配置信度分数以衡量标注的可靠性;

    ❹ 应用对齐或偏好标签来将输出定制到特定标准或用户需求;

    ❺ 标注实体关系以了解数据集中实体之间的相互作用;

    ❻ 标记语义角色以定义实体在句子中扮演的基本角色;

    ❼ 标记时间序列以捕获事件或动作的顺序;

    由于数据的复杂性、主观性和多样性,数据标注对当前的机器学习模型构成了重大挑战,需要领域专业知识和手动标注大型数据集的资源密集型性质。像GPT-4、Gemini和Llama-2等先进的LLM提供了数据标注革新的大好机会。

    LLM不仅仅是工具,而且在改善数据标注的效果和精度方面发挥着至关重要的作用。它们自动化标注任务的能力、确保在大量数据上的一致性以及通过微调或提示适应特定领域显著减少了传统标注方法所遇到的挑战,为NLP领域中可实现的新标准树立了一个新的标准。

    本调研深入探讨了使用LLM进行数据标注的细微差别,探索了这种转变方法中的方法学、学习策略和相关挑战。通过这种探索,目标是揭示采用LLM作为重新定义机器学习和自然语言处理领域数据标注格局的催化剂背后的动机。

    本文探索利用最新的LLM进行数据标注的领域。这项调研主要做出了四项贡献:

    • 基于LLM的数据标注:深入研究了新型LLM(如GPT-4和Llama-2)的特定属性(例如语言理解、上下文理解)、能力(例如文本生成、上下文推理)以及微调或提示策略(例如提示工程、领域特定微调),使它们特别适用于标注任务。

    • 评估LLM生成的标注:探讨了评估标注质量的各种方法,以及如何从众多选项中选择高质量的标注。

    • 评估了标注质量、可靠性以及对下游任务的影响。

    • 挑战和伦理考虑:识别并讨论了各种挑战,从技术限制(如抽样偏差)到伦理困境(如社会偏见和更广泛的社会影响)都涉及在内。

    本调研主要关注LLM应用的这一被忽视的方面,旨在为有意将LLM用于标注的学者和实践者提供宝贵的指导。请注意,在本调研中,主要关注纯语言模型

    因此,并未考虑最近出现的多模态LLM,例如LLaVA(Liu等,2023b)。下图1展示了本调研的一般结构。并提供了一份利用LLM进行标注的潜在工具列表,并附有解释性示例。

    与其他LLM相关调研的差异

    尽管现有的LLM调研广泛涵盖了与LLM相关的架构细微差别、训练方法学、知识编辑和评估协议,但它们的主要重点在于模型在特定端任务(如机器翻译、对齐、代码生成和医学)中的能力。

    相比之下,本调研通过强调这些强大的下一代LLM在复杂的数据标注领域的应用,使自己与众不同,这是一个关键但尚未充分探索的领域。

    符号和初步准备

    本节将介绍了本文中使用的重要符号和初步准备。这些符号及其定义可以在下表1中找到。

    问题框架

    本节深入探讨了对标注过程的方法。介绍两个核心模型:一个标注器模型,表示为A,它将输入数据映射到标注;以及一个任务学习器,表示为L,它从这些带有标注的数据中学习以完成特定的任务。

    主要关注点是利用像GPT-4和LLaMA这样的先进LLM作为标注器(A),而任务学习器(L)可能涉及一个不太复杂的模型,如BERT,它从这些带有标注的数据中学习以执行指定的任务。

    LLM生成的标注涵盖了分类标签,并使用全面的辅助信号增强原始数据点。这些标注包括置信度分数、上下文细节和其他元数据,超出了传统的分类标签范围。

    情景

    鉴于自然语言处理任务的多样性,本调研中主要关注分类任务。然而,我们的方法可以扩展到其他领域,比如文本生成,在那里明确的标签y可能不适用。为了说明我们的方法,让表示一个未标记的数据池,而表示一个手动标记的数据集,其中N和M表示它们的大小,这在不同情景下可能会有所不同。在分类任务中,探索以下设置:

    1.全监督学习:M > 0,N = 0。标注器A为中的数据点生成辅助信号,并将其转换为。形式上,,其中。然后,学习器L在上进行训练。例如,在情感分析任务中,由A生成的属性可以突出显示影评中的关键短语和情感强度,帮助任务学习器L准确地将评论分类为积极或消极。

    2.无监督学习:M = 0,N > 0。在这种情况下,A在上运行,产生定义为的,其中。然后,任务学习器L在这个数据集上进行训练。

    3.半监督学习:M > 0,N > 0,通常N ≫ M。在这里,标注器A可以在或上操作,以产生一个合并的数据集。然后,任务学习器L在上进行训练。

    这些情景共享两个共同元素:(1)由LLM标注器A进行的标注过程,以及(2)基于A的标注进行的L的学习策略。

    LLM的提示和调整技术

    本小节规范了与LLM交互中常用的技术。给定一个输入x和一个特定任务的数据集D,一个提示p可以通过使用函数H手动或算法地生成,表示为p = H(D,x)。

    输入-输出提示(IO) 作为与LLM的基本交互模式,表示为函数F。提供一个提示p以获得一个输出o = A(p)。

    上下文学习(ICL) 在IO的基础上构建,通过使用一系列示例或示例对来丰富提示,从而指导LLM朝着期望的输出o = A(E⊕p)。

    思维链提示(CoT) 通过在E中的每个示范中附加推理路径re来进一步增强ICL,结果为。这种增强可以提高LLM的推理能力。

    注意⊕表示连接,意味着在ICL和CoT中,示例对E被整合到提示p中形成一个扩展的提示。此外,值得注意的是ICL可以被视为IO的一种专业形式,而CoT可以被视为ICL的一种专业形式。

    指令调整(IT) 被引入以根据任务特定的指令对LLM进行微调,使它们能够在各种下游任务中进行泛化。这个过程可以被公式化为o = A(q ⊕p),其中q表示任务描述。

    对齐调整(AT) 旨在微调LLM以使其行为与人类偏好相一致。除了人工标注的数据外,研究人员还利用LLM生成的标注进行微调。一般来说,基于LLM的标注过程可以表示为 z = A(q ⊕x1 ⊕x2 ⊕p),其中 x1 和 x2 表示LLM生成的两个候选响应,q表示任务描述。z表示一个指示人类偏好的分数,通常被建模为0到1之间的值。这个评分 是根据特定的奖励 R 生成的,并指示人类对更好的候选响应 的比较,其中 。

    基于LLM的数据标注

    大语言模型的出现引发了人们对其进行高质量、上下文敏感的数据标注能力的极大兴趣。本节探讨了通过LLM进行数据标注的各种技术和方法学。

    手动设计的提示

    手动设计的提示对于LLM在标注任务中至关重要,旨在引发特定的标注。它们分为零样本和少样本两类。

    零样本

    在LLM研究的早期阶段,零样本提示因其简单性和有效性而受到关注。形式上,通过将精心设计的提示q映射到一个标注o = A(q)来导出标注。提示可能包括一个任务概述I以及一个真值标签y。例如,ZEROGEN的研究展示了零样本提示的效用,使用短语比如“带有积极情感的电影评论是:”来指导LLM生成与标签y一致的文本x。

    少样本

    这个类别涉及使用上下文学习(ICL)来生成标注。ICL可以被视为一种高级的提示工程形式,它将人类生成的指令I与从中采样的示范相结合。在少样本情景中,示范样本的选择至关重要。例如,在少样本语义解析中,Shin等人利用GPT-3从训练集中随机选择样本作为示范。Rubin等人的另一种方法使用评分LLM A来评估示范样本的潜在用处。

    在这里,给定一个目标实例,模型评估候选样本的得分为。这些得分用于训练一个无监督的示范检索器,通过对比学习从BERT-base初始化。此外,还有一些工作将其他类型的标注整合到ICL中。例如,SuperICL将来自较小语言模型的置信度分数整合到示范中,进一步增强了标注过程。

    通过成对反馈实现对齐

    将LLM与以人为中心的属性对齐的重要性越来越被认识到。这些属性包括有用性、诚实性和无害性,对于面向公众交互的LLM至关重要,超出了它们固有的自然语言处理技能。传统的无监督学习方法,比如下一个词的预测,在培养这些品质方面并不成功。

    人类反馈

    将这些特征嵌入到LLM中的主要策略涉及基于人类偏好进行微调。一种普遍但资源密集型的技术需要收集关于特定LLM响应的定量反馈。尽管其有效性,但这种方法成本高昂,需要大量的努力。类似Sparrow的倡议制定了人类标注者的标准,但研究者意图与标注者感知之间的差异可能会影响反馈质量。

    自动化反馈

    因此,最近的进展旨在自动化反馈机制,通常利用另一个LLM或相同的LLM对不同的输出进行标注。这种方法学通常涉及LLM充当奖励模型,根据人类偏好数据进行指导。例如,OpenAI和DeepMind分别将6B GPT-3和7B Gopher模型实现为奖励模型。

    各种研究已经探讨了这种自动化方法的各种方面。例如,Stiennon等人(2020)的研究收集了人类对摘要的比较判断,以训练一个奖励模型。然后利用这个模型通过强化学习来完善摘要策略。

    此外,Askill等人(2021)评估了奖励模型的不同训练目标,发现排名偏好建模的改进随着模型大小的增加而更有效,而模仿学习。这个模型利用各种社会福利函数来融合这些个人偏好。最新的研究(Rafailov等,2023)采用Bradley-Terry模型指导LLM评估人类标注者所做的选择。

    评估LLM生成的标注

    有效评估由LLM生成的标注对充分发挥其潜力至关重要。本节主要关注两个方面:

    评估LLM生成的标注

    本小节探讨了从人工主导到自动化方法的各种评估标注质量的方法。

    一般方法

    研究已经调研了评估LLM标注的各种方法。Efrat和Levy(2020)提出的“Turking测试”评估LLM对数据标注指南的遵循程度,通过人类标注者将LLM的输出与SNLI、SQuAD和NewsQA等基准进行比较。

    类似地,Honovich等(2022a)手动检查了由LLM创建的数据集的原创性、准确性和多样性,重点关注它们对指令的响应。此外,Alizadeh等(2023)等研究衡量了开源LLM在诸如相关性和主题检测等任务中与人工标注标签的性能。

    任务特定的评估

    方法因应用而异。例如,在知识图谱增强中, tokens 排名指标评估LLM在事实完成中的贡献。此外,对于反事实生成的评估通常使用Self-BLEU等多样性度量,而代码生成依赖于Pass@k等度量。在需要大量数据集的场景中,LLM生成的标注质量与小型标注子集内的金标准标签进行比较。

    通过主动学习进行数据选择

    从众多选项中选择高质量的标注至关重要。主动学习(AL)成为一种关键技术,特别是在将LLM整合到AL过程中时。本节介绍了在用于标注学习的框架中的基于池的主动学习,其中存在大量未标注数据和较小的已标注数据集。主动学习从池中策略性地选择最具信息量的样本,以增强学习模型的性能或直到达到预算限制。

    LLM作为获取函数

    存在各种类型的获取函数α(xi,L),包括(a)多样性、(b)不确定性和(c)相似性。在这方面的重要研究包括Shelmanov等人(2021);Tamkin等人(2022);Margatina等人(2023)的研究,每个研究探讨了LLM作为获取函数的不同方面。

    LLM作为Oracle标注者

    创新性的研究(Bansal和Sharma,2023;Wu等,2023a)在AL设置中利用LLM作为oracle标注者,增强了领域泛化和上下文学习对NLP模型的影响。此外,Kim等人(2023)提出利用LLM对输入文本对之间的任务特定偏好进行标注,促进了与任务标签的联合学习。

    利用LLM生成的标注进行学习

    LLM生成的标注为各种机器学习任务提供了宝贵的标注数据资源。本节探讨了利用LLM生成的标注进行学习的方法学。

    目标域推理:直接利用标注

    本节探讨了LLM生成的标注在各种下游任务中的实际应用。通过精心设计的提示提取的标注为广泛的下游应用提供了宝贵的预测。这种用法可以根据第2节中的定义进行分类:a. 监督:以任何形式使用标签。b. 无监督:标注作为无标签的预测,例如,零样本情况。

    预测标签

    利用手动设计的提示,LLM以两种不同的方式生成预测标签。首先,它们在考虑演示样本的情况下预测标签,表示为。其次,它们在不依赖演示样本的情况下进行预测,表示为。

    根据这些演示样本的来源,可能是,这可以被分类为监督或无监督。这种技术使LLM能够为各种任务做出贡献,跨越了推理、知识库、因果推理、推荐系统、医疗保健甚至视觉语言模型等领域。

    推理附加属性

    类似地,LLM能够巧妙地将提示与特定属性或概念相关联,有效地在监督和无监督设置中发挥作用。这种能力在Concept Bottleneck Models等模型中尤其有优势,这些模型通过识别潜在概念来生成预测。在这种情况下,LLM有效地解决了数据集标注有限的问题。在视觉语言任务中,LLM可以用于为图像分类自动生成文本描述。

    知识蒸馏:搭建LLM与特定任务模型的桥梁

    在前面关于直接使用标注的讨论基础上,知识蒸馏(KD)作为另一种利用LLM能力的方法应运而生。知识蒸馏有助于将来自更大的“教师”模型(通常是LLM)的专业知识转移到更小、更专注的“学生”模型上。这种技术使得学生模型能够在资源需求较低的情况下达到甚至超越教师模型的性能。

    模型增强

    目前,有几项研究利用知识蒸馏来丰富一个特定任务的学习模型,表示为L,从LLM-based标注器A中获取见解。例如,研究工作如专注于使用A标注的数据集来训练L。相反,利用A提供的“困难任务”作为辅助标签来增强L的学习过程。值得注意的是,Alpaca和GPT4All利用LLM生成的语料库来训练其轻量级学生模型以实现令人印象深刻的性能。

    KD创新

    在工具方面,GKD是一种最近开发的库,它简化了与LLM的KD过程。这一领域的进展包括黑盒和白盒LLM作为教师模型,提高效率,以及扩展到专业领域,如生物医学知识提取、代码生成、网络内容过滤和数学推理。

    总而言之,采用KD来训练特定任务模型具有降低计算需求和持续性能的双重优势,使其成为当代自然语言处理中极具前景的途径。

    利用LLM标注进行微调和提示

    利用LLM生成的标注进行LLM适应的微调或提示越来越受欢迎,遵循知识蒸馏原则来释放LLM的潜力。研究表明,用于监督微调的更大数据集可以增强LLM的泛化能力,突显了LLM标注数据的日益重要性。这些方法主要分为四类:

    上下文学习

    源自GPT-3模型,上下文学习(ICL)已被广泛应用于提升LLM在各种任务中的性能。该方法通常使用特别格式的提示,其中包括任务说明以及示范性示例。这些提示帮助LLM在不需要显式参数更新的情况下对新的、未见过的任务进行推理。

    尽管有效,但通常难以实现。因此,一种有效的方法是根据LLM生成的标注获得有用的提示。由于任务说明对ICL的性能至关重要,因此提出了多项自动生成说明的方法,而无需进行繁琐的人工操作。在某些论文中,作者观察到,提供了几个示范示例后,LLM可以学会为各种任务生成说明,从而促进了ICL的性能。

    除了利用LLM生成的标注作为说明的方法外,其他工作还探索了利用LLM生成的示范来进行ICL的可能性。其中,一种名为合成提示(synthetic prompting,Shao et al.,2023)的最新方法已经引起了关注。该技术根据给定输入问题的推理链构建新的问题,然后通过聚类方法选择最多样化和复杂的示范。利用原始文本数据集作为预热,引入了一种方法来创建与各种下游任务的ICL学习格式相一致的自监督数据。

    Chain-of-Thought Prompting(思维链提示)

    它代表了ICL中的一种专门方法,专门增强LLM在复杂推理任务(如算术推理、常识推理和符号推理)上的性能。与传统的ICL不同,CoT在提示中引入了中间推理步骤。这些步骤旨在有意义地为最终输出做出贡献。这种区别强调了CoT对推理机制的关注。

    普遍认为,创建有效的CoT提示对解锁LLM的复杂推理能力至关重要。由于手动创建此类提示可能既昂贵又耗时,因此近期的研究普遍提出了通过LLM自动生成CoT提示的方法。例如,在Zero-shot CoT中,LLM被提示为“让我们一步一步地思考”,以生成推理步骤,随后使用“因此,答案是”来得出结论。

    Auto-CoT通过将聚类策略应用于训练问题,以确定每个聚类的最具代表性的问题,对此方法进行了改进。一项相关研究扩展了这一点,考虑了提示置信度,发现多样化的推理路径对于有效的CoT至关重要。

    另外,(Fu et al.,2023)提出将LLM生成的CoT和少量示范结合起来,以保持ICL能力,同时增强使用不同提示格式的推理性能。在另一方面,Wang等探索了LLM标注的理由用于基于CoT提示的知识蒸馏。尽管可能存在不相关或空洞的理由,作者使用对比解码来显著提高使用此增强数据训练的学生模型的推理能力。

    指令调整

    虽然ICL通过改变输入结构来调整LLM,但指令调整采用了一种不同的方法,即在监督学习的背景下对各种任务进行模型微调。

    多项研究表明,经过微调后,LLM在泛化到陌生任务方面显示出显著的能力。然而,为指令调整获取高质量的训练数据的过程通常需要大量的人力,这在特定的实际场景中可能是不切实际的。

    为避免获取人工标注的繁琐过程,近期的研究已经借助LLM生成的标注。作为一个典型的例子,在Self-Instruct中,LLM被提示自主生成新的指令输入-输出对。然后,这些对被筛选并用于对T5模型进行微调。这个两阶段的流程生成了指令,过滤掉无效或多余的实例,并将剩余的用于模型微调。

    Alpaca利用LLM生成的标注,以指令遵循示范的形式对LLaMA模型进行微调。值得注意的是,GopherCite模型引入了强化学习框架来训练LLM,以生成以引用证据支持的答案的标注,从而增强了其响应的可验证性。针对在各种NLP任务中使用LLM生成的标注进行类似人类评估的可靠性进行了研究。

    对齐调整

    对齐调整的目标是通过使LLM与人类期望保持一致来消除其不良行为。然而,在实践中,收集人类反馈通常是昂贵和繁琐的。因此,现有的工作通常学习一个能够模拟人类偏好的替代奖励模型(配对反馈)。

    为了为标注训练奖励模型,研究人员通常首先从人类标注者那里收集一个标注的配对反馈数据集。然后基于不同的策略,许多算法直接从中学习,而其他算法从学习一个替代奖励模型,并使用它自动标注LLM生成的未标注的配对反馈。

    为了将LLM与标注对齐,现有的工作通常利用强化学习策略,即RLHF(从人类反馈学习的强化学习)。作为一个典型的例子,InstructGPT利用了PPO策略,在每次更新中计算当前LLM输出与上次更新的KL散度。通过这种方式,可以以更稳健的方式优化框架。

    另一方面,ILQL探索了在离线设置下LLM生成的标注的对齐调整的应用,与普遍的在线RL场景形成对比。在GopherCite中,作者使用来自人类偏好的强化学习(RLHP)来训练QA模型,这些模型生成答案并同时引用特定的证据来支持其论点,从而促进了准确性的评估。

    最近,RLAIF利用了由现成的LLM标注的偏好,而不是人类标注的数据,其性能与使用人类标注的数据相当。

    挑战

    本节概述了LLM数据标注面临的挑战,包括技术障碍、准确性问题以及劳动力置换和偏见传播等社会影响。解决这些挑战对于推进LLM标注应用至关重要。

    模型模仿中的复合误差

    弥合专有LLM(如ChatGPT)与其开源对应物(如LLaMA)之间性能差距的努力通常涉及通过使用更强大模型的输出来增强后者的能力。虽然这种策略产生了不同的结果,但模仿模型通常复制了风格元素,却未能达到更优模型的准确性。

    研究强调了模型崩溃主要是由于模型逐渐偏离其试图复制的模型的数据分布造成的。这种偏差是由两个主要问题引起的:统计逼近误差,源自有限的样本量,和功能逼近误差,源自受限的模型容量。这两种误差都倾向于通过连续的训练周期放大。模型崩溃和逼近误差的后果延伸到社会领域。

    在未来模型训练中传播和利用具有这些不准确性的LLM生成的标注可能导致数据污染。这种情况可能会在一段时间内削弱LLM的可信度,影响它们在关键应用中的效用。解决这些问题对于构建下一代LLM或更广义的人工智能(AGI)至关重要。

    幻觉对LLM标注的影响

    LLM中的幻觉现象显著损害了其生成的标注的完整性和可靠性。与实际数据脱节的输出可能导致错误信息和标注不准确,从而在诸如医疗保健、法律分析和金融领域等敏感领域造成实质性风险。

    解决幻觉问题需要全面的策略,包括改进LLM训练过程以减少无根据内容的出现,并通过自动化和手动验证实施标注的验证机制。然而,LLM的固有不透明性使得确定和纠正幻觉的原因变得复杂,从而在将LLM部署到关键标注角色时引发了伦理困境。这凸显了在LLM应用领域中权衡性能提升和伦理关切的必要性的持续研究。

    社会影响

    LLM生成的标注在金融、法学和医疗保健等现实领域的广泛应用有望显著提高效率和生产率。然而,这种自动化引入了社会挑战,特别是关于劳动力置换、标注质量和社会发展影响的挑战。

    转向自动化标注可能使人类标注者角色变得多余,可能加剧收入差距,并影响低技能就业领域。此外,尽管LLM标注生成的速度很快,但缺乏人类见解可能导致输出缺乏深度,从而导致偏见或不公平的研究结果。

    此外,依赖LLM处理传统上由人类管理的任务需要谨慎的方法,以确保技术进步不会无意中加剧社会不平等或降低质量标准。未来的研究应该旨在将技术进步与其更广泛的社会影响相协调。

    结论

    LLM用于数据标注的探索揭示了自然语言处理领域的一个激动人心的前沿,提供了解决长期存在的数据稀缺、提高标注质量和过程效率等挑战的新颖解决方案。本调研系统地审视了与LLM的使用相关的方法、应用和障碍,包括创新策略,如提示工程和领域特定调整。

    它评估了LLM生成的标注对训练机器学习模型的影响,同时解决了技术和道德问题,如偏见和社会影响。通过突出我们对LLM方法学的新颖分类、利用LLM生成的标注的策略以及对挑战的批判性讨论,本文旨在引导这一关键领域的未来进展。

    此外,介绍了一套全面的技术分类方法,并编制了广泛的基准数据集,以支持正在进行的研究工作,最后对持续存在的挑战和待解决的问题进行了检查,为未来在该领域的研究探索铺平了道路。

    限制

    采样偏差和幻觉。LLMs可能会显示采样偏差,导致不正确或“幻觉”的数据,影响判别性任务的可靠性和质量。

    社会偏见和伦理困境。训练数据中固有的偏见可能会被LLMs持续放大,导致伦理关切和社会偏见通过标注数据传播。这在需要公平和公正的任务中尤为棘手。

    对高质量数据的依赖。LLMs生成标注的实用性取决于大型高质量数据集。但是,筛选这些数据集是一项劳动密集型工作,对基于LLM的标注工作的可扩展性构成了挑战。

    调整和提示工程的复杂性。成功利用LLMs进行数据标注需要复杂的提示工程和微调技术。这可能成为实践者和研究人员的入门障碍,如果他们在自然语言处理和机器学习方面没有广泛的专业知识。

    泛化和过拟合。虽然LLMs可以是标注的强大工具,但存在对训练数据的过度拟合的风险,限制了它们对未见数据或不同上下文的泛化能力。对于需要跨多样化数据集和领域表现良好的判别性任务而言,这是一个关键的限制。

    计算和资源需求。对于数据标注,训练和部署最先进的LLMs需要大量的计算资源,这可能不是所有研究人员和组织都能够获得的,从而限制了广泛的采用。

    伦理声明

    承诺公平。确保开发和应用LLMs进行数据标注遵守促进公平并防止偏见的伦理原则,认识到数据的多样性,避免歧视性结果的产生。

    透明度和问责制。保持LLM方法学、训练数据和标注流程的透明度。提供清晰的文档和问责机制,以解决LLMs可能引入的潜在错误或偏见。

    隐私和数据保护。保持强大的数据隐私协议,确保在训练和标注数据集中保持机密性和同意性。

    人类监督。利用人类监督审查LLMs生成的标注,确保准确性、伦理合规性,并减轻错误传播或偏见的风险。

    对偏见和错误的持续监控。定期评估和更新LLMs,识别和纠正偏见、不准确性或伦理关切,利用多样化的数据集和反馈机制改善模型的公平性和可靠性。

    社会影响和责任。考虑部署LLMs进行数据标注的更广泛社会影响,包括可能导致就业流失以及在敏感领域使用自动化系统的伦理问题。力争实现有益社会的技术,增强人类福祉。

    合作和参与。与广泛的利益相关者合作,包括伦理学家、领域专家和受影响的社区,收集多元化的观点和见解,确保LLMs用于数据标注的应用符合公共利益和伦理标准。

    论文集

    具有开源代码/数据的基于 LLM 的数据标注的代表性论文列表

    评估LLM生成的带有开源代码/数据的注释代表性论文列表

    应用LLM生成的标注进行学习的代表性论文列表,用于微调和提示(上下文学习和思维链),并附有开源代码/数据

    应用LLM生成的标注进行学习的代表性论文列表,用于微调和提示(上下文学习和思维链),并提供开源代码/数据

    应用LLM生成的标注进行学习的代表性论文列表,用于微调和提示(指导微调和对齐微调),附有开源代码/数据

    参考文献

    [1] Large Language Models for Data Annotation: A Survey

     更多精彩内容,请关注公众号:AI生成未来

    欢迎加群交流AIGC技术

  • 相关阅读:
    uniapp原生插件开发(Android)
    2023大数据挑战赛全国六强团队获奖经验+ppt分享(二)
    【Spring Boot Bean 注入详解】
    (mac)Prometheus监控之Node_exporter(CPU、内存、磁盘、网络等)
    day3_C++
    NSSCTF做题第9页(3)
    23 - 如何优化JVM内存分配?
    常见的旅游类软文类型分享
    【基础恶补】JavaScript数组的一些方法,reduce,filter,reverse,map等
    C#创建并调用dll
  • 原文地址:https://blog.csdn.net/AIGCer/article/details/136290454