• Prompt Learning——Template


    template(可以是特定的文本tokens或抽象的新的tokens ,唯一的区别是初始化)是提示学习框架中最重要的模块之一。

    Soft & Mix Template

    • hard template 就是由具体的中文或英文词汇组成提示,它是人工可读的提示。这类template的定义我们在之前的《Prompt Learning——basic & 【EACL 2021】PET》中有举例过。
    • soft template 是在向量空间优化出来的提示,可以从一个hard template开始(初始化)通过梯度搜索之类的方式进行优化,不改变原始的提示向量的数量和位置,在它的空间进行搜索。
      让我们尝试一些 soft token,如果你使用{‘soft’},token将被随机初始化。如果您在值位置添加一些普通token,hard token 将由这些token初始化:
    from openprompt.prompts import MixedTemplate
    
    mytemplate1 = MixedTemplate(model=plm, tokenizer=tokenizer, text='{"placeholder":"text_a"} {"soft": "Question:"} {"placeholder":"text_b"}? Is it correct? {"mask"}.')
    
    mytemplate = MixedTemplate(model=plm, tokenizer=tokenizer, text='{"placeholder":"text_a"} {"soft"} {"soft"} {"soft"} {"placeholder":"text_b"} {"soft"} {"mask"}.')
    
    • 1
    • 2
    • 3
    • 4
    • 5

    请注意,hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的:

        def process_batch(self, batch: Union[Dict, InputFeatures]) -> Union[Dict, InputFeatures]:
            """
            将 input_ids 转换为 inputs_embeds
    		对于普通token,使用 PLM 的embed层
    		对于soft token,使用一个新的embed层,该层使用相应的 hard token embed 进行初始化
            """
            raw_embeds = self.raw_embedding(batch['input_ids'])
            soft_embeds = self.soft_embedding(batch['soft_token_ids'])
            inputs_embeds = torch.where((batch['soft_token_ids'] > 0).unsqueeze(-1), soft_embeds, raw_embeds)
    
            batch['input_ids'] = None
            batch['inputs_embeds'] = inputs_embeds
            return batch
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    注意如果两个soft token具有相同soft_ids的 ,它们将共享嵌入:

    {"meta": "premise"} {"meta": "hypothesis"} {"soft": "Does"} {"soft": "the", "soft_id": 1} first sentence entails {"soft_id": 1} second?
    
    • 1

    如果尝试定义 10000 个 soft token,可以使用关键词 duplicate

    {"soft": None, "duplicate": 10000} {"meta": "text"} {"mask"}
    
    • 1

    如果您尝试定义 10000 个相同的soft token,可以使用关键词 same

    {"soft": None, "duplicate": 10000, "same": True}
    
    • 1

    Post processing

    OpenPrompt还支持后处理。例如,编写一个 lambda 表达式来去除数据中的最终标点符号:

    {"meta": 'context', "post_processing": lambda s: s.rstrip(string.punctuation)}. {"soft": "It was"} {"mask"}
    
    • 1

    还可以应用 MLP 来对token 进行后处理:

    {"text": "This sentence is", "post_processing": "mlp"} {"soft": None, "post_processing": "mlp"}
    
    • 1
  • 相关阅读:
    企业迁移到云平台是如何降低成本的?
    JavaSE基础阶段测试+平时测验
    arcgis如何给没有连通的路打交点
    【信息安全原理】——传输层安全(学习笔记)
    美团二季报:变了,但没完全变
    《MATLAB 神经网络43个案例分析》:第34章 广义神经网络的聚类算法——网络入侵聚类
    数字化转型的失败原因及成功之道
    vue3 快速入门系列 —— 组件通信
    [从零开始学习FPGA编程-43]:视野篇 - 后摩尔时代”芯片设计的技术演进-2-演进方向
    计算机视觉(CV)技术的优势和挑战
  • 原文地址:https://blog.csdn.net/u011239443/article/details/125626196