template(可以是特定的文本tokens或抽象的新的tokens ,唯一的区别是初始化)是提示学习框架中最重要的模块之一。
from openprompt.prompts import MixedTemplate
mytemplate1 = MixedTemplate(model=plm, tokenizer=tokenizer, text='{"placeholder":"text_a"} {"soft": "Question:"} {"placeholder":"text_b"}? Is it correct? {"mask"}.')
mytemplate = MixedTemplate(model=plm, tokenizer=tokenizer, text='{"placeholder":"text_a"} {"soft"} {"soft"} {"soft"} {"placeholder":"text_b"} {"soft"} {"mask"}.')
请注意,hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的:
def process_batch(self, batch: Union[Dict, InputFeatures]) -> Union[Dict, InputFeatures]:
"""
将 input_ids 转换为 inputs_embeds
对于普通token,使用 PLM 的embed层
对于soft token,使用一个新的embed层,该层使用相应的 hard token embed 进行初始化
"""
raw_embeds = self.raw_embedding(batch['input_ids'])
soft_embeds = self.soft_embedding(batch['soft_token_ids'])
inputs_embeds = torch.where((batch['soft_token_ids'] > 0).unsqueeze(-1), soft_embeds, raw_embeds)
batch['input_ids'] = None
batch['inputs_embeds'] = inputs_embeds
return batch
注意如果两个soft token具有相同soft_ids的 ,它们将共享嵌入:
{"meta": "premise"} {"meta": "hypothesis"} {"soft": "Does"} {"soft": "the", "soft_id": 1} first sentence entails {"soft_id": 1} second?
如果尝试定义 10000 个 soft token,可以使用关键词 duplicate:
{"soft": None, "duplicate": 10000} {"meta": "text"} {"mask"}
如果您尝试定义 10000 个相同的soft token,可以使用关键词 same:
{"soft": None, "duplicate": 10000, "same": True}
OpenPrompt还支持后处理。例如,编写一个 lambda 表达式来去除数据中的最终标点符号:
{"meta": 'context', "post_processing": lambda s: s.rstrip(string.punctuation)}. {"soft": "It was"} {"mask"}
还可以应用 MLP 来对token 进行后处理:
{"text": "This sentence is", "post_processing": "mlp"} {"soft": None, "post_processing": "mlp"}