Bidirectional Encoder Representations from Transformers,即Bert;
从本章开始的诸多内容,以理解为目标,着重关注对音频相关的支持(如果有的话);
BERT变体:ALBERT、RoBERTTa、ELECTRA、SpanBERT、基于知识蒸馏;
ALBERT,A Lite version of BERT,意为BERT模型的精简版;它对BERT的架构做了一些改变,以尽量缩短训练时间;
RoBERTTa,Robustly Optimized BERT Pretraining Approach,意为稳健优化的BERT预训练方法,是目前比较流行的BERT变体,被应用到许多先进系统,其工作原理与BERT类似,但预训练步骤商有一些变化;
ELECTRA,Efficiently Learning an Encoder that Classifies Token Replacements Accurately,意为高效训练编码器如何准确分类替换标记,特别的ELECTRA使用一个生成器(generator)和一个判别器(discriminator),并使用替换标记检测这一新任务进行预训练;
SpanBERT,它被广泛应用于问答任务和关系提取任务;
《ALBERT:A Lite BERT for Self-supervised Learning of Language Representations》
BERT-base有1.1亿个参数,这使得它很难训练,且推理时间较长;
ALBERT的参数量更少,它通过:跨层参数共享、嵌入层参数因子分解,来减少参数量;
这两种方式可以有效缩短BERT模型训练时间和推理时间;
我们知道BERT-base由12层编码器组成,所有编码器层的参数将通过训练获得,但在跨层参数共享的情况下,不是学习所有编码器层的参数,而是只学习第一层编码器的参数,然后将第一层编码器的参数与其他所有编码器层共享;
应用跨层参数共享时的几种方式:
BERT使用WordPiece词元分析器创建WordPiece标记,WordPiece标记的嵌入大小被设定为与隐藏层嵌入的大小(特征大小)相同,但WordPiece嵌入式无上下文信息的特征,它是从词表的独热(one-hot)编码向量中习得的,而隐藏层嵌入是由编码器返回的有上下文信息的特征;
使用:
为了将更多信息编码到隐藏层嵌入中,通常将隐藏层嵌入的大小设置为较大的一个数(BERT-base是768);
WordPiece嵌入和 隐藏层嵌入都是通过训练学习的,将二者大小设置的相同,会增加需要学习的参数数量;为避免这种情况,可以使用“嵌入层参数因子分解方法”,将嵌入矩阵分解成更小的矩阵;
通过分解:
也就是说,我们不是直接投射V x H,而是将这一步分解为 V x E和 E x H;
V = 30000、E = 128、H = 768,可以通过如下步骤投射 V x H
ALBERT使用了掩码语言模型构建任务
进行了预训练,但并没有用下句预测任务,而是使用“句序预测任务
”(sentence order prediction,SOP)这一新任务;
研究人员指出:相比掩码语言模型,下句预测并不是一个难的任务;句序预测是基于句子间连贯性,而不是基于主题预测;
句序预测也是一个二分类任务:在给定句子对中,两个句子的顺序是否被调换;模型的目标是分析句子对事属于正例(句子顺序没有互换)还是负例(句子顺序互换);
相比BERT,ALBERT的参数比较少;ALBERT-xxlarge配置的模型在多个语言基准数据集上的性能表现明显优于BERT-large;可以作为BERT的一个很好的替代品;
# 可以像使用BERT那样使用ALBERT模型
from transformers import AlbertTokenizer, AlbertModel
model = AlbertModel.from_pretrained('albert-base-v2')
tokenizer = AlbertTokenizer.from_pretrained('albert-base-v2')
sentence = "I am good"
imputs = tokenizer(sentence, reutrn_tensors = 'pt')
# inputs
# {
# 'input_ids':
# 'token_type_ids':
# 'attention_mask':
# }
hidden_rep, cls_head = model(**inputs)
《RoBERTa:A Robustly Optimized BERT Pretraining Approach》
RoBERTTa本质还是BERT,只是在预训练过程中有如下变化:
字节级字节对编码
作为子词词元化算法;静态掩码,指在预处理阶段完成随机掩盖15%标记的处理只做了一次,在多次迭代训练中预测的都是相同的掩码标记;
复制10次句子并进行随机掩盖,然后在多轮遍历训练中,依次使用每个掩盖后的句子;
研究发现,下句预测任务对预训练BERT模型并不是真的有用;因此RoBERTa中,只用了掩码语言模型构建任务来训练模型,输入是一个完整的句子,它是从一个或多个文件中连续采样而得得,输入最多由512个标记组成,如果输入达到一个文件的末尾,那么就从下一个文件开始采样;
BERT的预训练有100万步,批量大小为256;而RoBERTa的批量大小为8000,共30万步(用较大的批量进行训练可以提高模型的速度和性能);
字节级字节对编码:使用字节级序列,所使用的词表有50000个标记;
from transformers import RobertaConfig, RobertaModel, RobertaTokenizer
model = RobertaModel.from_pretrained('roberta-base')
model.config
tokenizer = RobertaTokenizer..from_pretrained('roberta-base')
tokenizer.tokenize("I am good")
ELECTRA没有使用掩码语言模型构建任务作为预训练目标,而是使用一个叫做替换标记检测的任务
进行预训练(并且仅使用了这个任务,下句预测也没用);
使用另一个标记进行替换,并训练模型判断标记是实际标记还是替换后的标记;
之所以这样做是因为,掩码语言模型构建使用了[MASK]
标记,但在下有任务中,这个标记并不存在,这导致了预训练和微调之间的不匹配,使用替换标记检测的任务
解决了预训练和微调之间的不匹配问题;
“判断标记是实际标记还是替换后的标记”的模型成为判别器
,仅做分类;
[MASK]
标记进行替换,然后送入另一个BERT模型,以预测被掩盖的标记,这个模型叫生成器
,它会返回标记的概率分布;[MASK]
标记;基本上来说,判别器就是ELECTRA模型,训练结束后生成器可以移除;
为了更高效的训练ELECTRA模型,可以在生成器和判别器之间共享权重,前提是二者大小相同,如果不同的话,可以使用较小的生成器,仅共享生成器和判别器之间的嵌入层(标记嵌入和位置嵌入);
from transformers import ElectraTokenizer, ElectraModel
# electra-small判别器
model = ElectraModel.from_pretrained("google/electra-small-discriminator")
# electra-small生成器
model = ElectraModel.from_pretrained("google/electra-small-generator")
SpanBERT主要用于文本区间的问答任务
为了预测[MASK]
所代表的标记,使用掩码语言模型构建目标和区间边界目标(span boundary objective, SBO)来训练SpanBERT模型;
[MASK]
的位置嵌入SpanBERT使用两个目标:
# pipeline API 用于无缝地执行从文本分类任务到问答任务等各类复杂任务
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model = "mrm8488/spanbert-large-finetuned-squadv2",
tokenizer = "SpanBERT/spanbert-large-cased"
)
# 输入问题和上下文 即可得到答案
results = qa_pipeline({
'question': "What is AI?",
'context': "AI is ...."
})
results["answer"]
使用知识蒸馏法可以实现 将知识从预训练的大型BERT模型迁移到小型BERT模型;本章将了解基于知识蒸馏的BERT变体;
知识蒸馏(knowledge distillation)是一种模型压缩技术,指训练一个小模型来重现大型预训练模型的行为;也被称为师生学习,大模型是老师,小模型是学生;
假设通过一个预训练大模型(教师网络)来预测句子中的下一个单词,输入一个句子,网络预测将返回词表中所有单词是下一个单词的概率分布(softmax作用于输出层);
从返回的概率分布中除了概率最高的词,还有一些词的概率也相对较高;这体现了相关单词与输入句子的相关性更高,这就是所谓的隐藏知识
;在知识蒸馏过程中,我们希望学生网络能从教师网络学到这些隐藏知识;
但实际的可用模型,往往会为正确的结果返回一个接近1的高概率,而对其他单词,概率都接近于0,此时概率分布中已经没有太多信息了;为此需要使用带有温度系数的softmax函数
,即softmax温度
;在输出层使用softmax温度,来平滑概率分布(增加T值可以是概率分布更平滑,T=1时即为标准的softmax函数);
通过softmax温度,就可以获得隐藏知识;即先用softmax温度对教师网络进行预训练,获得隐藏知识,然后在知识蒸馏中,将这些隐藏知识从教师网络迁移至学生网络;
经过预训练的教师网络,在其预训练过程中使用了softmax温度;
将句子送入教师网络和学生网络,其中:
软目标
;软预测
;软目标和软预测之间的交叉熵损失也被称为蒸馏损失
;
注意:教师网络和学生网络中,softmax层的T值需保持一致(如T=5),且都大于1;
除了蒸馏损失外,我们还是用另一个损失,称为学生损失;
学生损失:
计算过程:
最终的损失函数是 两个损失的加权和,权重分别为α和β两个超参数;
总结下:在知识蒸馏中,我们使用预训练网络作为教师网络,训练学生网络通过蒸馏从教师中获得知识;
Hugging Face的研发开发了DistilBERT,是一个更小、更快的轻量级BERT模型;
实际训练除了蒸馏损失和学生损失,还需要计算余弦嵌入损失
(cosine embedding loss):它是教师模型和学生模型所学的特征向量
之间的距离,最小化该损失将使学生网络的特征向量更加准确;
损失函数是3中损失之和:
通过最小化损失之和来训练学生BERT模型,即DistilBERT模型,他可以达到BERT-base 97%的准确度,在8块V100(16G)上进行了大约90小时的训练,该预训练模型Hugging Face也以公开,模型大小仅207MB;
在TinyBERT模型,除了从教师BERT模型的输出层(预测层)向学生BERT模型迁移知识,还可以嵌入层和编码层迁移知识;
具体内容略过;
《Distilling Tash-Specific Knowledge from BERT into Simple Neural Networks》
教师BERT模型
学生网络:
以句子的情感分析任务为例:
损失是 学生损失 和 蒸馏损失的加权和;这里使用均方损失(MSE) 作为蒸馏损失,因为它比交叉熵损失的表现更好;学生损失还是硬目标和硬预测之间的标准交叉熵损失;
这里我们略过第6章和第7章;
主要学习 ClinicalBERT模型,其他内容略过;
我们知道BERT模型是使用维基百科语料库进行的预训练,对于特定领域,也可以使用特定的语料库重新训练BERT;
ClinicalBERT模型就是一个使用大型临床语料库(MIMIC-III)进行预训练的针对临床领域的BERT模型;可以应用到死亡风险评估、诊断预测等下游任务;
ClinicalBERT模型使用掩码语言模型构建任务(penicillin)和下句预测任务(isNext)进行预训练,与BERT一致;
对于超过最大标记长度512的长序列,可以将其拆分成多个子序列,然后使用公式计算分数;
t分布随机邻域嵌入法(t-SNE)被用来绘制使用ClinicalBERT模型获得的医学术语特征,以评估该模型所学到的特征;
预训练任务:
语言-视觉对其
任务旁白和视频画面的对应 有助于联合学习语言及视频的特征;
提取视频中语言标记和视觉标记:
语言标记和视频标记结合,使用特殊标记间隔:
[CLS]
标记;[SEP]
标记在视觉标记末尾添加,中间使用[>]
标记间隔;[MASK]
进行随机掩蔽,送入VideoBERT,返回所有标记特征;掩码语言模型构建(完形填空)我们已经了解,对于语言-视觉对其
任务:
[CLS]
标记特征,送入一个分类器,对是否一致进行分类;VideoBERT模型使用了三个目标进行预训练:
最终预训练目标是上述3个目标的加权组合;
数据源和预处理:
对于从视频中采样的图像帧,使用预训练的视频卷积神经网络提取视觉特征,并使用分层的K均值算法对视觉特征进行标记;
VideoBERT模型应用:
基于Transformer架构,本质是一个降噪自编码器,通过重建受损文本进行训练的;
带有编码器和解码器的Transformer模型,将受损文本送入编码器学习,将学习得到的特征发送给解码器;解码器获得编码器生成的特征,重建原始文本;
BART模型通过最小化重建损失来训练,也就是原始文本和解码器的生成文本之间的交叉熵损失
BART模型与BERT模型不同,在BERT中,只是将被掩盖的标记送入编码器,然后将编码器的结果送入前馈网络层,用前馈网络层来预测被掩盖的标记;而在BART中,将编码器的结果反馈给解码器,由其生成或构建原始句子;
集中破坏文本增噪方法:
[MASK]
随机替换一些标记[MASK]
掩盖连续的标记# 文本摘要任务应用
from transformers import BartTokenizer, BartForConditionalGeneration
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
text = """
...
"""
# 对文本进行标记
inputs = tokenizer([text], max_length=1025, return_tensors='pt')
# 获取摘要ids(即模型生成的标记ID)
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=100, early_stopping=True)
# 对摘要进行解码
summary = ([tokenizer.decode(i, skip_special_tokens=True, clean_up_tokenization_spaces=False) for i in summary_ids])
print(summary)