Bert模型变种:XLNet,SpanBERT,RoBERTa,AlBERT,ELECTRA,ERNIE,StructBERT,TinyBERT,MobileBERT
ALbert:主要针对bert的参数量和速度进行优化,精度基本一致
1.矩阵分解
2.参数共享
3.NSP->SOP
1.矩阵分解(见下图)(减少参数)
2.参数共享
共同使用同一个encoder的参数,rnn也是权值共享。
3.NSP->SOP
SOP:选择一对相邻的AB句子,A是B的相邻句子,
把clsAseqBseq 1
和clsBseqAseq 0
通过这个方式去做一个二分类任务,简单,方便快速
