Bert模型变种:XLNet,SpanBERT,RoBERTa,AlBERT,ELECTRA,ERNIE,StructBERT,TinyBERT,MobileBERT ALbert:主要针对bert的参数量和速度进行优化,精度基本一致 1.矩阵分解 2.参数共享 3.NSP->SOP 1.矩阵分解(见下图)(减少参数) 2.参数共享 共同使用同一个encoder的参数,rnn也是权值共享。 3.NSP->SOP SOP:选择一对相邻的AB句子,A是B的相邻句子, 把clsAseqBseq 1 和clsBseqAseq 0 通过这个方式去做一个二分类任务,简单,方便快速