[论文笔记]MobileBERT

引言

今天带来一篇关于量化的论文MobileBERT，题目翻译过来是：一种适用于资源有限设备的紧凑型任务无关BERT模型。模型的简称是MobileBERT，意思是作者的这个BERT模型可以部署到手机端。

本篇工作，作者提出了MobileBERT用于压缩和加速BERT模型。与原始BERT一样，MobileBERT也是任务无关的，即它仅需简单的微调就能广泛地应用于不同的下游任务。本质上，MobileBERT是一个精简版的BERT-large，配备了瓶颈结构(bottleneck structure)和精心设计的自注意力和前馈网络之间的平衡。

要训练MobileBERT，作者首先训练一个特别的教师模型，一个集成了倒置瓶颈的BERT-large模型。然后，将知识从教师模型转移到MobileBERT上。

总体介绍

BERT自提出来之后在各种NLP任务上的效果惊人，但由于BERT的规模较大，存在参数量过大和高延迟问题，使它不可能部署到资源受限的移动设备上，来进行手机上的机器翻译、对话管理等。

已经有一些工作将BERT压缩为任务相关的紧凑模型。但还没有任何工作来构建一个任务无关的轻量级预训练模型，即一个可以像原始的BERT一样在不同的下游任务上进行通用微调的模型。本篇工作，作者提出MobileBERT来填补这个空白。实际上，任务无关的BERT压缩是可行的。

任务相关的压缩需要先将原始大BERT模型微调为任务相关的教师模型，然后进行蒸馏。这个过程比直接微调任务无关的紧凑模型更复杂，且成本更高。

但获得一个任务无关的紧凑BERT可能没有想象的那么简单，比如简单地选择一

相关阅读:
nacos的学习
自认为最好的rule_of_five
python——网络编程
C++提高编程
RCA关键清洗流程
js的小题
太强了！腾讯T14级大牛撰写的分布式数据库架构实践手册，GitHub上传疯了！
小程序笔记3
【LeetCode每日一题】——404.左叶子之和
02-数据结构-线性表

原文地址：https://blog.csdn.net/yjw123456/article/details/133983860