带你熟悉NLP预训练模型：BERT - 码农知识堂

合集 - AI(75)

1.CutMix&Mixup详解与代码实战2023-04-27 2.绘画手残党的福音：涂鸦线稿秒变绝美图像2023-05-05 3.探讨AIGC的崛起历程，浅析其背后技术发展2023-05-10 4.创新 = 颠覆？AI创新如何做大蛋糕2023-07-19 5.实践分析丨AscendCL应用编译&运行案例2023-07-26 6.Inpaint Anything：一键进行多种图像修补2023-07-27 7.RT-DETR：可以满足实时性要求的DETR模型2023-07-31 8.华为云盘古大模型辅助药物设计，西交大的新型抗生素研发之路2023-08-01 9.解决大模型“开发难”，昇思MindSpore自动并行技术应用实践2023-08-03 10.一文详解TextBrewer2023-08-08 11.基于Pair-wise和CrossEncoder训练单塔模型2023-08-09 12.基于卷积神经网络的MAE自监督方法2023-08-11 13.晋级名单公布！“域见杯”复赛今日火热开启2023-08-16 14.CutLER：一种用于无监督目标检测和实例分割的方法2023-08-17 15.带你读论文丨S&P21 Survivalism: Living-Off-The-Land 经典离地攻击2023-08-18 16.使用 UCS(On-Premises) 管理您的GPU资源池，释放AI大模型算力潜能2023-08-21 17.带你读论文丨Fuzzing漏洞挖掘详细总结 GreyOne2023-08-22 18.用案例带你认识决策树，解锁洞察力2023-08-22 19.带你读论文丨S&P2019 HOLMES Real-time APT Detection2023-08-23 20.中国图数据库，领导者！2023-08-24 21. 【干货】华为云图数据库GES技术演进2023-08-24 22.带你上手基于Pytorch和Transformers的中文NLP训练框架2023-08-28 23.开放同飞，华为云发布盘古大模型全域协同生态2023-08-31 24.Ascend C保姆级教程：我的第一份Ascend C代码2023-08-31 25.纯干货！一文get昇腾Ascend C编程入门全部知识点2023-09-01 26.3天上手Ascend C编程丨带你认识Ascend C基本概念及常用接口2023-09-05 27.PanGu-Coder2：从排序中学习，激发大模型潜力2023-09-06 28.昇腾实践丨ATC模型转换动态shape问题案例2023-09-08 29.3天上手Ascend C编程丨通过Ascend C编程范式实现一个算子实例2023-09-11 30.华为云盘古大模型加码生物医药，为行业插上“数字翅膀”2023-09-14 31.如何用华为云ModelArts平台玩转Llama22023-09-15 32.教你用API插件开发一个AI快速处理图片小助手2023-09-19 33.大模型时代，如何快速开发AI应用2023-09-20 34.超详细API插件使用教程，教你开发AI垃圾分类机器人2023-09-20 35.三步实现BERT模型迁移部署到昇腾2023-09-21 36.手敲，Ascend算子开发入门笔记分享2023-10-09 37.全域Serverless+AI，华为云加速大模型应用开发2023-10-09 38.教你如何基于MindSpore进行ChatGLM微调2023-10-16 39.从基础到实践，回顾Elasticsearch 向量检索发展史2023-10-23 40.昇腾CANN 7.0 黑科技：大模型训练性能优化之道2023-10-23 41.知识图谱与大模型相结合的3种方法，1+1>22023-11-01 42.IoT与鸿蒙、低代码、生成式AI，引爆技术浪潮——华为云开发者日南京站成功举办2023-11-01 43.带你认识一下多模态对比语言图像预训练CLIP2023-11-02 44.昇腾迁移丨4个TensorFlow模型训练案例解读2023-11-06 45.MoE：LLM终身学习的可能性2023-11-07 46.理论+实践详解最热的LLM应用框架LangChain2023-11-07 47.昇腾CANN DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶2023-11-09 48.昇腾CANN 7.0 黑科技：大模型推理部署技术解密2023-11-10 49.从HumanEval到CoderEval: 你的代码生成模型真的work吗？2023-11-13 50.告别繁琐，ModelArts一键解决车牌号识别难题2023-11-16 51.四载磨砺，一群青年“识瘤者”以AI助力医疗创新2023-11-17 52.一种全新的日志异常检测评估框架：LightAD2023-11-21 53.学生开发者勇担青年使命，用AI守护少数人的“视界”2023-11-21 54.教你如何使用PyTorch解决多分类问题2023-11-22 55.三大基础方案和AI出海计划重磅发布！加速盘古大模型生态发展2023-11-23 56.带你了解大语言模型的前世今生2023-11-27 57.基于AI的架构优化：创新数据集构造法提升Feature envy坏味道检测与重构准确率2023-12-01 58.一种全新的日志异常检测评估框架：LightAD2023-12-04 59.从HumanEval到CoderEval: 你的代码生成模型真的work吗？2023-12-04 60.揭秘华为研发代码大模型是如何实现的2023-12-05 61.大语言模型底层架构丨带你认识Transformer2023-12-06 62.深入解析LLaMA如何改进Transformer的底层结构2023-12-07 63.语言模型：GPT与HuggingFace的应用2023-12-08 64.一文掌握Ascend C孪生调试2023-12-12 65.大模型那么火，教你一键Modelarts玩转开源LlaMA(羊驼)大模型2023-12-15 66.大语言模型训练数据常见的4种处理方法2023-12-19 67.听6位专家畅谈AI大模型落地实践：场景和人才是关键01-11 68.从工程化角度，详解鹏程·脑海大模型训练过程01-12 69.如何使用MindStudio轻松搞定大模型全流程开发01-19

70.带你熟悉NLP预训练模型：BERT01-22

71.三个方面浅析数据对大语言模型的影响01-25 72.4个大语言模型训练中的典型开源数据集02-01 73.动手实践丨轻量级目标检测与分割算法开发和部署(RK3568)02-26 74.手把手带你快速上手香橙派AIpro03-01 75.想做大模型开发前，先来了解一下MoE03-04

本文分享自华为云社区《【昇思技术公开课笔记-大模型】Bert理论知识》，作者： JeffDing。

NLP中的预训练模型

语言模型演变经历的几个阶段

word2vec/Glove将离散的文本数据转换为固定长度的静态词向量，后根据下游任务训练不同的语言模型
ELMo预训练模型将文本数据结合上下文信息，转换为动态词向量，后根据下游任务训练不同的语言模型
BERT同样将文本数据转换为动态词向量，能够更好地捕捉句子级别的信息与语境信息，后续只需对BERT参数进行微调，仅重新训练最后的输出层即可适配下游任务
GPT等预训练语言模型主要用于文本生成类任务，需要通过prompt方法来应用于下游任务，指导模型生成特定的输出。

BERT模型本质上是结合了ELMo模型与GPT模型的优势。

相比于ELMo，BERT仅需改动最后的输出层，而非模型架构，便可以在下游任务中达到很好的效果；
相比于GPT，BERT在处理词元表示时考虑到了双向上下文的信息；

Bert介绍

2018年Google发布了BERT（来自Transformer的双向自编码器）预训练模型，旨在通过联合左侧和右侧的上下文，从未标记文本中预训练出一个深度双向表示模型。因此，BERT可以通过增加一个额外的输出层来进行微调，就可以达到为广泛的任务创建State-of-the-arts 模型的效果，比如QA、语言推理任务。

当时将预训练模应用于下游任务的策略通常有两种：基于特征的（feature-based）和基于微调（fine-tuning）；前者比如ELMo，后者比如OpenAI GPT;

这两种策略在预训练期间具有相同的目标函数，在预训练期间，它们使用单向语言模型来学习一般的语言表示。但当前对预训练方法的限制（尤其是对基于微调的方法）是标准语言模型是单向(unidirectional）的，所以限制了在预训练阶段可选的模型结构体系。

比如GPT是从左到右的，每个token只能关注到前一个token的self-attention layers。这种局限对于句子级任务(sentence-level tasks)来说还不是很打紧，但是对于token-level tasks（比如QA）就很致命，所以结合两个方向的上下文信息至关重要。