BERT预训练模型学习笔记

在这里插入图片描述

对于输入的数据，你的关注点是什么？如何才能让计算机关注到这些有价值的信息？对于一句话，在不同的语境中所关注的地方也不一样，例如这两句话中的it：

在这里插入图片描述

一组q,k,v得到了一组当前词的特征表达；通过不同的head得到多个特征表达；将所有特征拼接在一起；可以通过再一层全连接来降维

在这里插入图片描述

堆叠多层，计算方法都是相同的

在self-attention中每个词都会考虑整个序列的加权，所以其出现位置并不会对结果产生什么影响，相当于放哪都无所谓，但是这跟实际就有些不符合了，我们希望模型能对位置有额外的认识。

加入归一化Normalize 2. 连接：基本的残差连接方式

BERT(Bidirectional Encoder Representations from Transformers)，说白了就是transformer的encoder部分，并不需要标签，有预料就能训练了

方法1：句子中有15%的词汇被随机mask掉

交给模型去预测被mask的家伙到底是什么

词语的可能性太多了，中文一般是字

如果BERT训练的向量好，那分类自然OK

在这里插入图片描述

方法2：预测两个句子是否应该连在一起

[seq]：两个句子之前的连接符，[cls]：表示要做分类的向量

在这里插入图片描述

相关阅读:
Git系列之移动文件
set和map使用讲解
Playwright+Python+Pytest：基础方法二次封装简化及链式调用
用户身份验证的令牌—Token教程
套路【2】实验环境搭建
React简介---jsx 语法练习
小米4C刷openwrt
Nacos安装
word中输入文字后面的文件被覆盖掉了
Python中两个最常用的单元测试框架unittest和pytest

原文地址：https://blog.csdn.net/weixin_42200347/article/details/127866406