让正确分类和错误分类的距离达到λ。λ用于控制两种分类样本之间的距离。
自监督学习的一种,不依赖标注数据进行学习。蛮有意思的,但是今天没时间了!!有时间再细看!
1、segment embedding
https://segmentfault.com/a/1190000021817185
Bert可以完成两个句子级别的任务。segmentembedding是为此设计的一种嵌入方法。
是bert里的一种标记方法,告诉模型,这是两个句子。
具体方法为,分别标记0、1
2、token embedding
对于token embedding来说,
(1)先要分词
(2)插入[CLS]和[SEP]
(3)做词级别的embedding
3、position embedding
初衷是因为transformer不能像rnn一样学习到顺序。
对于同一个词(在不同位置),学习得到的东西是一样的,所以得给一些位置信息的提示
自己看着公式想了一会,发现上网查查就懂啦
https://jaketae.github.io/study/relative-positional-encoding/
这个relative position matrix,每一行代表注意力看的是哪个token,每一个index代表不同token距离attention发出者的位置。
https://zhuanlan.zhihu.com/p/364828960
scale是batch_norm中的。主要是做缩放的。
今天终于做了RAGA的pre,自己讲的时候感觉不太清楚,没有提纲挈领的感觉。
1、下次pre要提前明确每一页slide要完成什么目的,写下来
2、讲完做些总结。
emm,做图的同学给了还不错的评价。记录下来叭,还蛮开心的,至少有点contribution~
1、“师姐太强了,深入浅出,第一个全听懂的。 ----------
我觉得都讲到位了”
2、
下载文件,被拦了,可以查杀一下,新思路欸!!
看不懂emmm
用打印存为pdf就不会变形啦~
另外svg就是可缩放矢量图
ps:在家坐着真的后背好痛啊
emm好像是插入数据?挺方便的~