• 串联起深度学习的整体,以及其他领域


    一、测度空间, 相空间,观察到的实体,实体内部不同要素\left ( x,y \right ),以及要素之间的关系y=f(x)

    二、实体对人类的重要性不言而喻

    1、从模型拟合(收敛)数据关系出发:y=f(x)\Rightarrow y=net(x)

    2、f从简单的一层和两层连接开始,发展;f被表示成net

    3、如何判断收敛:\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow 0,即目标函数

    4、如何界定任务:x\rightarrow yx表示什么?y表示什么?,例如y表示房价、经济增长率、工资收入、地心引力大小、引力波的幅度等等

    5、如何定义模型f,也就是如何定义网络net,比如CNN、RNN、Transformer等等

    6、如何收集数据:\left \{ \left ( x_{1},y_{1}\right ),(x_{2},y_{2}) ,...\right \},样本数据,例如:人的需求指向

    7、如何训练:

          a、计算预测\widehat{y}=net(x)

          b、计算损失loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}

          c、计算梯度\partial_{ (\mathbf{w},b)}\frac{1}{N}\sum_{i=1}^{N}loss(x^{(i)},y^{(i)},w,b)

          d、更新参数(\mathbf{w},b)\rightarrow (\mathbf{w},b)-\eta\cdot \mathbf{g}

    8、梯度是什么?不同层的梯度?怎么计算梯度?

          计算梯度:1)链式法则;2)自动微分

    9、优化算法是什么?即\eta的设定方式,固定的,还是变化的,怎么变化。有哪些?

    10、小批量数据训练,批量指\(\)N大小: 

    loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow \sum_{i=1}^{N} (y-net(x))^{2} \rightarrow \mathbf{g} \rightarrow \mathbf{w}

    11、前向传播:计算net(x)

    12、后向传播,计算梯度,更新参数

    13、net包括什么?1)、网络架构 2)、参数

    14、参数初始化?方法

    15、如何添加层?扩大net的规模?\textbf{ResNet},以\textbf{Net}为对象,做\textbf{Res}操作。

    16、更新参数w的方式:\mathbf{g} \rightarrow \mathbf{w},梯度

    17、模型有哪些?怎么发展的?如何设计

    18、生成式人工智能?

    19、概率

    20、过拟合指什么?loss_{train}>loss_{validation}

    21、什么是泛化?y=net(x),实际中(或者条件发生变化的时候) y的结果好使不?

    22、怎么判断泛化能力?取决于验证的数据集,看loss_{validation}的大小

    23、参数与模型之间的关系?模型 = 网络架构 + 参数

    24、什么叫大模型?参数规模超过10,0000,0000,100亿或更大,GPT的参数规模13700亿。

    25、大模型的挑战?收敛并有效,好用

    26、现实中训练模型所面临的挑战?梯度消失、梯度爆炸、过拟合、欠拟合、数据分布\left \{ \left ( x,y \right ) \right \}发生变化、计算量大(计算性能不够)

    27、数据预处理,raw data: \textbf{x{}'}\rightarrow \textbf{x}

    28、结果:想要的,y

    29、串联其他领域的知识,例如:信息论领域的,对目标函数或代价函数的设定,数据生成的概率,特定的模式等等,

    串联的方式有:y=net(x);挑选net的方式,依据loss=\sum_{i=1}^{N} (y-\widehat{y})^{2},设定预期方向(符合大多数人的预期方式)

    30、串联数学,y=f(x),真实的关系ff\rightarrow net, 用\textup{\textbf{}net}表示的\textbf{f}

    31、目标在时间的展开,序列数据:\mathbf{x}=\left ( x1,x2,x3,... \right ), 对目标或对象的表示与处理

    32、目标在空间的展开,图像数据,又称为二维像素网格:

    \mathbf{x}=\begin{bmatrix} x11& x12& x13\\ x21&x22 &x23 \\ x31&x32 &x33 \end{bmatrix}

    33、\textbf{net}的变化:\textbf{CNN}\textbf{RNN}或其他

    34、\textbf{net}的展开:net内部构造,不同的层,块,参数

    35、变与不变:

            1)不变\textbf{y}=\textbf{net}(\textbf{x})\textbf{loss}(\textbf{y},\widehat{\textbf{y}}),(注意,\textbf{loss}(\textbf{y},\widehat{\textbf{y}})\textbf{loss}(\textbf{y}-\widehat{\textbf{y}})的区别),

            2)可变\textbf{\textbf{}x},   \textbf{net},  \textbf{y},\textbf{loss}都可变。还有:\textbf{g},\eta,\textbf{w} 等

            3)过程\left ( x,y \right )_{B}\rightarrow net\left ( x \right )\rightarrow \widehat{y}\rightarrow l\rightarrow g\rightarrow w\rightarrow net\rightarrow y\widehat{}

    36、\textbf{net}的形式1: 注意力汇聚函数

            注意力机制下的神经网络\textbf{net},注意力汇聚函数模型(网络),

    f\left ( x \right )=\sum_{i=1}^{n}\alpha \left ( x,x_{i} \right )y_{i}

           变化形式:\textbf{q},\textbf{k},\textbf{v} 替换 x,x_{i},y_{i}, 分别取名查询query,键key,值value,

    \(f\left ( \textbf{q},(\textbf{k}_{1},\textbf{v}_{1}) ,...(\textbf{k}_{m},\textbf{v}_{m})\right )=\sum_{i=1}^{m}\alpha \left ( \textbf{q},\textbf{k}_{i} \right )\textbf{v}_{i}\)

    37、\textbf{net}的形式2:循环神经网络 RNN

    \(x_{t}\sim P(x_{t}|x_{t-1},...,x_{1})\)

    整个序列的估计值,通过概率形式来获得

    \(P(x_{1},...,x_{T})\)

    上述概率可以写成

    \(P(x_{1},...,x_{T})=\prod_{t=1}^{T}P(x_{t}|x_{t-1},...x_{1})\)

    38、\textbf{net}的形式3:多层感知机MLP

    38、\textbf{net}的形式4:编码器,将输入序列转换(编码)成上下文变量:

    \(\left ( x_{1},... x_{T} \right )\rightarrow \textbf{c}\)

    具体实现过程:\(\textbf{h}_{t}=f\left ( \textbf{x}_{t},\textbf{h}_{t-1} \right )\),        \(\textbf{c}=f\left ( \textbf{h}_{1},...,\textbf{h}_{T} \right )\)

    变换成神经网络的实现:\(\textbf{h}_{t}=net_{1}\left ( \textbf{x}_{t},\textbf{h}_{t-1} \right )\),\(\textbf{c}=net_{2}\left ( \textbf{h}_{1},...,\textbf{h}_{T} \right )\)

    \(net=net_{1}+net_{2}+...\)

    外扩机制是神经网络最突出的特点(永远在进化)

    39、\(\textbf{x}\)的变形1:序列;\(\textbf{x}\)的变形2:图像;\(\textbf{x}\)的变形3:信号;\(\textbf{x}\)的变形4:系统

    40、\textbf{loss}的变化形式:

             1)、理解1:与人们想要的高度之间的差距,也可以理解为理想与现实之间的距离:

      \(\left \| \textbf{Reality}-\textbf{Expectation} \right \|\),

    理想也会调整,人们对现实的努力,达到自己相对理想的状态

    41、\textbf{y}的变化形式:

             1)、人们想要的一些东西,比如财富、价值、良好的(用户)体验、幸福感等等

    42、\(\textbf{g}\)的变化形式

    43、\(\textbf{w}\)的变化,暂退法和权重衰减,

    43、权重衰减是改变\textbf{loss}\(L+\frac{\lambda }{2}\left \| \textbf{w} \right \|^{2}\)

    44、优化算法:

    凸函数在深度学习中的应用:虽然深度学习问题通常不是凸优化问题,但凸函数理论和凸优化算法仍然在深度学习中发挥重要作用。例如,在深度学习中,很多损失函数\textbf{loss}(如均方误差损失)是凸函数优化这些损失函数可以采用凸优化算法,如随机梯度下降(SGD)。

    45、凸优化与目标函数

    \(loss\left ( y-\widehat{y} \right )=loss\left ( y-net_{w,b}\left ( x \right ) \right )\),

    其中,\(loss\)也是设定好的,xy为已知(设定好的),net的架构是设定好的,\(w,b\)是需要搜索的点,凸优化就是通过搜索找到\(loss\)较小的点。\(loss\)是个函数,是个凸函数,所以与凸优化有关。函数中的未知是\(w,b\)

    再看过程:    \(\left ( x,y \right )_{B}\),输入的数据

    \(net_{w_{1},b_{1}}\left ( x \right )\rightarrow\widehat{y_{1}}\rightarrow loss_{1}\rightarrow g\rightarrow net_{w_{2},b_{2}}\left ( x \right )\rightarrow \widehat{y_{2}}\rightarrow loss_{2}\)

    整体结果需要:\(loss_{2}< loss_{1}\)

    简单来说,深度学习就是在干上面的事情,挑战在于非常复杂的问题和庞大的真实数据集上,能够获得效果好的模型,模型也会非常大。参数量超过1000亿,1万亿,还能够收敛。

    所有的工作,简单概括来看,要么与任务\(Task\)有关,与\(\left ( x,y \right )_{B}\)有关,或者与\(net,w,b\)有关,或者与\(loss\)有关,或者与\(g\)有关。整个深度学习也是围绕这些方面展开的,可以去对照落座。

    46、多模态是指多个模态的数据,可以简单表示为:

    \(\textbf{X}=\left \{ \mathbf{x}_{acoustic},\mathbf{x}_{image},\mathbf{x}_{text},\mathbf{x}_{electronic}...\right \}\)

    完整数据集\(\left \{ \left (\textbf{ X},\textbf{y} \right )_{1},\left (\textbf{ X},\textbf{y} \right )_{2},... \right \}_{N}\)

          多模态任务指想要的\textbf{y},所需要的关系\textbf{f},转变为大模型\textbf{net}\textbf{net}\textbf{f}的一种估计,可以记为\(\widehat{\textbf{f}}\):

    \(\mathbf{y}=\textbf{f}(\textbf{X})\Rightarrow \mathbf{y}=\widehat{\textbf{f}}(\textbf{X})\Rightarrow\mathbf{y}=\textbf{net}(\textbf{X})\).

    \(\widehat{\textbf{f}}=\textbf{net}\)

          大数据、大算力也是围绕此展开的,

    大数据是指\(\left (\textbf{ X},\textbf{y} \right )_{N}\),  \(N>10,0000,0000,0000\),   10万亿。

    大算力围绕大的参数规模展开,计算梯度需要,GPT-4的参数规模达到了惊人的1.8万亿。

    具体例证:

    1、GPT-4的训练数据规模达到了惊人的13万亿token,这是何为token?token可以理解为语言中的基本单元,例如单词、词组或句子等。训练数据量的增加意味着模型能够基于更多的实例来学习语言规律,从而提高其性能。

    47、多头注意力融合了来自多个注意力汇聚的不同知识,这些知识的不同来源于,查询、键和值的不同的表示子空间。

    Multi-head attention combines knowledge of the same attention pooling via different representation subspaces of queries, keys, and values. 

  • 相关阅读:
    手把手教你部署nginx+php —— k8s从入门到高并发系列教程 (一)
    【buildroot】buildroot使用笔记-03 | 系统初始化的三种方式
    Java中的Collections类[80]
    安装wps后,回收站右键菜单出现“恢复误删文件”,通过注册表的方式去掉。
    2023 海外工具站 2 月复盘
    C++-逻辑语句
    mysql binlog同步数据
    DAO和增删改查通用方法-BasicDao
    compose——侧边栏
    基因组 DNA 分离丨Worthington核糖核酸酶A
  • 原文地址:https://blog.csdn.net/xw555666/article/details/133696204