【笔记】神经网络中的注意力机制

个人笔使用，资料来源于网络整理，可能有误。

神经网络中的注意力机制

在人工智能领域中，注意力机制是一种强大的工具，它使得神经网络能够在处理信息时模仿人类的注意力分配方式。从语言翻译到图像生成，注意力机制都展现了其在各种任务中的有效性。本文将深入探讨注意力机制的实现方式、软硬机制、模型原理以及相关的多头和自注意力机制。

注意力机制的实现

注意力机制的核心思想是模拟人类在处理信息时的专注程度。它允许神经网络在处理序列数据时，动态地关注输入的不同部分，从而提高模型的性能。实现注意力机制的关键在于引入权重分配机制，使得模型能够根据输入的重要性来调整其关注度。

注意力机制的原理可以简单描述为：将具体的任务看做由Q(query)代表药查询的任务、K（key）和V（value）代表对应的键值对，任务的目的就是使用Q在K中找到对应的V值。

注意力机制模型的原理

在注意力机制的实现中，通常会涉及到以下几个公式：

能量计算（Score）：表示输入之间的相关性或重要性。常见的计算方式包括点积注意力、加性注意力等。以点积注意力为例，能量计算公式如下：

$\text{Score}(q, k) = q^T k$

其中 q 是查询向量（Query），k 是键向量（Key），T表示转置操作。

权重计算（Attention Weight）：将能量转换为权重的过程，通常使用 softmax 函数进行归一化处理，确保所有权重之和为1。权重计算公式如下：

$\text{Attention}(q, k, v) = \text{softmax}\left(\frac{\text{Score}(q, k)}{\sqrt{d_k}}\right)$

其中 $v$ 是值向量（Value）， $d_k$ 是查询向量和键向量的维度。

加权求和（Weighted Sum）：根据权重对值进行加权求和，得到注意力机制加权后的表示。加权求和公式如下：

$\text{Attention Output} = \sum_i \text{Attention}(q, k_i, v_i)$

其中 $i$ 表示输入序列的索引， $k_i$ 和 $v_i$ 分别是第 $i$ 个键向量和值向量。

这些公式构成了注意力机制模型的基本原理和实现过程，通过这些公式，模型可以根据输入的不同部分动态调整其关注度，从而更好地处理各种任务。

软、硬注意力机制

简单而言，软模式表示所有数据都会注意，都会计算出相应的注意力权值，不会设置筛选条件；而硬模式在生成权重之后会筛选掉一部分不符合条件的部分。

软注意力机制

软注意力机制使用连续的概率分布来对输入的不同部分进行加权。在软注意力机制中，每个输入都会被分配一个权重，这个权重表示了该输入在给定上下文下的重要性。通常，这些权重是通过softmax函数来计算的，以确保它们的总和为1。softmax函数将每个输入的“能量”转换为概率分布，公式如下：

$\text{softmax}(e_i) = \frac{e^{e_i}}{\sum_{j} e^{e_j}}$

其中 $e_i$ 是第 $i$ 个输入的能量值。

软注意力机制允许模型对所有输入进行加权求和，以生成最终的注意力表示。这种连续的加权方式使得模型可以同时关注多个输入的不同部分，从而提高了模型的灵活性和表现力。

硬注意力机制

相比之下，硬注意力机制是一种更加离散的注意力机制。在硬注意力机制中，模型选择性地关注输入的某些部分，而不是对所有输入进行加权求和。这种选择可以通过最大化或采样的方式进行。

例如，在序列任务中，硬注意力机制可能会选择最具代表性或最重要的输入，而忽略其他的。这种选择性的方式使得模型更加专注于特定的输入部分，但同时也可能丢失一些信息。

其他形式

多头注意力机制和自注意力机制是注意力机制的两种特殊形式，它们在处理输入数据时有着不同的重点和方式。

多头注意力机制

多头注意力机制是一种扩展的注意力机制，旨在允许模型同时关注输入的不同子空间。它将输入通过线性变换分成多个头部，每个头部都学习关注不同的方面。具体来说，输入数据首先通过几个独立的线性映射，生成多组查询、键和值。然后，每个查询都会与所有键进行点积操作，再经过softmax函数得到注意力权重。最后，将注意力权重与对应的值相乘并求和，得到多头注意力的输出。通过多头注意力机制，模型可以更加全面地捕捉输入数据的不同方面，提高了模型的表现力和泛化能力。

自注意力机制

自注意力机制是一种特殊的注意力机制，用于处理序列数据时动态地关注不同位置的信息。在自注意力机制中，模型将输入序列中的每个元素视为查询、键和值，然后计算它们之间的相似度得到注意力权重。与传统的注意力机制不同，自注意力机制不需要外部输入来计算权重，而是通过输入序列内部的关系来自动计算。这使得模型能够更好地捕捉到序列数据中的长距离依赖关系，从而提高了其性能。自注意力机制常被用于处理自然语言处理任务，如语言建模、机器翻译等，因为它能够有效地处理不同位置之间的依赖关系，并且适用于不同长度的序列数据。

相关阅读:
使用 JWT 生成 token
现在的Android 开发面试都会问到一些什么？
MobileViT代码分析及添加SE注意力的实验结果
Channel 是什么？
python LeetCode 刷题记录 67
Spring中bean的注入方式
Cadence Allegro DXF结构图的导入详细教程
每日Leecode算法题：1337.矩阵中战斗力最弱的k行
索尼 toio™应用创意开发征文｜toio俄罗斯方块游戏
实验室LIMS管理系统能够解决那些企业难题

原文地址：https://blog.csdn.net/WHYbeHERE/article/details/136330922