Self-Attention

发表于2026-02-14|更新于2026-02-14

|总字数:571|阅读时长:1分钟|浏览量:

Self-Attention

核心公式

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

来源

自注意力模型的运作方式

我们要通过考虑一整串输入的向量来得到输出，每个$b$都是考虑了所有$a$之后产生的。以$b^1$为例，我们来介绍这个过程。

自注意力的目的是考虑整个序列，但是又不希望把整个序列的所有信息包在一个窗口里，所以有一个特别的机制，用$\alpha$来判断每个向量与$a^1$的关联程度

计算向量关联程度的方法

两个向量点积的结果在某种程度上可以反映两个向量的相似度。如图(a)方式，把输入的两个向量分别乘上两个不同的矩阵$W^q$、$W^k$，得到两个向量$q$和$k$，再把$q$和$k$做点积，把他们做逐元素的相乘，求和后就得到了$\alpha$。这是计算$\alpha$的一种方法，也是目前最常用的一种方法，另一种计算方式见图(b)

将各个向量的关联性计算出之后（一般自己与自己也会计算关联性）,除以$\sqrt{d_k}$(防止$QK^T$数值过大softmax梯度消失)，对所有的关联性做一个softmax操作，即$\alpha\prime_{1,i} = e^{\alpha_{1,i}} / \sum_{j} e^{\alpha_{1,j}}$ ,得到 $a\prime$

添加softmax

接下来我们要根据$\alpha’$，去抽取出序列里面重要的信息。把向量$a^1$到$a^4$乘上$W^v$得到新的向量$v^1$到$v^4$，乘上对应的注意力分数$\alpha’$，求和，即$b^1=\sum_ia’_{1,i}v^i$,就得到了对应的b

根据α′抽取序列中重要的信息
将上述过程向量化后，即得到了Self-Attention的核心公式
从矩阵乘法的角度来理解注意力

位置编码

需要考虑位置信息时，就要用到位置编码。位置编码为每一个位置设定一个位置向量，用$e^i$表示，上标$i$代表位置，不同的位置就有不同的向量

进阶版本

多头自注意力（multi-head self-attention）

相关有很多种不同的形式，所以也许可以有多个$q$，不同的$q$负责不同种类的相关性多头自注意力的计算过程

截断自注意力（truncated self-attention）可以处理向量序列长度过大的问题。

文章作者: LoneWolfC7

文章链接: https://lonewolfc7.top/2026/02/14/Self-Attention/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LoneWolfC7的博客！

相关推荐

深度神经网络DNN部分原理

激活函数$g’(z)=g(z)(1-g(z))$ tanh：$g(z)=tanh(z)=a=\frac{e^z-e^{-z}}{e^z+e^{-z}}$,$g’(z)=(1-g^2(z))$ ReLU:$g(z)=a=max(0,z)$ leaky ReLU:$a=max(0.01z,z)$ 损失函数常见的损失函数有均方误差和交叉熵误差均方误差(MSE)公式：$E = \frac{1}{2} \sum_{k}(y_k - t_k)^2$，其中$y_k$表示神经网络的输出，$t_k$表示监督数据，k表示数据的维数。 python实现： 12def mean_squared_error(y, t): return 0.5 * np.sum((y-t)**2) 交叉熵误差公式：$E = -\sum_{k} t_k \log y_k$ python实现： 123def cross_entropy_error(y, t): delta = 1e-7 return...

评论