LSTM计算过程

原创已于 2026-04-27 16:57:23 修改 · 356 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#lstm #机器学习 #人工智能

于 2026-04-27 16:18:37 首次发布

没有废话，直接上图。

看着很复杂，其实很简单。首先明确这些符号的意义，最底部的 $x{_{t}}$ 表示t时刻的输入， $H_{t-1}$ 表示t-1时刻的隐藏状态， $H_{t}$ 表示t时刻的隐藏状态。 $w_{f}$ 、 $w_{i}$ 、 $w_{u}$ 、 $w_{o}$ 分别表示遗忘门、输入门、更新门和输出门的权重矩阵。 $c_{t-1}$ 和 $c_{t}$ 表示t-1时刻的细胞（Cell）状态和t时刻的细胞状态。什么叫细胞状态？GeminiPro给的解释是这样的：

这样说可能还是不好理解，你可以把细胞状态理解为一条传送带，遗忘门、输入门负责在传送带上拿走一些退回的快递（旧事物），放入一些新发的快递（新事物），所以t-1时刻到t时刻的传送带状态发生了更新。再回顾一下两个激活函数：sigmoid和tanh

表示的是sigmoid激活函数，返回的值在(0,1)范围内，因此可以作为闸门控制信息流出的比例。

表示的是tanh激活函数，返回的值在（-1，1）范围内，因此可以控制信息的增减方向。

完成了对这些概念的理解后，下面我直接开始用一个例子来说明LSTM的计算过程。假设输入维度d=2，隐藏状态维度h=3，序列长度T=1。

x_1 = [0.5, 0.8] 当前时刻输入
h_0 = [0.1, 0.2, 0.3] 上一时刻隐藏状态
C_0 = [0.0, 0.0, 0.0] 上一时刻Cell状态（初始为零）

正向传播：

1.拼接输入向量：[ $h_{0}$ , $x_{1}$ ]=[0.1, 0.2, 0.3, 0.5, 0.8]，得到了一个5维的拼接向量。

2.计算四个门的原始值（记作net）

计算方法也很简单，就是分别用四个门各自的权重矩阵乘上拼接输入向量的转置，然后加上偏置。

该例子的权重矩阵大小为3*5，[ $h_{0}$ , $x_{1}$ ]的转置矩阵大小为5*1，偏置值是0，因此可以得到四个3*1大小的矩阵（长度为3的列向量），对应四个门的原始值（net）。

[ $h_{0}$ , $x_{1}$ ]的转置就是一个列向量，用权重矩阵的每一行乘以这个列向量就得到了原始值，结果也是一个列向量，长度为3。

3.通过激活函数得到四个门的值

对原始值通过激活函数和转置操作就得到了四个门的结果值（4个1*3的行向量）

后面我不特意标注行向量和列向量，本质是一样的，怎么方便怎么写。

f_1 = σ(net_f $^{T}$ ) = σ([0.74, 0.57, 0.30]) = [0.677, 0.639, 0.574]
i_1 = σ(net_i $^{T}$ ) = σ([0.19, 0.38, 0.57]) = [0.547, 0.594, 0.639]
u_1 = tanh(net_u $^{T}$ ) = tanh([1.04, 1.23, 1.42]) = [0.862, 0.831, 0.890]
o_1 = σ(net_o $^{T}$ ) = σ([0.76, 0.95, 1.14]) = [0.681, 0.721, 0.758]