双向 LSTM 或 biLSTM 是一种序列处理模型,由两个 LSTM 组成:一个在前向接收输入,另一个在后向接收输入。 BiLSTMs 有效地增加了网络可用的信息量。利用LSTM对句子进行建模还存在一个问题:无法编码从后到前的信息。在更细粒度的特征挖掘时缺乏能力,通过BiLSTM可以更好的捕捉双向的时序信息。
长短期记忆网络实质上可以理解为一种特殊的RNN,主要是为了解决RNN网络在长序列训练过程中发生梯度消失和梯度爆炸的问题。相比于RNN,LSTM主要是引入了细胞形态用于保存长期状态,而关键就在于如何控制长期状态,从而引用了控制门的机制,该机制可以去除或者增加信息到细胞状态的能力。通过siamoid函数将门输出为[0,1]的实数向量。当门输出为0时,乘以该向量的任何向量都将得到0向量,即判定为不能通过。当输出为1时,乘以任何向量都不会改变其原值,即可以通过。神经元中加入了输入