4. 长短时记忆循环神经网络:有监督的深层学习
1991 年我们提出长短时记忆循环神经网络被认为是机器学习历史上重要的工作,启发了很多后续的研究。
首先是使用了遗忘门的 vanilla LSTM,这是一种 LSTM 变体,也是 TensorFlow 等框架中使用的 LSTM 架构,在 1991 年我已经介绍了它——端到端可微分快速权重控制器。
此外还有 2005 年使用完全反向传播的 LSTM 和 Bi-LSTM。以及 2006 年的 CTC-LSTM。日后,LSTM 及其变体被广泛地使用在各类序列数据上,如谷歌和 Facebook 的机器翻译、语音识别、谷歌的神经架构搜索(2009 年我的学生 Justin Bayer 作为一作提出了这一方法)。
作为 LSTM 思想的延伸,我们后来在 2015 年提出了高速公路网络,残差网络是它的特例。高速公路网络通过门来控制前后层的快捷连接,从而大大降低了梯度消失问题,以及信息流传递问题。
5. 通过对抗生成神经网络的人工「好奇心」(1990)
为了建立好奇的人工智能体,我在 1990 年引入了一种新型的主动无监督或自监督学习方法。它基于最小极大博弈,其中一个 NN 最小化了另一个 NN 最大化的目标函数。今天,我将两个无人监督对抗性 NN 之间的竞争称为对抗性好奇心,以区别于我们自 1991 年以后来人工好奇心。
对抗好奇心如何运作?第一个 NN 称为控制器 C,C 概率地生成可能影响环境的输出。第二个 NN 被称为世界模型 M,它对 C 的输出预测环境的反应。使用梯度下降,M 使误差最小化,从而成为更好的预测指标。但是在零和博弈中,C 试图找到使 M 误差最大化的输出,M 的损失就是 C 的收益。
流行的对抗性生成网络(GAN)(2010-2014)是对抗性好奇心的一种应用,其中环境简单地返回 C 的当前输出是否在给定集中。
6. 通过最大化神经网络的学习过程制造人工好奇心(1991)
1990 年的「世界模型 M」的问题在于控制器 C 的奖励(被最大化的)。在随机环境下,却可能失败。由于随机性,C 可能学习去关注那些 M 经常出现预测错误的情况。在 1991 年的工作中,在随机环境下,C 的奖励不应该是 M 的错误,而是 M 的错误在训练轮次中的微分,这边是 M 模型的改进版本。这些也启发了很多后续的工作。
7. 用于无监督数据建模的对抗性网络(1991)
在 1990 年首次从事对抗性生成网络的工作后不久,我在科罗拉多大学博尔德分校担任博士后时介绍了无监督对抗极小极大化原理的一种变体。我在 minimax 游戏中再次使用了梯度下降/上升原理,其中一个 NN 极小化了另一个极大化的目标函数,两个无人监督的对抗性 NN 之间的对抗称为可预测性极小化(PM,1990s)。