DeepMind成员、谷歌资深员工：神经网络序列学习突破及发展

2016-05-02 新智元

文章来源：O’Reilly 报告《The Future of Machine Intelligence）

作者：David Beyer

题目：Oriol : Sequence-to-Sequence Machine Learning

【新智元导读】谷歌CEO在给投资人的信中写道谷歌搜索将更具有情景意识，其关键技术自然是深度学习。本文中，谷歌资深员工、DeepMind 成员 Oriol Vinyals 全面剖析神经网络序列学习的优势、瓶颈及解决方案。他指出机器翻译实质上是基于序列的深度学习问题，其团队希望用机器学习替代启发式算法，最后推测机器阅读并理解文本将在未来几年实现。

文章来源：O’Reilly 报告《The Future of Machine Intelligence）

作者：David Beyer

题目：Oriol Vinyals: Sequence-to-Sequence Machine Learning

关注新智元公众号，回复“0502”下载报告全文

受访者 Oriol Vinyals 是 Google 的研究科学家，在 DeepMind 团队工作，曾前在 Google Brain 团队工作。他在加州大学伯克利分校拿到 EECS 博士学位，在加州大学圣地亚哥分校拿到硕士学位。

要点

使用神经网络的序列到序列学习（Sequence-to-sequence learning）在一些领域拥有最前沿的表现，比如机器翻译。

虽然很强大，序列到序列的学习方法也受到一些因素的制约，包括计算能力。长短期记忆（LSTM）在推动该领域前进方面作了很大贡献。

除了图像和文本理解，深度学习模型可以学会为一些著名的算法难题“编写”解决方案，其中包括邮差问题（Salesman Problem）。

机器翻译是基于序列的深度学习问题

【O’Reilly】让我们先了解一下你的背景吧。

【Oriol Vinyals】我来自西班牙巴塞罗那，在那里我完成了数学和通信工程的本科学习。很早，我就知道自己想要到美国学习 AI。我在卡耐基梅隆大学待了９个月，在那里我完成了本科毕业论文。之后我在加州大学圣地亚哥分校拿到硕士学位，然后 2009年在伯克利拿到博士学位。

读博期间，在 Google 实习时，我遇到了 Geoffrey Hinton 并和他一起工作；这段经历催化了我对深度学习的兴趣。加上我在微软和 Google 愉快的实习经历，当时我便下定决心要在产业界工作。2013 年我全职加入 Google。我起初对语音识别和优化 (重点放在自然语言处理和理解上) 有着浓厚的兴趣，后来转到使用深度学习解决这些以及别的问题这方面，包括最近基于数据来让算法自动学习的工作。

【O’Reilly】能不能谈一下你的关注点的变化，既然你离开了语言识别领域。现在最让你兴奋的是哪些领域？

【Oriol Vinyals】我的语言识别背景激发了我对序列的兴趣。最近，Ilya Sutskever, Quoc Le，还有我发表了一篇文章，是关于序列到序列映射的，可以使用循环神经网络(recurrent neural net) 进行从法语到英语的机器翻译。

作为背景，监督学习在输入和输出是矢量的情形下取得了成功。往这些经典的模型输入图片，可以输出相应的类别标签。直到不久前，我们还不能通过输入图片就得到一个单词序列作为对这幅图片的描述。目前的快速进展是得益于可以获取带有图片描述的高质量数据集 (MSCOCO)，以及与此并行的循环神经网络的复兴。

我们的工作把机器翻译问题重塑为基于序列的深度学习问题。结果表明深度学习可以把英语的单词序列映射为西班牙语的单词序列。由于深度学习令人吃惊的能力，我们可以相当快地达到领域前沿水平。这些结果本身暗示了新的应用，比如，自动把视频提炼成四个描述性句子。

序列到序列的瓶颈及解决方法

【O’Reilly】序列到序列这种方法在什么地方工作得不好？

【Oriol Vinyals】假设你要把一个英语句子翻译成法语。你可以使用一个巨大的政治言论和辩论语料库作为训练数据。应用得当的话，你可以把政治言论转化为任何别的语言。但是，当你试图把——比如说——莎士比亚式的英语——翻译成法语的时候，你会遇到问题。这种领域切换对深度学习方法压力比较大，而传统机器翻译系统是基于规则的，这让它们能适应这种切换。

还有更多的难点。当序列长度超过一定值时，我们缺乏相应的计算能力。当前的模型可以把长度为 200 的序列与对应的同样长度的序列匹配。当序列变长，运行时间也变长。虽然目前我们被局限于相对较短的文档，我相信随着时间推移这个限制会越来越宽松。正如 GPU 压缩了大而复杂的模型的运行时间，内存和计算能力的提高会让可计算的序列越来越长。

除了计算的瓶颈，更长的序列还带来了有趣的数学问题。若干年前 Hochreiter 引入了梯度消失的概念。当你阅读数千个单词，你很容易忘掉三千个单词前的信息；如果不记得第三章的关键情节转换，(小说的) 结局就失去意义。从结果上讲，挑战来自记忆。循环神经网络一般能记住 10 到 15 个词。但如果你把一个矩阵乘 15 次，输出会收缩到 0。换句话说，梯度消失，学习变得不可能。

这个问题的一种重要解决方案依赖于长短期记忆 (LSTM)。这种结构对循环神经网络做了聪明的修改，让它们能记住远超正常极限的东西。我见过能记住 300 到 400 个词的 LSTM。虽然已经相当长了，这样的增长只是个开始，以后的神经网络将能处理日常生活规模的文本。

退一步讲，近几年我们看到出现了一些处理记忆问题的模型。我个人尝试过添加这种记忆到神经网络：与其把所有东西塞进循环神经网络的隐含态，记忆让你回忆起之前见过的词，从而帮助解决手头的优化任务。虽然这些年进展迅速，更深层的、关于知识表达究竟意味着什么这一挑战仍然存在，并且其本身仍旧是一个开放问题。尽管如此，我相信接下来我们会看到沿着这些方向的重大进展。

用机器学习代替启发式算法

【O’Reilly】让我们换个话题，谈谈你在算法生成方面的工作。你能不能讲讲这些努力背后的历史和动机？

【Oriol Vinyals】一个展示监督学习能力的经典练习涉及到把一些给定点分割为不同类别：这是 A 类，这是 B 类，等等。XOR (异或) (the“exclusive or” logical connective) 问题特别有教益。目标是要学会异或操作，也就是，给定两个二进制位作为输入，学习正确的输出。精确地讲，这涉及到两个位也就是四个实例：00，01，10，11。对于这些例子，输出是 0，1，1，0。这个问题不是线性模型能解决的，但深度学习可以。即便如此，目前计算能力的限制排除了更复杂的问题。

最近，Wojciech Zaremba (我们组的一个实习生) 发表了一篇文章，标题是“Learningto Execute”，描述了一个基于循环神经网络的从 Python 程序到执行这些程序的结果的映射。这个模型可以仅仅通过阅读源代码来预测 Python 程序的结果。这个问题虽然看起来简单，提供了一个良好开端。于是我把注意力转向一个 NP-hard 问题。

我们考虑的是一个高度复杂且资源需求高的方法，用来求解经过所有点的最短路径的问题，也就是著名的邮差问题。这个问题从提出开始，就吸引了大量解法；人们发明了各种启发式算法，在效率和精度之间求得平衡。在我们的情形，我们研究了深度学习系统是否能仅仅基于训练数据推断出与已有文献比肩的启发式算法。

出于效率的考虑，我们只考虑 10 个城市，而不是常见的10000 或 100000 个。我们的训练集输入城市位置，输出最短路径。就这样。我们不想让网络知晓任何别的关于这个问题的假设。

成功的神经网络应该能再现遍历所有点且最小化路程的行为。事实上，在一个可以称作奇迹的时刻，我们发现它能做到。

我应该补充一下，输出可能不是最优，因为毕竟是概率性的；但这是个好的开始。我们希望把这个方法应用到一些新问题。目标不是为了替换现有的、人工编码的解决方案，而是，我们要用机器学习代替启发式算法。

【O’Reilly】这会最终让我们成为更好的程序员吗？

【Oriol Vinyals】比如在编程竞赛中。开始是一段问题陈述，用直白的英语写：“在这个程序中，你需要找出 A，B，C，在 X，Y，以及 Z 的前提下。” 你编码你的解决方案，然后在服务器上测试。与此不同的是，想象一下，一个神经网络读入这样一个自然语言写的问题陈述，然后学到一个至少能给出近似解的算法，甚至能给出精确解。这个图景可能听起来太遥远。记住，仅仅几年前，读入 Python 程序然后输出答案也是听起来相当不靠谱的。

未来几年机器能阅读并理解文本

【O’Reilly】你怎么看待接下来五年你的工作会如何进展？最大的未解决问题有哪些？

【Oriol Vinyals】也许五年的时间有点紧，但机器阅读并理解一本书这样的事不会离我们很远。类似地，我们可以预期看到机器通过从数据学习来回答问题，而不是基于给定的规则集合。现在如果我问你一个问题，你打开 Google 开始搜索；几次尝试后你可能得到答案。跟你一样，机器应该能返回一个答案作为对某个问题的响应。我们已经有沿着这个方向基于紧凑数据集的模型。更往前的挑战是深刻的：你如何区分正确和错误的答案？如何量化正确和错误？这些以及别的重要问题决定未来研究的进程。

DeepMind成员、谷歌资深员工：神经网络序列学习突破及发展

相关

发表回复取消回复

共享此文章：

相关

发表回复 取消回复

发表回复取消回复