源之原味

 

这篇文章来自 nvidia.com。原始 url 是: https://blogs.nvidia.com/blog/2018/09/05/whats-the-difference-between-a-cnn-and-an-rnn/

以下内容由机器翻译生成。如果您觉得可读性不好, 请阅读原文或 点击这里.

命中1982电视系列 骑士骑手, 主演大卫哈塞尔霍夫和未来的打击犯罪的庞蒂克火鸟, 是预言。自驾, 说话的车还提供了一个好莱坞的经验教训, 在图像和语言识别。

如果今天脚本化, 哈塞尔霍夫的 AI 汽车, 被称为凯特, 将具有深入学习从卷积神经网络和周期性神经网络, 看, 听和说话。

这是因为 CNNs 是图像消化者现在使用的机器-眼睛-识别对象。RNNs 是数学引擎--耳朵和嘴巴--用来分析语言模式。

快进从 ' 80s, 和 CNNs 是今天的眼睛 自主车辆, 石油勘探融合能源 研究。他们可以帮助 斑点疾病 更快的医疗成像和 挽救生命.

今天的 "霍夫"-像亿万人-好处, 即使在不知不觉中, 从 CNNs 在 Facebook 上张贴朋友的照片, 享受其名称的自动标记功能, 增加了他的社会润滑。

因此, 把 CNN 从他的火鸟, 它不再有电脑化的眼睛来驱动自己, 成为另一个行动的支柱没有咝嘶声。

从哈塞尔霍夫的圆滑的, 黑色的, 自主的火鸟伙伴 RNN, 并有智能的电脑化的声音, 苦笑取笑他的单身生活。更别提凯特的法语和西班牙语的命令了

毫无疑问, RNNs 正在加速一个 基于语音的计算革命.他们是自然语言处理的大脑, 给亚马逊的 Alexa, 谷歌的助手和苹果的 Siri 提供耳朵和演讲。他们为谷歌的自动完成功能提供了类似于透视的魔术, 以填充您的搜索查询的行。

回到未来的汽车驾驶舱。
回到未来。

此外, CNNs 和 RNNs 今天让这样的汽车不仅仅是好莱坞幻想。汽车制造商现在正快速地在未来的凯特般的汽车工作。

今天的自主汽车可以通过步伐 在模拟 甚至在上路前测试。这允许开发人员测试和验证车辆的眼睛能够看到在超人的知觉水平。

由于 CNNs 和 RNNs, 所有类型的 AI 驱动机器正变得与我们的眼睛和耳朵一样充满动力。人工智能的许多应用都是通过深度神经网络数十年的进步和在 gpu 的高性能计算 处理大量数据。

CNNs 简史

我们怎么到这里来经常被问及。在自主车辆到来之前, 人类大脑神经元之间的生物连接为研究一般人工神经网络的研究者带来了启发。CNNs 的研究人员遵循着同样的思路。

CNNs 在1998年被击中的一个开创性时刻。那一年晏 LeCun 和合著者莱昂 Bottou、Yoshua Bengio 和帕特里克哈夫纳发表了有影响力的论文 基于梯度的学习方法在文献识别中的应用.

本文介绍了这些学习算法如何帮助将手写字母中的模式分类为最小的预处理。CNNs 的研究在阅读银行支票时取得了创纪录的准确性, 并在商业上得到了广泛的实施。

它助长了对 AI 的承诺的希望激增。LeCun 是该论文的首席研究员, 于2003年成为纽约大学的教授, 后来在2018年加入 Facebook, 成为社交网络的首席 AI 科学家。

下一个突破时刻是2012。这是多伦多大学研究员亚历克斯 Krizhevsky, Sutskever 和杰弗里. 欣顿发表的开创性论文 深度卷积神经网络的 ImageNet 分类.

研究提高了物体识别的状态。三人训练了一个深度卷积神经网络, 从 ImageNet 大规模视觉识别挑战大赛中对120万张图像进行分类, 以创纪录的失误率降低。

这引发了今天的现代人工智能热潮。

CNNs 解释: 狗还是小马?

下面是一个图像识别角色的示例。我们人类可以看到一个伟大的丹麦人, 知道它是大的, 但它仍然是一只狗。计算机只看到数字。他们怎么知道一个大丹不是小马?那么, 像素的数字表示可以通过 CNN 的许多层来处理。许多伟大的丹麦特征可以通过这种方式被识别到狗的答案。

现在, 让我们在 CNNs 的引擎盖下更深入地了解在技术层面上的进展情况。

CNNs 由输入层 (如以像素为单位的图像表示)、一个或多个隐藏图层和输出图层组成。

这些层次的数学运算帮助计算机定义图像的细节, 一次是为了最终-希望-识别特定的对象或动物或任何目标。然而, 他们经常错过, 特别是在训练初期。

卷积层:

在数学中, 卷积是一个分组函数。在 CNNs 中, 卷积发生在两个矩阵之间 (在列和行中排列的矩形数组), 以形成作为输出的第三个矩阵。

CNN 在卷积层中使用这些卷积来过滤输入数据和查找信息。

卷积层的解释

卷积层在 CNN 中执行大部分计算繁重的提升。它充当数学滤镜, 帮助计算机查找图像的边缘、深色和浅色区域、颜色和其他细节, 如高度、宽度和深度。

通常有许多卷积层滤镜应用于图像。

  • 池图层: 池层通常夹在卷积层之间。它们用于减小卷积层创建的制图表达的大小, 并减少内存要求, 从而允许更多的卷积层。
  • 规范化层: 规范化是一种用于提高神经网络性能和稳定性的技术。它通过将所有输入转换为零的平均值和一个方差来使每个层的输入更易于管理。认为这是规范化数据。
  • 完全连接的图层: 完全连接的图层用于将一个图层中的每个神经元连接到另一个图层中的所有神经元。

要获得更深入的技术解释, 请查看 CNN 页面 对我们 开发人员网站.

CNNs 是计算机视觉的理想之选, 但是给他们足够的数据可以使它们在视频、语音、音乐和文本中也有用。

深度神经网络如何看待

他们可以在这些隐藏的层中登记一大串过滤器或神经元, 这些都是对识别图像的效率进行优化的。CNNs 被称为 "前馈" 神经网络, 因为信息从一个层送入下一个图层。

或者, RNNs 共享传统人工神经网络和 CNNs 的相同体系结构, 但它们具有可作为反馈环路的内存。就像人脑, 特别是在谈话中一样, 近因的信息可以预测句子的权重。

这使得 RNNs 适合于预测接下来的单词序列。此外, RNNs 可以被送入不同长度的数据序列, 而 CNNs 有固定的输入数据。

RNNs 简史

就像哈塞尔霍夫的新星一样, RNNs 自二十世纪八十年代以来就一直在附近。在 1982年, 约翰 Hopfield 发明了 Hopfield 网络, 一个早期的 RNN。

被称为长短期记忆 (LSTM) 网络, 并由 RNNs 使用, 是由 Hochreiter 和 Jürgen 施米德休伯在1997年发明的。大约 2007, LSTMs 在语音识别方面取得了飞跃。

在 2009年, RNN 赢得了手写识别的模式识别竞赛。到 2014年, 中国的百度搜索引擎击败了总机 Hub5'00 语音识别标准, 这是一个新的里程碑。

RNNs 解释说: 午餐吃什么?

RNN 是一个具有活动数据存储器 (称为 LSTM) 的神经网络, 可应用于一系列数据, 以帮助猜测接下来会发生什么。

使用 RNNs, 某些图层的输出会被反馈到前一层的输入中, 从而创建一个回馈环路。

下面是一个简单 RNN 的经典示例。这是为了跟踪在你的自助餐厅中供应的主要菜肴的哪一天, 这让我们说有一个严格的时间表相同的菜运行在同一天每周。让我们想象一下: 周一的汉堡包, 周二的玉米饼, 周三的披萨, 周四的寿司, 周五的意大利面。

有了一个 RNN, 如果输出 "寿司" 被送入网络来确定星期五的菜, 那么 RNN 将知道顺序中的下一个主菜是面食 (因为它知道有一个订单和星期四的菜刚刚发生, 所以星期五的菜来了)。

另一个例子是这个句子: 我跑了10英里, 需要喝一杯。一个人可以根据过去的经验来计算如何填补空白。由于 RNNs 的记忆能力, 有可能预测接下来会发生什么, 因为它可能有足够的训练记忆, 这些句子以 "水" 结尾, 以完成答案。

RNN 应用程序扩展到自然语言处理和语音识别之外。它们也用于语言翻译、股票预测和算法交易。

也使用, 神经图灵机 (非关税措施) 是 RNNs, 可以访问外部内存。

最后, 所谓的双向 RNNs 取一个输入向量, 并在两个 RNNs 上训练它。其中一个被训练的常规 RNN 输入序列, 而另一个在一个反转序列。两个 RNNs 的输出是下一个串联或组合

大家都说, CNNs 和 RNNs 已经做了应用程序, 网络和机器世界更有能力的视线和讲话。如果没有这两个 AI 主力, 我们的机器将会很无聊。

亚马逊的 Alexa, 其中之一, 是教我们如何说话, 我们的厨房回声 "无线电" 设备, 乞求各种新的查询与它古怪的 AI 聊天。

而自动驾驶车辆很快就会在拐角处, 在我们的生活中发挥着主角的作用。

要在 RNNs 上进行更技术性的深度潜水, 请查看我们的 开发人员网站.要了解有关深度学习的更多信息, 请访问我们的 NVIDIA 深层学习学院 有关类的最新信息。

Leave A Reply

Your email address will not be published.