源之原味

研究人员给 AI 的好奇心, 它整天玩电子游戏

 

本文来自thenextweb.com。源URL是: https://thenextweb.com/artificial-intelligence/2018/08/23/researchers-gave-ai-curiosity-and-it-played-video-games-all-day/

以下内容由机器翻译生成。如果您觉得可读性不好, 请阅读原文或 点击这里.

如果你教机器人钓鱼, 它可能会钓到鱼。然而, 如果你教它是好奇的, 它只会看电视和玩电子游戏整天。

研究人员从 打开 AI-以奇异为中心的智囊团共同创立的隆麝香-最近发表了一个 研究论文 详细介绍了关于好奇心驱动学习的大规模研究。在其中, 他们展示了没有 "外在奖励" 训练的 AI 模型可以开发和学习技能。

基本上, 他们已经想出了如何让 AI 做的事情, 而不明确地告诉它它的目标是什么。根据该小组的白皮书:

这并不像听起来那么奇怪。发展心理学家谈论内在的动机 (即好奇心) 作为早期开发阶段的主要驱动因素: 婴儿似乎采用无目的的探索学习技能, 这将在以后的生活中有用。还有很多其他的例子, 从玩我的世界到你当地的动物园, 那里没有外在的奖励是必需的。

这里的想法是, 如果我们能让机器去探索没有人工编码奖励的环境, 我们就会更接近真正的自主机器。这可能有令人难以置信的影响, 如救援机器人的发展, 或 探索空间.

为了研究内在动机的深度学习的影响, 研究人员转向了电子游戏。由于其固有的规则和奖励, 这些环境非常适合 AI 研究。例如, 开发人员可以告诉 AI 播放 乒乓球, 并给它特定的条件, 如 "不要失去," 这将推动它的优先计分点 (理论上)。

当研究人员在雅达利数据集中进行实验时, 超级马里奥兄弟, 并 乒乓球 环境他们发现没有目标的特工能够发展技能和学习, 虽然有时结果有点.....。

好奇心驱使的代理种类设置了自己的规则。它的动机是体验新事物。所以, 例如, 当它播放 突破 –经典的砖破游戏-它表现良好, 因为它不想让无聊:

砖块被球击中的次数越多, 剩余的砖块图案就越复杂, 从而使代理更好奇地进一步探索, 因此, 将点作为双产品收集。此外, 当代理耗尽生命时, 砖块被重新设置为一个统一的结构, 这已经被代理多次看到, 因此是非常可预测的, 因此, 代理试图保持活着好奇, 避免重置死亡。

AI 通过了11级 超级马里奥兄弟, 只是出于好奇, 表明有足够的无目标训练课程 AI 可以执行相当特别。

然而, 在人工智能的社区里, 这并不都是好事--好奇的机器会遇到好奇的人所做的同样的问题: 他们很容易分心。当研究人员将两个好奇 乒乓球-玩机器人对抗对方他们 forewent 比赛, 并决定看看他们可以在一起达到多少截击。

研究小组还测试了一个常见的思想实验, 称为 "嘈杂的电视问题"。根据该小组的白皮书:

这个想法是, 在一个环境中的熵的地方来源, 如电视, 随机改变频道, 当采取行动时, 应该证明是一个不可抗拒的吸引力, 我们的代理。我们把这个思想实验字面上, 并添加一台电视到迷宫随着行动改变频道。

事实证明他们是对的, 当 AI 试图运行迷宫并找到虚拟电视时, 性能显著下降。

这些好奇的机器学习代理似乎是我们遇到过的最像人类一样的 AI。你说我们什么?

H/t: 石英

下一篇:

你应该在大学学习 VR 吗?

Leave A Reply

Your email address will not be published.