OpenAI 使用的行动在今年的 魔兽2 锦标赛作为一个机会炫耀自己的工作, 让顶级球员不断输给它的游戏机器人。

dota通常是一个团队游戏, 强调协调和沟通, 但对于有兴趣增强他们的纯, 技术能力的球员, 游戏也有一个1模式。这就是科技公司 OpenAI 用来展示其对游戏中最著名和最心爱的球员之一, 丹尼 "Dendi" Ishutin 的编程。

这一模式有两个玩家在游戏的 mid-lane, 只有摧毁了第一个塔或两个敌人杀死赢得任何一方的胜利。此外, 为了这一特定的演示, 一些特定的项目, 如瓶子和灵魂环, 帮助玩家管理健康和法力再生, 也受到限制。Dendi 决定扮演暗影恶魔, 一个强壮而又脆弱的英雄, 擅长于攻击性的戏剧, 并使它成为一个镜像匹配的 OpenAI bot 做了同样的。

你很少听到一群人为蠕变阻塞而欢呼, 但这是昨晚在关键竞技场上的球迷在观看展览比赛时所做的。最早期的优势, 在一个1的魔兽对峙来与一方减慢他们的支持波的 AI 爬行足以迫使对手更远的敌人的领土, 这正是机器人在第一回合的三十秒内设法做到这一点。

在那之后, 事情似乎已经结束了, 但 Dendi, 缺乏对他的 AI 对手的良好的阅读, 谨慎地发挥, 并最终失去了经验和黄金, 因为机器人被赋予空间的土地更多的最后命中。在三分钟, OpenAI 已经骚扰 Dendi 的塔, 并获得 双倍 CS.前钛优胜者在不久之后遭受了他的第一死亡。在这一点上, AI 不太可能犯下重大错误, Dendi 在经验点上进一步落后, 这场比赛几乎是结束了。亲试图改变的东西, 最后沟企图在一个杀戮, 但他最终牺牲自己的生命去做。

广告

在一次重赛中, Dendi 承认, 他将尝试模仿 AI 的策略, 推动他的车道早, 解释如何动态的1战斗 dota 是反直觉的, 因为它依赖于纯粹 outplaying 你的对手而不是试图去想他们。切换双方从辐射到可怕的第二场比赛, Dendi 得到了更糟糕的。他和对方的 AI 交换了很早, 在前两分钟, 他被迫撤退, 只在途中死亡。

OpenAI 机器人被训练了, 根据对公司 CTO 博曼, 通过演奏许多毕生的比赛价值和仅有限的教练在途中。本周早些时候, 它击败了其他著名的技术游戏, 包括 SumaiL 和 Arteezy, 学习每一次, 并提高自己。但这些比赛更多的是为了测试机器人的到来比其他任何东西。"自我播放" 是什么得到了这一点, 与博曼解释 博客文章 AI 的学习风格要求对手的技能水平非常接近, 所以它可以进行渐进的调整, 随着时间的推移而提高。

广告

该公司, 部分由伊隆麝香的资金, 正在致力于一些不同的 AI 项目, 包括冒充 Reddit 评论, 但游戏一直是计算机学习设计和测试的重要组成部分。从 跳棋 和国际象棋 星际 现在 dota, 定义良好的规则体系和明确的获胜条件是一个自然的契合。

和1模式的阀门的莫巴进一步采取的逻辑, 提供了一种方式限制的数量的变量运行的形式, 其他玩家。与其担心其他九人正在做的事情, 也不是为了成倍地增加 AI 不得不与之抗衡的选项和可能性, 1 允许它把重点放在游戏的核心元素上, 类似于初学者练习开口的国际象棋。然而, OpenAI 团队的野心并没有停止。机器人的设计者希望看到它在明年正式的5v5 比赛中表演。

你可以看下面的整个演示。