Matt+Weinberger
人工智能在国际象棋、围棋等项目上战胜人类顶尖高手之后,艾伦·马斯克旗下的OpenAI 人工智能又在全球当红的网游“Dota2”中击败了顶级高手Dendi。 8月12日,艾伦·马斯克在其twitter账号上发文,称赞此次OpenAI获得的胜利,并表示这是人工智能首次在对抗型电子竞技中战胜世界一流玩家。OpenAI 是一家非盈利AI 研究公司,由特斯拉CEO艾伦·马斯克建立,该公司主要进行安全人工智能的研究。此前,马斯克的公司已经成功训练AI,在VR设备上观看后,立即执行任务,并且发展机器人创立自己的语言系统。
OpenAI在其博客中这样解释到:“这次Dota2的比赛结果显露出 (self-play)自我学习,能够使人工智能从低于人类程度的学习系统中捕获操作表现,进而一跃提高到拥有充分运算能力的超人。”相比之下,(Deep-learning)深度学习系统只能达到与它们的训练数据库同等的智能高度,可是在自我学习系统中,当数据升级,现有数据将随之自动提高。
OpenAI比赛过程
Dota2 的比赛开始于今年3月,最初的AI机器人只进行了一些简单的比赛。由于是一款免费多玩家电竞游戏,Dota2最引以为傲的一点是不强制玩家的极限范围。而在8月7日,机器人取得了骄人连胜战绩,第一场击败了名为Blitz的Dota2 玩家。同一天,机器人又打败了另外两名高段位的玩家。接下来一天,它又战胜了另一位德高望重的玩家Arteezy。而所有被机器人打败的四位玩家一致认为,玩家Sumail 能够打败它。然而,Sumail并没有如他的战友们所愿,依然惜败。最终,机器人挑战了Dota2的前世界冠军Dendi,并以2比0完胜Dendi。“请放过我吧!”赛间Dendi对机器人对手这样说道。
Self-play 自我學习过程
OpenAI的研究人员表示,此次比赛中机器人运用自我学习从零开始,不是模仿学习或是树状搜索,在包含人类的混乱复杂的环境中建立明确的目标,AI系统建设跨出了历史性的一步。竞赛中,机器人预测出即将移动的玩家,并在新环境下做出临场反应,并影响其他玩家。两场比赛之间,OpenAI的工作人员将一些“训练”与自我学习相结合,帮助机器人不断提高战斗力。
OpenAI的目标是建设安全的通用人工智能。对于AI来说,Dota是一个非常理想的试验场,竞争激烈,游戏复杂。如果想在这门游戏中获得成就,就必须推进现有技术,实现技术突破。我们现在开发了一个AI,能够在Dota的1v1比赛中击败顶尖职业选手。
Dota的规则非常复杂,如果是用规则方法,那么构建出的AI一定是个低能的玩家。所以,OpenAI完全采用的是自我游戏(self-play)的训练方法。刚开始训练时,AI对于自己所处的世界全无认识,而只是和自己的复制品比赛,这也就意味着它和它的对手永远是旗鼓相当,在这个过程中自我能力不断提升,直到达到世界顶尖选手的水平。
自我学习的发展
“自我对决”的理念是OpenAI研发的关键。这是一种AI系统学习解决极其复杂任务的有效方法:与太弱或太强的对手对战,它都无法从中学到东西,但自身反倒是有价值的对手。OpenAI的研究人员解释到:“你可以看到AI从完全的随机状态一步步发展到如今的顶级水平。”
除了OpenAI,其他人工智能研究人员已经在寻找方法来教导机器人做各种事情: 比如从阅读到做梦。他们创建了可以自己学习的AI系统,甚至可以互相教授的AI系统。教育正在从根本上被颠覆,以满足这项新技术的需求,随着机器人的智慧化,我们的生活将变得更加轻松,更安全,而且更有趣。
另外,Google旗下Deepmind团队最近在进行研究,让 AI 在复杂环境里“运动”。研究人员设计了类似火柴人的模型,在不给它们任何编程的情况下,要求其越过障碍物到达终点,所以这些火柴人基本上一直在试错。试验中AI会逐渐调整自己的关节,用更好的方式来完成目标。体育精神爆表的火柴人,拥有27个自由关节和21块驱动器。而且为了指导这只AI,Deepmind设计了一套虚拟传感器,教其如何在不熟悉的复杂环境下通过障碍,而火柴人在一次次跌倒之后的成功跑酷,展现了AI强大的自主学习能力,实现了机器学习和系统神经的结合,这是火柴人的一小步,却是AI在研究人体机能领域的一大步。
编译自《Testlarati》《商业内幕》杂志
(责任编辑姜懿翀)endprint