索尼研发人工智能在模拟赛车游戏中击败顶级人类玩家，研究成果登上最新《自然》封面

2022-03-27 00:29:09

当地时间2022年2月9日，索尼表示，其创建的名为Gran Turismo Sophy （GT Sophy）的人工智能代理，能够在赛车模拟游戏《GT赛车》中击败世界冠军级别的人类玩家。

相关论文以《使用深度强化学习超越Gran Turismo冠军车手》为题发表在最新一期《自然》封面。

如今的人工智能技术通常借助计算机神经网络来模仿人类大脑的工作方式。对人工智能进行实际应用时，比如与人类互动，通常都要求其能够做出实时决策。

之前，人工智能在国际象棋、麻将和围棋等方面成功击败人类，但索尼表示，赛车驾驶更具挑战性，车手必须控制非线性动态的车辆和执行复杂的战术来超过或阻拦对手，这需要做出许多实时决定。

该论文描述了索尼研发的人工智能，如何完成高难度挑战，包括使用其他车辆引起的气流来扰乱后续车辆并执行紧急制动。同时，该人工智能还利用空气动力学来实时预测其他赛车的轨迹。

GT Sophy训练方法

索尼使用无模型、非策略的深度强化学习和自主开发的混合场景训练，反复试验，来训练人工智能在赛车驾驶的细微差别。之前，也有研究人员使用强化学习等方式来建模车辆动力学和训练人工智能学习驾驶政策，并在单人驾驶方面取得了较好成绩，但还没有一个研究解决最高水平的汽车比赛问题。

在强化训练中，GT Sophy根据不同的输入，比如车速、车轮方向、轨道曲率等，获得了正面或负面的反馈，其还通过自我复制适应了多种不同场景。

另外，要想在赛场获得胜利，车手须在“赛车控制、赛车战术、赛车礼仪和赛车策略”等方面有着高超的技巧和熟练度。

车手为了完全控制汽车，必须在对自己汽车状况和比赛赛道特性有详细的了解的基础上，建立直线加速和防守对手等所需的战术技能和战略思维，还要有高速精确的执行力。与此同时，车手必须遵守一定的体育精神。

为了让GT Sophy拥有足够的竞争力，索尼还构建了一个奖励函数。当它在赛道上持续前进时，会得到进度奖励;如果它出界或失去动力，则会被处罚。这些奖惩机制让GTSophy能够收到积极反馈，以保持在赛道上高速、稳定驾驶。

三种比赛场地

在具体测试中，GT Sophy与人类顶尖车手在《GT赛车》中的三种赛道进行了比赛，分别为Dragon Trail Seaside、Lago Maggiore GP、Circuitde la Sarthe。

据了解，《GT赛车》由索尼与国际汽车联合会合作设计。该游戏配置有最新的车辆动力学模拟，模拟了空气阻力、轮胎摩擦、悬架运动引起的方向变化等，并结合了现实生活中赛车的技术支持，能够较为真实地再现现实中汽车的各种细节。

《GT赛车》在全球拥有超过40万人的电子竞技社区，有着一个公平的赛车环境。其也为机器学习进行实验提供了一个高度现实模拟的场所。

据了解，GT Sophy的大规模训练于2021年1月开始。在与各种研究团队成员和《GT赛车》车手对抗后，2021年7月，GTSophy与四位包括《GT赛车》赛事“三冠王”宫园拓真在内的世界顶级车手进行了第一次比试，该场由人类获胜。

这之后，索尼改进训练机制、增加网络规模，并对一些特征和奖励进行了小的修改，提高了对手的数量，在2021年10月的第二个比赛日，GT Sophy轻松战胜了人类。

不过，索尼也表示，尽管GT Sophy在比赛中表现出了较为全面的驾驶技能，并最终获胜，但它仍有许多地方需要改进，特別是在战略决策方面。例如，GT Sophy可能会在相同赛道上留下较多空间，而给到对手反超的机会。

比赛场景

GT Sophy能够在模拟赛车这种实时、连续控制和高度真实、复杂的物理环境中获得巨大成功，这一结果可以被看作人工智能持续发展的又一例证，也表明在汽车赛道等类型上训练比人类更加优秀的人工智能是可能的。

而像GT Sophy这样的人工智能有潜力使人们在赛车游戏中得到更加愉快的体验，同时，也能为专业车手提供现实的、高水平的竞争和发现新的赛车技术。

最后，值得一提的是，索尼团队还认为，本次研究成果还可应用于空中无人机、自动驾驶汽车等系统中。（综合整理报道）（编辑/小美）