“AlphaGo之父”获最新一届ACM计算奖

2020-08-02 10:53黄珊

海外星云 2020年5期

黄珊

近日，2019年ACM（国际计算机学会）计算奖颁出，由于在计算机游戏领域取得突破性进展，“AlphaGo之父”、DeepMind首席科学家、伦敦大学学院教授大卫·席尔瓦获得最新一届的ACM计算奖。

大衛.席尔瓦

大卫，席尔瓦是深度学习领域的先驱人物，他在人工智能领域的一系列成绩中，又以他带领打造的AlphaGo最为人所知。大卫‘席尔瓦通过巧妙地结合深度学习、强化学习、蒙特卡洛搜索树和大规模计算的思想，开发了AlphaGo算法，AlphaGo由此战胜了顶尖的人类棋手，更是被公认为人工智能（AI）研究的一个里程碑。

根据ACM官方报道，最初，AlphaGo会经过来自人类专业棋手经验的小范围训练，然后，它会通过强化学习来不断改善性能。AlphaGo之后，大卫·席尔瓦和他的团队创造了更新颖的方法，来实现更高的性能和通用性，AlphaZero就此诞生。与AlphaGo不同，AlphaZero完全通过与自己玩游戏来进行学习，不需要任何人类数据或先验知识（游戏规则除外）。而且，AlphaZero同时在国际象棋、将棋和围棋游戏中有超过人类的表现，证明了其AI算法的通用性。

早在大卫·席尔瓦于艾伯塔大学（Universitvof Alberta）攻读博士学位时，他就开始探索开发一种可以掌握围棋智慧的计算机程序，这也成为了他后续一直在专注的研究兴趣。在2013年的NemIPS会议上，席尔瓦展示了一种算法，它可以在雅达利游戏中展现达到人类水平的技巧。这个程序学会了在游戏过程中仅仅通过观察像素和分数来玩游戏。

2015年，大卫，席尔瓦和他的同事发布开创性论文

“Human Level C.ontrol Through DeepReinforcement Learn/ng”，在这个研究中，他们将强化学习与人工神经网络相结合，论文发表在《自然》杂志上，且至今被引用近1万次，对该领域产生了巨大影响。随后，席尔瓦和他的同事继续用新技术改进这些深度强化学习算法，这些算法仍然是机器学习中应用最广泛的工具之一。

2016年3月，团队开发的AlphaGo击败世界围棋冠军李世石，这被誉为AI里程碑式的时刻。同年，解析AlphaGo背后技术的论文“Mastering the Game of Go with Deep NeuralNetworks and Tree Search”公开发布在《自然》杂志上。

AlphaGo和AlphaZero之后，DeepMind的游戒AI探索的另一个重点是征服《星际争霸Ⅱ》。就在去年，由席尔瓦领导的DeepMind团队开发了AlphaStar，它掌握了多人即时战略游戏《星际争霸ID，这类游戏被认为是游戏AI需要攀登的高峰。

现在，在DeepMind-这家谷歌旗下最星光熠熠的AI公司，大卫，席尔瓦和他的同事仍在寻求将机器学习和神经科学方面的进展进行技术融合，以构建功能强大的通用学习算法。大卫，席尔瓦在深度强化学习上的诸多工作也已被应用于提高英国电网效率、帮助谷歌数据中心降低功耗、为欧洲航天局策划太空探测器轨迹等领域。DeepMind团队还将继续推进这些技术，并为其找到更多的应用场景。口（摘自美《深科技》）（编辑/莱西）