陈斌
2017年10月19日,谷歌Deepmind团队在《自然》刊发论文《精通围棋对弈无需借助人类知识》。一款新的人工智能AlphaGo Zero,从零开始学习,自己与自己对弈,不借助任何围棋棋谱与人类经验,10小时左右发现简单定式;15小时发现复杂定式;55小时左右发现人类顶尖高手从未用过的新定式;72小时出关。出关后以100∶0完败AlphaGo Lee(曾战胜李世石),以89∶11大胜棋力更强的AlphaGo Master。
在AlphaGo系列版本连败人类顶尖高手之后,围棋对弈的看头已不在人类顶尖高手之间,也不在人工智能与人类顶尖高手之间,只在人工智能与人工智能之间了。AlphaGo Zero三天的自我学习,超越了人类几千年对围棋知识的积累,也超越了借助于人类经验与大数据训练的AlphaGo Lee及Master,让人叹为观止,充分揭示了人类经验的局限性。
有人说,AlphaGo Zero横空出世,说明“算法比大数据更重要”。这当然是对的。棋力的本质就是算法与算力。
首先,人工智能战胜人类顶尖高手,是算法与算力的胜利。由于算力的限制,人类棋手采用的是局部最优化算法,每一落子,主要考虑对周边局面当下与后续的影响。算力优裕的人工智能,原则上可采用全局最优化算法,每一落子,考虑对全局当下与后续的全部影响。在绝大多数情况下,局部最优与全局最优的落子是一致的。但极少数情况下,局部最优就不是全局最优,人工智能就碾压人类顶尖高手了。
其次,用一张神经网络自我学习与训练的人工智能,战胜借助于人类经验与大数据训练的人工智能,也是算法的胜利。看来,前者才是真全局最优化算法,因不看棋谱而免于被人类经验带偏;后者只是准全局最优化算法,算法受到了人类棋谱中的局部最优化算法的“污染”,也就是说,人类经验束缚了人工智能棋力的提升。这对人类来说真是一个尴尬的事实。
由此,“围棋的终结”那一天似乎也不远了。围棋对弈是在完全信息下进行的,规则也很明确,理论上存在着一盘“终极棋局”:对弈双方下的每一步,都是全局意义上的最优落子,也就是说,任何一方的任何一步不这样落子是不明智的,最后就形成了“终极棋局”。
AlphaGo Zero的最大意义,在于有助于我们反思人类经验的局限性,让我们清醒认识到经验有效性的边界在哪里,不至于以为自己的经验是绝对真理。人类经验的本质其实就是局部最优解。你的个人经验就是你个人视角下的局部最优解。
如果说在围棋对弈中人类棋手不得不采用局部最优化算法的原因是算力限制,那么在日常决策中人们采用局部最优化算法的主要原因在于信息不充分、不准确。人类社会中的博弈基本都是信息不对称下的博弈。你在对自己掌握的有限信息去粗取精、去伪存真之后做出的决策,是局限条件下最优的决策,但并不一定等于真正对你最优、最有利的决策。不过,要是你占有的信息尽可能全面、尽可能精确,那你的决策就会更接近于上帝全知视角下的全局最优解。
此外,人们在决策中常犯的错误是只考虑短期效应,而忽视长期效应;只看到“看得见的”,而忽视“看不见的”;只看到直接的“一阶效应”,而忽视“二阶效应”等高阶效应。这看起来也挺像“算力限制”导致的,但其实是一种“算法缺陷”,是智力上的懒惰。AlphaGo Zero就不会犯这样的错误,一定会考虑落子对当下与后续的全部影响。
是的,AlphaGo Zero就是一面镜子,照见了人类经验的局限性。