“为机器立心”：搭建人与机器人的价值双向对齐系统

2022-09-23 08:14:36

海外星云 2022年18期

“我们的研究成果标志着人工智能系统具备了在交流中学习人类价值函数并实时对齐当前人类价值目标的能力，是为机器立心，实现‘小数据，大任务’范式的重要一步。也是在迈向真正自主智能和通用人工智能的道路上更进一步。”北京通用人工智能研究院的郑子隆研究员说。

近日，北京通用人工智能研究院、北京大学人工智能研究院朱松纯教授领衔团队，通过一个“人机协作探索”游戏，构建了一种人机协同双向价值对齐的计算框架，证明了在该框架下智能系统与人类能够做到相互信任，并像人与人一样共同合作实现目标。

该项成果展示了一种全新的人机协作模式，将有助于设计更好的人工智能系统，并在未来应用于人机团队合作场景。

如今，人工智能逐渐开始渗透人们的生活。你可能已经注意到了，在日常生活中，你的智能语音助手常常会出错，即使是在你纠正它之后，同样的错误也仍然会发生。还有智能扫地机器人，只能遵循预先设定的逻辑来行动，而不会在听到你的指令后马上改变路径。

当下的人工智能体并不能和人类的价值进行实时对齐，这对于人工智能助手进入千家万户是一个巨大障碍。

而朱松纯团队的这项研究工作展示了解决这些问题的潜力，朝着实现通用人工智能迈进了一步，在未来或许能帮助数百万人更好地与人工智能进行合作。

该研究论文以《人机实时双向价值对齐》为题发表。该项研究工作的共同第一作者是袁路遥、高晓丰和郑子隆。

过去的10年里，以深度学习为代表的人工智能技术取得了极大进步。然而这种基于大数据训练的模式是一种被动的智能，只能按照人类事先编好的代码，机械完成特定任务，缺乏与人类相同的价值观，更遑论与人相似的推理认知能力。

在这个背景下，研究如何让人工智能系统真正理解人类的价值需求与意图，并获得人类的信任，是一个巨大的挑战。近几年的研究进展表明：人机协作是否成功不仅依赖于团队成员对现状和目标的一致认知，还有赖于团队是否持有相同的价值取向。而只有通过人类与机器的双向沟通，才能在团队中高效建立价值共识，从而使得团队成员采取受信任的行为决策来实现最终目标。

在这项研究中，朱松纯教授团队设计了一个巧妙的“人机协作探索”游戏，来探索机器人与人类价值对齐的过程以及双向沟通在这个过程中的所用。

这个游戏的内容是：在人类的指挥下，3个机器人与人类协同合作，在特定的棋盘上找到从起点到终点的最优路径。游戏在一个格子棋盘上进行，如下图所示。棋盘右下角和左上角分别为机器人的起点和终点，黑色部分为障碍物，且棋盘上放有金砖（物资）与炸弹。

不过这个棋盘环境对于人类指挥员并不是一开始就尽收眼底的，而是由机器人不断探索并向人类揭示其真容。

索游戏的棋盘界面

侦察机器人在寻找路径时有额外几个目标：尽快到达目的地、拆除炸弹、探索未知区域、收集物资。不过，只有人类指挥员知道这四个目标的相对优先级，而机器人并不知情。在游戏过程中，机器人需要根据人类的反馈对这4个目标的相对价值进行预测，相对价值的权重就是人类用户的价值函数。比如，假设人类用户以收集物资（金砖）为主要目标，那么机器人就应该把收集金砖的价值目标权重设置的较大一些，而不是到达目的地的时效性。

这个游戏比较真实地模拟了现实中的人机协作场景，即人工智能系统在人类的监督下，在环境中自主探索并实现特定目标（例如机器人救援场景、家居服务机器人场景）。

实验结果显示，通过向人类提供适当的解释说明其意图，机器人可以帮助人类感知其价值目标。而且机器人同时作为倾听者(从接收到的反馈中推断出用户的意图)和表达者(向用户解释其决策过程)，能够更快地与人类实现价值对齐。

换句话说，整个游戏其实揭示了人机之间相互协作中的实时价值对齐，可以通过两方对于价值目标的解释和评估来实现。

上述实验过程与结果，深刻揭示了人机协作之间的实时价值对齐是如何通过双向协作而实现的：

首先，机器人根据人类的反馈，对人类指挥员的价值目标做出估计，并对自身行为与策略进行调整。

其次，机器人需要根据当前状况，向人类指挥员解释已经采取的和计划采取的行动。而在与机器人一轮轮的协作中，人类不断评估它们的意图和能力，并及时通过指令对它们的行为进行约束和调整。很显然这是一个双向的过程。

向价值对齐计算模型的示意图

最后，机器人的价值目标逐渐收敛，指挥员对机器人的反馈也渐趋平和，这就形成了人类真实价值与机器人价值的一致性统一，人类与机器人系统达成了高度的相互信任。

朱松纯教授团队在此项工作中创造性地提出了一个人与机器人的双向协作系统，并对实时价值对齐框架的可用性做了证实。

本篇论文的多个审稿人对该研究的重大意义均给予了高度肯定。一位审稿人认为，这项研究相当重要并且有趣，有力地阐明了关于人类和人工智能之间利用双向通信来进行价值对齐的意义所在。另一位专家则评价道：这篇论文通过让人类与几个特定智能体一起参与游戏，成功证明了人和智能体之间的双向协作是可能的，将人机团队合作领域的人工智能研究向前推进了一大步，提高到更先进的技术水平，而且其他学者将极大地从这项研究中学习并受到启发。

北京大学人工智能研究院的助理教授朱毅鑫，在回忆整个研究工作时，提到一些让他印象深刻的故事。

他说，在团队遇到困难的时候坚持下去，并想办法解决问题，对项目进展至关重要。项目初期由于新冠疫情的影响，学校的实验平台无限期关闭了。好在他们及时找到了一个线上实验的替代方案，整个团队还为此专门花时间快速学习了一套全新的编程语言，以减轻线上研究需要付出的代价，并解决了一些技术问题。

他还提到，坚持自己认为正确的立场也很重要。在几次中期评审的过程中，评审专家对项目设计多次提出质疑。他们根据一些值得借鉴的意见进行了修改，但也坚持了一些他们认为正确的方法，而不是完全采纳评审专家的建议。尽管团队承受了巨大压力，但这个过程也给最终结果提供了很大的帮助。

关于此项工作的下一步计划，郑子隆研究员表示，价值对齐是走向通用人机协作的第一步。他们未来将寻求在更多的任务和人工智能智能体上面应用该框架，探索在多个任务中的人机价值对齐，例如实现单个机器人的多任务能力，而不仅仅关注单项任务的环境。此外，他们认为在人类和机器人之间研究心理模型的其他因素，如信念、欲望、意图等，也是一个有前景的方向，这都是“为机器立心”的过程。

“我们相信未来人类能构建一个人机和谐共存的智能社会。”郑子隆研究员说。