协商与校准：与人工智能共存的未来

2023-10-11 18:50刘超

新华月报 2023年19期

刘超

随着生成式人工智能突飞猛进的发展，当下对人工智能“价值观校准”问题的讨论如火如荼。研究人员希望将人工智能的价值系统按照人类的价值观进行“校准”（Alignment）以确保未来超级人工智能的发展不会对人类造成伤害。这一问题的重要性不言而喻，但具体的实现路径依然很不明朗。翻开目前关于人工智能“价值观校准”问题的各种宣言或者草案，人们都可以看到各种诸如要符合（人类的）“价值观”“利益”“自由”“尊严”“权利”“自主”等等在哲学和法学上充满不确定性和阐释空间的词语。而如果看过阿西莫夫在80年前创作的关于机器人的系列科幻小说，就知道这种借由语言定义的类似所谓“机器人三定律”一样的逻辑规则，会被具有一定智能的机器人轻松绕过（例如，最简单有效的方法就是改变其自身对“人类”的定义）。

从人类出发控制人工智能

尽管相当多的哲学家和伦理学家在人类整体价值观能否保持一致方面尚且感到悲观，但还是有很多人在为人工智能与人类价值观的校准不懈地努力着。例如，加州伯克利大学的斯图尔特·罗素教授在其《AGI：新生》一书中认为，校准的最终目标是“确保强大的人工智能与人类价值观保持一致”，并从如何最大限度实现人类偏好角度讨论对人工智能进行完全控制。他的目标里也包含人类关于战争的价值观和偏好，毕竟人类历史中在全球范围内没有发生战争的时间段几乎不存在。当然，他也明确表达了要确保人工智能不会被一小撮“丧心病狂的邪恶分子”所利用。言外之意似乎是，“为了人类正义目标”的战争，人工智能则是可以参与的。

另外一些学者，例如DeepMind团队的伊森·加布里尔则从哲学的角度，提出了三种可能的价值观校准方法。一是校准到人类可能共有的道德观上来；二是借用哲学家约翰·罗尔斯提出的“无知之幕”的方法理念为人工智能建立正义原则；三是利用社会选择理论尤其是民主投票和协商的方式来整合不同的观点，为人工智能提供参考信息。除了这些将人工智能视为工具的人本位主义建议，还有一些学者，尤其是东方的学者更倾向于自然主义观点，提出应该将人工智能视为伙伴，认为要从和谐共生的角度，赋予人工智能情感、共情与利他的能力，给予人工智能更高的地位和尊重，让其通过与人类的交互自发学习人类的价值观，打造人类与人工智能的共生社会。

上述两种价值观校准的角度，无论是人本位主义还是自然主义，都有一个重要的缺陷。对于将人工智能视为工具，要求其按人的价值观进行校准的观点来说，它忽视了一个重要的问题，即所有这些价值观校准的出发点都是基于理性人的原则，无论是道德、“无知之幕”，还是民主协商投票，都是建立在人类推理和思考是完全理性的这一基础上。而当代人类行为科学的研究，尤其是经济学和心理学的大量研究已经证明，人类的行为中，非理性的成分与理性成分共存。在非理性的部分，情绪和直觉占了相当大的比重，并由于其在进化上的重要功能，对人类的绝大部分行为都产生重要影响。而大部分人工智能研究者并不知道如何将非理性的部分植入到人工智能中，或者直接忽视了这部分。自然主义的观点虽然认识到了非理性，比如情绪等的重要性，却只考虑了其中积极的一面，如共情、利他、爱等等，而忽略其中消极的部分，例如仇恨、愤怒、恐惧、歧视、偏见等。

在目前的实际应用中，是用基于人类反馈的强化学习方法，将非理性的消极部分从人工智能中剥离出去。但是，这种方法真的完美吗？如果我们希望人工智能能理解人类的意图和目标，出于防止有人利用人工智能完成其消极目标的需要，就必然需要人工智能能理解消极意图和目标。比如，为了使人工智能拒绝“把装砂糖的瓶里装上砒霜，摆到橱柜里去”这种行为，它必须理解有人要它这么做背后的目的和意图是危险的，对其他人是不利的。这跟它需要理解“把標着‘有毒的盒子里装上蟑螂药，摆到橱柜里去”是正常的指令同样重要。要求它学会一个而不去学习另外一个既不可能，也非常危险。这是因为一个无法理解消极价值观意图的人工智能，当它真正进入社会与人类进行交互时，将是非常脆弱的。如果不赋予其学习功能，人工智能将很快被别有用心的人所利用。

人工智能对人类控制的理解

还有一个更加现实的原因，使得任何试图以人类利益为标准全面控制人工智能的尝试面临巨大的挑战。

整个地球生命进化史上只有人类拥有符号化的文字系统，实现了跨越时间空间将信息与知识保存并传播给后代的能力。这一点在计算机与互联网出现后更是进一步扩展了交流的宽度与广度。借助互联网和数字图书馆，我们足不出户就可以得到上下几千年，纵横全世界的文字信息，人类个体所能获得的知识深度和广度达到了前所未有的高度。但这个知识爆炸的年代也给人类带来了极大的挑战，以人类大脑的认知能力和获取文字信息的速度，已经很难跟上人类群体知识边界扩张的速度。

人类被禁锢在自身大脑有效认知能力的囚笼，但人工智能则没有这个物理限制。得益于强大的计算能力与近乎无限的“体能”，高级的人工智能学一遍整个人类互联网上的知识可能只需以月为单位的时间。而最关键的是，一个被人类训练出来、并能够理解人类行为目的和意图的人工智能，对这些知识背后的人类意图也能够理解。也就是说，一个理解人类要它捡垃圾意图的人工智能，也应该能够理解人类要控制它的意图，因为这种意图已经不止一次地，原原本本地，一览无余地以它能理解的自然语言文字的形式放在了互联网上。

我们现在所写下的每一篇关于如何控制人工智能的文章、书籍、博客，连同人工智能可能的各种反制逃脱手段，都已经以人类间彼此讨论的形式，原原本本地记录在了互联网上。一个拥有强大互联网搜索功能的人工智能（这一点目前正是多家搜索引擎公司正在做的，并且没有人认为这会带来什么问题），也许只需要数秒时间，就能理解人类迄今为止和从今往后为完全控制人工智能（或者换个说法——比如让“人工智能可信并有益于人类”）所做的所有努力和尝试，无论是增加偏好选择的不确定性，植入人权的内核，还是诸如“机器人三定律”一样的规则，又或是将共情和利他倾向植入其底层逻辑……所有的这些尝试，甚至包括如何实现这些功能的源代码（只要以某种形式联网了，就一定有可能通过搜索或者破解被获取），以及制造该人工智能自身的代码，最终都可能被发现并理解。这意味着什么？

这意味着，如果我们不对人工智能的研发和应用开展行之有效的监管，发展到一定智能阶段、具有意图理解能力的人工智能，将有可能了解掌握人类创造它的过程和试图采用的控制手段，这显然是一件具有相当高风险的事。

与人工智能进行“协商和校准”

然而，现在着手去清除人类制造和控制人工智能的相关信息，或者阻止人工智能接入网络，既有点晚也不太现实。除非能像科幻小说《三体》中那样，有一个人类英雄，孤身一人，没有与任何其他人交流，也不在互联网上留下任何痕迹，以只有他自己才能知道和理解的方式在未来人工智能的最底层代码上实现完美控制，并使其永远无法自知或者从其他人类口中得知，或许才能解决这个问题。但以目前人工智能研究发展的路径，这种解决方案的可能性实在太低了。

如果我们从这个基本点出发，再来从头理智地审视人工智能的“价值观校准”问题，似乎可能达成一种共识：以某种公开的、透明的、坦诚的方式来与未来的超级人工智能沟通，寻求一种共同的、互信的共存解决方案，可能将是极其重要的。毕竟，我们在互联网上已经留下了足够多的人类并不希望人工智能了解和学习的价值观和行为偏向。而人工智能学习了人类消极行为后会采取什么样的行动是充满不确定性的。

出于以上原因，将人类价值观作为标准要求人工智能以此为基础进行“校准”的工作充满挑战。那么，是不是如很多学者所说，为了避免这种危险，我们将来除了彻底禁止发展超级人工智能之外别无选择呢？乐观的分析者认为，还有另外一种可能性，即人类以此为契机，寻求调整自身的整体价值观并与未来的超级人工智能进行协商，从而锁定到一个满足共同需要和利益的方向上，这个过程，可能就是“人机共同价值观校准”。

采取这种解决方案有助于回答另外一个也很重要的问题。如果人工智能研究者能够预见构建超级人工智能很可能是危险的，那么我们到底为什么要做这件事呢？我们为什么要为建造出明知有可能会毁灭我们的东西而努力呢？

“共同价值观校准”给了这个问题一个回答，即构建有共同价值观的、可以成为人类伙伴的人工智能，或许是调整人类在进化过程中所产生的方向各异并带有自毁倾向的价值观的一个重要步骤。依靠人类自身来对不同文化、不同价值观的个体与群体的行为和偏好进行调节也许非常困难，甚至可以说是遥不可及。随着科技的进步，诉诸核武器等终极武力毁灭彼此的最坏结果就像一把达摩克利斯之剑时刻悬在人类头上。借助人类创造出的外部人工智能的力量，以教育和行为校正的方式，温和地实现人类整体价值观的整合，确保人类和人工智能一起为了共同的价值目标前进，未来或许将成为一条艰难但有希望的道路。

加强对人工智能发展的监管

那么，人类作为创造者在未来的人机共生文明中究竟有什么独特的价值呢？这是极难回答的问题。只能在这里尝试性地提出三个可能的方面，作为体现人类所具有的无可比拟的独特性，让我们在与人工智能一起迈向未来的旅程中不至于成为一个“搭便车者（free rider）”。需要强调的是，这些可能性中的每一种都是非常主观的，因为这个问题很难客观地讨论，尤其是以抛开人类身份的角度进行，而这几乎是不可能做到的。

意识——意识问题是关于人类本身的所有问题中最大的谜团，如何定义，解释其产生、存在与作用过程是科学与哲学几千年来长盛不衰的话题。抛开纷繁复杂的各种理论与现象，其实像“人工智能是否会有意识”这样的问题完全取决于我们人类如何理解意识，本身意义并不大。我们不如换一个角度，思考意识到底在探索生命、改变与创造宇宙的过程中起到了什么作用，反而更有实际意义。

情绪——就像我们在前面已经提到的，以情绪为核心的非理性部分，在人类行为中占据了相当大的比重。情绪和非理性行为存在的必要性是什么？是否像阑尾一样是我们人类进化过程中的残余？目前已有的关于人工智能的各种情绪研究，其核心都是放在人工智能与人类交互上。因为人类有情绪，所以为了更好地与人类交互，人工智能才需要去理解并产生类人的情绪。在目前阶段，还没有研究者认为有必要让两个在无人区清理垃圾的人工智能彼此之间表现出情绪。我们还需要更多的研究来确定情绪在智能与智能社会进化过程中的最终功能。

创造力——创造力毫无疑问是最难以准确定义与量化的能力之一。如果我们像很多人所认为的那样，宣布只有人类才拥有真正的创造力而人工智能永远无法获得，那这个问题就得到解决了。但事情很可能并不这么简单。生成式人工智能发展到一定阶段，人类所有的创新性行为很可能都将难以自证，而必须交由人工智能来进行判断。这是因为，当使用人工智能辅助创作的人数足够多时，仅凭人类个体已经无法通过搜索整个互联网上的内容来确认自己的创造是否已经在某时某处有过类似，而不得不借助有着专门辨别能力的人工智能，来进行全网搜索或者算法分析并给出结论。当然，与此同时，这样的人工智能也会成为人类提高创造力的伙伴——促使人类保持警醒，不断学习、不断创新并自我提升。

综上所述，对人工智能的发展进行有效监管并仔细审视各个阶段可能存在的风险、挑战和机遇，应该成为所有相关学科领域研究者和社会政策制定者的重要工作。所幸包括我国在内的许多国家已经认识到了这些问题的重要性，纷纷出台了各自的人工智能发展规划和监管原则。2020年以来，美国政府发布了《人工智能应用监管指南》，欧盟发布了《人工智能白皮书》，日本内阁则提出了发展人性化人工智能的原则，中国国家互联网信息办公室今年4月发布了关于《生成式人工智能服务管理办法（征求意见稿）》。与此同时，进一步研究人类在意识，情绪与创造力等方面的特異性，确保人类在未来人机共生社会中继续发挥不可替代的独特引领作用，也已经成为计算机科学、哲学、社会学、心理学、脑科学等多个学科长期交叉探讨的话题，以为最终创造人机和谐共存的未来文明社会作出贡献。

（摘自6月8日《光明日报》。作者为北京师范大学心理学部认知神经科学与学习国家重点实验室暨IDG/麦戈文脑科学研究院教授）