非嵌入式与嵌入式智能体价值观加载的对比研究

2020-03-12 02:31:09李熙，龚媛

贵州省党校学报 2020年2期

李熙，龚媛

(中南大学，湖南长沙 410083)

随着深度学习、强化学习的迅速发展，人工智能对人类社会的影响日益加深。虽然超级智能体在短时间内不会出现，但这并不意味着我们可以忽视它未来的发展及可能的影响。正如帕斯卡赌注的情形，我们需要对超级智能的存在及其可能的影响保持审慎的态度，提前为超级智能的到来做好准备。那么，如何设计一个相对安全可靠的超级智能体，使其按照人类价值观的要求来行动，并且始终与人类利益保持一致，这将是超级智能发展面临的一个巨大挑战，应对这一挑战的重要方法就是对超级智能体进行价值观加载。

一、智能体价值观加载研究现状分析

在当前的研究中，主要是以非嵌入式智能体为研究对象，随着研究深入，非嵌入式智能体价值观加载的局限性逐渐凸显。从哲学的视角看，非嵌入式智能体与环境的关系符合二元论的设定。其中，哲学里的二元论以笛卡尔的身心二元论为代表。笛卡尔指出，身体和心灵是两个独立存在的实体，两者性质完全不同，各自独立存在和发展，不能相互影响、决定。预设身心独立、没有任何交互作用是一种理想的简化，非嵌入式智能体与环境相互独立的二元论关系恰恰也是一种类似的简化。

根据哲学中一元论与二元论的划分，除了非嵌入式研究之外，嵌入式智能体价值观加载也受到关注，非嵌入式和嵌入式智能体分别对应着哲学中一元论和二元论的划分。从智能体与环境的关系来分析，非嵌入式智能体是指智能体与环境相互独立，智能体需要明确的输入-输出方式来与环境进行交互，这对应着哲学上身心相互独立的二元论主张；嵌入式智能体是指智能体内置于环境中，智能体完全是环境的一部分，除了通过明确的输入-输出与环境交互，智能体本身的内存、源代码甚至硬件都受环境的影响，双方的交互比较复杂，这与哲学上一元论的观点相契合。

当前，智能体价值观加载主要以二元论的非嵌入式为主要研究对象，具体可以从伦理和技术两方面来看：

一是伦理方面。首先需要探讨的问题是如何为智能体确定价值观，在这一过程中将会面临什么样的困难以及有何具体的解决方式？保拉·博丁顿(Paula Boddington)指出，由于道德规范的不确定性，为非嵌入式智能体选择明确的价值观存在较大难度，难以获得普遍认可的人类共同价值观，这可以通过将具体的价值观简化为一些可以普遍适用的价值观标准来解决这一问题。[1]肖(Nolan P. Shaw)等人认为无法以一种纯客观的方式来衡量道德，从而无法以统一的方式对智能体进行具体的价值观加载。针对这些问题，可以转向研究元道德品质。[2]其次，既然很难直接地进行价值观加载，那么能否让智能体通过其他方式间接地获得价值观？对此，苏亚雷斯(Nate Soares)探讨了非嵌入式智能体进行价值观学习的路径，同时他也指出，除了通过学习间接加载价值观之外，还可以尝试探索世界来间接获得价值观。[3]另外，智能体价值观加载后的监督问题也受到学界的普遍关注。波斯特洛姆(Nick Bostrom)认为，智能体经常会追求工具性子目标来协助完成系统的最终目标，这些工具子目标大多具有相似性，可以看作是智能体自动演化出来的动机，因此可以尝试监督智能体的这些工具子目标。[4]

二是技术方面。尽管直接为智能体选择价值观是有难度的，但可以通过其他方式来改善。博戈西安(Kyle Bogosian)认为，道德分歧问题是非嵌入式智能体价值观加载的阻碍，但可以从间接的角度设计出一个具有不确定性的智能程序，从而适当地处理道德分歧问题。[5]丹尼尔·杜威(Daniel Dewey)则指出，强化学习只适用于在具体环境中以最大化期望报酬为目标的智能体，一旦这个目标与人类所设定的目标不一致时，智能体可能会违背人类设定的目标要求；即使开始的目标一致，也会面临工具子目标的问题，并且随着机器智能的提升，在某些情况下，我们会发现某些目标对其追求任何目标都有益，因而会将这类工具性子目标当作重要目标去追求，但这可能与人类设计者的初衷相违背。为了解决这个问题，丹尼尔·杜威提出了“价值强化学习”的方案，只要人类设计者可以为其提供足够多的相关效用函数，这个价值强化学习者就可以在与环境的交互过程中，通过调整效用函数的权重，逼近人类预期的价值观。[6]

另外，关于价值观监督问题，肖等人认为，直接为智能体选择并赋予明确的价值观存在一定的难度和局限性，即使可以确定价值观，在设计智能体进行价值观学习时也不能保证智能体出错的范围被控制在极小的误差范围内。因此，肖等人提出构建一个动态的多重智能体的反馈系统来尽可能保证智能体价值观学习的可靠性。在这一过程中，不仅人类设计者可以从外部对非嵌入式智能体进行检查监督，同时智能体系统可以在内部进行一致性检查，对子系统进行监督和检查，使得智能体可以以一种更为安全的方式运行。

二、非嵌入式智能体的价值观加载

当前的研究主要集中在这几个方面：如何为非嵌入式智能体选择价值观？如何使其准确地学习人类价值观？如何对其进行检查监督？怎样保证其安全性？接下来将从哲学的视角对非嵌入式智能体价值观加载进行探究。

(一)非嵌入式智能体价值观加载的便利

非嵌入式智能体与实际环境之间是一种二元关系的设定，这类似于游戏玩家与超级玛丽电子游戏之间的一种关系。玩家与超级玛丽电子游戏是相互独立存在的两个实体，但是玩家可以在游戏体验中对超级玛丽里的所有任务、情节和环境有所了解，玩家对游戏主角马里奥拥有完全的控制权，并且可以通过不断地游戏体验和通关升级来对这款游戏加深了解，同时也在玩游戏的过程中不断积累经验，从而找到快速通关的方法。我们尝试总结非嵌入式智能体可能具有如下特征：

● 智能体通过定义清晰、明确的函数以输入-输出的方式与环境进行交互。

● 智能体与环境相互独立，并且能从一个全知的视角来整体把握环境。

● 智能体的设定就像固定不变且不可分割的原子，是不可还原的，也无法进行自我剖析。

● 智能体关注的是如何更好地把控环境，如何让环境变得有利于其目标的实现。

非嵌入式智能体与环境的这种二元关系设定以及所具有的特征，使其在价值观加载方面具有优势，也为人类研究这一问题提供了许多便利。

从非嵌入式智能体的定义和特征来看，第一，在具体考虑智能体价值观加载时，主要是将环境、智能体作为两个独立的实体考虑，通过定义明确的效用函数来进行价值观加载。第二，由于对智能体交互环境而言具有一个全知的“上帝”视角，因此非嵌入式智能体对逻辑事实是确定无疑的，对经验事实是不确定的，智能体可以通过数据搜集、经验积累来解决这种不确定性。第三，智能体自身是不可还原的，它不会对自身本质进行思考探究，而是关注如何更好地利用环境，或者如何提升自己的策略，从而在与环境交互的过程中可以更好地实现系统设定的目标，这就意味着在对智能体进行价值观加载时，人类设计者可以从智能体的动机控制入手，思考如何通过对其进行动机控制来使智能体更好地符合人类要求来行动。

从设计安全且值得人类信任的智能体过程来看，需要考虑各方面的问题，伦理和技术层面的问题都要兼顾。无论是非嵌入式还是嵌入式智能体，面临的问题大致可归纳为三个方面：第一，人类该选择什么样的价值观赋予智能体？第二，人类如何准确地赋予这个价值观？第三，人类在准确地赋予其价值观之后，如何进行有效的检查监督，使得它可以在智能不断提升的情况下依然按照人类赋予的价值观行动？

首先，第一个问题属于伦理学研究的范畴，什么样的价值观是值得考虑和选择的，这与智能体本身的类型并无太大关联，无论是对非嵌入式还是对嵌入式智能体而言都是如此，两者都不具备明显的优势。其次，人类如何将确定的价值观赋予非嵌入式智能体，可以分别从伦理和技术的视角来讨论。一是从伦理层面考虑，可以用不同的伦理框架来进行价值观加载。当前非嵌入式智能体价值观加载的路径主要有两种：一种是自上而下的路径，一种是自下而上的路径，当然也有学者探索这两种路径混合的加载路径。自上而下的路径是指人类设计者为智能体直接选择某种明确的价值观作为系统目标，让智能体识别和执行。自下而上的路径则是通过间接的方式让智能体在环境中主动地进行价值观学习，获得相对正确的价值观，从而做出相对安全的选择。非嵌入式智能体由于自身特征使其在不同的加载路径中存在不同的优势：在自上而下的加载路径中，智能体对于环境的全知视角可以使其按照价值标准行动，并且根据价值标准更好地把握环境变化，不断地创造有利于实现系统目标的条件。而在自下而上的加载路径中，智能体对于环境的全知视角则有利于智能体依据环境的实际变化学习最为合适、符合人类主流标准的价值观。二是从技术层面考虑，在自上而下的路径中，将某种明确的价值观标准通过定义效用函数编码为机器语言，让智能体对具体的价值观进行学习，随着智能体智能的提升，可以根据智能体的表现情况对系统目标不断进行修正。当前，最为典型的是传统的强化学习的框架。而在自下而上的路径中，则是为智能体提供足够多的数据集，让智能体主动在环境之中进行价值观学习，当前典型的学习框架是逆合作强化学习。再次，在非嵌入式智能体监督问题上，这也需要从伦理和技术两个方面来考虑。伦理方面，由于智能体自身是不可还原的，它关注的是如何更好地实现系统目标，这就意味着它的动机都是以实现系统目标为基础，在对智能体进行监督时，可以从它的动机控制入手，如果出现智能体的动机与系统目标不一致，或者相违背的情况，可以借助功利主义或义务论的原则对其进行修正；技术方面，智能体与环境之间有明确的交互方式，在对智能体进行系统目标控制时，可以用明确的效用模型来进行修正。

(二)非嵌入式价值观加载的局限

尽管非嵌入式智能体的价值观加载有诸多便利，但是这并不意味着它是实现通用“友好”人工智能的最好模型。从二元论的角度看，智能体与环境之间是两个独立的实体，这在一定程度上降低了研究的难度，忽略了实际上两者可能会以更复杂的方式相互影响的问题，这是一种高度的理想化，使得智能体的精准性、安全性都要存疑。下面从价值观加载的具体内容来分析非嵌入式智能体的局限性。

首先，价值观选择对两种智能体的价值观加载都存在影响。为非嵌入式和嵌入式智能体选择价值观都有两种方式，一种是直接为智能体选择确定的价值观作为系统目标，另一种是间接地让智能体主动学习正确的价值观作为系统行动的指导准则。

直接的方式在伦理和技术两个层面上都简化了智能体价值观加载研究的难度，但是也面临各种问题。一方面是由于道德规范的不确定，人类社会中每个个体都有不同的价值偏好，不同社会文化背景的共同体所认同的价值理念之间也存在差异。由于地域、文化、宗教、法律等多种因素的影响，到目前为止，在人类社会中并没有一种价值观是可以被所有人认同、推崇的。因此，无论是为非嵌入式还是嵌入式选择一个符合所有人类价值标准的价值观难度极大。另一方面是具体的价值观目标无法适用于所有可能的环境，使智能体可以始终采取正确的行为。

既然具体、直接的价值观选择是有难度的，那么不妨尝试转向间接的伦理框架。虽然不用面对直接选择价值观的难题，间接的方式也存在局限。当前在智能体价值观选择上主要有美德伦理学、义务论和后果论三种不同的伦理框架。但是，不同的伦理框架具有不同的价值取向和价值标准，遵循不同价值观标准的智能体在实际环境中的行动会有区别，这就导致人类主体在评价智能体行为正确与否的问题上存在差异，无法获得一个统一的评价标准。同时，智能体在具体执行系统任务时判断是非对错的标准也有差异，导致最后会带来不同的结果和影响。

其次，如果确定了一种价值观，该如何将这种价值观准确地赋予智能体？从伦理方面来看，自上而下和自下而上的价值观加载路径有不同的伦理框架。自上而下的路径有两个版本，一种是基于义务论的，另一种是基于后果主义的。先看基于义务论的版本，比如阿西莫夫的“机器人三大定律”就是通过伦理规则进行约束的，但这存在严重的困难：一方面是如何确定智能体被哪种规则所约束，依据的标准是什么；另一方面是即使可以为其确定某些约束规则，但这些规则是否是完备的？是否适用于所有可能的环境？基于后果主义的版本也面临类似困境，如设定人工智能体实现功利主义的目标，即最大多数人的最大幸福。这个目标看似简单，但是要用计算机代码来实现这一目标就需要首先精确定义“最大多数人的最大幸福”。要解决这一问题，就必须先解决哲学中关于“人”的定义、“幸福”的定义和量化问题，先用自然语言将其描述清楚，然后再以准确的方式翻译成编程语言。但对于这些问题，目前哲学上的定义都还不够清楚。

自上而下的路径一般与义务论、后果论相关，而自下而上的价值观加载路径则一般基于美德伦理学，即在任何的情况下做的正确事情就是一个拥有绝对道德的人会做的事情。这里需要把机器当作行为主体，把人类整体当作拥有“绝对道德的人”。因此，通过自下而上的价值观加载方式让智能体主动地进行价值观学习，在不同的情况下可以始终选择相对正确的行为，同时也符合人类的利益要求。在这个过程中，不仅它的行为具有正当性，而且最终目标也是与人类利益要求相一致的。但从实际角度来说，人类并不能完全推测出未来超级智能体所有的具体行为，只是通过让智能体去进行价值观学习以期望它可以做出正确的行为。所以，不能在理论上保证智能体所做出的行为不会与人类初衷相违背。

从技术角度考虑，自上而下和自下而上的价值观加载也都存在严重的问题。自上而下路径所面临的核心问题是如何准确地将具体的价值观和规则编码为智能体可以理解的机器语言。而当前有些伦理问题人类也无法得到统一的意见，又如何将这种价值观准确地用机器语言描述出来？在自上而下的路径中，从所罗门诺夫(Solomonoff)提出的通用归纳模型到马库斯·胡特(Marcus Hutter)的通用强化学习框架AIXI，从只做预测完全无交互到能跟环境进行交互，智能体的二元框架虽然在不断改进，但仍然存在局限性。所罗门诺夫的归纳推理理论虽然可以使智能体基于观察进行预测，但是这种理论却没有意识到智能体作为学习环境的一部分内置其中时可能面临的问题。而胡特的AIXI框架是当前解释非嵌入式智能体工作原理的理想性理论模型。在这一模型中，智能体通过最大化效用函数与环境进行交互。这一框架可以应用于各种不确定环境，它包含所有可计算环境的概率分布，通过计算最高期望回报而行动，在交互过程中不断逼近真实的环境。但是AIXI仍然是一个二元论的框架，而且，在AIXI的框架中所包含的环境都是可计算的，但是智能体AIXI本身是不可计算的，所以AIXI无法进行自我指涉式的推理，它没有考虑到自身作为内置于环境的一部分时可能会面临的问题。因此，无论是哪一种模型，都是基于二元论的假设，将智能体与环境看作独立的两个实体进行交互，都忽略了智能体作为环境的一部分，在与环境进行交互时可能产生的影响这一重要内容。

而对于自下而上的路径，一般来说，智能体需要通过价值强化学习或逆强化学习来进行价值观学习，这其实是一种循环学习模式，通过定义明确的效用函数与环境进行输入-输出的交互。智能体在以往执行的行动上不断优化，尽管智能体可能通过经验学习不断逼近人类价值观，但这种习得的人类价值观也可能会发生偏离，因为循环学习过程中的误差是难以精准把控和完全避免的。另外，类似的学习方式需要将所有可能的效用函数以及可计算的环境都包含在内，所以很难在实际中得到应用。

再次，非嵌入式智能体的监督问题在考虑价值观加载路径时就已经涵盖其中。对智能体进行动机控制在一定程度上有利于对其进行检查和监督，但这种监督控制也存在很多障碍。

根据目标正交论题，智能体的手段策略可以与任意目标匹配，不同阶段的智能体也可以与任意目标匹配。这意味着我们即使知道智能体的目标函数，也并不能知道它在优化函数方面有多好，或者即使知道智能体具有强大的优化性能，也不知道它具体是在优化什么。因此我们对智能体的动机理解和把握就会存在困难，也就无法对其行为进行有效监督。

虽然不同的智能体设定的系统目标各不相同，但是智能体需要通过完成一系列子目标来最终实现系统目标。如果某些子目标的实现有利于实现最终目标，这些子目标就会成为不同情境下智能体都会去追求的目标。显然，这些子目标并不一定是符合人类利益要求的，甚至可能会产生有害影响。当智能体的智能水平达到一定程度，在执行与人类要求一致的子目标时可能会掩饰其真实目的，做出一些迷惑行为来获取人类信任，同时又在“暗中”执行它的真实动机，如何辨别、监督智能体的真实动机对于监督者而言具有难度。

三、嵌入式智能体价值观加载

通过前面的分析可以看出，非嵌入式智能体价值观加载有很多理想化的便利之处，也正因为其理想化而受到许多局限。二元设定过于简单，忽视了智能体与环境之间可能产生的其他问题，所以有必要转向一元论视角，考虑嵌入式智能体的价值观加载。相较于非嵌入式，嵌入式智能体价值观加载一定程度上能克服某些非嵌入式智能体的缺陷，但同时进行价值观加载的难度也会大得多。

(一)嵌入式智能体价值观加载的必要性

同样拿超级玛丽电子游戏与一元论的设定作一个类比，就类似于超级玛丽的游戏主角马里奥与游戏环境设定之间的关系。马里奥作为超级玛丽游戏里的主角，是超级玛丽这款游戏中的一部分，可以在游戏情节里执行各种任务、通关升级，但无法对整个游戏的内容进行全面的把握，它必须通过自己的探索才能掌握更多的局部信息。通过这种关系类比，我们可以看出，嵌入式智能体可能具有的一些特征：

● 智能体与环境是一体的，是环境的一部分。智能体在探索环境的同时，环境也在影响智能体。

● 智能体内置于环境中，对环境信息是不确定的，因而智能体不具备关于环境的全知视角，无法获得关于环境的准确模型。

● 智能体是由构成环境的相同物质材料组成，不是单一的实体，因此可能需要具有自我推理、自我改进的能力。

● 智能体除了关于外部环境的不确定性，还具有对自身内部的不确定性。

这种一元论的关系设定及其特征，使得嵌入式智能体在价值观加载的研究中存在一定优势。

从嵌入式智能体的定义和特征来看：第一，对比非嵌入式智能体与环境的二元论关系的设定，嵌入式智能体这种一元论的设定更加贴近现实场景，不仅将智能体和环境作为两个单独因素考虑，也顾及了智能体内置于环境中可能会面临的问题。第二，智能体需要具有自我指涉、自我推理甚至自我提升的能力，相较于非嵌入式智能体，在关注环境的发展变化之外，还需要关注如何让自身的发展更好地实现系统目标。这就意味着除了人类对智能体系统的修正和完善之外，它自身也需要进行自我完善发展。其中，主要的提升方式可能有两种：一种是在已有的智能系统基础之上进行完善增强，以便更好地实现系统目标；另一种是创建和发展一个可以实现智能系统既定目标的继任智能体后代，从而有利于智能体随着环境的变化能做出更多的探索。

“创建继任者”对于非嵌入式与嵌入式智能体来说，有本质的区别。对嵌入式智能体而言，“创建继任者”是为了提高完成系统目标的可能性，同时也是出于智能体自我能力发展的需要。但未来的自我也只是作为一个新的嵌入式智能体内置于环境之中，同样具有嵌入式智能体的特征、面临价值观加载的一系列问题，因此可以沿袭对初始智能体的研究，对继任者进行相似的价值观加载研究；至于非嵌入式智能体，“创建继任者”只是出于工具性子目标的需要，为了更好地完成系统目标。在考虑初始智能体价值观加载困难的基础之上，还会出现新的问题，即如何将人类为初始智能体赋予的价值观在智能体二次赋予继任者时，保证这种价值观与人类价值观的一致性，以及对继任者二次监督方面的问题。

从具体设计安全可靠的智能体的过程来看，嵌入式智能体有如下优势：

第一，关于价值观加载问题。从伦理角度来说，嵌入式也是基于不同的伦理框架使智能体进行价值观加载或学习，同样也有两种价值观加载路径。一是在自上而下的路径中，由于嵌入式智能体具有自我推理、提升的能力，相较于非嵌入式智能体，它在进行价值观学习时，随着环境变化，推理方式会发生改变，并且可以更新模型框架。因此，它的学习方式更加灵活，可以在学习过程中不断地对不确定的环境进行探索。二是在自下而上的路径中，嵌入式智能体则是通过人类提供的大量数据集进行价值观学习，但是可以根据环境的不断变化去探索相对更加准确的价值观，同时人类可以通过调控环境来调控智能体，使得智能体能在不同的环境中做出相对正确的选择。两种智能体基于各自的特征，在相同的加载路径中二者存在的优势有所不同。非嵌入式智能体存在的优势，是从对环境的整体把握出发的，以一种全知视角对实际环境进行把握，以便可以获得更为合适的价值观。而嵌入式智能体的优势则在于具有自我指涉和推理的能力，可以在学习价值观的过程对环境进行探索，根据实际环境的要求获得相对正确的价值观。即使是在相同的加载路径中，嵌入式智能体能够更加灵活地进行价值观学习，所获得的价值观也更能够适用于实际情况变化。但是，从技术角度来看，当前关于嵌入式智能体价值观学习的一元论学习框架还未提出，仍属于待探索的领域。

第二，关于如何对嵌入式智能体进行监督。大致可以分为两种主要的方案，一种方案是人类对智能体的外部监督，根据其表现对智能体及时进行修正；另一种方案是智能体进行内部一致性检查，通过完善自身、提升自己的智能发展为更强大的智能体或者是创建、发展一个可以实现系统既定目标的继任智能体后代。因此其安全性可以通过外部、内部监督两个方面来进行双重保障。第一种监督方式是两种智能体都可以获得的，由人类主体作为监督者进行监督，从而保证一定的安全性。就外部监督而言，人类对非嵌入式智能体的动机更容易把握。第二种方式则是嵌入式智能体独有的优势，在接受外部监督的同时还可以通过系统内部一致性检查，获得有效地监督补充。

(二)嵌入式智能体价值观加载的难点

从嵌入式智能体的定义和特征来看，一方面是智能体作为环境的子部分，无法对环境进行整体地把握。不同于非嵌入式，嵌入式智能体需要在不断变化的实际环境中与环境进行交互，面临的问题更为复杂多样。另一方面是嵌入式智能体自我推理、完善的能力，让嵌入式智能体进行人类价值观加载或学习时，需要在不确定的环境里不断地更新推理方式，而当前非嵌入式智能体的二元论框架和模型并不适用这种自我指涉的复杂情形，因此需要改进原有的，或者提出新的、有效的智能模型。除此之外，相较非嵌入式智能体的价值观加载，嵌入式智能体的价值观加载还面临子系统一致性问题，即嵌入式智能体的继任子系统的目标如何与智能体自身的目标保持一致。

从设计安全可靠的智能体的具体过程来看，主要有几种情形：

第一，关于价值观选择问题。对于非嵌入式和嵌入式智能体来说，首先确定哪种价值观作为系统目标是困难的。退一步假设，即使可以确定某种伦理框架作为系统行动的指导准则，这一框架能否对智能体的行动产生约束，能否适用于所有可能情况及潜在的新情况都是不确定的。当前针对这一问题，尝试的解决方案是将某一确定的价值观简化为普遍适用的价值观标准，如稳健性、普遍性、简单性和一致性，使得智能体在这些价值观标准的指导下针对不断出现的新情况作出恰当的行为。但是，这种简单的价值观标准该如何定义？仅仅根据这些简单的价值观标准要求，又如何让智能体真正地理解现实世界中人类的价值目标？除此之外，嵌入式智能体还面临其他问题，即由于智能体内置于环境中，会以更复杂的方式与环境进行交互，相比人类直接赋予其价值观的预设感知，实际智能体对环境的具体感知要更为复杂、真实，导致智能体在实际该如何选择、遵照人类的价值观行动时会面临更大的困难。

第二，从伦理和技术两个方面讨论怎样将价值观准确地赋予嵌入式智能体。从伦理角度看，一方面是嵌入式需要面对非嵌入式智能体价值观加载路径中存在的相似问题，基于不同的伦理框架进行价值观学习，无论是从哪种路径进行价值观加载，都会存在不同的价值评判标准和价值取向，对人类主体和智能体来说都将会是一个棘手的问题；另一方面是嵌入式智能体特有的问题，即如何将确定的价值观准确地翻译为编程语言，使嵌入式智能体正确理解并执行命令的同时，保证其在进行自我完善、发展之后，仍然可以继续认同人类为其选择的价值观并据此行动，在嵌入式智能体创建和发展一个可以实现系统既定目标的继任子系统时，如何能够使其后代作为一个新的嵌入式智能体学习、认同人类价值观，又或者嵌入式智能体是否会发展出合适的价值观，而当这种价值观与人类当初为其设定的价值目标相违背时，又该怎样去选择正确的行为。从技术角度来看，两种不同的价值观加载路径考虑的核心问题是，当嵌入式智能体作为环境的一部分存在时，如何设计安全且可以信赖的嵌入式智能体。目前，二元论学习框架在非嵌入式智能体价值观加载的应用中尚且存在无法解决的问题和缺陷，更是无法应用于嵌入式智能体价值观加载。而关于嵌入式智能体价值观加载或学习的明确框架还未提出，即使可以提出一个完全的嵌入式智能体的基础理论框架，在这一框架下给定智能体训练数据集，让其学习人类的价值观，也会存在问题，例如，该如何从感知数据中构建多层次的世界模型使得嵌入式智能体能充分学习复杂的价值观，同时还可以让它可以有效地识别训练数据中所忽略的内容？

第三，关于监督问题。虽然与非嵌入式智能体存在相类似问题，但是两者之间存在的问题仍有所差别。一是动机的复杂程度。非嵌入式智能体的目的在于如何完成人类主体为其设定的系统目标，所有的行动都只是为了更好地完成系统目标，这样的缘由使得非嵌入式智能体内部的透明度相对较高，相对而言动机更容易把握；而嵌入式智能体在完成系统目标的同时，还具有自我推理和改善的需求，因此系统内部的透明度不断降低，动机更加难以把握。二是检查和监督的方式。非嵌入式智能体的监督主要依赖于人类对其进行的外部监督，智能体进行价值观学时，对人类主体来说就是一个“黑箱”，人类主体对其进行的检查和监督通过外部优化进行，因此这种外部监督控制就比内部动机控制更不准确；而对嵌入式智能体的监督在遇到外部监督不准确的情况，可以通过内部一致性检查来加以补充，但是内部一致性检查也存在问题需要解决。

除此之外，嵌入式智能体还有以下几个问题：

一是反事实推理的困难。因为嵌入式智能体是由与环境相同的非智能的部分组成，所以，它为了进行自我增强或构建继任者，必须对这些部分的可能的和不可能的配置方式进行推理，这在一定程度上就会遇到反事实推理的困难。嵌入式智能体在考虑如何完成人类设定的系统目标时，需要理解这个目标是要做什么，才能去具体执行。因此在理解目标时必须以某种方式把任务分解成没有思维活动的子任务进行理解，而考虑什么样的改变能完成这些子任务时又会面临与环境的反事实交互。

二是目标交叉问题。为了更好地完成系统目标，嵌入式智能体会将系统目标分解成一系列子目标，由不同的子系统来完成各自的任务，但是，这必然会导致子目标交叉的问题。如果在一开始就忽略这个问题，不刻意地建立子系统之间的关联，这个问题会更加难以解决。因此在智能体具体运行过程中需要避免启动具有不同功能的子系统，从而获得一定程度的系统稳定性。但不同的子目标都有其存在的意义，限制不同功能子系统的启动，会导致智能体的能力有所限制。而系统稳定性也体现在多个方面，亦即系统扩展的稳定性、系统缩小的稳定性、相对规模的稳定性，实现这些不同程度的稳定需要考虑的具体问题又有不同。

三是目标一致性问题。嵌入式智能体为了更好地实现整体目标会将目标进行分解，然后创建不同的继任者来解决。但对于不同的子系统来说把握整体系统目标是很难的。同时不同的子系统会试图最大化各种不同的效用函数来努力完成子目标，如果无法对嵌入式智能体的真正动机进行把握，又无法对其子系统的行动进行追踪，那么把握整体目标的安全就更具难度。除此之外，还需要考虑如何保证整体的系统目标始终作为子系统的终极目标，如何在宏观的整体目标指导下实现各个子目标。

四、结语

如何设计一个安全并且值得人类高度信任的超级智能体，使其能够始终符合人类利益要求行动，对人类社会带来好的影响，而不是使超级智能的发展超出安全控制范围，使人类遭受生存性灾难，这就是本文研究的出发点。

从哲学设定来看，非嵌入式智能体与环境处于二元论的关系中，这是把非嵌入式智能体与环境看作两个完全独立的实体，对实际的研究进行了较大程度的简化。嵌入式智能体与环境则处于一元论的关系中，这是把嵌入式智能体看作环境的子部分，二者之间的相互影响不能被忽视。虽然后者的研究内容更为复杂，但可以为实际研究、运用提供更为合理的参考。

而在具体的价值观加载问题上，关于价值观选择问题，是人类需要在伦理范畴内解决的问题，也是人类进行智能体价值观加载面临的首要问题，因此价值观选择会影响到两种智能体具体的价值观加载；关于其他两个价值观加载方面的问题，两种智能体存在各自的优势，非嵌入式智能体存在的优势是基于二元论框架假设而获得的，相比嵌入式来说，这些优势在理论研究中可以带来更大的便利性，而在实际的应用中，基于一元论假设的嵌入式所具备的优势更为有利。此外，两种智能体都存在亟需解决的问题。这些问题有的是各自需要面对的，有些是两者都需要考虑的，但即使是两者都需要解决的问题也有所差异，不能概而论之。

当前关于智能体价值观加载所进行的研究内容还只是冰山一角，对这些问题我们也尚未获得详尽且有效的解决策略。此外，可以考虑的其他研究方向和具体问题也是多样化的，虽然在短时间内无法得到突破，我们仍然需要从基础的工作开始着手，为之后的研究发展奠定一个良好的基础。对于超级智能的发展，我们需要抱以乐观的态度，相信我们可以发展出安全可靠的超级智能，并且为之不断努力探索。