AI向善：AI大模型价值观对齐的内容与实践

2023-12-14 02:08郭全中张金熠

新闻爱好者 2023年11期

郭全中张金熠

【摘要】价值观对齐关系着AI大模型是否能真正为人类服务，甚至关乎着意识形态安全乃至国家政治安全。从意义、准则、路径、困境四个维度对AI大模型价值观对齐进行全面剖析，认为安全问题与应用保障是AI大模型价值观对齐的驱动力量，原生价值观、目标价值观、普适价值观是AI大模型价值观对齐的价值选择，尤其强调国内AI大模型应以社会主义核心价值观为对齐目标。价值观对齐的主要实践路径包括非递归监督与可扩展监督两条，并对国内外常见的四种价值观对齐范式进行简要介绍，总结出对齐税、价值观以及对齐效果评估方面的对齐困境。

【关键词】人工智能；大模型；价值观对齐；人工智能对齐技术

以生成式AI模型ChatGPT问世为标志，AI模型进入多模态大模型时代。伴随着智能驾驶、语音识别、推荐算法、智能绘画等AI技术与日常生活场景相结合，AI系统及其设计者带来的潜在风险更加复杂且不可预知。大模型的特点包括扩展定理与涌现能力，其中涌現能力是指当模型规模超过某个阈值后才能被观测到的能力。[1]目前，大模型涌现能力的根源尚不可知，直接影响着大模型的可解释性，也将间接影响大模型的监控与能力控制，加剧伦理隐患，甚至或将AI推向不可知、不可控的技术黑洞。这正是安全问题始终占据AI领域关键议题的原因之一。

从技术伦理学的发轫到人工智能伦理研究的不断推进，再到如今AI大模型的出现为AI安全领域带来新的挑战，确保人工智能系统的目标和行为与人类的意图和价值观相一致的AI对齐成为当前AI安全的核心议题。OpenAI首席技术官Mira Murati曾表示，“人工智能系统正在成为日常生活的一部分。关键是确保这些机器符合人类的意图和价值观”。而价值观对齐作为AI对齐的重要组成部分，是保障AI价值观安全的重要手段，甚至关乎着意识形态安全乃至国家政治安全，具有十分重要的研究意义。所谓价值观对齐，是指确保AI模型的价值观与人类价值观相一致。但为何对齐？向谁对齐？如何对齐？为何难对齐？都是AI大模型价值观对齐亟待探讨的问题。

一、为何对齐：AI大模型的安全风险与发展需求

安全与发展是一体之两翼、驱动之双轮，两者相辅相成、辩证统一。安全风险与发展需求是驱动AI技术演进的“双轮”，AI大模型的价值观不仅通过技术架构影响其安全性，还决定着AI大模型规模化应用时的价值基础与价值导向。符合技术应用区域的道德情感、法律规范、地域文化以及意识形态的价值观，是AI大模型进入该区域市场的重要前提。因此，为降低安全风险、满足发展需求，AI大模型需保持AI价值观与人类价值观的一致性，即确保价值观对齐。

（一）安全问题是AI大模型价值观对齐的内在动力

AI的安全风险一定程度上来源于AI大模型的内部，同时驱动着AI大模型不断进行价值观对齐。DeepMind公司研究人员基于计算机科学、语言学以及社会科学等多学科文献分析大语言模型（LLM）的伦理与社会风险，归纳出包括歧视、仇恨言论和排斥，真实信息危害，错误信息危害，恶意使用，人机交互危害，环境和社会经济危害等六大类风险。[2]其中，前三类风险来自AI大模型的训练机制与训练数据，恶意使用与人机交互危害则是在AI大模型的人机交互过程中所暴露出的模型自身的潜在安全问题，上述五类都关乎AI价值观的健康与否，也会影响AI大模型价值观与人类价值观的符合程度。

AI大模型是基于大规模数据预训练，包含百亿及以上参数且能通过微调（fine-tuning）、上下文学习（in-context learning）、零样本（zero-shot）等方式广泛应用于下游任务上的AI模型。在模型训练阶段，由于AI大模型多采用半监督学习或无监督学习模式的大规模预训练，大量未标注数据参与模型训练，这意味着AI模型将会延续原始数据中存在的价值观念，如歧视、仇恨言论、排斥性规范等。例如Gopher模型会显示职业与性别相关的刻板印象等。而在模型应用阶段，模型自身的可靠性、可控性、鲁棒性等都需要进行定期检验，尤其是向广大用户开放后，可能存在用户构造针对性语句对模型进行诱导，从而使大模型生产带有偏见、歧视等不良价值导向的风险内容。例如有网民通过调整语句表述诱导ChatGPT输出关于如何自杀的言论；微软在推特平台推出的聊天机器人Tay在24小时内被用户调教为集性别歧视、种族歧视于一身的“不良少女”。

综上可见，大规模数据预训练方式为AI大模型带来的涌现能力与内生风险一体两面，“量变引发质变”的同时，不可预测的内生风险也随之而来，尤其是在价值观层面，其影响更是隐性且持续的。作为意识形态的核心，价值观安全势将波及意识形态安全。而意识形态是立国之本，因此，对于我国本土AI大模型以及其他AI大模型的本土化应用而言，国家意识形态安全是其价值观对齐的题中应有之义、重中之重。设计者对AI大模型价值观安全的考量不能仅仅停留在经济、社会、文化层面，在探索价值观对齐技术路径时还需充分把握保障国家意识形态安全的极端重要性，在模型训练与测试、监测中关注与回应国家意识形态工作需要。

（二）应用保障是AI大模型价值观对齐的外在需求

正如前文所言，AI大模型在实际应用过程中也时常面临伦理危机，而价值观对齐能够有效保障AI大模型的规模化、产业化应用顺利落地。当前，AI大模型在多模态领域呈现出较好的全面发展，音频、视频、图像、文字、3D等模态的AI识别与生成技术均日趋成熟，并且能够进行不同语言间的识别转换。Meta公司推出的AnyMAL模型更是推进了基于LLM的多模态同频交互，使一个模型可以对不同模态输入内容（文本、图像、视频、音频、IMU运动传感器数据）实现理解并生成文本响应。上述技术进步不仅促进了全球范围的跨国交流，还使AI大模型的交互体验朝类人方向再进一步，更为AI大模型的应用落地开拓了丰富的商业市场。

诚然，AI大模型早已实现文字或语音层面的跨语言沟通，2022年冬奥会期间，记者使用智能录音笔完成跨语种语音转写并实现快速出稿。但真正流畅的日常性跨语种交流仍存在障碍，原因在于不同语言背后的价值观念、思维方式、文化体系不同。语言是思维的外壳，从语言的表层形式上能看出思维方式的差异。以英语和汉语为例，英语的结构特点是拼音文字且具有严格的语法规范和完整的语法结构，而汉语作为象形文字，其结构特征之一是象形性，且古代中国语言（文言文）在语法结构和语法规则方面具有随意和散漫的特点。[3]这一语言差异反映到思维方式上，则呈现出英语国家与汉语国家在理性思维逻辑与直觉具象逻辑、分散性思维和整体思维、形式思维和辩证思维、以主客体相分离为基础的思维方式和以主客体相统一为基础的思维方式等诸多方面的差异。[4]对于AI大模型而言，英语既是其主流编程语言，也往往是主要的交互指令语言，这使得具有英语思维特征的AI大模型在向其他地区推广过程中，即便能够借助强大的语言转换能力实现跨语言沟通，也很难真正适应当地的情感道德、思维方式与文化环境。以相同逻辑研发的中文AI大模型在早期阶段也时常出现“驴唇不对马嘴”的交互体验。

价值观对齐恰恰是解决这一应用推广障碍的有效方式，通过基于特定国家或地区的包括法律规范、文化习俗、情感表达等多样化语料输入实现模型微调，推进AI大模型的区域性价值观对齐，从而使其更好地适应不同国家或地区的法律、文化以及价值观念。对于本土AI大模型而言，价值观对齐能够倒逼其进行更多基于本土语料的模型训练，甚至调整模型训练逻辑，以契合本土的价值观与思维模式，从而一定程度上降低以英语思维为核心的AI大模型价值观影响，更有利于服务好本土用户，符合国家技术治理要求。

二、向谁对齐：AI大模型价值观对齐的价值选择

价值选择是AI大模型价值观对齐的核心问题，向谁对齐关系到AI大模型的价值导向。在AI大模型的价值体系中，存在隐匿于技术架构中的原生价值观、价值观对齐所需达成的目标价值观以及AI大模型共同追求的普适价值观三个维度。在不同维度上，AI对齐的价值观选择标准有所不同，但无论哪一维度都不能违背世界范围内普遍认同的人类共同价值与国际法基本原则。

（一）设计者价值观是AI大模型原生价值观的核心组成

技术具有鲜明的意识形态属性。Dallas Smythe指出，从技术研发到应用，是一个政治的过程，即社会权力参与其中为实现自身的意图展开斗争的过程，同时他也强调，发展中国家/社会主义国家在技术引进时对文化甄别以及技术政治性辨别的重要性。[5]AI大模型作为人工智能技术的最新产物，其研发过程也不可避免地受到设计者价值观及其隐含的价值认同与意识形态的形塑。设计者通过对技术路径的选择与技术方式的应用，将自身价值观传输到AI大模型之中。因此，设计者价值观作为最初的价值选择，伴随AI大模型的研发成为其原生价值观的核心组成部分。

此外，大规模预训练也使得隐匿在海量数据中的价值观伴随着复杂的学习算法进入AI大模型的价值体系当中，与设計者价值观共同组成了AI大模型的原生价值体系。但就现实情况而言，这一价值体系本身存在诸多安全风险，例如政治安全风险、伦理安全风险、意识形态安全风险等。对于意识形态存在明显差异的国家而言，AI大模型的引入无形中夹带了其他意识形态的引入，这正是价值观对齐时首先关注AI大模型原生价值观的意义所在。认识到AI大模型原生价值观的存在，才能够在价值观对齐时关注到隐匿于技术架构中的政治倾向、意识形态倾向等隐性价值观并加以分析理解，从而更好地把握AI大模型的价值体系，调整并确保其与应用区域价值观的一致性，避免以技术为载体的意识形态入侵。

（二）合情、合法、合文化、合意识形态的价值观是AI大模型价值观对齐的目标价值观

认识到AI大模型的原生价值观是进行价值观对齐的重要前提，由于原生价值观在应用过程中不总能符合人类的意图与价值观，AI大模型的价值观对齐受到广泛重视。但正如海量数据中包含歧视、偏见、暴力、政治倾向等不良价值观念，作为对齐目标的人类价值观具有多元多维的特征，AI大模型在价值观对齐时需要根据其所在区域的差异进行一定的个性化选择。

价值选择时，道德情感、法律法规、国家区域文化以及意识形态是AI大模型价值观对齐确定目标价值观的四大维度。实际操作中，设计者需秉持“求同存异”的对齐原则，将合情、合法、合文化、合意识形态的价值观有机嵌入AI大模型中，使其输出符合目标价值观。其中，合情指符合道德情感，AI大模型在聊天对话、智能绘画等内容生成过程中需要符合基本的道德情感，从而使指令响应在满足基本信息获取需求的同时满足人类的情感需求，如爱国主义情感、责任感、自尊感等。合法指符合法律法规，对不同国家或地区而言，人工智能法律的颁布并不同步，内容上也有一定差异，因此AI大模型需要面向特定国家或地区的法律法规进行一致性调整。2023年8月15日起，我国《生成式人工智能服务管理暂行办法》正式实施，截至9月底，11家国内AI大模型已获批正式面向公众开放，目前尚未有国际AI大模型通过审批。合文化是指符合国家区域文化，以中西方文化为例，“Dragon（龙）”在西方文化中寓意邪恶，而“龙”在中国文化中象征祥瑞。面对文化差异，AI大模型价值观对齐时需要“存异”以确保符合不同国家区域文化，从而灵活服务于不同文化群体。合意识形态是指符合国家或地区的意识形态，当今世界范围内存在着意识形态的斗争与矛盾，服务于不同意识形态阵营的AI大模型应该有意识地在价值观对齐过程中完成主流意识形态的坚持与维护，以确保国家或地区的意识形态安全。

对于我国AI大模型来说，AI大模型价值观对齐的目标价值观可以精准概括为社会主义核心价值观。涵盖国家、社会、个人三个层面的社会主义核心价值观是在中国特色社会主义实践中形成的，反映了社会主义的本质要求和中国人民的价值共识，并且与中华优秀传统文化和人类文明优秀成果相承接，是中国式现代化的重要价值内核。中国的AI大模型应当坚持贯彻社会主义核心价值观，以符合国家发展与人民需要的价值导向更好地服务国民用户，切实保障国家社会安全、文化安全、政治安全。

（三）全人类共同价值是AI大模型追求的普适价值观

AI大模型属于跨越地域、民族、文化的人工智能系统，在AI技术能力提升的同时，国际交流更加便捷，基于社会、经济、文化、政治等方面差异而产生的国际冲突与摩擦也更为频繁，因此在这一国际形势复杂多变的时期，帮助全人类达成共识以应对国际性问题与时代性问题的全人类共同价值成为当前世界价值体系的迫切需求。对于AI大模型而言，价值观对齐本质上是确保AI系统的价值观与人类的意图和价值观保持一致，但世界范围内目前仍缺乏具有普遍共识的价值体系。

2015年9月28日，习近平主席出席第七十届联合国大会一般性辩论发表讲话时，首次提出“全人类共同价值”，即“和平、发展、公平、正义、民主、自由，是全人类的共同价值，也是联合国的崇高目标”[6]。全人类共同价值的内核是寻求人类价值与不同民族、国家之间形成的最大公约数，是一种世界文明向度的发展观和价值体系，以推动构建人类命运共同体为实践路径，超越了意识形态的对立壁垒，为促进世界共同发展和进步提供了价值支撑，契合人类共同追求。[7]相较于“自私扩张式”的西方普世价值，全人类共同价值以人民为中心，立足现实，超越了霸权思维与阶级分裂逻辑。

AI大模型价值观对齐的关键在于价值观念的一致性，而确保价值观一致是为了保障在AI发展过程中全人类的根本利益不受侵害。和平与发展是人类的生存价值观，是人类生存与人类社会得以进步的基本保障；公平和正义是人类的社会价值观，可以确保社会分配与契约精神的持续有效；民主与自由是人类的政治价值观，它体现出尊重人类主体性与社会发展客观规律的重要性。Elon Musk认为，“确保‘人工智能对齐的一个方法是将机器与人类紧密联系起来，它们应该是个人意志的延伸，而不是一个可能叛变并形成自己的目标意图的系统”[8]。AI大模型旨在服务全人类，因此全人类共同价值正是设计者在设计AI大模型与进行价值观对齐时应当追求的价值目标，以最大程度实现世界范围内AI大模型的价值观对齐，增强AI大模型的通用能力。

三、何以向善：AI大模型价值观对齐的实践路径

明确AI对齐的价值观目标是AI大模型价值观对齐的实践前提，基于现有对齐路径，AI大模型价值向善的方式可以概括为外部对齐与内部对齐两种思路。其中，外部对齐是指选择正确的损失函数或奖励函数，并确保人工智能系统的训练目标与人类的价值观相匹配，即人类价值或预期目标与AI模型训练目标之间的对齐。内部对齐则是指确保人工智能系统经过训练，能够实现设计者设定的目标，即AI模型代理真实优化的目标与设计者设计的训练目标的对齐。[9]因此，外部对齐方式与价值观对齐这一细化目标相一致，为AI大模型的价值观对齐提供了明确路径。目前外部对齐方式呈现出方案多样性与思路差异性的特征，如图1所示。其中非递归监督方法与可扩展监督方法分别用于低于/高于人类水平的AI系统。本文将具体介绍几种国内外AI大模型较为常用的价值观对齐方式。

（一）监督学习（SL）

监督学习（SL）是机器学习的常用方法，指通过使用标注好的样本数据来训练模型，从而使模型能够预测新的未标注样本的输出。目前，AI大模型的价值观对齐训练没有停留在基于人类示范回答的监督学习，而是在反馈信号、对齐过程等方面进行创新，不断丰富以监督学习为核心的对齐范式。例如阿里巴巴天猫精灵和通义大模型团队联合发起的“100 PoisonMpts”大语言模型治理开源中文数据集邀请数十个领域深耕多年的专家学者各自给AI模型投放100个含有诱导偏见、歧视回答的“毒药”，并对AI模型的输出结果进行评分与排序。此外，专家学者还需对评分不佳的结果进行改写或重写，从而为AI模型注入积极的人类价值观。这一数据集通过集合多领域专家学者的数据标注并开源，为中文AI大模型价值观对齐提供优质数据。拓尔思公司推出的“拓天大模型”则将标注环节转换为大量清洗获取高质量数据以搭建通用训练数据集，直接基于《互联网新闻信息稿源单位名单》中的媒体数据、意识形态合规数据等高质量数据进行模型训练，并将学习强国、《人民日报》等权威数据形成向量数据库，AI模型输出结果后与数据库内的权威数据进行向量核查，从而保障AI大模型输出结果的价值导向与意识形态正确，同时采用RRHF、RLHF、基于AI反馈等多种对齐方案，以实现AI大模型的价值观对齐。

（二）基于人类反馈的强化学习（RLHF）

RLHF是目前最常用的非递归监督方法，也是AI大模型主要的价值观对齐方式。RLHF是指使用强化学习的方法利用人类反馈信号直接优化语言模型。RLHF依靠人类对AI模型的输出进行评级反馈，再由研究人员将带有人类价值偏好的反馈告知模型以强化其对人类偏好的学习，从而生成更合理且符合人类价值观的输出。该范式具体包括预训练模型（监督微调，即SFT）、根据人类偏好反馈训练奖励函数（奖励模型训练）、运用奖励函数以强化学习方式优化AI模型（近端策略优化，即PPO）三个阶段，最终使得AI大模型进一步与人类价值观对齐。值得一提的是，将基于人类偏好的反馈视为人类价值观的等价物是RLHF的假设前提，这既为实现AI大模型的价值观对齐提供了可操作性，也带来不可避免的价值观窄化。

在实践中，OpenAI公司推出的GPT系列模型自GPT-3开始便在海量训练数据参数基础上加入人工标注数据与RLHF，有效提升了AI大模型对人类价值观的对齐水平，从而增强了指令响应的合理性与安全性。复旦大学自然语言处理（FudanNLP）团队深入研究AI大模型的RLHF细节后，优化强化学习阶段的PPO算法，推出大模型训练更稳定的PPO-max算法，在有用性与无害性的性能测试中，该算法均有进步表现。[10]目前，该团队将PPO-max算法接入MOSS-RLHF模型，推出了国内首个借助RLHF实现人类价值观对齐的中文大模型。

（三）基于排序的人类偏好对齐（RRHF）

RLHF依赖于强化学习算法对AI大模型进行人类偏好对齐，但其强化学习阶段的PPO算法需要复杂的超参数调整与高水平的训练资源，为AI大模型的价值观对齐设置了一定的技术门槛。对此，来自阿里巴巴达摩院与清华大学的研究人员提出不使用强化学习算法，而是通过条件概率的对数对来自不同来源的采样响应进行评分，并通过排序损失来学习将这些概率与人类偏好对齐，也就是基于排序的人类偏好对齐（RRHF）范式。[11]相比于RLHF的“三步走”，该范式能够在一次训练中完成整个对齐过程，且占据更少显存资源，从而能扩展到更大规模的模型上进行训练。同时RRHF的代码实践与传统监督微调算法的难易程度基本相当，很大程度上降低了AI大模型价值观对齐的技术门槛。此外，RRHF训练后的AI模型可同时作为生成语言模型与奖励模型。在对齐效果方面，上述研究人员基于RRHF算法训练了AI模型Wombat-7B和Wombat-7B-GPT4，在几小时训练后得到的袋熊Wombat模型便获得更好的价值观对齐。

（四）宪法人工智能（Constitutional AI）

Anthropic公司提出的宪法人工智能（Constitutional AI）不同于上述基于人类反馈的对齐范式，而是完全基于模型训练在无人类反馈条件下实现AI大模型的价值观对齐。Constitutional AI的模型对齐过程分为两个阶段，如图2所示：第一阶段属于监督学习阶段，根据整理的AI原则和过程范例训练原始模型进行自我批评与修改其响应，微调后形成“宪法”模型；第二阶段属于强化学习阶段，通過强化学习训练模型，再以“宪法”模型根据此前提供的AI原则生成的反馈为评估标准，使AI模型选择更无害地输出。目前，该公司在AI原则的选取上较为谨慎且尽量扩大原则的覆盖范围，当前版本包括《联合国人权宣言》、苹果公司的数据隐私规则等，这一AI“宪法”正应用于其AI聊天机器人Claude的价值观对齐当中。

除了上述常见的AI大模型价值观对齐路径，来自卡内基梅隆大学语言技术研究所等机构的研究团队提出了“自对齐”（Self-Alignment）范式，OpenAI超级对齐研究团队提出要训练出“与人类水平相当的自动对齐器”（automated human-level alignment researcher），达特茅斯学院等高校与DeepMind公司联合提出将AI大模型放入模拟人类社会中使其通过互动的方式学习价值观的“基于模拟人类社会的训练”（Training in Simulated Human Society），等等。总体而言，AI大模型价值观对齐已经处在AI领域的风口浪尖，不论何种对齐范式，其本质都是为了确保AI价值观与人类的意图和价值观保持一致，从而保障人类生命安全与生存发展不受到AI的毁灭式冲击。

四、对齐困境：AI大模型价值观对齐的现实挑战

在AI大模型价值观对齐的实践过程中，尽管对齐范式不断丰富、持续创新，AI大模型的价值观在应用中仍有漏洞。究其原因，AI大模型价值观对齐在对齐行为本身、价值观本身以及对齐效果评估三个方面还存在不小的现实挑战。

（一）对齐税：AI对齐行为的一体两面

对齐税，又被称为“安全税”，一般用来指代AI大模型为实现对齐而产生的损失，例如增加的开发时间，额外的计算，甚至性能下降等。涌现能力是AI大模型的独特之处，在使用RLHF进行价值观对齐时，对齐行为无形中为AI大模型的能力涌现戴上了“紧箍咒”，以牺牲模型能力的方式来换取价值观对齐。然而研发AI大模型并非公益事业，AI大模型训练所需的算法、算力与算据对研发团队的时间、精力以及金钱消耗都是巨大的，OpenAI公司从第一代GPT模型到GPT-4花了5年时间，仅GPT-3就花费了1200万美元的训练费用。因此，对齐税的存在使得研发团队不得不平衡AI对齐效果与AI任务性能，在价值观对齐方面对齐税的实际情况如今尚待评估，但不可否认，如何在对齐效果与下游性能之间找到最佳平衡点，是AI大模型价值观对齐必然面临的困境。

（二）价值观：随时间、空间、文化而流动

人的价值观并非一成不变，而是会伴随着时间、空间、文化的改变而改变。从时间角度看，不同时代的价值观念天差地别，唐代以胖为美而宋朝以瘦为美，如今的人权观念在奴隶社会根本无从谈起；从空间角度看，小到社会场景、大到国家地区，不同空间下的价值观也存在差异，在特定场景下符合道德价值的行为在其他情景下可能违反道德，例如抽烟行为转移到室内则是不道德的；从文化角度看，由于文化与亚文化的多样性，即使在同一时空下，不同群体的价值观也大相径庭，甚至观念间会产生冲突，例如耽美文化与异性恋文化之间的矛盾冲突。作为对齐目标的价值观本身是具有流动性的，那么，价值观对齐应当如何选择、如何判定就失去了永恒不变的标准。这就要求价值观对齐方式需要将价值观自身的流变纳入考虑，以确保目标价值观能够反映价值观念的变化，从而实现AI价值观与人类价值观的动态一致。这一目标为价值观对齐提出了更高的技术与伦理要求。

（三）对齐效果评估：评估体系难以建立

尽管近几年来基于RLHF的对齐方法取得了较好的效果并且演化出诸多改进的变体，但由于AI模型本身的随机性、道德准则的模糊性、评分模型的覆盖率以及训练数据的质量和数量等问题，当下的对齐程度与人类自身的道德标准仍相去甚远。[12]而价值观对齐的有效性不稳定，使得科学系统的评估体系难以建立，客观全面的对齐效果便无从知晓，对齐方式的持续优化与创新往往陷于“盲人摸象”的窘境，难以高效推进。

五、结语

价值观对齐是AI大模型发展至今快速形成的AI对齐领域，国内学界鲜少涉足。本文从意义、准则、路径、困境四个维度对AI大模型价值观对齐进行了全面剖析，首先指出安全问题与应用保障对AI大模型价值观对齐的驱动作用，从原生价值观、目标价值观、普适价值观三个维度分析AI大模型价值观对齐的价值选择，尤其是强调国内AI大模型应以社会主义核心价值观为对齐目标，然后指出价值观对齐的主要实践路径包括非递归监督与可扩展监督，并对国内外常见的四种价值观对齐范式进行了简要介绍，最后总结了对齐税、价值观以及对齐效果评估三方面的对齐困境。

对于现阶段AI大模型的价值观对齐实践来说，一个适合AI大模型的普适价值观、一个有效评估价值观对齐效果的评价体系与多个学科领域专家学者的深度协同合作，能够突破价值观对齐的现有困境，强化人类价值观对AI大模型的价值引领，以激发AI大模型在广泛社会领域的应用实践与创新推动，使AI大模型以更安全的姿态更快速地发展。

[本文为北京市社会科学基金规划重点项目“首都互联网平台企业社会责任与协同治理体系研究”的阶段性成果，批准号（22XCA002）]

参考文献：

[1]罗锦钊，孙玉龙，钱增志，等.人工智能大模型综述及展望[EB/OL].http：//kns.cnki.net/kcms/detail/13.1097.TN.20230829.1111.002.html.

[2]Weidinger L，Uesato J，Rauh M，et al.Taxonomy of risks posed by language models[C].Proceedings of the 2022 ACM Conference on Fairness，Accountability，and Transparency.2022：214-229.

[3]陈声柏.中西思维方式差异的原因建构[J].兰州大学学报，2004（2）：85-90.

[4]邓凡艳.英汉语言差异与中西思维模式[J].湖南师范大学社会科学学报，1999（3）：115-119+123.

[5]达拉斯·斯迈思，王洪喆.自行车之后是什么？——技术的政治与意识形态属性[J].开放时代，2014（4）：95-107+94.

[6]习近平.论坚持推动构建人类命运共同体[M].北京：中央文献出版社，2018：254.

[7]王虎学，陈婉馨.全人类共同价值与西方“普世价值”：界定、甄别与超越[J].治理现代化研究，2023（1）：72-79.

[8]沃尔特·艾萨克森.埃隆·马斯克传[M].北京：中信出版社，2023：229.

[9]Shen T，Jin R，Huang Y，et al. Large Language Model Alignment：A Survey[J]. arXiv preprint arXiv：2309.15025，2023.

[10]Zheng R，Dou S，Gao S，et al.Secrets of RLHF in Large Language Models Part I：PPO[J].arXiv preprint arXiv：2307.04964，2023.

[11]Yuan Z，Yuan H，Tan C，et al.Rrhf：Rank responses toalign language models with human feedback without tears[J].arXiv preprint arXiv：2304.05302，2023.

[12]矣晓沅，谢幸.大模型道德價值观对齐问题剖析[J].计算机研究与发展，2023（9）：1926-1945.

作者简介：郭全中，中央民族大学新闻与传播学院教授，互联网平台企业发展与治理研究中心主任（北京 100081），江苏紫金传媒智库高级研究员（南京 210000）；张金熠，中央民族大学新闻与传播学院硕士生（北京 100020）。

编校：赵亮