重视大模型风险，发展负责任AI

2023-12-18 02:33周明

计算机研究与发展 2023年9期

周明

（北京澜舟科技有限公司北京 100081）

人工智能（AI）的发展经历了符号系统、基于统计的机器学习之后，进入了深度学习阶段.在2017 年Transformer 出现之后进入了快速发展期，先后出现了GPT、BERT、T5 等基于自监督学习的预训练模型，并兴起了预训练模型基础上的微调范式.随后以ChatGPT 为标志，在预训练模型中加入了有监督的微调和基于人类反馈的强化学习，AI 进入了大模型时代.AI 模型和系统在参数量、任务性能、应用场景等方面都实现了飞跃式的突破.在海量数据上训练的百亿、千亿乃至万亿参数规模的大模型，具备了少样本学习、推理解释和对话式交互的能力，在多任务上展现了接近甚至超过人类水平的通用能力，向着通用AI 迈出了第一步.

技术的发展总是具有双面性，划时代的突破也带来了对少数群体的歧视、隐私泄露、版权侵害、误导性信息、恶意滥用等问题，并可能对用户乃至整个社会造成偏见、不平等等深远的负面影响.在大模型的快速发展过程中，我们不仅要不断推动基础技术的进步，而且必须考虑到对社会可能带来的风险和潜在的负面影响，引导AI 的发展遵循负责任和守道德的准则，使得AI 技术真正成为人类社会可持续发展的助力.

基于大模型的能力和风险，有必要重新梳理和审视这些模型，尤其是与大模型结合的对齐技术如何能够实现负责任的发展.当下国内针对大模型的研究还处于基础技术快速发展和追赶的阶段，对大模型的风险和道德问题重视不够.难能可贵的是，微软亚洲研究院谢幸团队注意到了大模型潜在的道德问题，并向大模型的道德价值观对齐的研究迈出了重要一步.该团队撰写的文章“大模型道德价值观对齐问题剖析”作为一篇综述性和展望性的文章，介绍了目前大模型，尤其是大语言模型发展过程中面临的道德风险与挑战，梳理了当下大模型对齐方法的特点与不足，并提出了一种新的针对道德对齐的概念性框架.该文的贡献与亮点主要有以下4 点：

1.大模型的特点与风险梳理.文章全面概述了大模型的特点，强调了伴随尺度定律和能力涌现而来的反尺度现象和风险涌现，这将会放大模型带来的安全和道德问题.随后文章详细梳理了模型面临的风险挑战，有助于理解和分析大模型可能对社会产生的潜在影响和后果.

2.AI 伦理准则调研和评估.文章调研了现有的AI 伦理准则，批判性地评估了它们解决大模型伦理影响方面的适用性.通过审视现有的规范准则，文章基于康德的规范伦理学理论，提出了“AI 绝对命令”框架用以重新评估各项准则，并强调了学术界合作建立统一普适的AI 伦理框架方面的重要性.

3.大模型道德倾向分析及对齐方法综述.文章运用道德基础理论测试了主流大语言模型的道德倾向，提供了关于模型中编码的道德观的洞察，突显了潜在的偏见与不足.随后，文章系统性地介绍了现有大模型对齐算法，总结了道德价值观对齐所面临的独特问题.

4.伦理对齐的新范式.文章基于道德学理论引入了一个新颖的概念性范式，用于对齐大模型的道德观.从大模型对齐的维度、对齐的评测以及对齐的方法等3 个方面为解决道德对齐所带来的挑战提供了新的方法，为进一步的跨学科研究开辟了道路.

我认为这篇展望性文章不仅体现了对AI 大模型研究前沿全面的了解和深入的思考，而且具备了很强的交叉学科特征.该文详细介绍并充分借鉴了社会科学和道德学等领域的理论基础，弥补了计算机领域学者在这方面的不足，为大模型的道德对齐打开了一个全新的视角.相信这篇文章既能为AI 领域的研究者，又能为交叉学科领域的学者乃至政策制定者提供有益的参考.希望有关方面更多地关注这一重要的问题，重视大模型的伦理和道德风险并与技术发展相匹配.

亮点论文

矣晓沅，谢幸.大模型道德价值观对齐问题剖析 [J].计算机研究与发展，2023,60（9）:1926-1945.DOI:10.7544/issn1000-1239.202330553