周 明
(北京澜舟科技有限公司 北京 100081)
人工智能(AI)的发展经历了符号系统、基于统计的机器学习之后,进入了深度学习阶段.在2017 年Transformer 出现之后进入了快速发展期,先后出现了GPT、BERT、T5 等基于自监督学习的预训练模型,并兴起了预训练模型基础上的微调范式.随后以ChatGPT 为标志,在预训练模型中加入了有监督的微调和基于人类反馈的强化学习,AI 进入了大模型时代.AI 模型和系统在参数量、任务性能、应用场景等方面都实现了飞跃式的突破.在海量数据上训练的百亿、千亿乃至万亿参数规模的大模型,具备了少样本学习、推理解释和对话式交互的能力,在多任务上展现了接近甚至超过人类水平的通用能力,向着通用AI 迈出了第一步.
技术的发展总是具有双面性,划时代的突破也带来了对少数群体的歧视、隐私泄露、版权侵害、误导性信息、恶意滥用等问题,并可能对用户乃至整个社会造成偏见、不平等等深远的负面影响.在大模型的快速发展过程中,我们不仅要不断推动基础技术的进步,而且必须考虑到对社会可能带来的风险和潜在的负面影响,引导AI 的发展遵循负责任和守道德的准则,使得AI 技术真正成为人类社会可持续发展的助力.
基于大模型的能力和风险,有必要重新梳理和审视这些模型,尤其是与大模型结合的对齐技术如何能够实现负责任的发展.当下国内针对大模型的研究还处于基础技术快速发展和追赶的阶段,对大模型的风险和道德问题重视不够.难能可贵的是,微软亚洲研究院谢幸团队注意到了大模型潜在的道德问题,并向大模型的道德价值观对齐的研究迈出了重要一步.该团队撰写的文章“大模型道德价值观对齐问题剖析”作为一篇综述性和展望性的文章,介绍了目前大模型,尤其是大语言模型发展过程中面临的道德风险与挑战,梳理了当下大模型对齐方法的特点与不足,并提出了一种新的针对道德对齐的概念性框架.该文的贡献与亮点主要有以下4 点:
1.大模型的特点与风险梳理.文章全面概述了大模型的特点,强调了伴随尺度定律和能力涌现而来的反尺度现象和风险涌现,这将会放大模型带来的安全和道德问题.随后文章详细梳理了模型面临的风险挑战,有助于理解和分析大模型可能对社会产生的潜在影响和后果.
2.AI 伦理准则调研和评估.文章调研了现有的AI 伦理准则,批判性地评估了它们解决大模型伦理影响方面的适用性.通过审视现有的规范准则,文章基于康德的规范伦理学理论,提出了“AI 绝对命令”框架用以重新评估各项准则,并强调了学术界合作建立统一普适的AI 伦理框架方面的重要性.
3.大模型道德倾向分析及对齐方法综述.文章运用道德基础理论测试了主流大语言模型的道德倾向,提供了关于模型中编码的道德观的洞察,突显了潜在的偏见与不足.随后,文章系统性地介绍了现有大模型对齐算法,总结了道德价值观对齐所面临的独特问题.
4.伦理对齐的新范式.文章基于道德学理论引入了一个新颖的概念性范式,用于对齐大模型的道德观.从大模型对齐的维度、对齐的评测以及对齐的方法等3 个方面为解决道德对齐所带来的挑战提供了新的方法,为进一步的跨学科研究开辟了道路.
我认为这篇展望性文章不仅体现了对AI 大模型研究前沿全面的了解和深入的思考,而且具备了很强的交叉学科特征.该文详细介绍并充分借鉴了社会科学和道德学等领域的理论基础,弥补了计算机领域学者在这方面的不足,为大模型的道德对齐打开了一个全新的视角.相信这篇文章既能为AI 领域的研究者,又能为交叉学科领域的学者乃至政策制定者提供有益的参考.希望有关方面更多地关注这一重要的问题,重视大模型的伦理和道德风险并与技术发展相匹配.
亮点论文
矣晓沅,谢幸.大模型道德价值观对齐问题剖析 [J].计算机研究与发展,2023,60(9):1926-1945.DOI:10.7544/issn1000-1239.202330553