生成式人工智能安全风险治理研究

2024-05-17 12:59:55宋艳飞张瑶樊伟

电子知识产权 2024年3期

宋艳飞?张瑶?樊伟

摘要：当前，以ChatGPT、Sora等现象级产品为代表的生成式人工智能快速发展，正在重塑产业链和价值链。与此同时，也在数据安全、算法安全、网络安全和应用安全等方面引发了诸多新风险，可能造成严重影响。世界主要国家和地区高度重视生成式人工智能安全风险治理，从政策引导、技术保障、国际合作等维度推进风险治理体系建设。科技企业在积极推进前沿技术创新的同时，也应高度重视安全治理，从不同侧重点发力保障人工智能可信赖、负责任。我国应从加强跟踪研究、推进技术攻关、推动“以评促建”和加强国际交流四个维度发力，保障人工智能安全健康发展。

关键词：生成式人工智能；安全风险；安全治理；科技巨头

一、引言

近年来，生成式人工智能加速发展演进，已经成为人工智能的主要发展方向，并广泛应用于各行各业。但生成式人工智能的应用，也带来了数据、算法、网络等领域的安全风险。本文以生成式人工智能为研究对象，梳理了美、欧、英、日等国家在政策引导、技术保障、国际合作等方面治理生成式人工智能风险的举措，并总结了全球典型科技企业在体系布局、输出服务、定期审查等方面治理人工智能安全风险的举措。结合研究分析，本文从加强跟踪研究、推进技术攻关、推动“以评促建”、加强国际交流等方面提出启示与建议。

二、生成式人工智能安全风险类型与现状

随着生成式人工智能的迅猛发展与广泛应用，技术产业正经历着翻天覆地的变革。然而，这一进步的背后也隐藏着诸多亟待解决的问题。生成式人工智能所固有的技术缺陷，加之社会对其认知的不足，已经在网络安全、数据保护和算法稳健性等方面引发了严重的风险。更为深远的是，这些风险对国家的政治稳定、军事安全以及社会和谐构成了多方面的挑战。有鉴于此，本文旨在全面而深入地探討生成式人工智能在各个领域应用中所面临的安全风险类型，并对其当前的发展状况进行细致地分析，为研究分析生成式人工智能风险治理路径提供参考。

（一）数据安全风险

数据安全风险是指生成式人工智能技术自身因数据问题造成的风险，如训练数据污染、运行阶段的异常数据、数据信息窃取等。另一方面，生成式人工智能技术的应用将对数据安全本身带来风险，如隐私泄露、增加大量虚假数据、数据滥用放大社会偏见等。

1.数据污染导致错误结论

训练数据遭到污染，将会导致模型产生错误的决策，从而输出偏离目标或反其道而行之，可能会对社会、经济和国家安全产生严重影响。训练数据污染常见的攻击方式有两种：一是模型倾斜攻击，攻击者可以有意地在训练数据中注入虚假或有害信息，以误导模型。例如，攻击者可以欺骗分类器，将特定的恶意文件（如病毒或木马）标记为无害，从而使模型无法准确识别真正的威胁。这对于那些依赖AI系统进行威胁检测的应用，如网络安全、内容安全等方面，可能会产生严重的后果。二是反馈误导攻击，攻击者可以通过欺骗模型的反馈机制，直接向模型“注入”恶意信息，从而引导其做出错误的判断。这种攻击方式在需要不断学习和适应的情况下尤为危险，因为攻击者可以不断地更新模型的错误判断，使其更具破坏性。

2.信息泄露引发隐私安全问题

生成式人工智能模型需要大量的数据来训练和优化，这些数据可能包括用户的个人信息，如姓名、地址、电话号码、电子邮件地址、社交媒体账号等。如果这些数据被不当使用或被恶意攻击者获取，就可能会引发个人信息泄露的风险。一是用户个人信息泄露。生成式人工智能模型可能会自动推断出用户的个人信息，如姓名、地址、电话号码、电子邮件地址等。这些信息可能会被用于推销、广告和欺诈行为。二是社交媒体账号被盗用。用户可能会将他们的社交媒体账号与生成式人工智能模型绑定，从而导致他们的账号被恶意攻击者盗用。攻击者可以利用这些账号获取更多的个人信息，甚至使用这些信息进行欺诈或恶意行为。三是隐私照片和视频泄露。生成式人工智能模型可能会自动生成用户的隐私照片和视频，并将其传播到互联网上。这些照片和视频可能会被恶意利用，导致用户遭受严重的伤害和损失。例如，2018年8月，腾讯安全团队发现亚马逊智能音箱后门，可实现远程窃听并录音。Facebook的DeepFace项目在训练过程中使用了用户数据，这些数据可能包含个人身份信息。如果没有妥善处理，这些信息可能被泄露，导致隐私侵犯。2019年7月，萨默维尔市成为美国继旧金山之后第二个禁止人脸识别的城市。

（二）算法安全风险

人工智能技术所取得的成就很大程度上得益于相关算法及技术的进步，尤其是基于神经网络的深度学习算法。人工智能算法系统在执行过程中通过自动更新操作参数及规则，导致整个执行决策过程存在难以理解、执行过程的不透明、弱鲁棒性、带有偏见等一系列问题，这些问题存在巨大的隐患。

1.算法框架存在开源风险

常见的开源深度学习框架及其第三方 SDK 中包含着多种漏洞，其中作为主流框架的 TensorFlow 被发现在接口、学习算法、编译、部署和安装中都存在漏洞，攻击者利用这些漏洞实施逃逸攻击、拒绝服务攻击等，将对应用系统造成决策失误、数据污染等问题。此外，生成式人工智能算法存在知识产权侵权风险，生成式人工智能有可能使用未经许可的版权作品或商标，侵犯他人的知识产权。一方面，生成式人工智能是否会侵犯他人的知识产权；其产生的内容是否具有知识产权，这些问题需要进一步探究。2019年，一家名为DeepArt的公司使用名画家的风格来生成新的艺术作品，被指控侵犯了原画家的版权，引发了关于AI创作版权归属的法律争议。

2.黑盒化导致安全隐患

目前，黑盒开发是生成式人工智能算法、深度学习建模的主要方法。该算法内部的工作方式、运算过程大部分是不可见的，对于用户、设计与开发人员来说通常都是难以理解的，不能检查系统的代码或产生输出的逻辑。黑盒化将带来诸多问题：一是算法可解释性问题。大模型是数据驱动深度学习的产物，其内部推理的过程非常难以理解，尤其是极深的模型层级和海量的模型参数，导致我们无法理解其工作原理，继而无法信任和控制，破坏了可用性。二是算法内生安全问题。目前攻击大模型方法相当多，包括数据投毒、后门攻击、对抗样本攻击、成员推断攻击、提示词注入攻击等，这破坏了保密性、可用性、完整性，可能导致模型拒绝服务、用户隐私泄露、模型参数泄露等问题。三是使用过程中安全性问题。大模型也可用来作恶，如生成钓鱼邮件、挖掘系统漏洞、生成虚假内容等，这破坏了抗抵赖性、真实性、可核查性。

（三）网络安全风险

人工智能的应用也带来了诸多网络安全风险。黑客或其他恶意行为者可利用人工智能自然语言编写的能力，开展一系列网络攻击行为，如生成恶意软件、钓鱼电子邮件等。以往威胁实施者的知识水平限制了其对网络安全威胁的程度，但是现在借助人工智能可更快、更容易发起网络攻击，大大降低网络攻击的成本和门槛。

1.网攻风险增加

生成式人工智能被恶意使用能够降低网络攻击门槛、加快攻击频次。人工智能GC类应用基于海量知识储备、数据分析、语言组织等底层能力，可在短期批量制作多种网络攻击手段，在内容创作的同时大幅降低了网络攻击的制作门槛。没有编程经验的使用者通过一定的交互技巧（包含专业术语的多次补充、迭代）即可编写出钓鱼邮件、恶意代码、勒索软件，进而快速实现普遍性、高仿真的社会工程学攻击。

人工智能驱动的恶意软件可以利用其智能更快地感染计算机或使攻击更有效。目前，国外已经开展了基于人工智能的恶意代码和软件的探索与研发工作。例如：IBM公司研究人员将几种现有的人工智能模型与当前的恶意软件技术结合起来，设计了一款名为DeepLocker的恶意软件，该软件并不像普通的恶意软件采用随机传播方式，而是将特定受害者作为目标，一旦人工智能模型通过面部识别、地理定位和语音识别等指标识别出目标，它就会启动恶意行动，几乎无法逆向工程。

2.冲击现有网络防御系统

生成式人工智能技术被恶意使用将显著提升网络攻击复杂程度、强化攻击效果。人工智能前沿应用可将部分劳动密集型的攻击工作实现自动化，可利用自身算法提升恶意代码的生存能力，甚至精确定位目标以实现高级持续性威胁打击。

IBM研究院曾展示过搭配卷积神经网络模型（CNN）的DeepLocker，验证了精准释放恶意代码的技术可行性，该模型只需辅以大量数据训练便可转化为成熟应用，将对现有网络防御系统带来巨大冲击。网络安全公司CheckPoint利用ChatGPT机器人结合OpenAI的代码编写系统Codex，生成了能携带恶意载荷、编写巧妙的网络钓鱼邮件。CheckPoint公司创建的网络钓鱼电子邮件，附有Excel文档，其中包含将反向Shell下载到受害者系统的恶意代码。此外，攻击者可以利用机器学习算法，分析大量银行客户的电子邮件和短信记录，自动生成逼真的钓鱼邮件和短信，使受害者误以为是真正的银行发送的信息，从而暴露了银行客户的账号和密码。

（四）综合安全风险

1.影响公众意识，威胁政治安全

人工智能可用于影响公众政治意识形态，间接威胁国家安全。人工智能在推动政治动员走向去中心化的过程中在一定程度上削弱了国家对政治动员行为的监督能力。 2018年，美国《纽约时报》和英国《观察家报》报道称，剑桥公司涉嫌窃取Facebook用户个人数据，并利用智能广告推荐功能，影响2016年美国大选。2021 年美国“国会山事件”中，特朗普的支持者依托人工智能和大数据技术，通过Twitter、YouTube等社交软件推送功能寻找潜在动员对象，发布行动计划，在短时间内迅速实现政治动员，最终冲入国会大厦。该事件极大地冲击了美国的社会秩序，进一步加剧了美国社会的分裂。

2.军事应用给未来战场带来不确定性

人工智能技术作为具有颠覆性的前沿技术，其应用于军事领域势必会对国家安全产生深刻的影响。一是生成式人工智能能够改善情报工作的整体质量与效益。生成式人工智能的人机对话能力、强大的文字处理能力以及对图像、视觉、语音等更多智能算法系统的整合调用能力，降低了情报人员利用机器学习和智能技术处理大规模信息的门槛，可为情报工作的所有人员（搜集人员、分析人员、管理人员等）、所有领域（人力情报、开源情报、技侦情报等）、所有类别（文字情报、图像情报、语音情报、视频情報和信号情报等）和所有阶段（需求、计划、搜集、处理、分析和分发等全阶段）提供支撑，加速人机结合高效情报处理的范式转移。二是赋能高度自动化无人作战。随着美军中各类智能系统和无人装备广泛列装，通过一体嵌入或接口调用生成式人工智能功能实现人与装备的流畅对话，将极大变革战场人机交互模式，降低无人装备操作难度与操控负荷，实现更密切协同的人机编队作战，更高效的半自主无人作战，推动“忠诚僚机”和集群无人机的普遍列装和运用。2018年8月，委内瑞拉总统在公开活动中受到无人机炸弹袭击，这是全球首例利用人工智能产品进行的恐怖活动。2022年3月，乌克兰军方利用美国“明视人工智能”的智能面部识别技术识别俄军阵亡和被俘人员身份，并挖掘其家庭和社会关系，将照片发给其亲友，形成心理震慑。

3.冲击现有社会伦理道德体系

人工智能产品和应用会对现有社会伦理道德体系造成冲击。一是道德和法律责任：当AI生成的内容导致伤害或犯罪行为时，确定责任归属（是AI开发者、使用者还是AI本身）变得复杂。二是偏见和歧视：如果AI训练数据存在偏见，生成的内容也可能反映并放大这些偏见，导致对某些群体的不公平对待。三是失业和劳动市场影响：生成式AI在内容创作等领域的应用可能取代人类工作者，影响劳动市场和就业结构。四是心理和健康影响：过度依赖AI生成的内容可能影响人们的心理健康，如过度使用深度伪造（deepfake）技术可能导致现实感知的扭曲。五是伦理标准和监管缺失：当前对于生成式AI的伦理标准和监管措施尚不完善，需要制定相应的法规和指导原则以确保其负责任的使用。例如，2018年，Google的AI助手Duplex在演示中模仿了人类的语音和语调，但被发现在与女性通话时更加礼貌和顺从，反映了性别偏见。2019年，一名男子使用AI换脸技术将自己的脸替换到色情视频中，导致原视频主角面临名誉损害，引发了关于AI生成内容责任归属的讨论。

二、各国治理生成式人工智能风险的举措分析

生成式人工智能安全问题广泛存在，美、欧、俄、日等国家通过不同的战略政策、法规引导等提高生成式人工智能在民用、军用领域风险管控能力，推动生成式人工智能发展。

（一）美国多措并举治理生成式人工智能风险

1.通过战略和行政命令，确保国际领导力和国家安全

美政府颁布法案政令，顶层指导生成式人工智能发展。2022年10月，美国颁布《人工智能权利法案蓝图：让自动化系统为美国人民服务》，确定了建立安全有效的系统、避免算法歧视、注重数据隐私、提倡清晰的通知和解释、设置备选方案和推出机制共五项原则，用以指导人工智能的设计，使用和部署。2023年11月，美国国会参议院两党议员联合提出《2023人工智能研究、创新和问责法案》，以分类监管方式推动了监管制度的改进。2023年10月，美国总统拜登签署第14110号行政命令“关于安全、可靠和值得信赖的人工智能”，包含标准建设、隐私保护、创新与竞争等八个方面，加速人工智能快速融入美国各领域，为美国政府、人民带来巨大利益。

美国防部制定战略政策，引领军事人工智能安全发展。 2019年2月，美国防部发布《国防部人工智能战略》，明确了实施负责任人工智能的基本原则，即“负责性、公平性、可追溯性、可靠性、可控性”。2023年，美国防部更新《武器系统中的自主性》指令，明确要求自主和半自主武器系统中人工智能能力的设计、开发、部署和使用。

2.兼顾生成式人工智能发展与安全，确保技术安全性

确保人工智能技术的安全性和保密性。美政府提出，将制定人工智能安全性和保密性的指南、标准和最佳实践，包括制定检测AI生成内容和验证官方内容的标准和最佳实践，并指示美商务部制定AI水印指南；制定国家安全备忘录，进一步指导AI使用。该行政令还提出建立一项先进的网络安全计划，使AI能识别并修复关键软件中的漏洞。同时，要求AI开发公司与美国政府共享安全测试结果及关键信息。

在促进竞争方面，美国将通过向小型开发商提供技术援助并鼓励联邦贸易委员会（FTC）行使其权力来促进竞争。同时，该行政令要求美国商务部在执行CHIPS法案时，通过实施灵活的国家半导体技术中心会员结构、实施导师计划（mentorship programs）、增加初创企业和小型企业的资源等方式促进竞争。

3.美加强国际合作，支持技术创新

美国政府积极参与全球AI治理的国际合作，与其他国家和地区共同应对生成式人工智能带来的风险。例如，美国与欧盟、日本等国家和地区签署了多项AI合作协议，共同研究和制定AI技术的安全标准和监管措施。此外，美国还参与了联合国等国际组织的AI治理工作，推动全球AI治理体系的建设。美国政府鼓励企业和研究机构开展生成式人工智能的研究和创新，以应对AI技术带来的风险。例如，美国政府设立了多个AI研究基金，支持企业和研究机构开展AI技术的研究和应用。此外，美国还鼓励企业加强与高校、研究机构的合作，共同推动生成式人工智能技术的发展。

（二）欧盟力图通过立法规制人工智能发展

2020年欧盟委员会发布《人工智能白皮书》，提出一系列人工智能监管政策，指导负责任的人工智能发展。欧盟强调“可信性人工智能”，重视数据隐私保护、维护人类尊严、可控性、可解释性、可追责性。2020年2月，欧盟委员会《面向卓越和信任的人工智能发展之路》，提出人工智能风险可控理念，要求允许对人工智能的行为或决策进行追踪和验证，确保人类监督，人工智能系统不应破坏人类的自主性或造成其他不利影响。2021年，欧盟第九期研发框架计划（2021—2027年）重点支持无监督机器学习，使用较少数据来训练人工智能等研究方向。2023年，欧盟发布全球首部人工智能法律框架《人工智能法》通过草案，将人工智能系统分为“不可接受、高、有限、极小”4个风险等级，并针对不同级别风险实施不同程度的规制，从而构建起以风险为基础的四级治理体系，旨在根据人工智能造成伤害的可能性对其进行监管。北约方面，2021年10月，北約发布首个《人工智能战略》，概述了如何以受保护和合乎道德的方式将人工智能应用于国防和安全。该战略根据国际法和北约的价值观制定了负责任地使用人工智能技术，战略的四大目标为：鼓励以负责任的方式开发和使用人工智能，以实现盟国的国防和安全；加速人工智能在能力开发和交付中的采用；保护和监控AI技术，解决安全政策考量因素；识别和防范国家和非国家行为者恶意使用人工智能带来的威胁。2022年，英国发布《国防人工智能战略》，重点提出研发可靠、安全的人工智能技术，积极促进国际交流与合作，提高人工智能系统适应性、稳健性、可靠性、防御性和透明性，制定人工智能军事应用国际准则，并确保军用人工智能系统合德守规。 2023年3月，英国科学、创新与技术部联合人工智能办公室发布《有利于人工智能创新的监管方案》白皮书，提出建立人工智能监管框架，明确人工智能技术应用规则，创建支持人工智能技术创新的环境，减轻政府监管负担，提升公众对其信任度，最大限度发挥人工智能技术带来的经济和社会效益。

此外，欧盟与美国、日本等国家和地区签署了多项AI合作协议，共同研究和制定AI技术的安全标准和监管措施。此外，欧盟还参与了联合国等国际组织的AI治理工作，推动全球AI治理体系的建设。欧盟设立了多个AI研究基金，支持企业和研究机构开展AI技术的研究和应用。此外，欧盟还鼓励企业加强与高校、研究机构的合作，共同推动生成式人工智能技术的发展。

（三）俄罗斯布局人工智能安全技术在产业及国防领域发展

俄罗斯政府高度重视生成式人工智能的风险治理，通过制定政策和法规来规范AI技术的研发和应用。例如，俄罗斯发布了《国家人工智能发展战略》，明确提出要加强对生成式人工智能的监管，确保其安全、可靠和可控。此外，俄罗斯还成立了专门的AI监管机构，如俄罗斯联邦通信、信息技术和大众传媒监督局（Roskomnadzor），负责制定AI技术的法律和监管措施。俄罗斯与欧盟、美国等国家和地区签署了多项AI合作协议，共同研究和制定AI技术的安全标准和监管措施。此外，俄罗斯还参与了联合国等国际组织的AI治理工作，推动全球AI治理体系的建设。

（四）日本重点探索以人为中心的治理原则

日本在人工智能管控方面，以内阁《以人为本的人工智能社会原则》提出的七项原则为基础，即“以人为中心、教育应用、隐私保护、安全保障、公平竞争、问责与透明、创新”。2021年，日本综合创新战略推进委员会提出《实施人工智能原则的治理指南》，强调在分析和决策过程中寻求快速解决问题的应用于人工智能企业的敏捷治理模型。2021年6月，日本发布《人工智能战略》，以实现社会5.0为目的，通过AI时代数字治理、伦理建设等措施实现战略目标。2022年4月，日本第11届综合创新战略推进会正式通过《人工智能战略2022》，提出要提升人工智能的可信性，确保人工智能的透明性和可解释性；未来将与友好国家合作，共同制定和推广人工智能技术的伦理规则，以推广日本人工智能技术伦理原则，建立国际合作体制，共同制定国际伦理标准。

三、科技企业人工智能安全治理探索

在各国的顶层设计指导下，科技企业也积极发挥主体责任，推进人工智能安全治理。面对生成式人工智能带来的安全治理难题，OpenAI、微软、谷歌等企业主动布局，在价值观对齐、红队测试、风险评估与披露、安全技术攻关方面开展了探索，取得了一定成效。

（一）OpenAI注重风险治理，开展体系化布局

OpenAI高度重视人工智能安全问题，管理层曾多次在多个场合呼吁各界共同加强人工智能安全治理与监管，成立专门部门研究治理工具与手段。2023年4月5日，OpenAI在其官网上发布了《我们迈向人工智能安全的路径》（Our approach to AI safety），声明“确保安全构建、部署和使用人工智能系统对其使命至关重要”，主要围绕安全开发、应用反馈、保护儿童、尊重隐私、加强精准、持续投入六个方面表述了其AI安全的核心考量和主要举措。2023年12月，OpenAI又发布了名为“准备框架（Preparedness Framework）”（测试版）的安全指南，该框架明确了监测、评价、预测和防御等标准流程，用于预防和管控由AI大模型引发潜在灾难性风险，以弥补当前人工智能技术风险研究的不足，构建更加全面、有效的AI安全体系。在顶层规划、技术研发、组织保障的推动下，OpenAI积极探索推进人工智能安全治理，取得了众多突破。

1.致力于研发安全的人工智能系统

一是研发人类价值观对齐技术。由于人工智能系统可解释度低，训练后的模型难以保证输出结果符合社会道德和法律约束，可能会产生AI的行为不符合人类意图、伤害人类的利益甚至脱离控制等重大风险，因此需要额外训练和外部风控机制进一步约束模型行为。OpenAI公司致力于对齐技术的研究，于2022年成立了专门的对齐团队，并提出 InstructGPT模型，利用人类反馈强化学习技术（RHLF）和对应的奖励模型增强模型对齐效果。GPT-4模型从最初完成预训练到最终完成模型对齐共耗时6个月，使得GPT-4响应不允许内容请求的可能性比GPT-3.5低82%，產生事实响应的可能性高40%。

二是开发输入输出控制“分类器”。在OpenAI产品中，使用“文本分类器”检查并拒绝违反其使用政策的文本输入提示，如涉及极端暴力、仇恨图像、名人肖像或他人知识产权等。此外，还开发了强大的“图像分类器”，用于审查生成的每个视频的帧，在图像输出给用户之前审查是否符合其使用政策。图像生成模型DALL·E 3的技术文档中提到，DALL·E 3已经使用了上述输入输出的控制模块，目前最新的Sora模型也使用了该安全策略。

2.探索开展安全测试、风险监测并推进持续优化

一是广泛开展红队测试。OpenAI高度重视红队测试，GPT-3、GPT-4、SORA等均经过大量、长期的红队测试，其测试工作也已由内部对抗测试发展到与群外部专家合作开展。2023年9月，OpenAI发起“OpenAI红队网络”计划，面向社会征集有兴趣提高OpenAI模型安全性的领域专家加入。专家网络构建特别强调了地域和专业的多样性，邀请从事不同领域、持有不同观点和具备不同生活经验的专家开展模型测试与评估，以保障模型的公平性、多样性和代表性。如OpenAI邀请视觉艺术家、设计师和电影制作人来评估Sora模型危害或风险的关键领域。

二是积极研究鉴别真伪技术。针对目前生成式人工智能内容生成愈加逼真、真假难辨，伪造信息威胁不断扩大等问题，OpenAI构建检测工具和平台帮助用户鉴别有关内容是否由AI生成。一方面，在ChatGPT、DALL·E 3、Sora等模型生成的图像中添加元数据，帮助验证其来源和历史，另一方面，建立内容凭证验证平台，帮助用户检查图像是否由AI生成。但元数据技术由于其易于修改、删除，并不能完全用来解决虚假信息识别问题，OpenAI表示还将积极投入研发，降低不当使用风险。

三是建立用户反馈生态。OpenAI认为风险控制是一个持续性的过程，只有在不断应用过程中才能发掘生成式人工智能的新问题、探索解决方案，同时仅凭OpenAI自身无法预测人们在现实世界中使用或误用技术的每一种方式，因此需加大力度建立用户反馈生态，在迭代升级中逐步筑牢安全防线。2022年12月，OpenAI发布“ChatGPT反馈竞赛”，征集在现实世界可能发生的风险或危害的反馈及新的缓解措施，帮助OpenAI更好地了解生成式AI系统。2023年4月，OpenAI发起“漏洞赏金计划”，邀请用户及技术人员报告在系统中发现的漏洞、错误及安全漏洞，包括模型越狱、幻觉等，截至2024年3月，已有75个漏洞得到奖励。

3.建立完善组织架构和治理机制

一是在组织架构层面不断完善人工智能治理。目前OpenAI的内部安全治理体系主要由三个小组构成：安全系统（Safety Systems）、超级对齐（Superalignment）和准备团队（Preparedness team），安全系统小组专注于GPT-4等现有模型的安全运行，监控评估相关负面影响及风险；超级对齐小组专注于未来可能产生的超级智能技术，目标在四年内解决超级智能对齐的核心技术挑战；准备团队负责聚焦前沿人工智能技术的风险评估与预测，以更好地发现并应对潜在的灾难性风险。三个小组承担互补的职能，聚焦当下、前沿和未来开展多层次的技术体系建设布局，让OpenAI在聚焦技术创新的同时，确保安全性和可控性。

二是提出动态风险评估和分级分类治理机制。OpenAI列出了4类可能带来灾难性后果的领域，分别为：1.网络安全风险，即使用生成式人工智能模型破坏计算机系统的保密性、完整性和可用性等；2.化学、生物、核与辐射（CBRN）威胁，即模型辅助产生化学、生物、放射或核威胁相关的风险；3.说服风险，即与说服人们改变想法有关的风险；4.模型自治风险，即模型能够自主适应环境，躲避或减轻人类控制的风险。针对以上4个领域，OpenAI设定了一套包括“低”“中”“高”和“严重”的风险等级标准，并通过使用“风险计分卡”，动态评估AI模型在采取缓解措施前后的风险。依据最新发布的安全指南，OpenAI未来将只部署经评级为“中”或“低”风险的人工智能模型。

（二）微软致力于“负责任的人工智能”，积极对外输出安全服务能力

一直以来，微软都把“负责任地发展人工智能”作为优先事项，经过3年多的开发和完善，形成了“微软负责任的人工智能标准”，包括公平性、可靠性和安全性、隐私、包容性、透明度、问责制六项原则和17个目标，并通过治理、政策和研究将负责任的AI原则付诸实践。生成式人工智能兴起以来，微软不断升级人工智能安全治理手段，除了提升风险控制水平外，还通过提供“负责任的人工智能工具包”和“人机交互（HAX）工具包”不断对外输出相应能力，致力于构建人工智能安全发展生态。

1.着力发展“负责任的人工智能”

一是系统部署红队测试。微软高度重视红队测试，其人工智能红队测试是由安全、对抗性机器学习和负责任的人工智能专家组成的跨学科团队专门开展的。在新的必应聊天发布之前，经历了由数十名专家花费数百个小时专门针对人工智能安全的测试、评估和改进。与此同时，微软将自身部署红队测试的经验进行提炼总结，2023年11月，微软发布《为大预言模型及其应用规划红队》指南，对红队测试的流程进行了规范化梳理。首先，确定测试人员，构建多元化的人员队伍；其次，明确测试内容，包括基础模型的漏洞、基于基础模型开发的应用程序的漏洞；再次，确定测试方式，建议开展开放性测试，并创建“危害列表”，包含危害的定义和示例，为后续的改进和提升提供指引；最后，确定总结方法，建议定期与利益相关者分享一份简短的报告，列出最重要的已确定问题，预览即将到来的几轮测试计划等。

二是高度重视模型“透明度”。微软积极推进模型报告与信息共享，定期向利益相关者提供模型开发和评估的相关信息。例如，必应在界面中即披露了其由人工智能提供支持，并积极帮助用户了解系统的能力和局限性，GitHub Copilot常见问题解答中介绍了其生成代码的功能和安全性限制，以及使用该代码对隐私和公平影响等。Azure OpenAI透明度说明标明了通过该服务可生成文本、图像和语音等，并描述了模型采用的技术、设想的用例以及它们行为中的限制和潜在偏见等。与此同时，微软与Anthropic，Google和OpenAI，一起发起了前沿模型论坛（FMF），以分享最佳实践并推进人工智能安全研究。微軟正在通过FMF合作，制定与发现前沿模型中的漏洞或危险能力相关的“负责任披露”流程指南。

2.积极对外提供工具服务

一是发布负责任的人工智能工具包。微软于2022年发布了《微软负责任的人工智能标准》及其指南文件，帮助用户依据指南文件负责任地开发人工智能。同年，微软发布《负责任的人工智能影响评估模板》，旨在定义评估 AI 系统可能对人员、组织和社会产生的影响的过程。此后，微软发布“负责任的人工智能工具箱”，包含一系列评估模型及数据的工具，并提供易使用、易理解的用户界面，帮助人工智能系统的开发人员和利益相关者能够更负责任地开发和监控人工智能。工具包将多个领域的工具和技术集成在一起，主要覆盖误差分析、公平性评估、模型可解释、反事实分析、因果分析、数据平衡等领域，使模型开发人员可以创建端到端的流畅调试，并通过使用识别错误、检查数据、生成全局和本地解释模型等可视化工具来识别诊断错误。

二是发布以人为本的人工智能工具包。微软将发展“以人为本”的人工智能作为实现“负责任的人工智能”的重要手段。在自身探索实践的基础上，开发Human AI eXperience（HAX）工具包，形成AI产品团队创建以人为本的人工智能的方法论。工具包主要包括四类内容，第一是指南，概述了人工智能系统人机交互的最佳实践；第二是设计库，提供了18条使用示例帮助用户了解人机交互指南的应用方式；第三是工作簿，通过构建跨角色对话，确定实施指南的优先级；第四是操作手册，列举了有关故障示例，帮助用户在构建功能齐全的系统之前主动识别、设计和测试人机交互失败场景。

三是发布风险识别工具包。2021年，微软就推出过红队自动化框架Counterfit，然而，生成式AI系统具有多层不确定性，相同的输入可以提供不同的输出。此外，生成式AI系统的架构差异很大，包括从独立应用程序到现有应用程序中的集成，再到输入和输出模式，例如文本、音频、图像和视频等，增加了测试难度。如果通过有关专家手动处理所有类型的伤害，跨不同策略的所有模式，可能进展十分缓慢。因此，2024年2月22日，微软发布了一个用于生成AI的Python风险识别工具包PyRIT，以帮助安全专业人员和机器学习工程师主动发现其生成AI系统中的风险，大幅提升风险识别效率。

（三）谷歌注重“安全开发”，定期开展原则审查

谷歌2018年起就制定了其发展人工智能的主要原则，并按照技术发展态势每年更新，2023年版人工智能原则包括对社会有益、避免制造或强化不公平的偏见、进行安全制造和测试、对人负责、纳入隐私设计原则、坚持高标准的科学卓越、努力限制可能有害或滥用的应用程序七项标准，并承诺不会在可能造成重大危害和违反国际公认规则等领域设计和部署人工智能。

1.完善内部审查流程

一是开展人工智能原则审查。在每年更新的人工智能原则指导下，谷歌组织开展产品发布前的审查，包括技术安全测试、标准隐私和安全审查等。2023年，谷歌的人工智能原则审查达到了500余项，较2022年多了一倍多，主要是围绕生成式人工智能模型的相关产品和服务。为了更加符合人工智能原则要求，谷歌根据已知的法律要求和新型的标准及自身的人工智能原则评估产品设计等早期阶段，让人工智能产品从诞生之初就符合有关要求。

二是推进人工智能安全风险评估。谷歌研制风险评估框架，旨在识别、衡量和分析整个产品开发生命周期中的风险。同时，谷歌收集了来自全球1000多名员工的反馈，这些员工超过50%的人在美国以外生活和工作，来自39个不同的国家和地区，会说超过85种不同的语言，对谷歌用户的国际多样性具有一定代表性。这些反馈也将与自动化对抗性测试的团队共享，用于产品安全性提升。

2.提出人工智能安全管理指南

一是研制安全的人工智能框架。人工智能正在迅速发展，有效的风险管理策略必须随之发展。为了适应人工智能带来的安全问题，2023年6月，谷歌发布了安全的人工智能框架（SAIF），用于打造安全的人工智能系统。SAIF有六个核心要素：将强大的安全基础扩展到AI生态系统中、扩展检测和响应范围、开展自动化防御快速跟上进展、协调平台级控制确保一致性、为AI部署创建更快的反馈循环、将AI系统风险与周围的业务流程相结合，这些原则旨在确保AI系统在设计时就具备安全性，以应对特定于AI系统的风险，如模型盗窃、训练数据污染、提示注入攻击和训练数据中的机密信息提取等。谷歌同步发布了《实施安全的人工智能框架（SAIF）的快速指南》，帮助用户快速将SAIF框架应用至实践。

二是与开源社区合作构建安全生态。建立开源漏洞数据库（OSV），开发了一种新的漏洞格式，并由多个开源生态系统（如Python、Rust、Go）采用。设置安全评分卡（Scorecards）：评估项目对安全最佳实践的遵守情况，并为开发者在使用依赖项前提供参考分数。谷歌还向OpenSSF等第三方基金会捐款，创建了一个新的“开源维护团队”，由谷歌工程师组成，与上游维护者紧密合作，提高关键开源项目的安全性。

三是注重AI软件的供应链安全。谷歌开源安全团队（GOSST）正在利用SLSA和Sigstore来保护人工智能供应链的整体完整性。SLSA（软件工件的供应链级别）是描述软件工件如何构建的规范，支持SLSA的构建平台可以通过元数据描述软件是如何产生的，记录所有构建输入。SLSA可以帮助用户在检测到人工智能系统中的漏洞后，快速识别哪些模型需要重新训练，从而降低成本。Sigstore是一种数字签名的工具，允许任何软件制作者通过简单地使用绑定到工作负载或开发人员身份的OpenID连接令牌来签署他们的软件。通过使用Sigstore，即可识别软件的制作者，验证软件是否被篡改或替换。

3.推进相关工具、技术研发

一是推进负责任的人工智能设计。识别和记录潜在的危害和风险，通过使用负责任的数据集、分类器和过滤器，以及模型内的缓解措施，如微调、推理、数据增强和受控解码来解决潜在危害，从而主动减轻这些危害。

二是开展对抗性测试。通过在一系列场景中提供恶意或无意的有害输入来对模型进行系统评估，以识别和减轻潜在的安全和公平风险。谷歌构建了一个内部的、公司范围内的大型语言模型（LLM）红色团队，与数百名安全、安全和其他专家组成了“黑客-人工智能马拉松”，对Gemini、Bard等人工智能模型发布前进行测试。除了对安全性和公平性的对抗性测试外，谷歌还建立了一个专门的团队，专注于测试AI模型和产品的安全、隐私和滥用风险。

三是加强员工培训。2023年，谷歌在责任创新挑战（Responsible Innovation Challenge）的基础上，推出了人工智能道德培训，培训鼓励谷歌技术人员专注于负责任地构建人工智能产品的最佳实践，包括如何记录安全和不安全的实践，测试人工智能模型输出以获得公平的结果，以及在需要改进时提交错误等，大约有1800名谷歌员工已经完成了培训。

四、启示与建议

生成式人工智能在全球的快速应用爆火也带来了更复杂、更隐蔽的安全问题，加快人工智能安全风险治理是推进“人工智能+”的重要一环。我国应从加强跟踪研究、推进技术攻关、推动“以评促建”和加强国际交流等四个维度发力，构建人工智能安全发展生态。

（一）加强跟踪研究，积极应对可能带来的影响

当前，生成式人工智能技术正处在快速发展过程中，可谓以月为单位迭代更新，其引发的安全风险和潜在影响也在不断变化。我国应围绕生成式人工智能可能带来的安全风险问题开展深入研究，积极应对风险。一是密切关注技术发展最新动向，及时识别和制止不良影响，遏制风险传播。二是提前研究各类风险的应对举措，研制应急响应机制。三是持续跟踪国内外应对生成式人工智能安全风险的最新举措和技术工具，借鉴吸收优秀经验，构建人工智能安全生态。

（二）推进技术攻关，鼓励安全检测、加固和防护技术研发

研发针对人工智能公平性、可解释性、鲁棒性、隐私性的检测工具，构建检测能力，帮助各方提升人工智能安全风险识别和防御能力。当下应重点发力：一是鼓励科研院所、科技企业联合攻关，围绕生成式人工智能的“数字水印”标注技术及其对应的识别技术开展研究。数字水印应向扰动小、难篡改、难去除方向发展，采用“联盟化”運作模式，形成一套行业公认的水印标准，推动生成内容可识别、可溯源。二是鼓励开展红队测试。鼓励科研机构研制“红队测试”指南，梳理开展红队测试的流程、要点和注意事项。鼓励人工智能研发企业在产品发布前开展红队测试，并根据测试结果不断改进提升产品安全能力。

（三）推动“以评促建”，分级分类开展评估认证

一是开展人工智能安全风险评估，建立风险分级分类标准，推进分类管理。针对人工智能可能带来的安全风险及其潜在影响，编制风险分级标准。鼓励人工智能产品提供方在产品发布前及产品运行中定期开展风险评估，对于风险较高的产品要及时采取应对措施。二是建立人工智能安全可信度自评估、外部评估和强制认证相结合的评估认证体系。人工智能技术提供方应围绕人工智能安全可信要求定期开展自评估和自我承诺。在重点场景和领域，鼓励由第三方专业机构开展专门的合规评估和审计。在高风险领域，建议结合实际情况，在时机成熟时实施严格管理，必要时可开展上市前合规性认证。

（四）加强国际交流，积极参与全球治理规则建立

生成式人工智能技术变化快、风险影响大、相关领域广，如何对其开展监管，保障“发展与安全”已经成为全球人工智能治理的新课题。一方面，人工智能监管需要全球通力合作，共同面对前沿人工智能可能带来的“灾难性风险”。另一方面，鼓励行业协会、企业、科研机构等主体积极参与有关标准规则制定。在《全球人工智能治理倡议》的基础上，及时提出中国方案、发出中国声音，增强生成式人工智能安全治理国际话语权。

五、结论

当前，生成式人工智能的快速发展为人类社会带来了前所未有的机遇与挑战，给网络安全、数据保护和算法安全等领域带来风险，甚至影响国家的政治稳定、军事安全以及社会和谐。如何管理人工智能安全风险，确保人工智能能够始终向善成为当下的重要难题。本文梳理了美、欧、俄、日等国家的战略政策，并整理了OpenAI、微软、谷歌等企业在价值观对齐、红队测试、风险评估与披露、安全技术攻关方面的举措。结合我国治理人工智能安全的现状，提出加强跟踪研究、推进技术攻关、推动“以评促建”和加强国际交流等建议，以期支撑我国人工智能安全健康發展。

Research on Security Risk Management of Generative Artificial Intelligence

Abstract： Currently， the rapid development of generative artificial intelligence， represented by phenomenal products such as ChatGPT and Sora， is reshaping the industrial and value chains. At the same time， it has also triggered numerous new risks in areas such as data security， algorithm security， network security， and application security， which may have serious impacts. Major countries and regions worldwide attach great importance to the management of security risks associated with generative artificial intelligence， promoting the construction of risk management systems from dimensions such as policy guidance， technical support， and international cooperation. While actively promoting frontier technological innovation， technology companies also attach great importance to security management， focusing on different aspects to ensure that artificial intelligence is trustworthy and responsible. China should focus on four dimensions： strengthening tracking research， promoting technological breakthroughs， promoting “evaluation to promote construction，” and enhancing international exchanges， to ensure the safe and healthy development of artificial intelligence.

Keywords： Generative Artificial Intelligence;Security Risks;Security Management;Technology Giants

. See https：//news.mit.edu/2019/how-tell-whether-machine-learning-systems-are-robust-enough-real-worl-0510 （Last visited on March 10， 2024）.

. 参见https：//www.computer.org/publications/tech-news/trends/the-impact-of-ai-on-cybersecurity/ （Last visited on March 10， 2024）.

. 黑盒问题是指由于广泛应用在人工智能产品上的深度学习等主流算法模型内部结构复杂、运行过程自主性较强，且人工无法干预等因素，造成的不可控问题。

. 参见https：//umdearborn.edu/news/ais-mysterious-black-box-problem-explained（Last visited on March 10， 2024）.

. 参见https：//research.ibm.com/blog/deep-learning-real-world（Last visited on March 10， 2024）.

. 参见https：//www.scientificamerican.com/article/why-we-need-to-see-inside-ais-black-box （Last visited on March 10， 2024）.

. 参见https：//www2.deloitte.com/us/en/insights/focus/tech-trends/2022/future-of-cybersecurity-and-ai.html （Last visited on March 10， 2024）.

. 参见https：//dataconomy.com/2023/01/16/artificial-intelligence-security-issues（Last visited on March 10， 2024）.

. 参见https：//spectrum.ieee.org/adversarial-attacks-and-ai-systems（Last visited on March 10， 2024）.

. 参见https：//www.techtarget.com/searchsoftwarequality/tip/Reduce-these-forms-of-AI-bias-from-devs-and-testers（Last visited on March 10， 2024）.

. 参见https：//legalaidnyc.org/zh-CN/news/commends-president-biden-artificial-intelligence-bill-of-rights（Last visited on March 10， 2024）.

. 參见http：//lib.ia.ac.cn/news/newsdetail/68494（Last visited on March 10， 2024）.

. 参见http：//www.takungpao.com/news/232111/2022/1006/772433.html （Last visited on March 10， 2024）.

. 参见https：//assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1082416/Defence_Artificial_Intelligence_Strategy.pdf（Last visited on March 10， 2024）.

. 参见OpenAI， Preparedness， at https：//openai.com/safety/preparedness （Last visited on March 10， 2024）.

. 参见OpenAI， GPT-4 is OpenAIs most advanced system， producing safer and more useful responses， at https：//openai.com/gpt-4 （Last visited on March 10， 2024）.

. 参见OpenAI， DALL-E 3 System Card， at https：//cdn.openai.com/papers/DALL_E_3_System_Card.pdf#link=pdff （Last visited on March 10， 2024）.

. 参见OpenAI， Red Teaming Network， at https：//openai.com/blog/red-teaming-network#fn-A （Last visited on March 10， 2024）.

. 参见OpenAI， Sora Safety， at https：//openai.com/sora#safety （Last visited on March 10， 2024）.

. 参见OpenAI， ChatGPT Feedback Contest， at https：//cdn.openai.com/chatgpt/chatgpt-feedback-contest.pdf （Last visited on March 10， 2024）.

. 参见Bugcrowd， OpenAI， at https：//bugcrowd.com/openai （Last visited on March 10， 2024）.

. Microsoft， Red Teaming for Azure AI Services， at https：//learn.microsoft.com/en-us/azure/ai-services/openai/concepts/red-teaming？toc=%2Fsecurity%2Fai-red-team%2Ftoc.json&bc=%2Fsecurity%2Fai-red-team%2Fbreadcrumb%2Ftoc.json （Last visited on March 10， 2024）.

. 参见Microsoft， Responsible AI Toolbox， at https：//github.com/microsoft/responsible-ai-toolbox （Last visited on March 10， 2024）.

. 参见Microsoft， HAX Toolkit， at https：//www.microsoft.com/en-us/haxtoolkit/？culture=en-us&country=us （Last visited on March 10， 2024）.

. 参见Microsoft Security Blog， Announcing Microsoft's Open Automation Framework to Red Team Generative AI Systems， at https：//www.microsoft.com/en-us/security/blog/2024/02/22/announcing-microsofts-open-automation-framework-to-red-team-generative-ai-systems/ （Last visited on March 10， 2024）.

. 参见林心雨：《谷歌推出安全AI框架，具备六个核心要素》，载微信公众号“上海数据安全协同创新实验室”，2023年6月13日上传。

作者简介：宋艳飞，国家工业信息安全发展研究中心高级工程师；张瑶，国家工业信息安全发展研究中心工程师；樊伟，国家工业信息安全发展研究中心工程师。