生成式人工智能的数据风险及其法律规制

2024-01-01 00:00:00刘辉雷崎山
关键词:生成式人工智能智能算法法律规制

摘要:生成式人工智能在引领技术变革的同时也引发了诸多法律风险。根据生成式人工智能的运行机理,可以发现其中存在四大类数据安全风险,其主要原因在于算法高度信任对法益保护的冲击、技术演变中科技伦理规范的缺失以及用户数据主体权利保障不足等。针对生成式人工智能在数据输入阶段的数据源合规风险,研发企业内部应制定具有可操作性的数据合规计划,并在合规计划中制定详细具体的风险规制措施,强化企业合规经营;与此同时,通过多种措施积极响应用户对于数据主体权利的请求,确保模型训练数据来源合法合规。针对生成式人工智能在模型处理阶段的算法黑箱与算法偏见风险,应加大监管力度,重点关注算法的安全性与公平性,积极推进并完善相关立法,细化算法备案和算法解释义务,提高算法技术透明度,落实算法主体责任。针对生成式人工智能在内容输出阶段的数据滥用风险,应优化监管机制,实现全链条合法性监管,完善科研伦理规范并予以实质审查,引领技术向善,实现科技向善治理。针对生成式人工智能在数据存储阶段的数据泄漏风险,应通过技术与管理制度相结合的方式进行全方位规制,严格控制数据共享范围并贯彻数据分级分类保护,及时有效地防范数据泄露风险。

关键词:智能算法;生成式人工智能;数据风险;法律规制

中图分类号:D902;D912.1;D912.29

文献标识码:A

文章编号:1673-8268(2024)04-0040-12

生成式人工智能的广泛应用,需要丰富的数据资源支撑其算法运算。但这也对数据的收集和处理过程提出了更高要求,该过程中所存在的数据泄露、算法滥用等风险也将引发一系列数据安全隐患。我国对人工智能的法律规制始于2017年。为了构筑我国人工智能发展的先发优势,加快科技强国建设,2017年7月,国务院发布《新一代人工智能发展规划》,提出了人工智能三步走的战略发展目标。2019年,《新一代人工智能治理原则》《新一代人工智能伦理规范》相继出台,提出“发展负责任的人工智能”。2022年,我国各地开始逐渐重视人工智能产业的发展;当年9月,深圳正式发布我国首部人工智能产业专项立法《深圳经济特区人工智能产业促进条例》。2023年,ChatGPT的面世和大语言模型的涌现给人工智能治理带来了更大的挑战。

对于生成式人工智能引发的数据风险,我国目前主要通过《中华人民共和国网络安全法》为行文简洁,下文涉及我国法律文本名称时,均将“中华人民共和国”省略。《数据安全法》《个人信息保护法》并结合《互联网信息服务算法推荐管理规定》(以下简称《算法推荐规定》)、《互联网信息服务深度合成管理规定》(以下简称《深度合成管理规定》)、《科技伦理审查办法(试行)》(征求意见稿)、《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)对其实施规制。从近几年出台的《算法推荐规定》《深度合成管理规定》等规范名称不难看出,我国对于AI倾向于区分不同技术方向进行规制,监管范围有限,相关管理规范的出台往往是为了应时解决某一热点问题,立法上呈现出分散化趋势。与生成式人工智能行业直接相关的《暂行办法》多为倡导性、原则性的规定,有关数据风险规制的具体应用场景细则还有待完善。基于此,本文拟从生成式人工智能运作逻辑的不同阶段中潜在的数据风险出发,剖析当前数据风险加剧的深层次原因,通过比较域外经验,以我国现有的数据风险规制法律框架的规定为基础,结合我国生成式人工智能行业发展与最新立法实践,就生成式人工智能的数据风险提出有针对性的建议,以期更好地推动生成式人工智能产业安全有序地发展。

一、生成式人工智能诱发的数据风险

随着大语言模型应用带来的智能涌现和生成式人工智能内容输出质量的提升,AI技术所带来的潜在风险也更加深不可测。ChatGPT-4发布后不久,意大利数据保护局就以“违法收集数据”为由, 将其暂时禁止使用[1],加拿大联邦隐私监管局也因OpenAI涉嫌“未经同意处理个人信息”而展开调查[2]。生成式人工智能的运作核心主要是通过算法对训练数据集进行加工和生成输出,在机器学习运行过程中需经过“数据输入、模型处理、内容输出与数据存储”四个阶段,涉及数据源合规风险、算法风险、数据滥用风险与数据泄露风险等不同类型的法律风险。需要注意的是,算法风险不仅存在于模型处理阶段,各个阶段算法技术的嵌入都会放大其引发的数据安全风险,即在生成式人工智能应用过程中,数据风险与算法风险相互作用、相互生成。为了更好促进生成式人工智能产业安全有序地发展,有必要以其应用的技术逻辑为基础,对其应用过程中可能诱发的数据风险进行分析。

(一)数据输入:数据源合规风险

人工智能大语言模型的应用需要大量数据的支持,其在“学习”大量文本语料的构建过程中存在各种各样的数据源合规风险。在以自动识别算法、网络爬虫等技术方式通过互联网等公开渠道获取数据时,其对于个人数据的收集边界是模糊的。例如,ChatGPT在训练的过程中爬取了某点评网站上关于某餐饮店的评价,但由于某用户在点评时透露了自身的个人信息,该部分个人信息进入到模型语料库,进而涉嫌侵犯他人个人信息权益。进一步而言,ChatGPT要生成精确度更高的答案,就需要学习归纳更多的数据。尽管很多与用户有关的个人数据和当事人想获得的答案之间没有直接的关系,但是,ChatGPT还是会在应用过程中收集这类数据,并利用知识蒸馏的方法开展深度学习[3]。根据我国《个人信息保护法》的规定,个人信息处理者取得个人同意后才可以处理个人信息,若ChatGPT获取、利用的数据集中包含公民个人信息,则必须取得用户同意后才能对其进行处理,但在现实应用过程中,逐一征求用户同意基本不可能实现[4]。除此之外,ChatGPT对于个人数据还可能存在过度分析利用的法律风险,因为ChatGPT收集个人数据的边界模糊,所以其往往通过算法技术对数据进行深度分析,以此来提升答案的准确性[5]。那么,如何审核个人信息来源的合法性和个人的授权情况、最大限度减少侵犯他人个人信息权益的合规风险就亟待解决。

除个人信息收集场景之外,在获取文本语料时,还可能会因为未征得权利人许可复制、改编或者传播而涉嫌侵犯他人知识产权。2023年12月27日,作为全世界最有影响力的新闻机构之一的《纽约时报》正式起诉OpenAI和微软,指控被告未经许可使用《纽约时报》的数百万篇文章训练ChatGPT,严重侵害了《纽约时报》的版权[6]。除此之外,在大模型的静态与动态训练的过程中,可能会出现使用来源不明或者非法的数据信息的情况;如果前述信息中包含商业秘密,那么依据竞争法的相关规定,将构成对他人商业秘密的侵害,未经授权通过自动识别算法、利用网络工具爬取数据的行为还可能构成不正当竞争。

(二)模型处理:算法风险

对于生成式人工智能而言,数据是生成式人工智能技术应用的基础,算法是通过技术手段重构数据并使其产生价值的方式。能否恰当地使用算法技术分析处理数据,是考量此类高度智能化的大语言模型在实际应用中是否安全的重要因素之一。大模型的算法内部机制和决策过程不可解释或者难以理解,导致算法的输出结果存在无法解释的“黑洞”,即产生“算法黑箱”风险[7]。此外,算法开发者往往倾向于隐藏算法决策的规则,故而其对于被决策主体缺乏透明性,可能会导致用户难以理解模型的决策过程和预测结果,进而无法评估模型的可靠性和稳定性。目前,世界上许多国家都试图通过法律或其他措施推动企业进行算法公开,即算法服务提供商有责任披露算法并解释算法决策的底层逻辑,以应对“算法黑箱”的消极影响[8]。

生成式人工智能模型内部机制的不透明性,给模型处理过程中诱发的算法歧视、算法偏见风险治理带来了挑战。既有研究表明,生成式人工智能会从训练数据中复制有害的社会偏见和刻板印象[9]。在数据输入阶段,算法对人类语言的理解就无法保证做到完全准确。如果其本身的算法规则对某些特定的个体或群体存在偏见,加之数据集本身就存在固有偏见时,那么大语言模型算法在应用、决策或预测时衍生出的结果一定存在某种偏见。普林斯顿大学的一项研究表明:由于受到训练数据集和语言模型中社会偏见的影响,ChatGPT的生成内容显示出对某些特定种族有很强的敌意,而在使用过程中,假使ChatGPT被赋予某种负面的人格特质,其回答也将含有歧视性偏见、错误的刻板印象等有害内容[10]。此外,众多AI伪造合成的数据可能会被保留甚至流入互联网,这些带有偏见的合成数据有可能再次被用于机器学习,在机器不断进行自我学习的进程中,这种偏见将会被持续加深强化,导致偏见、歧视的恶性迭代循环[11]。

(三)内容输出:数据滥用风险

关于生成式人工智能模型的数据滥用风险,当前主要存在两个日益严重的问题:一是算法滥用导致AI生成的虚假信息泛滥,二是AI诈骗等网络犯罪活动猖獗。ChatGPT类生成式人工智能模型的主要目标是模拟人类语言,而不是提供一个准确的回答。因此,为了获得用户的认可,它往往倾向于优先考虑编造虚假信息来提供一个清楚的回应而不是精确的答案。也就是说,生成式人工智能在输出内容时,可能会一本正经地胡说八道,并制造出一些虚假信息。举例来说,尽管生成式人工智能应用的算法训练数据集中没有谷歌公司的营业数据,但被问到谷歌公司当年的营业收入时,它可能会给出一个随机的数字进行回答(例如213亿美元)[12]。生成式人工智能拥有超乎想象的数据加工、生成和传播能力,因而极有可能会被不法分子利用,成为强化黑客攻击和威胁网络安全的工具[13]。近年来,关于AI诈骗的报道屡见不鲜,AI技术不仅能伪造他人面孔,还能模仿和合成他人声音。生成式人工智能的进一步发展更是让不法分子拥有了更大的作恶能力,其凭借深度合成技术可以降低成本、提高效率来伪造图片视频,生成虚假信息,以此实施侮辱、诽谤、诈骗等网络犯罪行为,给网络安全和社会秩序造成严重危害。

(四)数据存储:数据泄露风险

基于大语言模型强大的系统学习能力以及交互方式上相对的自由,这些数据的安全性往往无法有效保障,在交互过程中存在较大的数据泄露风险。其通常表现为以下三种类型:一是涉及用户生物识别信息、健康信息等个人数据泄露而引发的隐私权侵害问题;二是企业内部在使用生成式人工智能产品过程中,操作不当或者模型固有缺陷导致商业机密泄露而引发的不正当竞争问题;三是因泄露国家秘密引发的威胁国家安全问题[14]94。虽然生成式人工智能服务提供者往往会通过声明或在用户协议中设置相应条款的方式来保证采取匿名、加密等方式对数据进行安全防护,但是,大量的公开报道表明,数据泄露风险并非空穴来风。比如,OpenAI官方在2023年3月24日发布声明称,有1.2%的ChatGPT Plus的用户数据存在数据泄露风险,其中包含姓名、聊天记录片段、电子邮箱和付款地址等信息[15]。再比如,据韩国媒体报道,三星内部已先后发生三起误用、滥用ChatGPT案例,其研发人员在尝试使用ChatGPT对源代码进行修补的过程中, 反而被ChatGPT掌握了新程序的源代码以及其他企业机密数据[16]。为了避免上述情况的发生,目前已经有众多企业明确禁止员工使用生成式人工智能模型,包括德意志银行、摩根大通、高盛、花旗等公司。不难看出,由于生成式人工智能模型具有感知敏感信息的能力,不管训练数据集是否包含隐私信息,即使使用者不存在疏忽也有可能因算法技术漏洞而发生数据泄露。虽然保障数据安全的加密技术正在不断完善,但是,面对未来生成式人工智能技术的大规模应用趋势,依然会有不容忽视的数据安全风险[17]21。

二、生成式人工智能数据风险生成的原因

(一)算法高度信任对法益保护的冲击

算法作为技术进步和现实需要双重驱动下的产物,因低成本、高效率的优势被广泛应用于各大行业,人们逐渐习惯于甚至依赖于通过算法程序认知世界。生成式人工智能的横空出世,强化了人们心中对算法的强大信息处理能力、精准推荐能力的认知,加之经济性和易获取性,当下社会中生成式人工智能的应用开始流行,在一定程度上也可被看作对搜索算法的依赖。算法信任不仅包含人们信任算法生成内容是准确、可靠的主观意识,还包含了人们信任算法决策不会对自身产生不良影响的合理预期[18]。但事实上,生成式人工智能利用算法在学习和模拟人类思维运行时,既然可以模拟人类的优点,也无法避免模拟人类的缺点。而且,算法并不总是值得被信任,开发者完全可以在算法中加入自己的偏见,即算法本身的可信度存疑。尽管生成式人工智能技术本身是中立的,但由于价值缺失或者设计缺陷等原因,算法风险极易对法益保护产生冲击。在算法高度信任的背景下,即使生成式人工智能应用页面标注了风险提示,用户也可能不以为意甚至忽视其提示,疏于调查求证其给出的医疗建议是否具有科学性便直接应用[19]。此外,生成式人工智能开发者的本质仍是营利法人,对于算法的开发、升级不可避免具有逐利性。因此,即使算法应用初期合法合规,但其算法设计将或多或少受到市场经济利益的影响而忽略法律价值和权利保障的目标,从而引起侵害社会公众法益、影响市场竞争等社会公共秩序的风险。

(二)技术演变中科技伦理规范的缺失

在技术演变过程中,科技创新要遵循科技道德的价值观念和行为准则,才能有力保障科技产业的安全有序发展。当前,生成式人工智能技术正日趋成熟,其适用范围逐渐向本属于人类具有独创性价值的领域深入。然而,在这些领域内,还没有形成完整的生成式人工智能技术使用理念和行为准则,很容易在生成式人工智能技术应用过程中产生一些与科技伦理道德相违背的、不安全、不可控的风险[17]19。科技伦理道德风险的出现,一方面是基于生成式AI技术本身的缺陷,例如训练数据集本身就不具有代表性,容易产生偏见、刻板印象等歧视;另一方面,也可能是基于用户对生成式AI模型的滥用,例如用户利用生成式AI模型伪造论文、制造谣言等破坏社会秩序。

技术本身并无价值向度,但人会赋予其价值向度[20]。近期欧洲议会通过的《人工智能法案》的谈判授权草案,明确声明严格禁止“对人类安全造成不可接受风险的人工智能系统”[21]。从兼顾生成式人工智能技术的可持续健康发展、维护公民权益和社会利益的角度出发,应在遵守技术向善原则的基础上,通过立法规定要求技术研发与使用行为遵守公序良俗和社会公德。2023年7月13日,国家互联网信息办公室(以下简称“国家网信办”)公布《暂行办法》,明确规定有关生成式人工智能的内容要合法合规、禁止算法歧视、不得生成虚假信息、不得侵犯他人合法权益等相关内容,这对于应对生成式人工智能可能带来的伦理道德风险具有重要的引导性作用。但相关科技伦理规范仍不够明确化、具体化和制度化,如何应对生成式人工智能可能带来的伦理道德风险,仍将成为较长时间内人类与AI相处过程中的重要议题。

(三)用户数据主体权利保障不足

生成式人工智能系统在开发、部署以及应用过程中所有需要使用个人数据的环节,均要考虑对主体数据权利的保护。但实际上,数据主体的知情权、更正权、删除权等数据权利的实现并不乐观。例如,近期一款由用户上传照片后依据AI能力再度“生成”同一人照片的AIGC类应用“妙鸭相机”获得广泛关注,其近似“霸王条款”的用户协议也饱受争议。据媒体报道,妙鸭相机初版用户协议的“授权许可”条款用一句话概括就是:用户授权妙鸭相机,无偿且永久地使用该信息[22]。不难看出,在人工智能时代,企业对数据要素的争夺愈发激烈,用户很容易陷入被动的位置,其数据隐私安全面临的挑战日益严峻。

生成式人工智能训练数据集的建设与改进可以被划分为主动和被动两种类型。在被动组建过程中,系统将自动保存人机交互过程中用户输入的信息并将其纳入训练数据库[23]。这种高度自动化的数据收集过程中,不能及时与数据主体进行交流,容易导致对知情同意原则的适用陷入困境。实际上,对数据享有实际控制权的一方并不会止步于初步掌握数据原始主体披露的数据,而往往会通过多种智能分析技术不断对其进行挖掘与再识别,找出零散数据间的特殊关联,进而可能打破对数据的匿名化、侵犯用户隐私[24]。可见,生成式人工智能这个超大型语言模型由于在应用过程中存在过度收集行为和其数据挖掘原则尚不明确,故在维护用户数据安全、落实用户数据主体权利方面应满足更高的要求。

三、生成式人工智能数据风险规制的域外经验

任何技术都是一把“双刃剑”,生成式人工智能实现了从感知理解世界到生成创造世界的跃迁,同时也带来了算法黑箱、数据隐私、网络安全、技术伦理等方面的挑战。聚焦生成式人工智能的数据风险问题,各国都开始意识到对其进行监管的必要性,并加大审查与监管力度,力求在控制生成式人工智能风险的同时助力生成式人工智能产业健康发展。

(一)强监管或弱监管的抉择

1.欧盟:先监管后发展

从欧盟成员国范围来看,意大利个人数据保护局最早对生成式人工智能ChatGPT采取监管措施,以涉嫌违反隐私法规为由,禁止了ChatGPT在本国的使用,直到OpenAI遵守其关于用户隐私保护的规定[25]。目前欧盟已在整个欧盟层面开始酝酿具体监管措施,对于生成式人工智能的发展更侧重立法和监管路径,这与欧盟一贯先控制其可能带来的安全风险、再鼓励产业发展的严谨态度相符合。

2.美国:兼顾发展与数据保护

与欧盟先规范后发展的监管立场不同,美国在人工智能问题的治理方面主要采取相对开放的管理战略,以此来维持自己在这一领域中的国际领先地位,其更注重在不过多干预的情况下鼓励人工智能技术的发展。2020年5月,《生成人工智能网络安全法案》(Generating Artificial Intelligence Networking Security (GAINS) Act)明确提出,美国联邦贸易委员会和商务部应掌握人工智能技术的落地应用给美国带来的优势和负面影响;2020年8月的《数据问责和透明度法案》(Data Accountability and Transparency Act of 2020)就企业相关服务的隐私收集问题进行密切关注;2020年11月,《人工智能监管原则草案》(Guidance for Regulation of Artificial Intelligence Applications)则要求联邦机构在制定人工智能方法时,应考虑公众对人工智能的信任与参与、风险评估与管理、公平与非歧视、披露与透明度、安全与保障等因素。

(二)重视用户数据主体权利保障

在人工智能数据治理中,欧盟更注重对个人数据和个人权利的保护[26]。2018年5月,欧盟最严数据保护立法《通用数据保护条例》(General Data Protection Regulation,GDPR)正式施行,在世界范围内引发关注。当ChatGPT在处理个人隐私数据时,同样需要遵守该条例的规定,以确保数据处理的安全和透明,否则将会被处以2 000万欧元或高达年收入4%的罚款。美国人工智能数据风险治理对用户数据权利保障同样给予了高度重视。2022年10月,美国白宫发布的《人工智能权利法案蓝图》(Blueprint for an AI Bill of Right)提出了负责任地使用人工智能路线图。该文件对人工智能数据安全、算法歧视、数据隐私等方面给予指导,特别关注对于公民权利保障和人权侵犯的意外后果。2023年5月,美国国会研究处发布报告《生成式人工智能和数据隐私:初探》,对生成式人工智能如何使用数据、可能引发的数据隐私风险等问题进行了分析,并提出了相应对策,主要包括以下内容:第一,建立通知和披露机制,可以要求开发者在收集或使用个人数据之前获得数据主体的同意,同时告知数据主体他们的数据将用于何种目的;第二,退出机制,对于尚未公开的数据,生成式人工智能的开发者可以向用户提供退出数据收集的选项;第三,删除和最小收集要求,即用户有权从当前数据集中删除自己的数据,或以最短的期限保留其个人数据[27]。

(三)加强分级分类监管与科技伦理审查

随着人工智能技术的发展,欧盟委员会在2021年提出了《人工智能法案》的立法提案,并于2024年3月被欧洲议会表决通过;2024年5月21日,部长理事会也正式批准了该法案。这是世界范围内第一部针对人工智能进行规制的法律,主要特点是依循风险分类分级的思路对人工智能系统进行监管治理。该法案将风险划分为不可接受的风险(unacceptable risk)、高风险(high risk)、有限风险(limited risk)和最小风险(minimal risk),针对不同等级的风险,法案将实施不同程度的控制措施。该法案自提出至今,历经多次更改,目前最新版针对高风险人工智能系统提供者的义务作了特别规定,包括应当完成合格性评估程序、履行注册义务以及负有设立质量管理体系的义务等内容[28]。

2019年,欧盟在人工智能算法、科技伦理监管方面有所发展,发布了《算法问责及透明治理框架》(A Governance Framework for Algorithmic Accountability and Transparency),提出了一个应用广泛、内容全面的监管框架来治理迅速发展的算法应用。此外,通过《可信赖人工智能伦理准则》(Ethical Guidelines for Trustworthy AI)提出的尊重人自主性(respect for human autonomy)、预防伤害(prevention of harm)、公平性(fairness)和可解释性(interpretability)四项伦理准则以及人的能动性和监督(human agency and oversight)、技术鲁棒性和安全性(technical robustness and safety)、隐私和数据管理(privacy and data government)、透明性(transparency)、多样性、非歧视性和公平性(diversity, non-discrimination and fairness)、社会和环境福祉(social and environmental well-being)和问责(accountability)实现可信赖AI的七个关键要素[29]。

欧盟和美国各有侧重的人工智能数据风险治理路径探索,为我国生成式人工智能数据风险的法律治理提供了有益的借鉴。可以看出,对技术手段实施合理规制是十分必要的,只要监管方案与控制手段设计得当,便能在促进发展的同时防范风险。我国需根据生成式人工智能的发展现状,以及可能产生的一系列具体问题,探寻具有中国特色的法律规制路径,在鼓励技术革新的同时维护数据安全。

四、生成式人工智能数据风险规制的路径

生成式人工智能是数字经济发展的重要底层技术,《暂行办法》的出台,表明我国在平衡AI技术创新与安全发展方面开始进行有益探索。面对呈爆炸级趋势增长的生成式人工智能应用,应把握监管重点、守正创新,对数据源合规风险、算法风险、数据滥用风险和数据泄露风险进行有针对性的法律规制,监管和引导生成式AI技术应用健康向善发展。

(一)数据源合规风险规制

在对海量数据进行算法训练、模型应用前,生成式人工智能服务开发者首先要进行数据收集处理活动。研发企业应遵循《数据安全法》《个人信息保护法》规定的数据收集的一般原则,合规经营并确保数据来源合法合规,同时通过多种渠道和措施保障数据主体权利实现,有效防控数据源合规风险。

1.强化企业合规经营,确保数据来源合法

生成式人工智能训练数据的来源方式主要可以分为三种:一是通过网络爬虫、自动识别算法等自动化工具自行收集数据,二是间接向数据提供方收集数据,三是直接面向数据主体收集数据。针对第一种情况,研发企业应注意自动获取数据时的合规风险。根据我国《刑法》的相关规定,利用爬虫等计算机技术程序,非法入侵计算机系统从而获得数据的,可能构成侵犯商业秘密罪或者非法侵入计算机信息系统罪。可以看出,我国法律已经明令禁止非法获取数据的行为。因此,研发企业有必要事先制定相应的数据合规计划,了解如何合法合规地获取数据和数据获取过程中可能遇到的刑事风险,并制定详细具体的风险规制措施。企业若采用“爬虫”“自动识别算法”等自动化工具收集数据,则应当自行评估其“爬取”“识别”数据的行为对目标网络系统可能造成的不利影响,不得影响目标网络系统功能的正常使用[30]。研发企业向数据提供方获取开源数据集来间接收集数据用以模型训练时,应积极审查数据提供方是否具备提供数据的法律依据及合法性来源,涉及知识产权的,不得侵害他人依法享有的知识产权,并要求数据提供方配合定期开展合规审计,确保数据来源的合法合规[31]。

2.强化用户数据主体权利保障

直接面向数据主体收集数据时,特别是涉及有关个人信息的数据收集过程中,研发企业需要将《个人信息保护法》规定的知情同意、最小必要和适当等基本原则的践行情况作为个人信息处理审查的重要标准。首先,应根据现实具体的服务场景针对性地采集个人数据,并明确告知用户收集、使用个人信息的具体范围与目的以及数据可能存在的泄露风险,确保获取的个人数据已经取得用户真实同意。特别是在人机交互过程中,在收集记录用户的输入和输出内容时应以显著标识进行说明,并充分给予使用者拒绝提供的权利。企业内部应设立专门的审查机构,对数据采集内容进行合规审查,非法数据、未经用户明确同意或者许可的数据均不能纳入算法的训练数据集。其次,开发者应该在保证正常提供生成式人工智能产品服务时所必须的最小范围内采集个人数据,不应过度延伸。最后,根据《暂行办法》第9条规定,生成式人工智能服务提供者提供的服务中如果存在与用户个人信息相关联的,提供者应当按照法律规定积极履行个人信息保护义务,并通过与用户签订使用协议或者服务协议的方式,在协议条款中对双方的权利义务作出明确规定。生成式人工智能服务开发者应确保能够及时处理用户的查阅、复制、更正、补充、删除其个人信息等请求,保障其对个人数据的删除权、更正权、拒绝权及自主决定权的正常行使。

(二)算法风险规制

生成式人工智能的运作机制离不开算法,而算法的实施又会产生算法黑箱、算法偏见或算法歧视等问题。鉴于生成式人工智能的算法风险以及域外治理现状,法律应及时介入,积极推进算法监管,重点关注算法的安全性和公平性。

1.加强算法备案,推进算法透明度治理

近年来,我国积极探索人工智能领域算法监管。2021年,国家网信办公布的《算法推荐规定》主要用于规范算法推荐服务提供者使用生成合成类等算法推荐技术来提供服务的行为。2022年,国家网信办又发布《深度合成管理规定》,对深度合成技术提出一系列要求。2023年,为应对ChatGPT的面世和大模型领域的密集动态,除正式出台《暂行办法》外,《人工智能法(草案)》也被列入国务院2023年度立法工作计划中。其中,根据《暂行办法》第4条规定,生成式人工智能服务提供者和算法使用者在选取训练数据、建立与优化大语言模型的过程中,应该避免对不同种族、不同性别、不同国家、不同职业、不同年龄、不同信仰等方面进行歧视。《暂行办法》第17条规定,向公众提供容易引发社会舆论或者具备一定社会动员功能的生成式人工智能服务前,要严格依照法律规定进行事前安全评估,并依照《算法推荐规定》履行算法备案、变更或者注销手续。因此,作为一个负责任的生成式人工智能应用开发者应积极履行算法备案与安全评估义务,并应根据监管机构要求提供必要信息。在算法设计与实际应用过程中,算法开发者应当一直坚持“以人为本”的技术向善发展观念,始终遵循各行业的伦理规范以及算法设计伦理准则进行研发设计,并适时地对算法运行规则进行调整和更新,以最大限度地避免算法本身所带来的先天歧视[32]。截至2023年9月1日,国家网信办已经公布了两批深度合成服务算法备案清单,共计151项,包括阿里、百度、科大讯飞等大模型算法,保障了公众知情权和技术透明度。

2.赋予算法解释义务,落实算法主体责任

算法运算透明并不意味着算法的完全公开,仅规定算法备案制度还难以实现对科技创新的保护与监管之间的平衡。因此,在后续立法或实践中应细化公开义务,具体规定应当进行算法披露的程度和限度,避免侵犯商业秘密,并赋予算法设计者合理的解释义务以减少不必要的纠纷。在算法解释义务的具体构建中,可以考虑引入双向驱动型算法解释工具,即当相对人认为生成内容侵犯个人利益或者公共利益时,有权请求算法开发者和使用者向监管部门承担解释说明任务,监管部门或者司法机关在相关执法司法活动等特定场景中,有权要求算法开发者和使用者就产生争议的算法决策进行解释[33]。除此之外,为消除算法黑箱与算法偏见带来的规则盲区,还应该通过明确责任主体、归责原则、责任分配及法律后果等方式,完善算法问责机制,落实算法主体责任[34]。

(三)数据滥用风险规制

生成式人工智能的发展为多领域带来了创新机遇,但也带来了虚假信息传播、AI诈骗猖獗等威胁社会稳定的数据滥用风险。针对可能存在的数据滥用风险,应当强化科研伦理的法治化,实现科技向善治理,同时建立多元监管机制,实现全链条合法性监管。

1.加强科技伦理审查,实现科技向善治理

科技伦理是指进行科学研究、技术创新等科技活动时,必须要遵循的行为准则和价值理念,包括科研行为必须要遵守的学术规范以及现实社会基本道德对科研成果进行规范的边界[35]。在生成式人工智能产业大力发展的进程中,必须时刻谨记“以人为本伦理先行”和“科技为人服务”的理念,不能盲目地为了追求利润最大化而忽视研发底线。当前,我国虽出台了《关于加强科技伦理治理的意见》《新一代人工智能治理原则——发展负责任的人工智能》《新一代人工智能伦理规范》等顶层设计和制度方案,但仍难以适应人工智能领域科技创新发展的现实需要,在具体规则和实施落地等方面还需不断推进。具体而言,可以尝试通过对生成式人工智能从开发到现实使用的不同阶段、应用的不同领域或者同一领域的不同场景特征与构成要素,分别制定更具有行业针对性的科技伦理审查标准,从而指导研发企业依法依规开展科技创新活动[36]。与此同时,还可以考虑建立独立的人工智能伦理审查机构(如科技伦理委员会),并组织制定生成式AI的伦理指南、自律公约等行业规范来提高行业准入门槛,在生成式AI进入市场前进行道德审查。

2.建立多元监管机制,实现全链条合法性监管

我国对于生成式人工智能应用风险的监管治理,主要采用目标与问题导向相结合的风险治理框架,既不同于欧盟相对严苛的风险监管模式,也不同于美国几乎没有限制的宽松风险监管模式。为有效规制数据滥用风险,完善生成式人工智能的法治保障,应根据《暂行办法》规定的“包容审慎”监管原则《生成式人工智能服务管理暂行办法》第3条规定:“国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。”,优化和升级人工智能安全监管模式,建立多元长效监管机制,实现对生成内容的全链条合法性监管。

一方面,可以考虑建立覆盖研发运行全程的独立监管机构,制定统一的生成式人工智能责任框架,合理平衡数据安全与科技创新的保护边界。监管者在既有数据安全监管基础上,可以考虑引入影响评估、监管沙盒等制度,同时要求服务提供者如实依法报送算法、技术等必要信息。值得注意的是,在促进算法开源的过程中,应当特别注意对初创公司和个人创业者的保护。此外,监管者应当将监管审查重点聚焦于商业化应用层面,积极进行生成式人工智能应用安全评估与检查,将其可能出现的偏差与错误及时通知服务提供者,并督促其进行检测和排除,防止生成式人工智能被用于非法或不道德的目的[37]。

另一方面,研发企业自身应通过多种机制和技术手段加强对数据滥用风险的监管。从OpenAI等企业受到监管和关注不难发现,一家可持续发展的AI企业必须具备良好的风险治理水平、持续的合规风险治理更新和改善能力。当生成式人工智能产品投入市场运营时,服务提供者应当同时对产品中是否存在违法违规内容进行实时监督和处置。根据《暂行办法》有关规定参见《生成式人工智能服务管理暂行办法》第7条、第14条。,生成式人工智能服务研发人员在选取训练数据集、涉及算法、建立与优化大语言模型的过程中, 应采取必要措施防止其生成违法内容;服务提供者一旦发现侵权或者生成内容违法时,应立即采取更正、屏蔽、删除等措施, 并在后续对生成式人工智能模型进行内容过滤或模型优化训练。研发者可以在算法技术中嵌入虚假信息监测技术,及时更新、优化算法,在内容输出前进行事先审查,提高输出内容的准确度和可信度。此外,还可以在产品使用页面增加质疑通道,当用户发现使用过程中生成了虚假信息或者违法信息时,可以及时反馈给服务提供者或开发者,系统也应对该内容进行自动标注以便提示其他用户[14]98。

(四)数据泄露风险规制

数据泄露风险规制是生成式人工智能发展过程中不可回避的重点和难点之一,因为一旦发生数据泄露事件,不仅会影响企业声誉从而引发信任危机,还可能需要承担严重的刑事责任。我国《数据安全法》第45条规定,数据处理者在数据处理活动中引发大规模数据泄露事件,将被处以高昂罚款,并责令停业整顿甚至吊销营业执照。在当前我国坚持发展和安全并重、对生成式人工智能服务实行包容审慎和分类分级监管的形势下,研发生成式人工智能大模型的企业应更加关注数据泄露的防范措施。治理数据泄露风险,只有从技术和管理制度两方面入手,双管齐下方能达到事半功倍的效果。

1.严格控制数据共享范围,引导和促进新技术应用

从技术角度来看,研发者应当对数据共享渠道和共享对象进行严格管理,只能在获得用户同意的范围内进行数据共享,遵守《暂行办法》第11条的规定,即“提供者不得非法向他人提供使用者的输入信息和使用记录”。当无法避免数据要素在市场上流通时,应当对其进行严格的脱敏处理,即通过一系列技术处理方式,对掌握的用户个人数据中具有可识别性的内容予以模糊化处理,最终使其无法定位到某一特定用户,通过匿名化可保证用户个人数据权益,降低数据泄露可能造成的危害后果[38]。同时,企业应当根据木马病毒、虚假WAP(无线应用协议)等网络攻击技术的特点,不断优化更新算法技术,可以采取动态秘钥、IP地址限制等方法确保对敏感、涉密数据的安全存储,防止训练数据泄露,还要加速生成式人工智能领域的技术升级和更新,推广新技术的应用。2023年,开源AI解决方案公司ClearML宣布推出ClearGPT,声称该产品的显著特点是为企业定制大型语言模型,通过在组织网络内提供安全环境来提供解决方案,确保完全控制并消除数据泄露的可能性,这是未来AIGC领域避免数据泄露风险的一个理想发展方向[39]。再比如,对隐私计算技术,可以通过多方共享软件开发工具包(software derelopment kit,SDK)的方式,实现多方数据控制者在不暴露数据本身的情况下进行相互之间的数据传输、建模、互联,同时保证AIGC在正常提供服务的同时不会造成数据泄露[17]26。

2.贯彻数据分级分类保护,落实数据安全保障义务

在管理制度层面,服务提供企业应当贯彻落实数据分级分类保护原则,加强数据泄露风险监测,将数据安全保障义务逐级落实到具体负责人,以实现全面的安全防护和风险管理。其一,AIGC开发商和运营商应当根据数据的类型和安全级别,对数据泄露可能带来的影响进行安全风险评估,将存储的不同种类数据按照评估结果进行分级分类管理,避免重要数据防护不足、非重要数据过度防护,尤其要着重加强对医疗健康、生物识别、未成年人信息等敏感个人数据的保护。其二,可以利用操作分析、异常行为监测等多重手段加强数据泄露风险监测,建立监测预警机制和数据泄露应急处置机制。当检测到数据泄露风险时,立即启动应急处理预案,及时消除相关风险。若无法及时消灭数据安全漏洞,那么数据泄露事故发生后,根据《数据安全法》第29条规定,应立即启动处置措施,及时告知用户并向有关主管部门报告。其三,将数据安全保障义务逐级落实到具体负责人,要求研发企业建立一整套专门负责数据安全与隐私合规的管理体系,在内部组织架构中设置专门机构和专门负责人员(包括首席数据官),并定期组织培训。与此同时,还应当建立一套完备的数据访问机制,避免数据被外来人员无权访问或被内部人员越权访问,并可以利用技术手段对访问记录进行详细追踪,进而在发生数据泄露时尽快识别出数据责任主体。

五、结语

随着ChatGPT等新一代大语言模型的崛起,生成式人工智能所实现的功能已远远超乎人们的想象。技术在迭代更新的同时也引发了一系列数据安全问题,如何在鼓励技术创新的同时防范其可能带来的负面影响,我国正在摸索自己的治理途径。《暂行办法》的出台较好地回应了生成式人工智能带来的挑战,但未来仍需不断坚持鼓励创新与严守底线相结合的监管原则,并不断完善立法,以便及时适应科技进步和产业演进的需求,强化科研伦理观念,建立“以人为本”的技术体系,加强算法规制与隐私保护,调整和细化企业数据安全合规管理体系,完善用户数据主体权利保障机制,为未来智能生态系统提供有力的法律保障。

参考文献:

[1]江琴,左晓栋.人工智能伦理审查与监管初探[J].中国信息安全,2023(5):36-40.

[2]加拿大联邦及多个省份隐私监管机构对ChatGPT展开调查[EB/OL].(2023-05-26)[2023-06-15].http://www.chinanews.com.cn/gj/2023/05-26/10014350.shtml.

[3]黄震华,杨顺志,林威,等.知识蒸馏研究综述[J].计算机学报,2022(3):624-653.

[4]毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(3):155-172.

[5]刘艳红.生成式人工智能的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023(4):29-43.

[6]拒绝被AI盗走知识产权,《纽约时报》欲起诉OpenAI[EB/OL].(2023-08-18)[2023-08-19].https://www.thepaper.cn/newsDetail_forward_24279003.

[7]郑晓华.算法时代网络意识形态风险防范与实践逻辑[J].重庆邮电大学学报(社会科学版),2023(1):163-170.

[8]赵宏.公共决策适用算法技术的规范分析与实体边界[J].比较法研究,2023(2):1-16.

[9]LAURA W,JONATHAN U,MARIBETH R,et al.Taxonomy of risks posed by language models[EB/OL].(2022-06-20)[2023-06-23].https://dl.acm.org/doi/fullHtml/10.1145/3531146.3533088.

[10]DESHPANDE A,MURAHARI V,KALYAN A,et al.Toxicity in ChatGPT:Analyzing persona-assigned language models[EB/OL].(2023-04-11)[2023-06-24].https://arxiv.org/abs/2304.05335.

[11]游俊哲.ChatGPT类生成式人工智能在科研场景中的应用风险与控制措施[J].情报理论与实践,2023(6):24-32.

[12]Wikipedia.Hallucination “artificial intelligence”[EB/OL].(2023-09-06)[2023-09-07].https://en.wikipedia.org/wiki/Hallucination_.

[13]周亭,蒲成.生成式人工智能的国际传播能力及潜在治理风险[J].对外传播,2023(4):14-18.

[14]邓建鹏,朱怿成.ChatGPT模型的法律风险及应对之策[J].新疆师范大学学报(哲学社会科学版),2023(5).

[15]OpenAI.March 20 ChatGPT outage:Here’s what happened[EB/OL].(2023-03-24)[2023-06-24].https://openai.com/blog/march-20-chatgpt-outage.

[16]赵竹青.系好“安全带”,生成式人工智能才会更好发展[EB/OL].(2023-04-13)[2023-06-24].http://finance.people.com.cn/n1/2023/0413/c1004-32663675.html.

[17]陈兵.生成式人工智能可信发展的法治基础[J].上海政法学院学报(法治论丛),2023(4).

[18]谭佐财.ChatGPT的法律风险与治理路径[J].湖南科技大学学报(社会科学版),2023(3):117-125.

[19]王洋,闫海.生成式人工智能的风险迭代与规制革新——以ChatGPT为例[J].理论月刊,2023(6):14-24.

[20]熊光清.生成式人工智能治理的法治维度[EB/OL].(2023-07-16)[2023-08-12].https://baijiahao.baidu.com/s?id=1771507002728495875amp;wfr=spideramp;for=pc.

[21]陈奕凯.“ChatGPT之父”呼吁监管ChatGPT[EB/OL].(2023-05-17)[2023-06-12].https://www.bjnews.com.cn/detail/168432347614319.html.

[22]罗亦丹.妙鸭相机火爆背后:隐私条款惹争议,能否“挑战”照相业?[EB/OL].(2023-07-23)[2023-07-24].https://www.bjnews.com.cn/detail/1690084299168871.html.

[23]钭晓东.风险与控制:论生成式人工智能应用的个人信息保护[J].政法论丛,2023(4):59-68.

[24]蒋洁.AI图景下大数据挖掘的风险评估与应对策略[J].现代情报,2018(5):147-151.

[25]董潇,郭静荷,史晓宇.人工智能及算法治理的新进展——基于ChatGPT在意大利的监管案例评析[EB/OL].(2023-06-29)[2023-06-30].https://www.junhe.com/legal-updates/2203.

[26]商建刚.生成式人工智能风险治理元规则研究[J].东方法学,2023(3):4-17.

[27]KRISTEN E.Generative artificial intelligence and data privacy:A primer[EB/OL].(2023-05-23)[2023-06-16].https://crsreports.congress.gov/product/pdf/R/R47569.

[28]宁宣凤,吴涵.路未央,花已遍芳——欧盟《人工智能法案》主要监管及激励措施评述[EB/OL].(2023-08-03)[2023-08-16].https://www.kwm.com/cn/zh/insights/latest-thinking/eu-ai-act-main-supervision-and-incentive-measures.html.

[29]张霄军,邵璐.构建可信赖机器翻译系统的基本原则——一种基于工程伦理的观点[J].外国语文,2021(1):1-8.

[30]孟洁,周子川,杜畅.人工智能大语言模型开发与应用的数据合规风险及其应对——兼论《生成式人工智能服务管理办法(征求意见稿)》合规要点[EB/OL].(2023-04-12)[2023-06-18].http://www.glo.com.cn/Content/2023/04-13/1511401407.html.

[31]陈际红,吴佳蔚,陈煜烺.《生成式人工智能服务管理暂行办法》发布,解析AIGC的数据合规挑战与应对之道[EB/OL].(2023-07-13)[2023-07-18].https://www.zhonglun.com/Content/2023/07-13/1404150284.html.

[32]石颖.算法歧视的发生逻辑与法律规制[J].理论探索,2022(3):122-128.

[33]刘辉.双向驱动型算法解释工具:以默示算法共谋为场景的探索[J].现代法学,2022(6):58-71.

[34]程雪军.金融科技平台算法黑箱的法律规制研究[C]//2023年世界人工智能大会法治论坛论文集.上海:上海市法学会,2023:203-217.

[35]樊春良.科技伦理治理的理论与实践[J].科学与社会,2021(4):33-50.

[36]陈兵.促进生成式人工智能规范发展的法治考量及实践架构——兼评《生成式人工智能服务管理暂行办法》相关条款[J].中国应用法学,2023(4):108-125.

[37]袁曾.生成式人工智能的责任能力研究[J].东方法学,2023(3):18-33.

[38]宋才发.个人信息保护的法律规制与法治路径[J].重庆邮电大学学报(社会科学版),2022(5):48-56.

[39]ClearML推出ClearGPT,一个挑战ChatGPT的生成式AI平台[EB/OL].(2023-05-20)[2023-06-18].https://www.qidianai.net/news/563.html.

Data risk of generative artificial intelligence and its legal regulation

Abstract:

The emergence of ChatGPT has stirred up a new round of development in generative artificial intelligence, leading to technological change while also triggering many legal risks. According to the operation mechanism of generative AI, four major types of data security risks can be found, mainly due to the impact of high trust in algorithms on the protection of legal interests, the lack of scientific and technological ethical norms in the evolution of the technology, and insufficient protection of users’ data subject rights. For the data source compliance risk of generative AI in the data input stage, Ramp;D enterprises should formulate an operable data compliance plan, and formulate detailed and specific risk control measures in the compliance plan to strengthen the compliance operation of the enterprise, and at the same time, actively respond to the user’s request for the rights of the data subject through a variety of measures, so as to ensure that the source of the model training data is legal and compliant. Regarding the risk of algorithmic black box and algorithmic bias in the model processing stage of generative AI, we should increase supervision, focus on the safety and fairness of algorithms, actively promote and improve relevant legislation, refine algorithmic filing and algorithmic interpretation obligations, improve algorithmic technology transparency, and implement algorithmic subject responsibility. In response to the data abuse risks in the content output stage of generative artificial intelligence, we should optimize the regulatory mechanism to achieve full-chain legitimacy supervision, improve scientific research ethics norms and conduct substantive review, lead technology to goodness, and achieve good governance of science and technology. In response to the data leakage risks in the data storage stage of generative artificial intelligence, we should adopt a comprehensive regulation approach combining technology and management systems to strictly control the scope of data sharing and implement data classification and protection, and timely and effectively prevent data leakage risks.

Keywords:

intelligent algorithm; generative artificial intelligence; data risk; legal regulation

猜你喜欢
生成式人工智能智能算法法律规制
挑战·融合·变革:“ChatGPT与未来教育”会议综述
生成式人工智能重塑教育及教师应对之道
人机共生时代国际传播的理念升维与自主叙事体系构建
对外传播(2023年4期)2023-05-21 20:52:16
生成式人工智能的教育应用与展望
神经网络智能算法在发电机主绝缘状态评估领域的应用
大电机技术(2022年1期)2022-03-16 06:40:12
基于超像素的图像智能算法在矿物颗粒分割中的应用
从鸡群算法看群体智能算法的发展趋势
数码世界(2017年5期)2017-12-29 13:16:32
改进的多目标快速群搜索算法的应用
价值工程(2016年32期)2016-12-20 20:30:37
商业预付卡经营行为的法律规制
我国网络经济中不正当竞争行为的法律规制