王大志,张 挺
(杭州师范大学 沈钧儒法学院,浙江 杭州 310000)
自生成式人工智能聊天机器人ChatGPT发布以来,生成式人工智能法律风险规制问题便成为了学界的讨论热点。2023年3月24日,OpenAI公司表示因其开源数据库可能存在的错误导致ChatGPT缓存出现问题,部分用户可能看到其他用户的个人信息,大约1.2%的用户会受此次漏洞事件影响(1)参见March 20 ChatGPT outrage,“Here is what happend”,https://openai.com/blog/march-20-chatgpt-outage,最后访问日期:2023年7月20日。。据此,许多学者都表达了对ChatGPT用户数据隐私以及个人信息存在泄露风险的担忧[1]。生成式人工智能可以通过学习海量的人类创造的内容来生成新的内容[2],与传统人工智能相比,其创造能力得到了大幅度提升。生成式人工智能的运行十分依赖数据和算法的支持,因此,如何合理规制其数据处理和算法运行是预防其个人信息法律风险的关键所在。本文就生成式人工智能运用过程中可能引发的个人信息安全法律风险及规制困境进行分析,并结合我国及其他国家和地区的生成式人工智能立法现状提出生成式人工智能个人信息安全风险规制的可行对策。
目前,生成式人工智能主要有两种技术类型:第一种是生成式对抗网络(Generative Adversarial Network,GAN)。GAN是一种常用的生成建模人工智能技术,广泛应用于工业设计、游戏场景、动画设计等领域。例如,FaceApp和ZAO两款知名应用程序为用户提供的编辑面部表情与换脸功能,均得益于对GAN的应用。第二种是生成式预训练转化器(Generative Pre-trained Transformer,GPT)[3]。以ChatGPT为例:其技术架构可分为“语料数据收集”“预训练”和“微调”三个阶段:第一,语料体系是语言模型的基础,ChatGPT通过各种渠道收集数据信息,形成海量文本数据基础;第二,预训练阶段,在具备了充分的语料基础上通过算法对大规模语言模型进行训练,赋予其理解自然语言、学习上下文生成自然语言的能力;第三,微调,即通过OpenAI研发的Codex模型,赋予GPT模型生成和理解代码的能力,使其生成的答案更加合理[4]。ChatGPT的内容生成能力会随着新数据的不断涌入而升级,同时,也会产生一系列伴生风险。
生成式人工智能对数据的动态利用过程、算法机制、生成属性都决定了其个人信息安全风险的多阶段性。因此,对于生成式人工智能的个人信息安全风险的探究可以围绕数据、算法、生成性内容三个要素展开。
1.个人数据层面。主要包括以下两个方面:
(1)个人数据来源合法性风险。《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)第13条规定了个人信息收集处理知情同意规则。无论是一般的互联网应用还是生成式人工智能应用,在对用户个人信息进行收集时,都需要通过隐私政策或个人信息法律保护政策向用户告知其个人信息收集行为,再由个人信息主体决定是否允许个人信息被收集。特殊的是,生成式人工智能采取多阶段的数据收集方式,每个阶段都会存在个人数据混同收集的情况。因此,其个人数据来源合法性存在更大的法律风险。
第一,预训练阶段。ChatGPT类的生成式人工智能在预训练阶段需要对海量的数据进行收集。此阶段对个人数据的收集几乎完全脱离了《个人信息保护法》基本的“通知—同意”结构,导致知情同意原则在其预训练阶段失去了约束力。除此之外,通过网络爬虫技术获得他人个人信息还可能违反我国《网络安全法》第27条禁止个人非法获取个人信息的规定,甚至可能触犯侵犯公民个人信息罪。
第二,运行阶段。以ChatGPT为例:生成式人工智能会对用户的账户信息、通信信息、社交媒体等个人信息进行收集(2)参见openAI,“Privacy policy”,https://openai.com/policies/privacy-policy.,若拒绝提供个人信息,则无法获得其完整服务。目前互联网市场上的大多数应用程序都需要用户在进行注册时同意其隐私协议,否则就无法使用该软件。被迫同意已经成为一种常见现象,这实质上是对用户信息进行不当收集的表现[5]。
第三,内容生成阶段。OpenAI公司在其发布的隐私策略中指出,用户在与应用进行对话过程中所提出的问题与应用生成内容也将作为一种数据被其自动收集,用户与应用对话的过程实际上就是被收集信息的过程。在此过程中,用户自身的个人信息可能会以生成内容的形式而被其再次收集,该行为并未在用户使用的过程中告知用户。
(2)个人数据非法使用风险。除严守“知情同意”原则外,《个人信息保护法》第6条规定的“目的限制”原则要求信息处理者在收集处理个人信息时应当有“具体、清晰和正当的目的”,并且在后续处理个人信息的过程中不违反初始目的[6]。因此,生成式人工智能对个人数据进行收集之后,仍存在非法使用个人数据的风险。
第一,个人数据泄漏风险。生成式人工智能的技术性错误引发个人数据泄露。个人数据的存储措施是否合规是保障其的关键。目前,OpenAI公司并未提供向用户个人提供检查其个人数据存储库的方式,其信息使用条款也未对用户个人信息的数据存储期限以及具体保护措施进行详细的说明。根据我国《个人信息保护法》第17条第2款之规定(3)参见《中华人民共和国个人信息保护法》第十七条第2款规定。,个人信息并非可以无限期地保留,其存储时间应当受到限制。实践中,ChatGPT这种对信息存储期限暧昧不明的做法,显然不利于用户的个人信息权益的保护。
第二,个人数据非法商业利用风险。OpenAI公司隐私策略关于个人信息的公开条款中指出,除法律要求外,仍会在用户不知情的情况下将其个人信息提供给第三方,包括相关供应商和服务提供商等,其中包括用户的商业信息以及网络活动信息。这些带有消费倾向性的个人信息进一步加剧了人工智能决策的算法歧视问题。
第三,个人数据跨境流动风险。数据已经成为国际竞争与合作的重要资源,个人数据不仅仅只包含着公民的个体利益,大范围的公民个人信息传输还会触及国家数据主权安全。首先,任何一个国家对他国公民的人信息进行非法收集都可能会引发数据垄断与数字霸权等问题。其次,个人信息的大范围传播很可能会引发国家情报安全问题,一旦大量的敏感个人信息被人工智能非法传输,就很可能引发“数据窃取”以及“数据攻击”等安全问题。以ChatGPT为例:其用户的个人信息以及后续对应用提出的问题都会被传输到美国的OpenAI公司,以便其利用该数据与美国的第三方主体进行合作。若我国用户所提的问题涉及个人信息、敏感信息甚至涉及国家安全、公共健康和安全等方面的重要数据,则存在着极大的法律风险。鉴于我国政府严格的互联网准入与审查制度,中国大陆公民并不能直接注册ChatGPT账号。我国政府对ChatGPT能否进入我国互联网市场还未有明确态度。目前,非授权地区用户一般通过使用VPN“翻墙”或者通过“中间商”提供转接的方式,购买国外手机号码注册ChatGPT账号以获取ChatGPT服务。该行为违反了我国《计算机信息网络国际联网安全保护管理办法》等相关行政法律规定,转接服务提供者使用OpenAI、ChatGPT等具有辨识性名称的行为,还可能违反《中华人民共和国商标法》(4)参见《中华人民共和国商标法》第五十七条规定。《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》(5)参见《中华人民共和国个人信息保护法》第三十八条规定。等法律规定。可见,ChatGPT对非授权区域的个人信息进行收集并不具备法律上的正当性。
2.算法运行层面。如前文所述,若在数据收集阶段未能对个人数据收集及处理行为进行必要的规制,其不良影响必定会延续到生成式人工智能的算法运行阶段。人工智能算法歧视问题由来已久,算法将人们在网络世界中的网络习惯与喜好、购物记录、GPS位置数据等各种网络足迹和活动,转变为各种可预测的数据,个人信息主体无可避免地成了生成式人工智能计算的客体,随着我国《互联网信息服务算法推荐管理规定》(以下简称《算法推荐管理规定》)(6)参见《互联网信息服务算法推荐管理规定》第三十一条规定。的发布,其算法法律风险将进一步加剧。
(1)算法黑箱侵犯个人数据主体权利。生成式人工智能能力的飞跃性提升带来了更加复杂的人工智能算法黑箱问题。算法黑箱是指算法模型运行过程中存在的技术盲区,我们无法从算法模型的外部直接观察或者打开其那日不了解数据的处理过程[7]。简言之,很大程度上我们无法回答诸如“为什么人工智能会做出这样的判断”的问题。因此,司法实践中也就难以对其生成性内容的合法性做出准确的判断,在违背“知情同意”原则的同时,还会产生潜在的个人信息损害问题。
(2)数据偏见引发的算法偏见与算法歧视。人工智能的歧视性问题根本上取决于其背后算法训练的数据,个人数据的不当收集和处理行为是引发生成式人工智能算法偏见或算法歧视的根本原因。ChatGPT是基于语料数据喂养和RLHF强化训练的产物,它所输出的内容仍然是原始文本数据、算法模型和系统设计者的价值取向。其文本输出看似客观中立,但本质上仍体现着其背后操控者的意志[8]。因此,其算法偏见与算法歧视规制问题也需要进行讨论。与传统算法模型相比,ChatGPT算法不仅依靠其内在的机器学习,还介入了许多人为因素[9]。人工促进算法纠偏虽然能够提升ChatGPT的智能化程度与文本的准确性,使其在交互过程中产生的内容更易于理解。但因为人工标注受标注者偏好的影响,机器学习的算法框架本身便存在偏见,二者一旦叠加便会导致算法偏见的负面效应倍增。因此,生成式人工智能算法偏见的产生渠道更加多样,风险也更加难以预防。
3.生成性内容层面。与传统决策式的人工智能相比,生成式人工智能的能力并不是简单的“分析—决策”过程,更体现在其迭代发展的“创新”能力。以ChatGPT为例:openAI公司最新发布的ChatGPT-4不仅能够依据存储和重复的知识进行推理和决策,还展示出了比以往人工智能更强的创造性和协作性。例如,GPT-4不仅可以创作歌曲、编写剧本、生成各类符合用户要求的文本,而且其编程能力也得到了进一步提升(7)参见Microsoft Research,“Sparks of Artificial General Intelligence:Early experiments with GPT-4”,https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/.。其生成能力的提升,同样会引发个人信息安全风险:一是生成式内容泄露个人信息。如前文所述,用户在与应用进行对话过程中所提出的问题与应用生成内容也将作为一种数据被其自动收集。因此,用户自身的个人信息与交互内容可能会以新的生成内容的形式被泄露。二是非法利用生成式人工智能生成恶意盗取个人信息。GPT-4极大程度地降低了攻击代码编写的技术门槛,具备了无代码编程能力。在此过程中,个人信息也面临着被生成的恶意程序盗取的巨大风险,成为第三方盗取个人信息的工具。
1.国外生成式人工智能立法实践。欧盟、美国等国外生成式人工智能立法实践表现如下:
(1)欧盟方面。欧盟对于人工智能的立法讨论仍集中于传统人工智能领域,尚未针对生成式人工智能进行单独立法,但其人工智能立法与实践仍处于世界前列,形成了以立法引领人工智能发展的基本格局。2023年6月14日,欧洲议会投票通过《人工智能法案》草案(8)参见澎湃新闻:《第一部AI监管法案要来了?欧洲议会通过〈人工智能法案〉草案》,https://www.thepaper.cn/newsDetail_forward_23507218,最后访问日期:2023年7月21日。(以下简称《法案》),形成了基本的人工智能法律治理体系。《法案》采取了宽泛的AI系统定义(9)参见欧盟《人工智能法案》草案第三条第(1)款规定。,保证了《法案》对包括生成式人工智能在内的未来新兴人工智能系统的广泛适用性,第三条第(9)—(33)款对人工智能所涉及的数据类型进行了分类与解释与《GDPR通用数据条例》(以下简称GDPR)中对个人数据的解释保持一致(10)参见《GDPR 通用数据保护条例》第一章第4条第(1)款规定。。可见,从对个人数据的定义以及个人数据的处理方式来看,欧盟在人工智能个人信息风险治理层面最大限度地促使《法案》与《通用数据条例》接轨;同时,欧盟部分地区也已经采取了相应措施应对ChatGPT产生的风险。例如,意大利个人数据保护局(DPA)针对ChatGPT平台出现的用户对话数据和付款服务支付信息丢失情况做出了回应,DPA认为平台并未履行收集处理用户信息的告知义务,其收集和存储个人数据的行为缺乏法律依据,宣布从2023年3月31日起禁止使用ChatGPT,限制OpenAI公司随意对意大利用户数据进行收集与处理,同时对此次事件进行立案调查(11)参见澎湃新闻:《意大利要求ChatGPT公开数据处理逻辑,满足才能重新上线》,https://www.thepaper.cn/newsDetail_forward_22681327,最后访问日期:2023年6月25日。。
(2)美国方面。作为最早对人工智能进行探索和ChatGPT的产生地,美国为确保自身在人工智能领域的全球领导地位,在立法层面也做了许多尝试。在传统人工智能层面,美国主要采取人工智能+具体领域的法律规制方法。例如,人脸识别领域,《加州人脸识别技术法》强调在保障公民隐私及自由与发挥人脸识别技术的公共服务优势方面寻求平衡(12)参见环球律师事务所:《关于〈加州人脸识别技术法案〉的亮点评析》,https://www.lexology.com/library/detail.aspx?g=d3f245f8-d1dc-491b-9e6e-37cd6793a8a6,最后访问日期:2023年6月25日。。生成式人工智能方面,2020年5月,美国《生成人工智能网络安全法案》((GAINS)Act)发布。该法案要求相关部门明确人工智能在美国的应用优势和障碍,积极比较美国与其他国家的人工智能战略,评估供应链风险并向国会提供解决风险的方案。2023年4月13日,美国商务部下设的国家远程通信和信息管理局(NTIA)发布了一项有关AI可归责性政策的征求意见通知(AI Accountability Policy Request for Comment),其中就包括生成式人工智能生成性内容的治理问题。该征求意见通知指出,传统的AI审计已无法覆盖生成式AI的威胁,如信息扭曲、虚假信息、深度伪造、隐私入侵等(13)参见U.S.Department of Commerce,“Department of Commerce Establishes National Artificial Intelligence Advisory Committee”,https://www.commerce.gov/news/press-releases/2021/09/department-commerce-establishes-national-artificial-intelligence.。2023年5月,基于最新的人工智能技术发展现状,美国白宫更新发布了《人工智能研究和发展战略计划:2023年更新版》,其主要内容就包括理解并解决人工智能应用引发的伦理、法律和社会问题。
(3)其他国家和地区。虽然已有的生成式人工智能的法律成形较少,但为了应对ChatGPT带来的风险冲击,许多国家和地区都已经采取了相应的管控措施,其中不乏保障个人信息安全之举。例如,法国、德国、爱尔兰等国家已经开始效仿意大利的做法,加强对ChatGPT的管控。除此之外,加拿大、韩国、日本等国家同样在人工智能领域采取了一系列规范和限制措施(14)参见王卫:《欧洲人工智能技术立法迈出关键一步》,http://epaper.legaldaily.com.cn/fzrb/content/20230522/Articel05002GN.htm,最后访问日期:2023年6月25日。。值得一提的是,2023年5月25日,新西兰信息专员办公室(OPC)发布《生成式人工智能指南》(15)参见Privacy Commissioner,“Generative Artificial Intelligence-15 June 2023 Update”,https://www.privacy.org.nz/publications/guidance-resources/generative-artificial-intelligence-15-june-2023-update/.,指出生成式人工智能对新西兰公民个人信息的使用应当受新西兰《2020隐私法》保护,公民如果认为自己的隐私受到了侵犯,可以向OPC投诉。
2.我国生成式人工智能立法中个人信息安全治理。宏观层面,我国人工智能治理已经初步形成了从法律、部门规章到地方性法规的多层次规范治理结构。生成式人工智能治理方面,2023年7月10日,国信办公布《生成式人工智能服务管理暂行办法》(下称《人工智能服务管理暂行办法》),旨在促进生成式AI健康发展和规范应用。该办法共21条,主要对办法的适用范围、生成式人工智能定义、责任主体认定进行了规定,除此之外还为生成式人工智能服务主体设置了数据合规责任。生成式人工智能服务主体在一定程度上也是算法服务提供主体和深度合成技术服务提供主体。因此,与生成式人工智能治理密切相关的法律还可以追溯到此前颁布的两项部门规章,《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》(以下简称《深度合成管理规定》)之中。至此,我国形成了对人工智能法律治理框架的基本雏形。在个人信息数据治理方面,《人工智能服务暂行管理办法》设置了一系列转致性条款,将生成式人工智能个人信息数据的监督检查和法律责任归拢到我国网络安全和数据隐私保护领域的三部基础性法律,即《网络安全法》《数据安全法》和《个人信息保护法》之中。《算法推荐管理规定》与《深度合成管理规定》虽然没有直接对生成式人工智能做出规定,但其内容仍可成为对生成式人工智能个人信息数据治理的重要补充。
总体而言,我国对生成式人工智能的法律规制走在世界前列,无论是对生成式人工智能本身的规制,还是与其息息相关的算法和深度合成技术都不乏法律指引。就个人信息保护方面来说,虽然相关条款散列分布于不同的法律文件中,但在法律层面仍能够做到与《个人信息保护法》等相关法律的有效衔接。
从具体的法律规范中可以瞥见,各国法律对生成式人工智能持相对谨慎的态度。就已有的人工智能立法实践来看,大部分国家都在其立法中设置了一系列责任性条款,确定了以限制为主的基本方向。对比欧盟、美国、中国和其他国家地区的立法来看,不同法域的人工智能立法内容仍存在共通之处。
1.以个人信息数据及隐私保护为核心。各国人工智能法律规制皆旨在保护自身的数据安全及国民的个人信息权利,个人信息数据及隐私保护的理念在人工智能法律中具有十分突出的体现。欧盟《人工智能法案》重点关注AI系统的透明度以及个人数据保障义务。法案第四编对AI系统的透明性义务做出了具体规定,第五编第54条对AI监管沙箱中的个人数据的合法采集、风险管控、保留期限,以及技术公开进行了明确规定。美国的《加州消费者隐私法》(CCPA)、《纽约隐私法》和《纽约禁止黑客攻击和改善电子数据安全(SHIELD)法》,尽管没有直接明确生成式人智能这一责任主体,但有些条款包含了与自动决策相关的条款,对人工智能的个人数据治理具有很大的作用。我国《生成式人工智能管理暂行办法》亦十分重视对生成式人工智能个人信息收集阶段的数据来源合法性审查,直接对生成式人工智能服务提供者的个人信息安全责任及义务进行了规定。《算法推荐管理规定》中明确了对数据保护、算法透明度以及算法歧视的相关要求(16)参见《互联网信息服务算法推荐管理规定》第7条、第17条规定。。在生成式人工智能的生成性内容方面,《深度合成管理规定》对深度合成服务提供者的个人信息安全保障义务做出了相应规定(17)参见《互联网信息服务深度合成管理规定》第7条规定。,第三章对深度合成技术的数据和技术管理规范做出了相应要求,涉及个人信息数据的,应获得个人信息主体的同意(18)参见《互联网信息服务深度合成管理规定》第14条规定。。
2.以风险防控为根本目标。相较于传统的司法救济模式,各国都不约而同地采取了以风险预防为目的的立法模式,重视对人工智能的过程性监管。欧盟《人工智能法案》的核心内容在于建立人工智能系统的风险分级体系,将其系统风险分为不能接受的风险、高风险、有限风险、最小风险,依据不同风险采取不同的人工智能规范标准,并对高风险人工智能系统的数据治理标准进行了特别规定(19)参见《人工智能法案》草案第一编第10条第1款规定。。我国《生成式人工智能管理办法》第7条规定,生成式人工智能服务提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,将生成式人工智能的个人数据安全风险的规制提前到了预训练阶段,形成了从数据收集到内容生成全阶段式的法律规制。除此之外,《办法》第6条对生成式人工智能产品提供前需要进行的安全评估与算法备案作了具体要求,预先对生成式人工智能进行安全评估。
3.以“知情同意”为基本原则。从整体上看,生成式人工智能对个人数据的收集及利用都必须处于个人信息保护法律体系规制之下,因此“知情同意”原则仍是其个人数据处理的基本原则。对人工智能的个人信息数据收集及利用提出了知情同意的要求,甚至比一般行业更加严格的规定,如欧盟《人工智能法案》草案对高风险AI系统的透明度及告知义务做出了单独规定(20)参见欧盟《人工智能法案》草案第13条第(3)款规定。。我国《人工智能管理办法》第7条第3款规定生成式人工智能收集的数据涉及个人数据的,应当征得个人信息主体的同意。
与一般的个人信息侵权案件相比,生成式人工智能引发的个人信息风险可能是颠覆性且无法挽回的,生成式人工智能对个人信息数据的滥用会产生知识产权侵权、算法歧视等问题。因此,对于生成式人工智能个人信息安全的规制不能完全依赖传统的事后救济模式,而要以风险预防为重点。
虽然我国对于人工智能治理的立法正处于稳步推进阶段,在生成式人工智能以及深度合成等领域甚至处于领先地位。但是,从实然的角度来说,我国目前以个人信息保护为核心的生成式人工智能个人信息风险的规制仍然存在着许多困难。
1.生成式人工智能领域个人信息保护立法专业化程度欠缺。我国目前的人工智能立法在引导人工智能发展的同时并未忽视个人信息及数据安全的保护(21)参见《生成式人工智能服务管理办法(征求意见稿)》第4条第5款规定。。但从具体规范来看,人工智能领域立法对于个人信息安全的保护条款属于较为空泛,专业性仍有欠缺,并未充分发挥风险预防的作用。在数据治理层面,《人工智能服务管理暂行办法》对生成式人工智能服务提供主体的个人数据来源合法性义务进行了规定,但互联网数据混同的现状很难得到改变,对生成式人工智能所收集的个人数据的来源合法性进行追溯并不具有可期待性。在生成性内容的治理层面,《人工智能服务管理暂行办法》第4条虽然规定利用生成式人工智能生成的内容应当真实准确,却并未对其真实准确的标准进行解释,也并未明确生成式人工智能服务提供者的过错认定标准。
2.责任主体的复杂性与重合性导致监管难问题。深度合成技术,是指利用以深度学习、虚拟现实为代表的生成合成制作文本、图像、音频、视频、虚拟场景等信息的技术[10],生成式人工智能的生成性内容依靠的就是深度合成技术,生成式人工智能实际上是数据、算法与深度合成技术相结合的综合体。因此,在生成式人工智能个人信息侵权行为发生时,会产生监管责任主体竞合的问题。当前,我国对人工智能的监管主要呈现出多渠道、多部门的现状,有关部门包括国家市场监督管理总局、国家互联网信息办公室、工业和信息化部、科技部等。多监管主体的设置有利于规制多领域的人工智能法律风险,相反地,过多的主体参与到治理过程中也会产生新的问题。例如,监管责任的竞合会导致监管部门之间的不良竞争,在一定程度上还会产生利益冲突,阻碍执法工作;面对情况复杂、涉及范围广的情况,各个监管主体则可能会相互推诿。
3.生成式人工智能治理规范仍存在法律漏洞。当前的人工智能治理规范尚不完备,存在法律漏洞。就《办法》的具体规定来看,虽然对生成式人工智能服务提供者的主体责任进行了规定,明确了生成式人工智能产品的技术研发商、应用开发商、提供API接口等接入服务的提供商均需要为其生成的内容承担责任,但却并未对生成式人工智能服务的用户责任进行明确[11]。如前文所述,生成式人工智能的法律风险不仅表现在生成式人工智能服务内部,其外部风险,即遭受非法利用的风险也需要进行法律规制。
1.生成式人工智能对“知情同意”规则的消解。我国《个人信息保护法》采取赋权的方法,确立了自然人的个人信息权,个人信息主体在个人信息的处理过程中享有知情权、决定权(22)参见《中华人民共和国个人信息保护法》第44条规定。。在大数据与人工智能技术的冲击下,以个体控制权为核心构建起来的知情同意规则逐渐失灵,从而导致我国个人信息保护法式微。首先,从信息主体层面来说,个人信息控制权以个体对个人信息支配的理性为前提,实际上,个体对人工智能信息收集存在理解上的壁垒,无法真正知悉人工智能对个人信息的收集范围与利用程度。作为信息收集一方的人工智能主体架空了个体的权利,导致个人无法支配自身的个人信息。因此,大多数人也已经接受了“数据裸奔”的状态,其知情同意权也成了一种可有可无的权利。其次,就以ChatGPT为代表的生成式人工智能来说,其隐私政策将收集用户个人信息作为一种理所当然的权利,对其处理信息的范围、目的方式、保存期限、算法推荐方法都未进行有效通知,用户既无法完全知晓个人信息被收集后的用途,也不存在真正意义上的同意,从而直接削弱了或剥夺个人信息的自决权。
2.生成式人工智能个人数据处理的目的限制原则标准统一难。我国《个人信息保护法》第6条对目的限制原则做出了规定。个人信息处理者在处理个人信息之前,需要明确其处理该信息的目的,且目的必须是适当的、相关的和必要的,其处理行为不能超出信息主体初始的授权范围。但生成式人工智能对于个人数据的利用范围及边界仍未明确。例如,OpenAI公司隐私策略关于个人信息的公开条款中指出,除法律要求外,某些情况下会将用户的个人信息提供给第三方,在此情况下目的限制原则难以得到严格贯彻。
反观立法现状,我国的生成式人工智能主要依靠行政监管,在人工智能以及大数据的冲击下,个人信息损害的无形性、潜伏性、未知性、难以评估等特征更加突出[12]。除此之外,ChatGPT类的生成式人工智能对侵权责任制度产生了巨大影响,生成式人工智能侵权具有侵权主体复杂化、侵权行为智能化、因果关系多元化的特点[13]。虽然现有个人信息侵权适用过错推定责任,在一定程度上减轻了数据弱势群体举证责任,加强了相关信息处理平台的注意义务。但即使如此,生成式人工智能对个人信息造成的损害仍不易被察觉,进一步加剧了“举证难”的问题。在此情况下,如何确定生成式人工智能的个人信息损害标准,将司法作为其个人信息风险治理的一种兜底方式就显得尤其重要。
与欧盟《法案》相比,我国立法仍未能充分发挥风险预防的作用。因此,在后续的生成式人工智能立法中应当继续强化法律的风险预防作用。
1.个人数据来源合法化治理。通过立法明确生成式人工智能收集个人数据来源的合法性标准,构建数据分类分级治理结构。第一,对于不同来源的个人数据采取不同的处理方法:一是如果生成式人工智能获取的个人数据来自生成式人工智能应用对公民个人信息的直接收集,则其收集行为需要严格遵守《个人信息保护法》的相关规定,以个人信息主体的同意为前提,并明确相应的存储期限与利用目的,在后续的数据处理利用过程中接受目的原则的限制;二是如果生成式人工智能个人信息来自已经公开的数据,此时生成式人工智能开发者虽然可以根据《人信息保护法》第27条的规定处理已公开的个人信息,但对其对于此类个人信息的利用要受目的限制原则的限制;三是禁止生成式通过爬虫手段非法获取数据的行为,避免生成式人工智能的个人数据收集脱离法律的监管。第二,进一步完善生成式人工智能个人数据的收集、处理规范程序,改善个人数据与其他数据混同治理的局面。生成式人工智能对于数据的收集及处理并不局限于个人数据范围,互联网中其他的海量数据也是生成式人工智能训练数据的来源。因此,在对数据进行收集和处理时,应当对个人数据的来源进一步进行审查,并采取更加严格的保密及存储措施对收集到的个人信息进行保护。第三,以类型为区分标准,对不同的个人信息采取不同程度的法律保护策略。首先,生成式人工智能的个人信息保护立法应当进一步强化对敏感个人信息的法律保护,审慎评估生成式人工智能的风险等级。例如,在医疗健康、人脸识别、生物基因检测等领域,应当直接禁止或者设置更为严格的备案制度及准入门槛,限制生成式人工智能对此类个人信息的收集与利用,避免敏感个人信息的损害对个人信息主体带来不可挽回的“灾难”。其次,促进生成式人工智能个人数据的去识别化管理。对生成式人工智能服务提供主体提出个人数据匿名化处理要求,在利于保障个人信息主体个人信息权益的同时,也能够促进生成式人工智能数据的个人数据治理,明确区分个人信息权与企业个人数据所有权之间不同的权利话语体系[14]。
2.优化责任承担及监管主体结构。在责任主体层面,生成式人工智能用户不应被排除在侵权责任承担主体之外。通过立法完善生成式人工智能用户的责任,对恶意利用生成式人工智能盗取个人信息,破坏生成式人工智能个人数据安全生态进行打击,切割平台责任与个人责任,减轻生成式人工智能服务提供主体的负担,形成生成式人工智能服务提供者、技术开发者、服务使用者的三方权责机制,促进生成式人工智能风险责任承担权利义务的有效、合理分配。与此同时,适当简化生成式人工智能监管主体,明确生成式人工智能数据、算法、生成性内容的监管责任主体,构建多层级、分阶段的监管体系,有利于各部门在监管过程中各司其职,相互配合,形成监管合力。
3.生成式人工智能个人数据跨境流通的漏洞弥补。个人数据跨境流通会引发国家数据安全风险,生成式人工智能个人数据的跨境问题仍需要立法进一步明确。第一,完善生成式人工智能的数据出境评估机制。个人数据的跨境流通应当经过相关组织和监督机关的安全评估,针对不同性质的数据,采取差异化的管理评估方法,严格保障敏感个人信息跨境流动安全。国家互联网信息办公室审议通过的《数据出境安全评估办法》对出境数据的类型、数量以及评估办法等方面作出了规定,个人数据出境需要经过初步安全评估,并且对涉及国家数据安全、个人数据权利保护等不同风险类型的数据出境采取了不同的管控措施。第二,除了合理设定的各方权利义务、满足相应的标准和程序外,个人数据出境还需经原数据主体的单独同意和明确授权,建立多阶段式的个人数据跨境流动监管机制。
1.知情同意规则完善。第一,健全通知规则。除了对用户个人信息收集行为进行通知以外,生成式人工智能后续的个人数据利用以及人工智能自动化处理的情形也应向用户披露,告知用户处理其个人信息的重要性以及处理行为可能造成的影响,增加生成式人工智能服务提供者的风险通知义务。第二,完善同意机制。无论数据控制者通过何种方式对用户的个人信息进行利用,都应当取得用户的明示同意;同时,还应依据个人信息的敏感程度区分个人信息的类型,对个人敏感信息的处理设置更加严苛的同意要件。例如,对于对涉及儿童个人信息的收集及处理的,应当以取得其监护人同意为前置条件[15]。
2.目的限制规则完善。由于不同的生成式人工智能对于数据利用的目的与程度各有不同,建立一套具有广泛适用性的范式规范生成式人工智能个人数据利用边界十分困难。未来,生成式人工智能会被应用于现代社会的各个领域,不同领域之间的数据类型及敏感程度亦不相同。因此,建立场景化的生成式人工智能个人数据利用标准,限制生成式人工智能服务提供者个人数据的使用目的,目的的变更以知情同意原则为前置条件,可以有效避免个人信息完全脱离信息主体的控制范围。
1.统一隐私政策规范标准。一方面,推进生成式人工智能企业成立行业协会,发布统一的个人数据收集、处理行业技术指南,统一生成式人工智能个人数据处理的基础性标准。通过行业规范的建立,完善生成式人工智能应用的个人信息保护机制,建立可信赖的人工智能体系[16]。另一方面,相关部门应当对生成式人工智能的隐私政策进行审查,促进其隐私政策与个人信息使用条款合法合规。隐私条款本质仍然是格式条款,条款提供方会具备天然的信息优势和缔约地位,往往具有明显的利益偏向性[17]。预先确立隐私政策的标准,嵌入个人信息权益保障条款,可以有效矫正知情同意的虚化现状,以保障用户对其个人信息利用的知情权不受侵害。
2.审查监管促进算法纠偏。我国《算法推管理规定》第8条对算法推荐服务提供者的算法模型审查等法律义务做出了规定。在此规范的指引下,生成式人工智能在投入应用之前应该接受严格的法律审查,避免算法模型在机器学习的过程中被人为地渗入算法偏见,将规范文件的要求以技术标准的形式编入算法程序中,可以有效地预防其法律风险。除此之外,加强对人工标注的算法偏见的审查与监管亦是规范生成式人工智能算法的重要措施。人工标注行为会带有强烈的个人性偏向,平台应当事先设定人工标注的标准,规范人工标注行为,促使其合法合规,并及时对明显带有算法偏见的标注进行纠正。
司法救济同样是生成式人工智能风险预防的重要组成部分,发挥司法救济在生成式人工智能个人信息风险治理的兜底作用,有利于形成“平台审查—行政监管—司法救济”的多元主体治理体系。
1.明确生成式人工智能侵权的归责机制。当前,我国立法并未对生成式人工智能侵权做出特殊规定,从现有的侵权理论来看,生成式人工智能是否能够成为独立的侵权法律主体,仍存在争议。有学者认为其侵权责任的承担可以透过“人工智能的面纱”寻找背后的侵权责任承担主体[18]。在个人信息侵权方面,其潜在的侵权主体包括生成式人工智能服务提供者、生成式人工智能用户以及生成式人工智能技术开发者。在侵权归责原则方面,因生成式人工智能责任主体的复杂性与多元性,其侵权责任承担有必要依据其具体的侵权场景做出区分,就一般侵权而言,其归责原则仍可依据我国《民法典》侵权责任编的一般规定采取过错责任原则。在个人信息侵权方面,考虑到个人信息主体与生成式人工智能的主体差异性,在采取无过错责任原则减轻个人信息主体举证责任的同时,仍需考虑生成式人工智能平台是否履行了基本个人信息安全的注意义务,更好地保障数据权主体的基本权益。
2.发挥个人信息公益诉讼的作用。公民个人作为弱势群体在维护自身数据权过程中的不利地位,今后应适时引入集体诉讼机制。例如,可以将生成式人工智能行政监管责任主体或者技术行业协会作为诉讼代表,向不当收集利用个人数据的生成式人工智能企业提起诉讼,从而弥补个人数据权主体在生成式人工智能数据治理中的劣势,保障个人信息主体的合法权益。
生成式人工智能引发的个人信息安全风险具有多层面、多阶段的特点,从预训练阶段的个人数据收集到算法运行再到最后的生成性内容输出阶段所产生的风险,都会不同程度地对个人信息主体的合法权益产生影响,只有通过构建分阶段的个人信息风险规制体系,才能够保障生成式人工智能的合规运行。ChatGPT为代表的生成式人工智能是人类数字化社会发展的重要成就,在为生产生活提供便利的同时,其伴生风险也会引发社会公众对于科技的信任危机,法律风险只是其发展风险的组成部分之一,其所反映的深层次问题是如何平衡人与科技的发展冲突。生成式人工智能的发展究竟能否促进人类的进步还是进一步挤压人类的社会生存空间,仍需要从法律、道德伦理等多个维度进行审慎考量。