摘 要:生成式人工智能的广泛运用给间接识别个人信息的法律保护带来了挑战,传统的知情同意规则流于形式,间接识别个人信息的范围难以确定,信息泄露风险升高,损害证明难度加大。目前,我国立法关于间接识别个人信息的保护存在概念界定的模糊性、保护程度的扩张性以及侵权救济机制的不完备性,无法实现信息保护与产业发展的统筹兼顾。鉴此,应当采取静态认定与动态认定相结合的方式灵活确定间接识别个人信息的范围,构建分层的知情同意规则,承认风险性损害,合理计算损害赔偿数额,采取举证责任倒置,从而促进间接识别个人信息权益保护与生成式人工智能创新发展的良性平衡。
关键词:生成式人工智能;ChatGPT;间接识别个人信息;可识别性
中图分类号:D 923 文献标志码:A 文章编号:2096-9783(2024)04⁃0104⁃11
一、问题的提出
自1956年美国学者约翰·麦卡锡(John McCarthy)提出“人工智能”一词以来,人工智能技术的发展已近70年。在此期间,AlphaGo大胜世界围棋冠军李世石、微软小冰发布自主完成的诗集,人工智能技术的每一次进步都会引起社会热议。2022年,ChatGPT、Dall-E2、Midjourney、Stable Diffusion等生成式人工智能大模型相继涌现,ChatGPT更是以其类人的语言表达能力与高质量的文本生成能力,被认为是人类从专用人工智能迈向通用人工智能的坚实一步1。就我国而言,百度、阿里巴巴、华为等大型互联网企业以及清华大学、复旦大学等高校纷纷入局生成式人工智能领域,并发布了“文心一言”“通义千问”“MOSS模型”等大语言模型,为我国生成式人工智能的发展开创了新的局面。
数据是生成式人工智能模型开发与实践运用的原材料,根据《中华人民共和国数据安全法》(以下简称《数据安全法》)第三条之规定,数据指任何以电子或者其他方式对信息的记录。由此可知,数据是信息的记录载体,信息是数据的具体内容。一般认为,根据个人信息是否具有独立识别特定主体的能力,可以将其分为直接识别个人信息与间接识别个人信息,直接识别个人信息是指能够独立识别特定主体的个人信息,间接识别个人信息则是指必须与其他信息相结合才能将特定主体识别出来的个人信息[1]。然而,“结合识别”具有较强的模糊性,目前立法尚未对间接识别方式、识别主体等事项予以明确规定。生成式人工智能的广泛应用给间接识别个人信息法律保护带来一定的挑战,数据的海量性以及功能上的生成性泛化了间接识别个人信息的范围,使得知情同意规则难以得到有效落实,提高了间接识别个人信息泄露的风险。
2023年8月15日,国家互联网信息办公室等七部委联合发布的《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)正式施行。《暂行办法》是我国在生成式人工智能快速发展背景下做出的积极响应,旨在规范生成式人工智能应用的健康发展,维护个人、社会以及国家的合法利益。《暂行办法》对于生成式人工智能中个人信息的法律保护问题予以一定的回应,但分析相关条文之后可以发现,其关于个人信息保护的规定基本沿用既有规范的内容,缺乏针对生成式人工智能的专门性规制措施。在生成式人工智能席卷全球的浪潮之下,有必要检视生成式人工智能与现行间接识别个人信息保护制度的协调性,构建合理的因应规则,从而在保护信息主体合法权益的基础上,促进生成式人工智能的安全发展。
二、生成式人工智能挑战间接识别个人信息的法律保护
(一)知情同意规则流于形式
生成式人工智能的技术迭代得益于大量的数据喂养,自2018年OpenAI推出生成式预训练模型(Generative Pretrained Transformer, GPT)以来,GPT模型在5年之内经历了数次迭代,其训练数据的规模更是呈指数级上升。公开数据显示,GPT-1的文本数据约为5 GB,GPT-2的文本数据约为40 GB,GPT-3的文本数据则跃升至45 TB。2023年3月,在GPT-3.5公开发布4个月后,OpenAI推出了GPT-4模型,截至目前,OpenAI尚未公布GPT-4的训练文本数量,但从GPT-4强大的功能迭代可以推知,GPT-4的训练数据是巨量的。海量的数据为生成式人工智能的多元化应用提供了原动力,但也使得间接识别个人信息保护的基本原则——知情同意规则流于具文。
知情同意规则的成文化最早可以追溯到1964年医疗领域通过的《赫尔辛基宣言》(Declaration of Helsinki),其后被引用至个人信息保护领域,成为个人信息保护的基本准则。知情同意规则可以解构为告知与同意两个方面,两者相辅相成,缺一不可。为了消解信息主体与信息处理者之间信息不对称的客观事实,信息处理者在收集个人信息之前应当向信息主体详细说明个人信息的处理目的、处理方式等相关事项,保障信息主体是在充分知情的基础上做出的同意。在充分知晓个人信息处理情况之后,信息主体可以自主决定是否允许信息处理者处理其个人信息,任何人都不得强迫信息主体做出违背其真实意思表示的同意。知情同意规则通过约束信息处理者处理个人信息的行为,能够一定程度上避免个人信息权益侵害的发生。
然而,在生成式人工智能领域,知情同意规则难敷使用。生成式人工智能的语料库来源具有多样性,既包括信息处理者通过各种渠道获取的信息,也包括用户自行输入的信息。具体而言,用户在使用生成式人工智能服务时,其在对话框内输入的信息将被自动收录进生成式人工智能的语料库,并作为下次迭代升级的材料。在此过程中,信息处理者并未向信息主体告知相关事项,亦未取得信息主体的有效同意。就信息处理者获取的数据而言,其海量的训练数据可以分为无标注数据与有标注数据,前者指生成式人工智能自行抓取的互联网数据、百科知识、电子书籍等数据,后者指训练师通过对生成式人工智能的回答进行监督微调形成的数据。生成式人工智能庞大的数据体量以及复杂的数据来源渠道,导致知情同意规则的严格适用存在较大的难度。一方面,不同于直接识别个人信息的独立识别性,间接识别个人信息需要与其他信息相结合才能将特定主体识别出来。唯物主义哲学观认为,世界是普遍联系的,信息处理者借助于大数据分析技术能够预测或推导出其他事先无法预料的信息,如果有足够的时间与精力,一些看似毫不相关的信息也可能通过与其他信息结合之后辨别出特定主体。生成式人工智能抓取的大量互联网数据可能本身即包含间接识别个人信息,或者数据库中的数据相互联结而形成间接识别个人信息。在间接识别个人信息的外延具有极大的不确定性与广泛性的情形下,要求信息处理者逐一征求信息主体的同意,既不符合经济考量,也不具有现实可操作性。另一方面,信息主体的有限理性降低了同意的效力。知情同意规则将信息主体预设为理性之人,能够审慎判断信息处理的风险,并做出符合其自身利益的最佳决策。然而,由于知识、能力、信息等相关要素的欠缺,信息主体通常难以合理权衡信息处理的利与弊,使得同意的有效性大打折扣。
(二)间接识别个人信息的范围难以确定
在生成式人工智能诞生之前,人们在处理文本时主要借助于搜索引擎,但由于搜索引擎仅提供与搜索关键词有关的网页链接,并不直接显示准确答案,因此用户需要从大量的网页数据中甄别出有用的信息,进而将收集到的信息整合成连贯的文本。不同于此,ChatGPT直接将“唯一的”答案提供给用户,极大降低了人们获取信息的门槛与检索成本。现阶段,ChatGPT的功能迭代周期越来越短,且多模态发展趋势明显,相较于GPT-3.5,GPT-4不仅提高了文本输入的字数限制,还能够根据用户指令生成风格各异的图片、诗集、歌曲、代码等。
不同于以人脸识别、算法推荐等为代表的分析式人工智能,ChatGPT属于典型的生成式人工智能,其不仅能够自主对语料库中的数据进行整合,还可能“生成”或者“创作”出语料库中并不存在的内容[2]。ChatGPT的生成性源于其采用了生成式预训练转换模型与基于人类反馈的强化学习。具言之,ChatGPT能够通过注意力机制自主学习海量的语料库,进而初步掌握自然语言的内在逻辑,并借助于人类反馈的强化学习使得输出的内容更加符合人类的表达习惯。在应用过程中,ChatGPT能够较为准确地理解用户的意图,并对关键内容进行抽取,进而根据上下文语境预判下一个可能出现的单词,然后将这些字词连接成一个完整的词组、短语,最终输出契合自然语言表达方式且逻辑结构富有层次性的文本内容。ChatGPT的生成性改变了“知识”生产的规律,提高了“知识”生产的速度。在GPT-4模型发布时,OpenAI的首席执行官Sam Altman展示了GPT-4的强大生成能力,GPT-4可以根据一张简单的手绘草图在短短几秒钟之内生成一个可用的网址。
需注意的是,ChatGPT的生成性是通过对人类思维方式和表达习惯的机械性模仿得来的,尚不具有人类的认知能力与推理能力[3]。因此,ChatGPT经常会生成大量看似正确实则错误的事实,被人诟病为“一本正经的胡说八道”。ChatGPT的生成性泛化了间接识别个人信息的范围,其可能在深度学习碎片化信息的基础上拼凑出间接识别个人信息。又或者,虽然ChatGPT生成的信息不属于间接识别个人信息,但借助于数据挖掘与再识别技术的进步,人们可以从ChatGPT生成的海量信息中捕捉到间接识别个人信息,经过不断聚合最终实现识别特定主体的目的。
(三)信息泄露风险提高
自2022年底美国人工智能实验室OpenAI推出ChatGPT以来,以ChatGPT为代表的生成式人工智能在世界范围内引发广泛讨论。相较于传统人工智能回答的僵硬性与间断性,ChatGPT可以与用户进行连续对话,如果用户提示ChatGPT的回答错误,其也会主动承认自己的无知。ChatGPT近乎完美的人机交互性,极大提高了用户的使用体验,使得ChatGPT上线不到一周就拥有了100万的注册用户,其用户规模增长的速度遥遥领先于推特、抖音等其他现象级的消费应用。
在ChatGPT与人类交互对话过程中,提高了间接识别个人信息泄露的风险。自ChatGPT问世以来,已连续发生数起个人信息泄露事件。譬如,2023年3月底OpenAI官网发布公告明确承认,因开源数据库的技术漏洞,部分用户在使用ChatGPT时可以在其对话框内看到其他用户的电子邮件、对话记录等信息,导致大量用户的个人信息泄露。2023年6月底,16名匿名人士向美国加利福尼亚州旧金山联邦法院提起集体诉讼,指控OpenAI未经同意收集并泄露个人信息,据此要求其赔偿30亿美元。出于维护信息安全的考虑,意大利宣布暂时禁用ChatGPT,德国、法国、爱尔兰、加拿大等国家的个人数据保护机构也表示要加强对ChatGPT的监管,防止ChatGPT存储的个人信息泄露引发社会性风险[4]。除了国家层面的行动,相关行业、企业也宣布禁止或限制使用类ChatGPT生成式人工智能技术,然而,个人信息泄露事件仍屡禁不止。究其原因,一方面是由于ChatGPT自身的技术机制使然;另一方面则是用户在使用ChatGPT过程中自觉或不自觉地泄露了信息。ChatGPT采取了基于人类反馈的强化学习,在训练出初始模型之后,为了尽可能避免生成内容存在违背伦理价值、意识形态等问题,研发者通过打分模型(Reward Model)对ChatGPT的回答内容进行评价,使其生成内容符合人类社会的主流价值[5]。就此而言,用户在使用ChatGPT时,ChatGPT会将用户输入的信息作为训练语料,通过迭代的方式不断优化其表达能力。然而,由于ChatGPT缺乏必要的信息筛选与识别机制,可能导致此前用户输入的信息“原封不动”地出现在其他用户的对话框内。此外,由于ChatGPT的类人性与虚拟性,能够为用户提供一定的情绪情感价值,用户在使用ChatGPT过程中更容易袒露隐私[6],增加了间接识别个人信息泄露的可能性。
(四)损害证明难度加大
算法是生成式人工智能的基本结构,是将原始数据加工成输出内容的核心技术,面对同样的训练数据,不同的算法规则可能导出完全不同的文本内容。由于技术本身的不可控性与研发者的故意隐匿,生成式人工智能的算法目前仍处于“黑箱”状态。“算法黑箱”是指算法的不公开、不透明[7],亦即在数据的输入与输出之间,人们无从知晓其中的算法规则是如何运行的。“算法黑箱”不仅侵害了用户的知情权,还可能一定程度上扰乱社会秩序。ChatGPT作为一种深度神经网络架构,其在前馈神经网络中引入了自注意力机制(self-attention mechanism),导致目前尚无法对ChatGPT的算法规则进行全局性解释[8]。现阶段,OpenAI公司出于经济利益考量,仍然选择不披露ChatGPT的算法规则,虽然外界对ChatGPT的算法存在诸多猜测,但由于无法得到确切的验证,使得ChatGPT成为众人眼中神秘的“算法黑箱”。进一步地,如果发生生成式人工智能侵权问题,“算法黑箱”的存在将提高侵害行为的隐蔽性,成为侵权责任认定的最大阻碍。
立法上,《暂行办法》并未对生成式人工智能侵权的证明责任配置予以特殊性规定。根据我国目前的立法态度,当事人应当对自己的主张负担证明责任,换言之,应当由信息主体提供证据证明生成式人工智能服务者不法侵害其间接识别个人信息,并因此造成了实际损失。然而,生成式人工智能的“算法黑箱”导致信息主体与生成式人工智能提供者之间的信息具有不对等性,如果生成式人工智能提供者不主动提供算法规则并证明算法的合规性,信息主体很难提供充分的证据予以证明,无异于阻断了信息主体获取法律救济的途径。
三、生成式人工智能场景下间接识别个人信息保护制度的检视
(一)概念界定的模糊性不利于配置权利与义务
概念乃是解决法律问题所必需的和必不可少的工具,没有限定严格的专门概念,我们便不能清楚和理性地思考法律问题,没有概念,我们便无法将我们对法律的思考转变为语言,也无法以一种可理解的方式把这些思考传达给别人[9]。立法层面,间接识别个人信息首次出现在2013年通过的《电信和互联网用户个人信息保护规定》,此后《中华人民共和国网络安全法》(以下简称《网络安全法》)第七十六条、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条、《中华人民共和国民法典》(以下简称《民法典》)第一千零三十四条以及《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)第四条均对间接识别个人信息有所涉及。然而,间接识别个人信息的内涵通常依附于个人信息概念之下,缺乏对其正面性的、直接性的规定。虽然我国立法一致认为间接识别个人信息不具有独立识别性,必须与其他信息相结合才能实现识别特定主体的目的。然而,何谓“结合识别”以及如何确定间接识别,相关立法至今仍未给出较为明确的答案。
通说认为,识别指根据与特定人有关的外部信息来认识、辨识或指认该特定个人,使某个人与其他人区分开来[10]。概言之,如果藉由该信息能够将特定主体从一定的群体中区别出来,则其属于个人信息,反之则否。实践中,信息可能通过多种方式对个人进行识别,具体包括:(1)与个人的创作性关系,即个人可以有目的地创造信息,并将该信息传递给他人,以便他人通过该信息与信息的生产者联系起来,这种关系解释了电话交谈、私人日记或电子邮件也构成个人信息;(2)与个人的描述性关系,即信息可以通过某种方式对个体进行描述,包括生物性信息与社会性信息;(3)与个人的工具性映射关系,即某些机构为便于身份识别、安全访问或提供服务与商品而对个人进行划分,典型者如社会保障号码[11]。
权利与义务是法学领域一对基本的范畴,几乎所有的法律体系都是围绕着权利赋予与义务设定而展开的。权利与义务对于法学的重要性吸引了霍布斯、康德、黑格尔等诸多法哲学家对其无尽的探寻,关于权利与义务的内涵,不同学者可能存在不同的见解,但较为一致的是,他们在谈论权利概念时都没有将权利的内涵看作仅仅是涉及个人的行为,而是无一例外地都注意到了除个人之外其他人的存在[12]。概言之,权利与义务具有统一性,没有无负担的权利,也没有无权利的义务。在生成式人工智能领域,间接识别个人信息概念的准确界定是合理配置生成式人工智能相关主体权利义务的必要前提,然而,间接识别个人信息内涵的模糊性导致信息主体与信息处理者均处于不确定的状态,不利于合理配置相应的权利义务。
(二)扩张性保护制约生成式人工智能的创新发展
生成式人工智能存储的数据具有海量性,即使这些数据已被去除个人标志,但通过一定的分析和处理技术,仍然可以推断出个人的身份信息以及基本特征[13]。可见,不同于匿名化信息完全消除了识别性,间接识别个人信息仍然保留一定的识别因素。据此,研发人员能够追溯原始数据的来源渠道,核查并矫正生成内容的准确性,从而提高输出文本的质量,推动生成式人工智能的迭代发展。
立法体例上,我国《民法典》《个人信息保护法》等现行规范借鉴欧盟个人数据保护的规制模式,将个人信息区别为直接识别个人信息与间接识别个人信息,但在保护方式上却将两者等同视之。申言之,间接识别个人信息的收集、处理以及侵权救济与直接识别个人信息的保护规则并无二异,这种“前后不一”的做法损害了法律体系的科学性与融贯性。更重要的是,如果赋予信息主体对于其间接识别个人信息也享有删除权、更正权等相应的权利,可能导致信息主体滥用权利,进而制约生成式人工智能的创新发展。尤其在再识别技术迅速发展的背景下,借由信息比对、信息组合、信息分析等手段,一些原本被认为无法识别的信息在一定条件下可以转变为间接识别个人信息[14]。在此情形下,如果对间接识别个人信息采取与直接识别个人信息相同的保护方式,可能使得生成式人工智能研发者动辄触犯法律的禁止性规定,不仅违背了《暂行办法》统筹兼顾生成式人工智能发展与主体权益保护之宗旨,也不利于鼓励相关企业入局生成式人工智能产业,进而妨碍我国生成式人工智能技术的创新进步。
(三)救济机制的不完备性阻碍生成式人工智能纠纷的解决
1. 责任主体的划分相互抵牾
目前,我国现行规范关于个人信息侵权的责任主体形成了多元化的划分方式。2019年公布的《网络信息内容生态治理规定》将网络信息内容侵权的责任主体区分为网络信息内容生产者、网络信息内容服务平台以及网络信息内容服务使用者;2022年通过的《互联网信息服务深度合成管理规定》则将责任主体类型化为深度合成服务提供者、深度合成服务技术支持者以及深度合成服务使用者;《民法典》《个人信息保护法》则以“个人信息处理者”为中心来构建责任体系,信息处理者涵盖信息收集者、信息加工者、信息使用者等相关主体。不同于此,《暂行办法》则构建了“服务提供者—服务使用者”的二元责任体系,其中,服务提供者需要承担网络信息内容生产者责任,如果应用过程中涉及个人信息的,则按照相关规定承担个人信息处理者责任。
从上可知,现行规范关于个人信息侵权责任主体的划分相互抵牾,不利于法律适用统一性的形成。在生成式人工智能时代,大型语言模型可以作为代码层的基石性模型(foundational model),被广泛应用于搜索引擎、内容平台、智慧政务等一系列下游场景中[15]。具言之,生成式人工智能既可以直接服务于用户端,也可以作为基础模型供其他领域进行更细化的应用,以ChatGPT为例,其不仅可以直接为用户提供文本处理、视频制作、代码编写等服务,还可以通过开放应用程序接口的方式为其他企业提供技术底座。可见,在某些情形下,生成式人工智能服务提供者可能既是技术支持者,又是内容生产者。然而,《暂行办法》仅规定生成式人工智能服务提供者需要承担网络信息内容生产者责任以及个人信息处理者责任,并未规定其可以作为“技术支持者”进而承担相应的责任。同时,《暂行办法》对于如何界分网络信息内容生产者与个人信息处理者的责任范围,以及两者之间是否存在竞合等问题均没有予以明确规定,可能阻碍生成式人工智能侵权的具体适用。
2. 传统损害的不适配性
损害是损害赔偿的逻辑起点,无损害则无赔偿。目前,我国立法尚未对损害的内涵予以明确,主流观点认为损害的判定应当采取“差额说”,亦即损害是被害人之总财产状况于损害事故之发生与无损害事故下所生之差额,无差额即无损害[16]。然而,并非所有因侵害行为造成的受损权益都能得到有效的救济,事实上的损害必须经过一定的评价才具有可获赔性。具体来说,只有受害人的民事权益受损并由此引发不利益的后果才可称其为损害,且作为损害赔偿责任构成要件的损害必须是客观存在并能通过一定方式量化的可救济性损害[17]。概言之,损害必须具有民事权益性、可救济性以及确定性。
就损害的民事权益性来说,其要求法律所保护的利益具有正当性,不法的或不正当的利益不受法律的保护。现阶段,我国立法虽然没有明确规定间接识别个人信息的法律地位,但对于间接识别个人信息的民事权益属性没有疑义。在此基础上,信息主体遭受的损害只有具备法律上的可补救性和确定性才能予以救济,而轻微或不确定的损害则不属于法律救济的范畴。在间接识别个人信息侵权中,传统损害所应当具有的可救济性以及确定性受到一定的冲击。就损害的可救济性来说,其要求损害必须是客观的、现实的存在,臆想的损害或尚未发生的损害不受法律保护。实践中,间接识别个人信息与信息主体存在一定的“疏离性”,其并不紧密依附于信息主体而存在,导致信息主体往往难以及时察觉其间接识别个人信息被侵害。就损害的确定性来说,损害必须是可以通过一定方式予以量化的,同时应当具备一定程度的“严重性”,如果轻微的、琐碎的损害均能获得法律的保护,不仅增加司法机关的压力,也限制了信息处理者行为自由的空间。然而,如果严格遵从传统损害所要求的程度性要件,则间接识别个人信息损害的认定存在较大的阻碍。现实生活中,信息主体处于相对弱势的地位,要求其证明损害的存在具有一定的难度,遑论进一步证明损害的“严重性”,这种层层加码的损害认定模式可能会使得信息主体缺乏足够的动力去寻求法律的救济。
3. 损害赔偿数额难以计算
关于生成式人工智能中间接识别个人信息的损害赔偿,《暂行办法》没有做出特殊性的规定。据此,对于生成式人工智能侵害间接识别个人信息的,信息主体可以援引《个人信息保护法》第六十九条之规定,要求生成式人工智能服务提供者按照受害人所受损失、侵害人所获利益、协议赔偿以及酌定赔偿的方式进行。
间接识别个人信息范围的不确定性与生成式人工智能技术的复杂性,使得生成式人工智能侵权损害赔偿的确定存在较大的难度。就受害人所受损失而言,由于间接识别个人信息同时承载着人格利益与财产利益,因此,生成式人工智能不法侵害间接识别个人信息的,既可能给信息主体造成财产损害,也可能给其造成精神损害。然而,间接识别个人信息的无形性与不确定性使得信息主体可能因无法提供充足的证据证明其遭受了财产损害或精神损害而承担不利的后果。就侵害人所获利益而言,一方面,信息主体可能因为账目手册被生成式人工智能服务提供者控制而难以证明是否存在获利;另一方面,侵害人获益返还的范围因立法的缺位而难以被准确厘定。就协议赔偿而言,相较于生成式人工智能服务者,信息主体处于劣势地位,在此基础上签订的损害赔偿协议可能并不是信息主体真实的意思表示,违背了社会公平正义。就酌定赔偿而言,相关立法尚未列明酌定赔偿的考量因素,亦未明确酌定赔偿的范围,容易滋生裁判的恣意性,引发同案异判的非正义现象。
四、生成式人工智能应用中间接识别个人信息法律保护的重构
(一)间接识别个人信息范围的厘定
准确界定间接识别个人信息的范围是相关规则展开的逻辑起点,为了统筹兼顾主体权益保护与生成式人工智能创新发展,应当采取静态识别与动态识别相结合的认定模式,合理界分间接识别个人信息与直接识别个人信息的边界。
1.间接识别个人信息的静态认定
间接识别个人信息的静态认定需要明晰间接识别的主体、间接识别的方式等内容,从而为行为人提供明确的行为指引。关于间接识别的主体,学界存在“主观说”与“客观说”相对立的观点。“主观说”主张以信息处理者的识别能力为基准来确定个人信息的间接识别性,从而限缩个人信息的范围,最大程度发挥个人信息的经济效用[18]。“客观说”则认为,应当以社会一般多数人是否可以依据信息的内容识别特定主体作为判断间接识别性的基准[19]。笔者认为,相较于“主观说”,采取“客观说”更为合理。“客观说”以社会大多数人的识别能力为确定标准,若该信息能够被社会大多数人所识别就认为其具备了识别的可能性,而不考虑某一具体主体实际上是否可以识别,能够保障社会的公平正义。
由于信息与特定主体之间存在着复杂的牵连关系,信息可能通过多种途径识别特定主体。关于间接识别的方式,理论界存在绝对路径(absolute approach)和相对路径(relative approach)两种相对立的观点。绝对路径主张个人信息可识别性的判断应当穷尽所有可能的方法和手段,而不考虑识别的成本、时间等外在因素;相对路径则认为确定个人信息可识别性所采取的方法不能毫无限制,识别的方法仅限于实际上所能够采行的方法[20]。相较于绝对路径,间接识别方式的判定采取相对路径更为妥当。相对路径以理性人所采取的合理手段是否能够识别特定个人为标准,而不要求理性人穷尽所有可能的方法,有利于实现法律的安定性与可预期性。
关于间接识别的内容,我国规范层面存在不同的做法。《网络安全法》第七十六条采取的是身份识别标准,《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》认为识别的内容包括身份与活动,《民法典》以及《个人信息保护法》则对识别的内容采取模糊的处理方式。笔者认为,在确定间接识别的内容时需要回归间接识别个人信息的规范目的,识别性指明了个人信息与主体之间的对应关系,只要能将信息主体从特定群体中区别出来的信息均应当认定为个人信息,而不论该信息直接指向特定主体身份,抑或根据相关活动间接推断出主体身份。因此,在具体理解现行法所规定的“识别性”时,应将其解释为包括个人身份与个人活动在内的一切可以识别特定主体的所有信息。
2. 间接识别个人信息的动态认定
为保障ChatGPT满足多元化的应用场景需求,研发者在训练ChatGPT过程中采用了基于场景(in-context learning)的训练方法[21]。ChatGPT的场景化训练使得间接识别个人信息具有一定的流动性,其范围可能随着信息所处情景的变化动态发展。譬如,对于某人的代号或绰号,如果将其置于相应的场景下可能轻易地将特定主体辨别出来,但若将该信息置于另一场景,则可能无法将其与特定主体联系起来。因此,纯粹地从静态维度对间接识别个人信息进行界定,可能使得间接识别个人信息陷入形式主义困境,对此,需要引入场景化的认定模式。
从语义层面来说,场景是指特定情境或语境,在判定某一信息是否属于间接识别个人信息时,应当在具体语境下考量其能否通过与其他信息相结合而识别出特定主体。需注意的是,场景不是一个客观存在的、恒定不变的物质实体,其更像是一个框架性的结构,为信息主体与信息处理者的利益博弈提供论辩的空间。在决定是否将某信息认定为间接识别个人信息时,应当在特定场景下统合考量信息主体的可预见性程度、信息处理的目的,以及信息处理者的可归责性程度等因素,实现信息处理者与信息主体利益的最优选择。
(二)构建分层知情同意规则
随着信息分析技术的迅速发展,可识别信息与不可识别信息之间的界限愈益模糊,可识别性不再呈现为“全有或全无”的状态[22]。换言之,间接识别性指向的是某一信息客观上所具备的识别特定自然人的可能性,其在识别程度上具有较大的差异性。根据平等原则的内在要义,平等不仅意味着相同事物相同对待,还意味着不同事物不同对待。鉴此,应当根据间接识别个人信息的可识别性程度,构建宽严有别的分层知情同意机制。
具体而言,对于可识别性程度较高的间接识别个人信息,如果其被不当处理可能给信息主体造成的风险更高,故而应当给予其较强的保护。在告知方面,生成式人工智能服务提供者除了向信息主体说明信息处理目的、处理方式、存储期限等信息处理的一般事项外,还应当告知生成式人工智能算法决策的基本过程、算法风险等事项。生成式人工智能服务提供者在履行告知义务时,应当采取显著的告知方式,诸如对相关条文进行加粗、标红等,保障信息主体充分知悉间接识别个人信息处理活动的潜在风险。在同意方面,信息处理者必须取得信息主体明确的、真实的意思表示方能处理间接识别个人信息,如果处理的是未成年人个人信息,还必须征得监护人明示的同意。此外,如果信息处理事项超过信息主体初始同意的范围,则需要再次取得信息主体的授权同意。
相反,对于可识别性程度较低的间接识别个人信息,其与信息主体的人身关联性较低,可以引入“选择退出”机制,避免过于繁琐的知情同意程序阻碍生成式人工智能的创新发展。不同于传统的“选择—进入”授权同意模式,“选择—退出”机制将本应由信息处理者承担的特定义务转换至信息主体,如果信息主体不能有效行为,则发生默示同意的法律效果[23]。就此而言,如果生成式人工智能服务提供者收集的是信息主体已公开的间接识别个人信息,或者信息处理者有证据证明信息处理可能带来的利益超过信息主体自身的利益时,则可以不经信息主体同意而处理其信息,除非信息主体明确表示反对。
(三)完善侵权救济机制
1. 承认风险性损害
伴随机器大工业生产的运用、生命科技与信息技术的进步以及全球化浪潮的席卷,人们被迫置身于“风险社会”之中。目前,学者关于“风险”具体内涵存在争议,但普遍认为,风险具有不可预见性、不可控制性以及致损的可能性。随着个人信息侵权行为的大肆扩张,主张在个人信息领域引入“风险性损害”的声音愈益强烈。“风险性损害”指侵害间接识别个人信息的行为虽然尚未造成现实的损害,但存在引发损害的极大可能性。风险性损害根据信息处理可能产生的风险来判定是否存在损害,有利于充分保护信息主体的合法权益,避免信息主体因举证不能而陷入无法救济的窘迫处境。实际上,我国对于“风险性损害”的认可已经不局限于理论探讨范畴,有学者对实务中相关的裁判规则进行考察后发现,法院在判定某些个人信息侵权损害时,通常只考虑侵害行为是否导致个人信息处于不当公开的事实状态,并不要求社会评价降低、精神损害等具体损害后果的发生[24]。
在生成式人工智能领域,侵害间接识别个人信息可能引发诸多风险,具体包括歧视风险、安全风险等。现代法律与伦理道德一致认为,人人生而平等,每个人都享有自由追求个性发展与美好生活的权利,禁止他人遭受歧视性的对待成为一项普世性的价值准则。“歧视”是指一种不公正的、不合理的或任意区别的贬义,其包含三个基本要素,即存在区别待遇、此种区别具有不良的效果以及该区别的理由是被禁止的[25]。作为人类社会的产物,某些间接识别个人信息可能蕴含歧视性因素,如果该信息被用于训练生成式人工智能,则其所内含的歧视性因素会被传递至生成内容之中。如果这些生成内容被他人不法公开或利用,可能对信息主体的就业、投保等带来不利影响,增加了信息主体遭遇歧视性对待的风险。此外,生成式人工智能侵害间接识别个人信息可能引发安全风险。间接识别个人信息具有识别的可能性,借助于大数据分析技术,碎片化的间接识别个人信息也可能识别出特定的信息主体,因而间接识别个人信息一旦泄露或被不当使用具有较强的风险性,其既可能直接给信息主体造成损害,也可能严重威胁信息主体的人身财产安全。有鉴于此,有必要承认风险性损害,如果不法侵害间接识别个人信息的行为使得信息主体面临更大的风险,或者超过了信息主体的合理预期,也应当认定损害的存在,从而遏制间接识别个人信息侵害行为的发生,更好地保障信息主体的正当性利益。
2. 明确损害赔偿数额
根据《个人信息保护法》第六十九条之规定,间接识别个人信息损害赔偿的数额应当根据损失赔偿、获益返还以及酌定赔偿等方式予以确定。就财产损失赔偿而言,传统侵权法理论认为,为保障受害人的损失得到全面救济,损失赔偿必须坚持“完全赔偿原则”,侵害人需要就受害人遭受的全部损失予以赔偿。反对者则认为,“全部损害赔偿”只是理想状态,其难以在实践中具体实施,因为某一损害可能牵连引发其他损害,因此民法中的损害赔偿是经过裁剪的有限范围的救济,所谓的“全部损害赔偿”并非是要赔偿受害者所遭受的全部损害,而只是赔偿其一部分而已[26]。笔者认为,完全赔偿原则是损害填补原则与禁止得利原则的另一种表达方式,侵害人对其造成的损害予以全面赔偿是公平正义的内在要求。虽然不乏学者批判完全赔偿原则具有适用上的僵硬性与价值上的武断性,更有学者提出以“损害酌定制度”“动态系统论”等相关理论来取代完全赔偿原则的功能发挥。然而,这些理论学说仅于特定的情形下存在作用空间,并不具有普遍的适用性,无法撼动完全赔偿原则的根本性地位。就此而言,在确定损失赔偿的范围时,应当坚持完全赔偿原则,确保受害人的损害得以救济的同时不会因此而不当得利。
就获益返还而言,由于间接识别个人信息蕴含一定的经济价值,侵害行为人可能因不法处理间接识别个人信息而获得一定的财产利益。然而,并非侵害行为人获得的所有利益都应当返还,通常来说,侵害行为人因不法行为获得的利益包括固有利益、机会利益以及额外利益这三个部分[27],如何确定获益返还的范围事关受害人的权益保护与行为人的自由能否得到妥当的平衡。笔者认为,侵害行为人需要返还的利益是机会利益与额外利益中因利用间接识别个人信息而获得的那部分利益,对于固有利益以及因自身因素而获得的利益则无须返还,否则可能致使受害人因侵害行为而获利,有悖于公平正义原则。
就酌定赔偿而言,法官在具体个案中应当综合考虑间接识别个人信息的识别程度、信息处理目的的正当性程度、信息处理行为的社会危害性等因素。通过明确酌定赔偿的考量因素,能够限制法官的自由裁量权,使得判决结果更具有可预见性,同时以一种可控制的方式实现对不同案件事实多样性的考量[28]。关于酌定赔偿的数额,美国《加州消费者隐私法案》规定酌定赔偿的范围应当在100至750美元之间。遗憾的是,《个人信息保护法》第六十九条并未就个人信息侵权损害酌定赔偿的范围予以明确。有鉴于此,未来相关司法解释应当立足于我国现实情况,明确间接识别个人信息侵权损害酌定赔偿数额的区间,并根据社会发展情况进行适时的动态调整。
(四)适用举证责任倒置
从诉讼的本质看,当事人在主张对自己有利的事实时必须就该主张负担举证责任,如果其不能就有利于自己的事实提供证据,则可能承担不利的后果[29]。根据举证责任分配的一般原则,信息主体向侵害行为人请求损害赔偿时,应当提供证据证明侵害行为人不法侵害间接识别个人信息、侵害行为人主观上存在过错、自己遭受损害以及损害与侵害行为之间存在因果关系,否则可能承担败诉的风险。然而,在生成式人工智能领域,“谁主张谁举证”的证明责任配置原则遭遇困境。
生成式人工智能由算法、数据以及算力三大模块构成,导致生成式人工智能服务者、生成式人工智能使用者、信息处理者以及算法设计者都可能成为侵权主体。现阶段,生成式人工智能可以通过开放接口的方式供其他应用程序所使用,应用范围涵盖教育、金融、医疗、科研等领域,譬如Edge浏览器与Office软件均已接入ChatGPT系统。如果按照《暂行办法》第二十二条关于生成式人工智能服务提供者的定义,则接入ChatGPT系统的Edge浏览器以及Office软件的提供者均属于生成式人工智能服务提供者,这使得生成式人工智能应用中间接识别个人信息的侵权责任主体较为复杂。实践中,信息主体受限于专业知识不足、信息不对称等现实因素,很难提供具有充足证明力的证据,此时若仍将证明责任完全分配给受害人,则其很可能因举证不能而得不到法律救济,不仅有违实质意义上的公平正义,还可能助长个人信息侵权现象。
举证责任倒置将原本应当由一方当事人对某法律要件事实的存在负担举证责任,转由另一方当事人就该事实不存在负担举证责任[30]。举证责任倒置能够将信息主体从沉重的证明负担中解脱出来,有利于及时对侵害行为人进行追责,从而促进纠纷的快速解决。为了平衡两造当事人的合法权益,应部分而非全部倒置举证责任,具体来说,受害者应就其权益受侵害、侵害行为人等事项提供初步的证据,而对于主观过错、侵权情节严重程度等事项,则由侵害行为人予以证明,如果侵害行为人无法提供足够的证据予以证明的,则认为受害人的诉讼请求成立。
五、结语
人是社会性动物,个人的生存与发展离不开社会交往,人们在参与社会生活过程中,也在不断衍生间接识别个人信息。随着生成式人工智能被广泛应用于各个领域,间接识别个人信息的法律保护迎来了新的挑战。需明确的是,间接识别个人信息的法律保护不是机械的技术性操作,而是内蕴多元利益的价值评价,如何平衡价值的安定性与智能技术的发展性是间接识别个人信息保护需要考虑的核心议题。为此,应当以可识别性为核心要素,同时辅之以具体场景下的多重价值考量来灵活认定间接识别个人信息。由于可识别程度天然地具有差异性,应当根据间接识别个人信息内含的可识别性的差异重塑知情同意规则,实现实质意义上的平等。为了更好救济信息主体的合法权益,有必要承认风险性损害,明确损害赔偿的数额,并在程序方面实行举证责任倒置,通过实体规则与程序规则的双向协动,促进生成式人工智能应用中间接识别个人信息法律保护的有效落实。
参考文献:
[1] 郭明龙. 个人信息权利的侵权法保护[M]. 北京:中国法制出版社,2012:24.
[2] 周学峰 .生成式人工智能侵权责任探析[J]. 比较法研究,2023(4):117⁃131.
[3] 王建磊,曹卉萌. ChatGPT的传播特质、逻辑、范式[J]. 深圳大学学报(人文社会科学版),2023(2):144⁃152.
[4] 王卫. 平衡科技创新与隐私保护 多国计划加强对ChatGPT监管[N]. 法治日报,2023-04-10(5).
[5] 李翔,旷银. ChatGPT类人工智能及其生成物的刑法思考[J]. 贵州师范大学学报(社会科学版),2023(4):78⁃91.
[6] 张凌寒. 深度合成治理的逻辑更新与体系迭代——ChatGPT等生成型人工智能治理的中国路径[J]. 法律科学,2023(3):38⁃51.
[7] 徐凤. 人工智能算法黑箱的法律规制——以智能投顾为例展开[J]. 东方法学,2019(6):78⁃86.
[8] 张欣. 生成式人工智能的算法治理挑战与治理型监管[J]. 现代法学,2023(3):108⁃123.
[9] E.博登海默. 法理学——法律哲学与法律方法[M]. 邓正来,译. 北京:中国政法大学出版社,1998: 486.
[10]高富平. 个人信息保护:从个人控制到社会控制[J]. 法学研究,2018(3):84⁃101.
[11] KANG J. Information privacy in cyberspace transactions [J]. Stanford Law Review, 1997, 50(4): 1193⁃1294.
[12]林喆. 权利的法哲学——黑格尔法权哲学研究[M]. 济 南:山东人民出版社,1999:248.
[13]郭小东. 生成式人工智能的风险及其包容性法律治理 [J]. 北京理工大学学报(社会科学版),2023(6): 93⁃117.
[14] 高秦伟. 个人信息概念之反思和重塑——立法与实践的理论起点[J]. 人大法律评论,2011(1):209⁃235.
[15] 於兴中,郑戈,丁晓东. 生成式人工智能与法律的六大议题:以ChatGPT为例[J]. 中国法律评论,2023(2):1⁃20.
[16] 曾世雄. 损害赔偿法原理[M]. 北京:中国政法大学出 版社,2001:118⁃119.
[17] 王利明. 侵权责任法研究(上卷)[M]. 北京:中国人民大学出版社,2016:312⁃313.
[18] 黄耀赏.浅谈“得以间接方式识别特定个人之资料”[J].科技法律透析,2015(1):31⁃35.
[19] 范姜真媺.个人资料保护法关于“个人资料”保护范围之检讨[J].东海大学法学研究,2013(41): 91⁃123.
[20] SPINDLER G, SCHMECHEL P. Personal data and encryption in the European general data protection regulation[J]. Journal of Intellectual Property, Information Technology and E-Commerce Law, 2016, 7(2): 163.
[21] 于文轩. ChatGPT与敏捷治理[J]. 学海,2023(2):52⁃57.
[22] SCHWARTZ P M, SOLOVE D J. The PII problem: privacy and a new concept of personally identifiable information[J]. New York University Law Review, 2011, 86(6): 1814.
[23] 冯恺. 个人信息“选择退出”机制的检视和反思[J]. 环球法律评论,2020(4):148⁃165.
[24] 李怡. 个人一般信息侵权裁判规则研究——基于68个案例样本的类型化分析[J]. 政治与法律,2019(6):150⁃161.
[25] 李薇薇. 论国际人权法中的平等与不歧视[J]. 环球法律评论,2004(2):226⁃233.
[26] 曾世雄. 损害赔偿法原理[M]. 北京:中国政法大学出版社,2001:25.
[27] 冯德淦. 获利返还制度的法理研究[J]. 法制与社会发展,2023(1):187⁃207.
[28] 海尔穆特·库齐奥. 动态系统论导论[J]. 张玉东,译.甘肃政法学院学报,2013(4):40⁃47.
[29] 谷口安平. 程序的正义与诉讼[M].王亚新,等译. 北京:中国政法大学出版社,1996:243⁃244.
[30] 李浩. 举证责任倒置:学理分析与问题研究[J]. 法商研究,2003(4):87⁃94.
Legal Protection for Indirect Identification of Personal Information
in Generative Artificial Intelligence
Zhu Rongrong
(China University of Mining and Technology, Jiangsu Xuzhou 221116, China)
Abstract:The application of generative artificial intelligence widely poses challenges to the legal protection of indirect identification of personal information. Traditional informed consent are merely formalities, the scope of indirect identification of personal information is difficult to determine, the risk of information disclosure is increased, and the difficulty of proof of damage is increased. At present, there are issues with the legislation on indirect identification of personal information protection in China, including vague conceptual definitions, expansion of protection levels, and incomplete mechanisms for tort relief. As a result, it is unable to achieve a balanced consideration between information protection and industrial development. In view of this, the scope of indirect identification of personal information should be flexibly determined by a combination of static and dynamic identification, a hierarchical informed consent should be constructed, the risk damage should be recognized, the amount of damage compensation should be reasonably calculated, and the burden of proof should be reversed. These measures will promote a benign balance between the protection of indirect identification rights and the innovation in generative artificial intelligence.
Keywords: generative artificial intelligence; ChatGPT; indirect identification of personal information; identifiability