刘 刚,刘 钊
(中南大学 法学院,湖南 长沙 410083)
深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。①利用该技术实现的生成式人工智能产品以ChatGPT(Chat Generative Pre-trained Transformer)为代表。在推出后三个月的时间内,ChatGPT 吸引了约1.23 亿活跃用户,成为历史上用户数量增长最快的应用软件。[1]GPT(Generative Pre-trained Transformer,生成式预训练转换模型)主要采用语料库进行预训练,能够实现连续性人机协同。[2]美国斯坦福大学研究发现,GPT-3.5 与9 岁儿童的智力水平相当,具有较高的拟真度。[3]由此,深度合成技术能够生成符合人类表达习惯、价值观和偏好的高质量文本。[4]该技术在内容输出、应用场景和利用信息数量上均实现了跃升。深度合成技术具有显著的技术优势和应用前景,该技术在满足人们多元化需求的同时也产生了数据伪造、数据偏见和数据依赖等诸多风险。
深度合成技术以自主生成内容为运行逻辑,以拟真性、独立性为突出特点,在应用场景和数据规模上进入了人工智能发展的新阶段。然而,深度合成技术的生成式内容、多场景应用和无限制利用也引发了一些内生风险,具体包括数据伪造、数据偏见和数据依赖等问题。
1.深度合成技术具备强大的内容生成能力
深度合成技术在拟真度上实现新突破。作为深度合成技术发展到现阶段的代表性产品,ChatGPT 使用大型语言模型(Large Language Mode)从互联网可采集数据中开展自主学习与训练。[5]这些训练数据包含大规模的公开语料和人工标注数据。人工标注数据包含大量的人类偏好知识,包括但不限于人类表达习惯、流行内容和人类认知等。WebText 语料库数据占训练数据的22%,主要是从社交媒体平台Reddit 的所有出站链接中爬取的,每个链接均有三个以上的点赞,表明人类认知与偏好。[4]通过对人类认知、惯用习语以及价值追求的学习,ChatGPT 的拟真度达到了前所未有的高度。深度合成技术使用了以人类反馈为基础的强化学习技术(Reinforcement Learning from Human Feedback)。该技术包含三个步骤,第一步是监督式微调,指运用人工标注数据调整训练模型参数;第二步是构建奖励模型,指对训练模型的生成结果进行人工标序,以构建自动评价模型;第三步是运用近端策略优化算法(Proximal Policy Optimization),实现对生成文本的自动评估与优化。[6]该技术与人类反馈相结合,使得深度合成技术的生成内容趋近人类预期。
深度合成技术具备原创文本生成能力。深度合成技术不仅可以搬运、整理大规模的互联网信息,而且可以借助训练模型生成与人类语言模式相似的回应内容。[7]这种生成方式不是对原有内容的简单整合,而是在理解具体内容的基础上,对收集到的数据信息进行筛选和加工,最终得到能够满足用户需求的文字、图形、视频和音频等数字内容。该种应用范式具备数字内容孪生能力、数字编辑能力和数字创作能力。[8]这些能力具体表现为连续交互式对话、编写计算机代码、撰写论文、创作诗歌、生成新闻稿等。
2.深度合成技术可能采集、生成虚假数据
深度合成技术存在深度伪造数据的风险。深度伪造(Deep Fake)是指人工智能算法利用神经网络识别和视听数据拼接生成虚假内容的处理技术。[9]依靠生成对抗神经网络(Generative Adversarial Networks,简称“GANs”),深度伪造甚至可以达到以假乱真的程度。[10]“深度伪造”虚假信息的类型主要涉及图片、视频、语音等信息数据,“深度伪造”可以通过算法的快速传播和扩散,对国家数据安全和个人信息安全造成破坏,扰乱社会秩序,影响公民的社会安全感和信赖感。[9]
深度合成技术存在采集虚假数据的问题。采集虚假数据的可能性是造成“深度伪造”数据信息的根源所在。深度合成技术采集数据的途径主要依靠互联网公开数据。互联网公开数据众多,真假混杂,深度合成技术难以对数据的真实性进行辨别,因而有可能导致采集虚假数据。研究表明,ChatGPT 依靠维基百科、报纸期刊、社交媒体网站等途径获取数据,其中不乏权威性较低的数据内容。这意味着ChatGPT 极易采集到有缺陷的数据并进行输出。
深度合成技术存在生成虚假数据的可能。深度合成技术产品如chatGPT 的输出结果在一定程度上受到用户提问的影响。ChatGPT 会根据用户的指向性提问输出回答内容,该特性易被居心不良的用户利用,致使更多虚假数据信息被生产并传播,比如有可能出现利用ChatGPT 编造虚假新闻以及利用ChatGPT 实施AI 换脸等潜在违法犯罪行为。虚假数据信息能够依靠大规模、高频次算法不断迭代,真实数据信息的出现频率将会大幅降低,而虚假信息的数量会成倍增加。倘若不对其加以限制,真实的网络数据信息有可能会被虚假信息淹没。[11]
1.应用场景多样化
相比传统人工智能技术而言,深度合成技术具有更广阔的产业应用场景。在深度合成技术应用过程中,生成式人工智能这一技术与生产力各要素相融合,对生产劳动各个过程都产生一定影响,最终达到大幅度提高社会生产力的效果。[12]深度合成技术具体应用的产业场景包括广告、电商、营销、娱乐、游戏、客服等。深度合成技术广泛应用于各个产业领域,催生了各种新模式、新业态。[13]深度合成技术不仅能够带动新产业的出现与发展,也能推动传统产业新场景的出现,通过“深度合成+”带动数字产业化和产业数字化的进程。[8]
深度合成技术具有更丰富的社会应用场景。ChatGPT 能够为很多场景的应用提供支撑,带动关联行业并催生新的应用模式,形成“深度合成+医疗”“深度合成+生活”“深度合成+传媒”“深度合成+教育”“深度合成+政府”等系统性工程。在“深度合成+政府”场景中,深度合成技术能够改变政府的传统履职方式,推动政府管理模式的变革。深度合成技术不仅能够将政府工作人员从繁琐的问答中解放出来,让政府工作人员完成更深入的政府服务,还能避免由于工作人员素质的参差不齐造成的服务质量不一的问题,保证政务问答的权威性、准确性和实时性。新一代人工智能技术既能提升政府与公众(包括企业)交流互动的能力,也能帮助政府提升决策与管理能力。[14]在“深度合成+教育”场景中,学生可以利用深度合成技术完成作业或论文。对深度合成技术担任学习工具这件事情,不同教育者的观点大相径庭。法国巴黎政治学院、澳大利亚部分州明确提出禁止使用人工智能完成作业[15];2023 年1 月26 日,《科学》杂志强调不能在投稿中使用ChatGPT 生成的文本、数字、图像等[16];2023 年2 月10 日,《暨南学报(哲学社会科学版)》发布声明,指出不接受ChatGPT 联合署名的文章。[17]同时,也有部分地区和学校对深度合成技术持包容和开放态度。荷兰莱顿大学校长赫斯特·毕尔(Hester Bijl)认为教育学生正确使用人工智能工具是教师的一项任务,这样有助于使ChatGPT 成为教学的有力助手。[18]
2.数据可能存在偏见或被人为赋予偏见
数据偏见是指数据本身存在或人为赋予的带有偏向性的非中立的倾向。数据偏见是不可避免的。因为时代背景、地域特性、文化差异等约束,数据带有偏见具有必然性。即使是目前最先进的深度合成技术产品GPT-4,其自主生成的内容中也存在偏见。[19]
数据本身可能存在偏见。“数据集本身呈现的偏见必然出现在由此衍生的结果中。”[20]已有文献将数据集偏见划分为历史偏见(historic bias)、代表性偏见(representativeness bias)和标签偏见(label bias)。历史偏见主要源于先前不当抽样的影响;代表性偏见的产生是因为采样数据不足或采样数据代表性不强。[20]另外,数据中包含大量的人类发表的言论、文本,这一点也决定了数据本身必然带有偏见。由于训练数据语料库本身带有偏见,深度合成技术产品必然在训练过程中继承该偏见,并将其在输出内容中表现出来,进而传播该数据偏见。
数据可能被人为赋予偏见。首先,设计者可以在程序设计中注入个人偏见,这也被称为标签偏见(Label bias),是指设计者在选择、筛选数据的过程中会受到人类偏见的影响,从而形成数据偏见。[21]其次,使用者在交互过程中可能会引导深度合成技术产品形成数据偏见。倘若用户在交互过程中强化某一单词或某一观念,引导ChatGPT 生成想要的答案,就有可能得到带有数据偏见的内容。[22]
数据偏见可以通过技术手段降低。IBM已经提出了相关设想:“减少歧视的构想,主要通过三个目标完成:控制偏见、限制样本数据的扭曲性和保留数据的实用性。”[23]由此可见,可以通过建构一种理性的、中立的、客观的、非歧视的态度,来减少算法及其结果中的潜在偏见。
1.数据规模无限扩张
深度合成技术运行的基础是海量数据语料,这部分数据语料被称为训练数据。在进入市场、商业化落地之前,深度合成技术产品已经进行了大量复杂的预训练。生成式人工智能在预训练阶段需要对海量的数据进行收集,它通常将这些从互联网获取的海量训练数据用于模型的深度学习和强化学习过程。互联网数据具有持续再生性和海量性,这为ChatGPT 的进化提供了核心要素,但同时也产生了数据依赖,训练数据成为大模型产业化的最大掣肘之一。[24]
深度合成技术打破了公域与私域的壁垒。深度合成技术能够采集私域信息,将私域数据与公域数据融合。公域数据指能够通过互联网检索到的面向所有人提供的数据信息。私域数据指一般不能通过引擎搜索得到的、不为人知的个人数据信息。以往的人工智能产品一般只能抓取公域数据,而私域数据往往没有开放共享,导致一部分互联网资源没有得到充分利用。[25]深度合成技术产品在应用过程中能够通过连续交互对话修改生成内容,使其更贴合用户需求。[22]在这一完善过程中,用户所发送的信息成为新的未经人工标注的训练语料库。用户为完成连续交互对话所发送的信息中不乏个人数据信息。这一部分进入训练语料库后,与原有训练语料库融合,从而使公域数据与私域数据产生混合,打开了公域数据与私域数据连接的大门。
2.数据依赖导致个人数据过度披露
数据依赖是指深度合成技术应用的全过程过分依存海量数据得以完成。虽然数据作为国家基础性战略资源,对经济运行机制和国家治理能力具有重要影响,应当稳步推动公共数据资源开放[26],但是深度合成技术对数据的采集和利用处在无限扩张的状态。随着深度合成技术的推广与深度应用,数据采集安全问题不容忽视。过度依赖数据将产生以下问题。
首先,针对个人数据的采集规则不明确。在数据使用过程中,收集数据的范围、方法、程序等均会对数据安全产生很大的影响。缺少确定的采集规则,不仅会导致许多科研人员和机构在技术开发上畏首畏尾,也会对数据安全造成威胁。因此,需要加强数据治理,提高数据使用中的透明度,明确告知用户哪些数据被搜集和使用,以减少涉及隐私问题时产生的矛盾。[27]我国现行法律中已有部分规定涉及个人信息保护问题,如规定个人信息处理者不得公开其处理的个人信息,取得个人单独同意的除外。个人信息的去身份化处理虽然在一定程度上可以降低个人隐私受侵犯的风险,但是这并不意味着行为人可以随意使用经过匿名化处理的个人信息,因此,并不能解决个人数据收集程序的合法性问题。[28]
其次,个人数据的采集范围过宽。在人们上网冲浪时,无论是搜索痕迹,还是在社交网络平台发布的文本、音频和视频,甚至是网页浏览记录,都不可避免地在网络空间留下了数据痕迹,这就为隐私泄露埋下了隐患。[29]ChatGPT 已经发生过不当泄露用户隐私的情况。我国关于个人数据保护的立法虽多,但是较为零散,对大数据采集和利用的范围问题没有明确的系统性法规,很难提供切实有效的法律保障。
刑法关于数据安全的保护模式大致可以分为数据控制安全保护模式和数据利用安全保护模式。[30]我国主要采用数据控制安全保护模式,把治理重心放在惩治非法采集、传播数据行为方面,重在强化数据主体对数据的控制力。然而,在深度合成技术商业化落地过程中数据储存、加工等处理行为对数据安全造成的实质侵害往往更大。可见,现有刑法数据治理模式不能有效保障数据安全,我国数据治理应该采用数据利用安全保护模式。数据利用安全保护模式是指原则上不禁止行为人采集数据的行为,主要通过规制数据储存、加工等处理行为保障数据安全的治理模式。该模式能够有效防止数据加工行为的实质侵害,并兼顾数据权利主体和数据使用主体的权益。下文主要从治理重心、价值目标、数据法益的独立性这几个方面阐述数据利用安全保护模式的构建。
数据控制安全保护模式注重强化对数据获取的控制,数据利用安全保护模式则在治理理念上表现为强化对数据利用的规制。
首先,强调对数据利用行为进行规制,有利于充分发挥数据的潜在使用价值。数据的价值不在于静止,而在于流动;数据的价值不在于所有,而在于使用。允许数据自由流动和使用并非否认信息权人的控制权,也并非否定权利人的信息自决权,而是在数据流动阶段加强对数据利用的控制。倘若将数据流动的过程看做一条河流,一味强调信息权人对信息的控制权只能将河流锁定在水闸内,而弱化权利人对数据的控制权,能够将闸口打开。数据流动不仅可以为深度合成技术的研发者带来价值与利益,也能够让数据焕发生机与活力。刑法目前将数据治理的重点放在数据获取阶段,过分强调数据权利主体在数据采集方面的控制权,以至于忽视了技术发展上数据的动态流转需求。[31]可见,弱化对数据获取的规制才能实现数据价值的效益最大化。
其次,强调对数据利用行为进行规制,有利于防止个人数据权益受到侵害。个人数据权益侵害更多表现为无形侵害,如个人隐私被泄露、遭遇歧视、身份被冒用和社会形象被破坏等。[32]这些侵权行为主要是由于数据被不当使用导致的。控制数据的流向固然重要,但是数据的使用量、存储时间、传播方式、加工结果等因素才是决定公民人格权是否受到侵害的关键。比如,在魔蝎科技公司侵犯公民个人信息权一案中,该公司未经用户允许采用技术手段将用户的账号和密码长时间储存,法院认定主管人员和相关责任人构成侵犯公民个人信息罪。②由此可见,除获取公民个人信息这一前端行为外,后续行为如储存公民个人信息、加工公民个人信息等数据使用行为同样具有法益侵害性,应当受到规制。
再次,强调对数据利用行为进行规制,有利于防止知情同意规则的不当使用。我国目前所采用的知情同意模式不能解决侵害数据权益的问题。深度合成技术产品如ChatGPT 在交互过程中可能会收集用户提供的个人隐私、聊天内容、社交媒体数据等能够识别用户身份的信息。虽然数据获取行为得到权利人同意,但如果采集数据后的利用、存储等行为未能受到刑法规制,数据安全同样得不到有效保障。再如,很多应用软件在用户注册伊始就通过“软强制”的方式逼迫用户同意其采集信息,这种“软强制”包括但不限于将同意采集信息的条款放在用户不易发现的大段合同中,不同意该合同即拒绝用户使用应用软件;对于敏感信息的收集并未显著标明等。一旦获取用户的同意,技术研发公司后续的数据利用行为将获得足以免责的“保护伞”,法律规制将无从下手。强化对数据利用的规制能够革除这一弊端,有效发挥知情同意原则的最佳法律效果。
以规制数据利用作为数据治理的理念要求改变以往将数据获取作为治理重心的局面。该理念强调鼓励数据流动与资源整合,兼顾维护数据主体的利益。这一改变对于数据治理的方式、程序和内容都将带来很大的挑战,但同时给我国深度合成技术发展带来的机遇也不可小觑。深度合成技术的良性发展需要数据权益保护和数据资源利用齐头并进,应当寻求数据流通与数据保护之间的平衡。[33]
1.优先整合数据资源
整合数据资源的目的在于保护公共利益。虽然“知情同意”是原则性规定,但也需要为公共利益让步。在个人权利和公共利益发生冲突时,应当优先保护公共利益。整合数据资源虽然在一定程度上对个人数据权利有所减损,但有利于鼓励数据流动,实现社会资源的效益最大化。如我国《民法典》第1036 条、《信息安全技术 个人信息安全规范》(GB/T35273-2020)的相关规定均体现了对公共利益的保护。③在疫情防控期间,海量数据为政府分析疫情源头、监测疫情变化和部署防疫政策发挥了重要作用。[34]另外,告知同意原则也应当受到正当目的原则和必要原则的约束。[35]
整合数据资源的本质是维护数据处理者的合理使用权益。提高整合数据资源在价值衡量中的比重,不仅能推动深度合成技术的健康发展,而且能够将深度合成技术研发公司的合理使用权益纳入主体权利保护的范围,实现对多方数据主体利益的维护。在美景公司与淘宝不正当竞争纠纷的案件中,法院认为“网络运营者对于其开发的大数据产品,应当享有自己独立的财产性权益”。④在合理使用数据的前提下,数据产品带来的权益应当归数据使用者享有。保护数据使用者的应有权益,也是推动数字经济蓬勃发展的必经之路。
2.兼顾维护主体权利
维护主体权利是数据治理的根基。偏重整合数据资源的同时若忽视了维护主体权利,数据治理将会变成无源之水、无本之木。在将数据资源进行整合、发挥数据资源的应有价值的同时,加强对数据主体权利的保护,才能保证数字经济产业的长久发展。
保护数据主体权利的理论经历了从隐私权理论、个人信息自决权理论到财产权理论的历史嬗变。隐私权理论起源于美国,“所谓隐私权,是指信息主体对个人信息享有的完全控制权,包括是否公开、以何种方式公开、在什么时间公开。这些都应当由信息主体自主决定”。[36]美国1974 年制定的《隐私权法》在法律上对信息隐私权做出了肯定。隐私权理论开启了对数据信息权利积极干涉、加以控制的时代。个人信息自决权理论起源于德国。德国《基本法》规定了个人信息自决权,将个人信息定义为“可以直接或间接识别自然人的全部数据”。[37]20 世纪60 年代,财产权理论兴起。一种观点认为个人数据虽然归属人格权,但是应当承认存在财产性利益;另一种观点认为应将个人数据看做财产权的新形态。我国学者郭明龙认为对不同信息种类应通过财产权制度予以差别化保护;[38]刘德良提出个人信息的属性是权利人可以自由处分的财产。[39]可见,各国法律和理论界都将数据主体权利的保护放在举足轻重的位置。
规制数据滥用行为是鼓励整合数据资源的重要前提,也是维护主体权利的关键步骤。数据滥用行为包括不当采集和使用数据、拒绝分享数据、算法价格歧视等类型。[40]数据滥用行为不仅会导致深度合成技术研发公司滥用市场支配地位造成不正当竞争,还会损害消费者权益,即信息主体的知情权和公平交易权。[41]将数据治理的重点放在规制数据利用行为上,能够有效预防和禁止上述滥用行为,也能够在一定程度上实现维护数据主体权利的效果。
采用数据利用安全保护模式能够实现风险转移,从而达成维护主体权利的实质效果。在使用数据控制安全保护模式的情形下,知情同意原则往往成为数据滥用的温床。取得信息权人的同意即可成为数据滥用行为的“免死金牌”。[30]虽然数据处理行为由数据使用者做出,但是滥用行为的风险却由数据权人承担。这种风险承担机制显然不合理。弱化知情同意原则的豁免权,建构新的风险承担机制,能够使这一问题得到有效解决。同时,也能促使深度合成技术研发公司在合理范围内处理数据,切实保护信息权人的合法权益。
目前我国刑法关于数据治理的具体规定可以分为直接规制和间接规制,直接规制是指将数据直接作为规制对象,如非法获取计算机信息系统数据罪和破坏计算机信息系统罪;间接规制是指以数据所包含的内容为保护对象,如非法侵犯公民个人信息罪、侵犯商业秘密罪、泄露国家秘密罪等。[31]事实上,针对数据本身的新型侵权行为层出不穷,传统保护模式无法满足数据治理的需求。[31]首先,间接规制仅仅规制了获取、采集和传播数据的行为,并未对后续存储、修改、删减和增补等行为进行规制。其次,破坏计算机信息系统罪呈现口袋化趋势。实践中一部分以数据为工具、媒介侵犯传统法益的犯罪行为也被判定为破坏计算机信息系统罪。破坏计算机信息系统罪也只有在以破坏计算机信息系统为手段对数据安全产生威胁时才能适用。[42]即使计算机信息系统的数据被修改,但是未造成系统功能实质性破坏或者不能运行的行为不应当定罪。[43]如在一个案件中行为人使用棉纱堵塞环境质量采样设备以干扰数据采集,导致数据严重失真,改变了数据结果。该案件中的行为人被判定为破坏计算机信息系统罪。⑤在该案件中,信息系统并未因当事人的行为而造成破坏,也并未造成不能运行的结果,数据结果的改变不等于信息系统未正常运行,因此能否判定为破坏计算机信息系统罪还有待考量。
数据法益独立的理论基础是法秩序统一性原理。法秩序统一性原理要求法律规范之间不能产生矛盾冲突,应当形成协调统一的整体。[44]信息与数据的概念既有交叉,又有不同。我国分别颁布了《中华人民共和国个人信息保护法》和《数据安全法》,其中虽未对数据和信息的概念做出明确界定,但是两部法律的颁布足以表明在我国立法体系内,数据这一概念不能完全包括个人信息,信息也不足以涵盖数据的全部内容。刑法应当对前置法的规定有所回应,才能体现刑法的保障性功能。另外,改变数据法益依附性的现状,一方面能够对信息、数据进行分别治理;另一方面也能改变数据治理的重心,有利于数据治理模式的转变;再者也能对带来数据安全风险的行为分门别类,适用不同的刑罚,有助于维持刑法的谦抑性。因此,在刑法已经设立侵犯公民个人信息罪的情况下,我国应当将数据法益独立出来。这样既能保障数据安全,又符合法秩序统一性原理的要求。
为应对上述深度合成技术商业化落地产生的内在风险,应当将数据控制安全保护模式向数据利用安全保护模式转变,在明确数据法益内涵的基础上,增加获取数据行为的违法阻却事由,调整知情同意规则的效力,增加篡改、编造、储存、滥用数据和恶意植入数据偏见等行为类型。
刑法所保护的数据法益是复合法益,既包括国家数据管理秩序,也包括数据主体对数据进行有效保护和合理使用的个人法益。需要特别指出的是,由于一方面数据包含的具体内容带有一定的人身属性;另一方面数据具有可流转性、可变现性,数据处理行为能够产生经济收益,因此,个人数据法益同时包括人格权和财产权。
维护数据法益无需另设罪名,可通过调整现有罪名保障数据安全。有学者提出应当增设刑法罪名以维护数据安全[30],但目前我国刑法分则体系中并不缺少数据犯罪罪名。只是由于时代背景的局限性,以往立法时将数据治理局限在了“计算机系统数据”这一范围,因此增设“滥用算法罪”或“非法提供算法服务罪”不如扩大调整对象,将所有涉及数据的违法行为作为治理内容。上文提出数据法益的定位应当从依附性改为独立性,但这并非意味着要对现有的刑法分则体系提出挑战,将数据犯罪单列一章,而是通过适当调整,妥善处理数据法益与其他法益的关系,加强对人权的保障。可以将“非法获取计算机信息系统数据罪”修改为“非法利用数据罪”,对于违反国家规定,以不当方式获取、提供、篡改、编造、储存数据和利用个人数据、企业数据或国家数据,侵犯公民人身权、财产权或企业合法权益,破坏国家数据管理秩序的行为,进行定罪处罚。将“非法获取计算机信息系统数据罪”改为“非法利用数据罪”,扩大了规制范围,既可以避免实践中将不属于计算机系统数据犯罪的行为强行解释为该罪,回应了破坏计算机信息系统罪口袋化的质疑,也可以扩大数据治理的范围,实现全面的数据保护。
虽然对相关罪名的调整会扩大刑法治理的范围,但是这不意味着违反了刑法的谦抑性。首先,这一调整虽然增加了数据治理的行为类型,但却是建立在增加获取数据行为的违法阻却事由的基础上。该行为并非盲目扩大,而是对刑法的惩治重点进行了调整,通过出罪与入罪的调整使刑法的惩治更合理。其次,虽然刑法规制的数据处理行为类型有所增加,但由于数据具有公共产品属性,并非所有的非法处理数据行为都构成刑事犯罪,还应当通过法益价值衡量、行为的具体危险性和重大法益的侵害可能性提高入罪门槛[30],以维护刑法的谦抑性。
增加获取数据行为的违法阻却情形十分必要。适度弱化数据权人对数据的控制权是数据治理模式转换阶段的重点之一。首先,倘若权利人将数据权利授权给深度合成技术研发公司,在没有明确对后续传播行为进行限制的前提下,该公司可以在约定范围内处理相关信息,即使出现了后续转让行为,但只要平台企业并未超出约定范围处理数据,即可无需再次取得数据权人同意。其次,只要数据的具体内容不属于应当特别保护的敏感内容,如隐私信息、商业秘密、国家秘密等,数据利用者可以采集未被限制访问的数据并可以基于合理使用的原则阻却违法性。合理使用原则强调数据的合理使用,并且要求处理数据的结果不会危害他人利益。将合理使用原则运用到数据治理上,表现为既要保护数据权人对数据的控制权,也要保护数据使用者的合理使用权益。为实现人工智能技术应用中数据的有效流通,不能一味让数据处理者承压。对于情节轻微的违法行为,应当保留必要的出罪空间。[45]
知情同意规则不当然阻却数据处理行为的违法性。由于先前过于强调知情同意规则在数据使用中的地位,使得知情同意规则成为非法处理数据行为的“保护伞”。因此,要对知情同意规则的适用范围和效力加以规定。首先,在取得数据权利人同意时,若当事人对数据使用的范围、目的、方式、存储时效等做了详细规定,数据使用者违反约定致使数据权人遭受重大利益损失的,当然构成违法,应该依法定罪量刑。其次,若数据权人授权时并未对数据利用加以详细规定,数据使用者因不当使用或违法利用数据造成数据权人数据利益损失的,不因知情同意规则阻却违法性。出现数据利用者不可预见或不能避免的情况除外。另外,基于格式条款往往只是在形式上取得了数据权人的授权同意这一现状,如果在格式条款中出现了对数据权人的隐私及信息保护等明显不利的条款,应当否定知情同意规则的效力,强化对数据主体利益的保护。[33]总体而言,知情同意规则有可能作为排除数据收集行为的违法性的正当化根据,但是并不必然导向数据使用行为具有合法性这一结果。如此才能将知情同意规则从非法使用数据行为的保护伞改为数据权人的保护伞。
从行为类型上看,目前我国的数据治理采用了数据控制安全保护模式。例如侵犯公民个人信息罪中将行为类型规定为出售或提供;在侵犯商业秘密罪中虽增加了“使用”这一行为类型,但并未对“使用”的具体类型进行深刻阐释,规制重点仍在“获取”或“提供”行为。因此,在实践中遇到非法使用行为只能适用破坏计算机信息系统罪进行定罪处罚。[46]实现数据治理模式转换的重点在于规制行为类型的改变,因此应当在犯罪行为类型中增加篡改、编造、储存、滥用数据和恶意植入数据偏见等关于数据利用行为的内容,以强化对数据利用行为的治理。需要增加行为类型的罪名主要指前文中提到的以数据体现的内容为保护对象的罪名,如侵犯公民个人信息罪、侵犯商业秘密罪和部分知识产权犯罪等。一方面,这与刑法的功能定位相契合。刑法通常只惩治对法益造成严重危害的行为。深度合成技术应用过程中,数据获取和提供行为往往并不会导致直接的风险,反而是数据篡改、编造、储存、滥用和恶意植入数据偏见等行为会将数据本身和数据所代表的人身权和财产权置于危险之中。另一方面,增加行为类型可以扩大刑法关于数据治理的范围,弥补关于惩治数据利用行为的立法空白。
增加篡改、编造、储存、滥用数据和恶意植入数据偏见等行为类型是遏制黑色产业链的最后一环,也是关键所在。越来越多的市场主体意识到数据的价值,数据要素已成为产业发展的重要生产力。收集、采集数据的目的在于让数据产生价值,产生商业利润。[47]因此,在数据产业迸发出巨大利润的同时,市场已经形成了一条完整的数据交易黑色产业链。[48]由此看来,只有数据的加工和利用行为才能让数据产生价值,这也是数据交易黑色产业链存在的根源。[49]对数据保护的重点也应当从采集环节转移到使用环节。[50]增加篡改、编造、储存、滥用数据和恶意植入数据偏见等行为类型不仅能够完善数据治理的环节,实现数据治理全面化和系统化,也能更好地保护数据指代的具体内容,如个人信息和商业秘密等。加强对数据使用行为的治理,使其符合正当性、必要性和合法性的要求,才能实现保障数据安全的目标。
生成式人工智能的出现,给我国数据安全带来了巨大的挑战。面对深度合成技术带来的数据依赖、数据伪造和数据偏见等风险,数据治理不能固守以往惯用的数据控制安全保护模式,仅仅把住数据的闸口,而是应当转变数据治理模式。数据流向市场是应然也是必然。刑法应当承担起保障数据安全和促进数据资源价值利用最大化的双重使命,将治理模式从数据控制安全保护模式转为数据利用安全保护模式。数据治理模式的转变意味着刑法规制的具体路径及理念也应该随之改变。具体来说,首先应当提升数据使用的自由度,为数据获取行为提供适当的违法阻却事由,以避免对数据采集、获取施加的不必要的限制;其次应当在以开发数据资源为重的同时兼顾维护数据主体的权利。对数据的非法利用才是侵害数据法益最直接的行为方式,由此应当对篡改、编造、储存、滥用数据和恶意植入数据偏见等行为类型加以规制。数据产业的发展日新月异,在数据治理领域加强刑法规制刻不容缓,但是在增加行为类型的同时,仍然应当坚持刑法谦抑性原则,审慎发动刑罚权,通过提高入罪门槛厘定出罪与入罪的边界。
注释:
①参见《互联网信息服务深度合成管理规定》第二十三条。
②参见杭州市西湖区人民法院(2020)浙0106 刑初437 号刑事判决书。
③《中华人民共和国民法典》第一千零三十六条规定:处理个人信息,有下列情形之一的,行为人不承担民事责任:(一)在该自然人或者其监护人同意的范围内合理实施的行为;(二)合理处理该自然人自行公开的或者其他已经合法公开的信息,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外;(三)为维护公共利益或者该自然人合法权益,合理实施的其他行为。
《信息安全技术个人信息安全规范》(GB/T35273-2020)对于征得个人信息主体授权同意的例外情形进行了规定,主要包括与国家安全、国防安全直接相关的;与公共安全、公共卫生、重大公共利益直接相关的以及出于维护个人信息主体或其他个人的生命、财产等重大合法权益但又很难得到本人同意的情况,等等。
④参见浙江省高级人民法院(2018)浙01 民终7312 号民事判决书。
⑤参见陕西省西安市中级人民法院(2016)陕01 刑初233 号刑事判决书。