方卓尔 滕达奇
摘 要:《生成式人工智能服务管理暂行办法》的出台明确数字经济发展与安全并重、创新与依法治理相结合的基本原则,促进了生成式人工智能服务技术的发展。生成式人工智能服务现行法的适用面临个体数据安全保障不足、风险等级未明确、责任主体未细化等难题。生成式人工智能服务应当增强个体数据保障的法律规范性,采取分级分类监管,平衡科技创新与公民权益,释放人工智能服务市场价值,满足人工智能社会生活的多元化需求。
关键词:生成式人工智能;数据保护;风险等级划分;数据责任主体
基金项目:天津市科研创新服务产业专项项目“论人工智能时代下的司法舆论监督”(2022SKYZ284)
作者简介:方卓尔(1999- ),女,广东湛江人,天津师范大学硕士研究生,研究方向为民商法;滕达奇(1999- ),男,浙江温州人,天津师范大学硕士研究生,研究方向为法理学。
2022年,生成式人工智能服务(Generative AI)的发展是引领新一轮科技革命和产业变革的战略性技术。习近平总书记高度重视人工智能的发展,强调人工智能有溢出带动性很强的“头雁”效应,是实现高水平科技自立自强的关键领域,是提升国家创新体系整体效能的重要支撑。国家网信办等七部门于2023年7月13日联合发布,2023年8月15日正式施行的《生成式人工智能服务管理暂行办法》(下文简称《暂行办法》)旨在促进生成式人工智能服务健康发展与规范应用,维护社会公共利益,保障公民、法人和其他组织的合法权益不受侵害。不同于以往的分析式人工智能,生成式人工智能服务系统是指采用深度合成技术,通过各种机器学习(Machine Learning)方法从数据中学习对象的组件,进而生成全新的、完全原创的内容(如文字、图片、视频)的人工智能[1]。
一、生成式人工智能服务的立法动因
人工智能1.0时代,人工智能领域产生了诸多现实问题,对传统法律理论提出挑战。不置可否,法律自身的滞后性是无法突破的,但是可以在尊重立法规律的基础上,坚持问题导向,基于国情制定相应的法律法规,如《新一代人工智能发展规划》《人工智能标准化白皮书》《人工智能治理原则》等,为人工智能发展提供了顶层设计和指导方针,促进了人工智能产业生态的建设和完善,且大部分法律规则实际可行,为社会与市场所熟悉和接受。因此,《暂行办法》的出台是总结现有法律的实施情况,继承实践证明的经验,对不适应现实情况的内容和制度进行修改补充,对市场需要规范的事项作出创设性规定,增强法律的可执行性,并体现前瞻性,为生成式人工智能服务发展提供法律保障。
但是,人工智能的发展向来是一把双刃剑,在ChatGPT等生成式人工智能服务逐渐风靡全球的时候,必然会对现有的法律规制产生理论冲击,上述所提及的法律法规对新兴的生产要素难以做到有效规制。目前,生成式人工智能所带来的法律风险主要有有如下几种:
第一,数据的保护难度加大。OpenAI为ChatGPT提供的在线文本数据,包括约3000亿个来自书籍、新闻文章、博客、社交媒体、百科全书和其他来源的单词。然而,目前ChatGPT仍属于算法黑箱,OpenAI并未对外公示所使用的数据来源,相关训练数据库是否均获得授权还存在疑问[2]。生成式人工智能服务系统的数据来源未经“脱敏”而包含大量个人信息、企业数据、公共数据,可能导致恶意使用者的诱导性提问而泄露。
第二,部分违法犯罪的成本显著降低,侵犯公民合法权益的方式更加多变,社会风险加剧。比如,制作、传播虚假信息和深度伪造的技术变得更加容易,使用者可以通过人工智能自动产生大量有说服力的误导和虚假信息,暗中操控舆论或达到其他非法目的;使用者可以利用生成式人工智能服务,通过绕开安全过滤机制,获得违法信息;生成式人工智能使得大规模的内容生成变得可能,这可能会涉及著作权和知识产权的问题,生成的内容可能存在侵权行为,从而引发大规模的法律纠纷和知识产权争议。
二、生成式人工智能服务立法原则之检视
依法治理和安全问题互为表里,共同组成创新和发展的基石,而创新和发展则是国家相关立法的最终目的。生成式人工智能技术方兴未艾,国家安全问题日益凸显,警示应当重视安全与发展问题,但也不能因“绝对安全”导致技术停滞不前。相较于《生成式人工智能服务管理办法征求意见稿》(下文简称《征求意见稿》)以“限制和安全”为主,《暂行办法》明确将创新发展提到与安全保障同等位置,并将“创新与依法治理相结合”作为治理原则。
(一)依法治理原则:数据安全保障
数据安全问题是生成式人工智能技术发展最为突出的问题。生成式人工智能需要大量的数据形成训练数据库,于此,在海量的预训练数据收集中,既包括个人信息、他人享有知识产权等合法数据,也包括含虚假有害、暴力等信息的数据,若不加以管控,会造成大量合法权益受到侵害,甚至会导致社会秩序的极大混乱。而在收集数据过程中,亦会存在使用者同意概括授权却不仔细阅读相关条款,导致部分隐私信息被非法爬取而并不知情的情况。因此,《暂行办法》首先在总则明确规定“尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益”;其次,在“技术发展与治理”一章中规定“生成式人工智能服务提供者应当使用具有合法来源的数据和基础模型”;再次,在“服务规范”一章中规定“提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。涉及个人信息的,依法承担个人信息处理者责任,履行个人信息保护义务。”
(二)创新与发展原则
生成式人工智能技术仍处于发展阶段,过于严苛的要求规范可能会导致阻碍技术的创新与发展,因此,与《征求意见稿》相比,《暂行办法》针对提供者的义务进行减免,限缩责任承担的范围。主要内容包括:将“对数据来源的合法性负责”修改为“使用合法来源的数据,提供者仅需保证数据的来源合法”;删除“违法生成内容后的整改时限”,提供者仅需采取有效措施整改并向有关部门报告;由“提供者承担生成内容生产者责任”修改为“网络信息内容生产者责任”;将强制性规定“保证数据的真实性、准确性、客观性、多样性”修改为鼓励性规定“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”。上述规定的改变预留新技术一个观察期,采用“审慎包容”的态度,避免法律规制过分挤压科技创新发展的空间。
此外,生成式人工智能服务是以大算力为基础,用强算法处理海量大数据,在大规模无标注数据上进行训练,学习一定特征或规律以预测未来结果的人工智能大模型[3]。针对人工智能模型的发展,《暂行办法》首次提出了“AI模型治理”,从预训练数据的“基础模型”到发现违法内容后“模型优化训练”,再到生成式人工智能技术的术语定义最终也落在了“模型及相关技术”上。可见,模型的重要性并不亚于数据和算法,《暂行办法》创新AI管理模式迎合人工智能产业发展的最新趋势。
三、生成式人工智能服务立法内容之反思
(一)个体数据安全保障性不强
生成式人工智能服务生成的数据一直处于相对动态的过程,属于非结构化数据,数据增长规模较结构化数据增长快,使用者实时的数据流动也快,多渠道来源的关系与非关系的数据互相产生紧密联系。目前在实务界与学术界,使用者通过智慧主体所产生信息的权利归属争论不一,但是使用者在AI生成的信息,由点及面,通过收集储存形成的数据,应该纳入个体数据的范畴。原因在于,于主观层面,这些数据没有允许暴露于外界“直接观察”的意图,且与个体人格权益息息相关;于客观层面,使用者注册形成的信息生成空间属私人领域,具备合理隐私期望,享有免受他人侵扰的权利[4]。由此,随着使用者增加,采集的数据密度越大,数据价值量越高,个体数据不断集成于数据库之中。实际上,提供者所保护的数据利益是群体私密性数据的利益,为防范社会连带主体的利益受损面扩大,提供者应当合法收集与处理信息,保障使用者数据的安全。
综观《暂行办法》对“个人信息”“个人隐私”“隐私权”的规定,条文明确提供者负有保护个体数据的义务,使用者享有处分个人信息的请求权。生成式人工智能服务的提供者或设计者并不直接参与内容生成的过程,所生成信息内容的时间性、完成度与表达方式更为智能化,即实施侵犯个体隐私数据行为的主体并不是法律意义上的“人”,个体数据会因智慧主体的算法、算力或数据集等因素共同作用而受侵害。在现实情境下,加害行为人利用客观存在的算法,有意识地引导算法规避人工智能法伦理规则,生成原先不被算法允许的问题,又或借助算法侵入获得第三人的生成结果。因此,落实提供者管理数字安全的责任,构建数据预防黑客入侵机制,能够有效应对数据泄露危机,维护数据安全。并且根据算法运用的具体场景,设计关于个体数据事先预防救济机制,对生成数据负有一般审查性义务,避免个体信息被泄露、侵入的风险。
(二)风险等级划分未明确
《暂行办法》在“总则”和“技术发展与治理”两章中提及风险防范应当开展多元协作模式,但并未对生成式人工智能服务风险等级进行划分,亦未作出风险评估、具体防范措施等相关规定。生成式人工智能服务的科技风险应当坚持预防原则,即“放在以法律手段应对科技风险的中心位置”[5]。在生成内容的事前阶段,采取分级分类的思路,面对不同的使用场景匹配相应的风险规制措施。借鉴欧盟《人工智能法案》的“风险等级规制”理论,将人工智能风险划分为两个层级,针对性作出监管措施,贯穿人工智能运用的全阶段[6]。
职是之故,生成式人工智能服务可以从“输入层——提取层——转化层——输出层”的纵向维度考量人工智能算法的风险转化[7],设置不同等级风险的限制性规定,从源头规范算法技术的使用方式与对象,以风险评估制度实现法律技术化。将生成式人工智能系统分为高风险与低风险,分别构建不同的管理制度,形成体系化、过程化、标准化的风险预测控制机制。再者,风险管控模式应采取“提供者行为自律+公法监管机构监督管理”双重模式[8]。行政监管机构不仅需要遵守不干涉科技创新的底线,基于风险发生的不同场景,有目的性以强制力干预的手段实现控制风险,分级消除各类安全风险;还需要以风险裁判者的身份,预先规制算法信任或使用者依赖带来的风险。
(三)责任主体未细化
《暂行办法》的适用主体主要是服务提供者,归责对象过于简单,难以满足监管的需要。服务提供者可能并不是该技术服务的设计者,或不参与数据训练、优化活动等过程,为全阶段负责负担未免过重。因此,建议可将生成式人工智能服务的主体分为四类,分别是技术支持者、服务提供者、使用者和监管者。
技术支持者为原生技术提供者,即最初创造出人工智能并申请认证系统的主体,以及包括使用受让他方的人工智能进行二次加工创造的技术主体。服务提供者为受让他方的人工智能的转移权利人,主要为使用者提供相应的系统服务。使用者指的是基于生成式人工智能服务系统基础对其进行条件限制的引导从而制成成品的使用者。监管者为监督服务系统运行的管理机构、行业协会或具有相关监督职责的行政机关。值得注意的是,技术支持者不一定是一个独立的集合,如果服务系统符合市场“自产自销”的模式,技术支持者亦是服务提供者。毋庸讳言,技术支持者和服务提供者可以是自然人或法人或其他组织。倘若技术支持者是自然人,则拥有技术支持者与服务提供者双重身份。同理,若技术支持者是法人或者其他组织,则法人或其他组织也是拥有双重身份。但此时法人或其他组织的内部人员应称之为技术维护人员。
服务提供者作为公众使用生成式人工智能服务系统直接对接对象,理应成为相关立法直接约束的主体,在服务系统的全部运作周期承担相应的责任和义务。损害发生时需要证明自身已经尽到相应的义务,否则不能免除责任;有证据证明是因为技术支持者或者使用者的过错导致的损害,由技术支持者或使用者承担相应的责任,提供者未采取合理补救措施的,可对扩大的损害部分承担连带责任。
四、生成式人工智能服务立法修正路径
(一)平衡科技创新与权益保护
我国将人工智能作为重要国家战略,制定了《新一代人工智能发展规划》等相关政策文件,支持人工智能技术创新和应用推广,鼓励开展人工智能场景创新,推动人工智能与实体经济深度融合,在制造、农业、物流、金融、商务、家居、交通运输等领域形成一批重大应用场景。但是在创新发展的同时,应当及时防范新技术带来的社会风险,保障公民的合法权益。如何平衡两者的关系,可从数据、算法和生成内容三方面着手。
1. 数据是生成式人工智能的重要基石,为其训练、知识获取、改进和创新提供了必不可少的支持,但是数据中亦涉及知识产权、个人信息、商业秘密、不当言论等违法数据,一旦采用的数据来源虚假或者违法,经过算法加工处理,不仅污染生成式人工智能服务系统的数据库,还与真实的信息混杂于一体,借使用者之手传播出去,造成更大范围的社会影响。若将数据的来源限制过严,会影响技术的学习与更新。因此,可以适用《民法典》1196条与1196条,采取为网络服务商设置“避风港”责任,初步建立信息过滤机制,保证数据来源的合法合规,待生成式人工智能产品度过投入使用的过渡期再作严格监管调整。
2. 算法是生成式人工智能产业的核心竞争力,为其训练、推理和改进生成式模型提供了基础和框架。从国内外的经验来看,确保人工智能模型的可解释性至关重要,其与算法透明度紧密相连。透明度要求特定目标群体能够理解和解释服务系统的模型和算法规范,群体范围包括技术使用者、法律工作者、监管者以及在某些情况下的普通公众。为减少“算法黑箱”的风险,需要建立严格的人工智能数据模型标准和规范,对不同层次的模型进行规范化定义。而数据提供者应向监管机构和公众证明其可靠性和透明度,在使用人工智能时遵循行业规范标准,向监管机构提供全面的解释,包括解决方案、算法实现原理、模型训练方法等,并尽可能提供额外的解释性材料,如数据治理报告和责任归属说明等。
3. 生成内容是生成式人工智能与使用者交互的平台,也是技术最终的成果展现。相较于数据和算法,得益于其直观性,是最容易发现有违法违规情况的部分。提供者有义务对生成内容进行审查,对出现违法信息产生的情况,以事后补救的方法处理即可。不必承担额外的法律处罚,否则提供者承担的检查成本过高并不利于技术的发展。同时,提供者应当畅通服务投诉通道,以便使用者发现违法信息后随时举报投诉,提供者收到投诉后应迅速采取相应措施,排查风险解决问题,避免扩大影响范围,并及时对使用者给予反馈。
(二)增强数据保障规范的实际效用
1. 规范使用者处理数据。生成式人工智能生成的使用者数据,其保护理念应符合我国《宪法》《民法典》对个体隐私、个人信息保护的理念。数据控制者或者提供者在处理使用者数据的过程中,应当遵循合法正当原则与知情同意原则,取得数据源发者的同意。其中“知情同意”是限制提供者滥用系统控制地位的重要原则,我国《网络安全法》《个人数据保护法》具体规定中都转致了该原则。但是,当提供者遇到社会公共利益或自然人生命权利在紧急情况中受到威胁场景下,应优先考虑社会责任,以社会本位为原则。为维护社会公共利益,可以优先对收集的相关数据进行脱敏化处理,脱下“身份识别”的外衣,转化成可纳入公共组织范畴的数据,对维护数据的公共安全具有现实性和必要性。
2. 落实核实使用者真实身份信息的责任。与欧盟《通用数据保护条例》不同,目前我国数据立法界不赞同把机器人作为权利与义务主体,而是针对生成式人工智能的提供者、控制者、使用者不同主体合理设计分配人工智能侵权的法律责任,按照各自的过错程度对损害后果进行分担[9]。因此,通过多种认证方式确认注册使用者的身份真实性,一方面增强系统的安全性能,避免部分使用者蓄意攻击或恶意操作导致安全事故发生;另一方面,若一方网络使用者侵犯另一方的权益,如果提供者有初步证据证明使用者存在巨大法律风险的使用行为,提供者可以及时根据身份信息紧急叫停该行为,避免造成重大损失的后果。故可参照《互联网信息服务深度合成规定》第9条,拟增“提供者应当基于身份证件号码、移动电话号码或统一社会信用代码等方式,依法对系统使用者进行真实身份信息认证,不得向未经过认证或认证失败的使用者提供生成式人工智能服务。”
(三)弥补服务风险防范的立法空白
1. 构建服务风险评估标准。为了应对生成式人工智能安全事件,有效防范数据安全风险,应当通过开展风险评估,构建生成式人工智能服务评估标准,引领提供者自行展开风险评估。风险评估标准应当由生成式人工智能的行业组织根据行业的规律与生产数据的模式建立一套有合理比例且有效的风险评估体系,通过成员之间的协作加强对提供者的管理与约束,确保生成式人工智能在可靠可控的范围内发展。风险评估所涵盖的内容对风险等级划分、数据安全措施、隐私保护途径、决策的公平合理性等方面产生直接影响。鉴于针对生成式人工智能服务采取双重管理模式,提供者不仅需要承担风险评估的义务,还需要将报告报送行政监督管理部门,不仅有利于建立事先风险发生预防处置机制,便于监管部门监督与企业自查;风险的公示与说明还有利于数据的透明化,避免出现系统“数据垄断”的局面[10]。
2. 实现服务风险等级划分。依据风险评估标准,采用分类分级监管的原则,进而将服务分为高、低两种风险等级。低风险系统带来的法律与社会风险较低,面对的使用者对象为普通类型的使用者,其涵盖的范围应大于高风险系统,数据处理的成本与程序应比高风险系统简单。概言之,低风险区涵盖的系统应包括除高风险系统以外的系统。高风险区的人工智能系统所生成的数据应当涉及国家、社会与公民的根本利益,该数据自然不能转化为公共产品予以公开透明化,但是高风险系统兼具强烈的社会属性与经济属性,要求构建具体的责任分配与监督机制,明确主体的管辖范围。故此,行政监督管理部门基于以人为本的理念,对高风险人工智能服务可以适当介入,对系统的数据实施监督管理,约束提供者使用处理高风险数据的行为,保障数据的社会价值不受侵害。
3. 高风险生成式人工智能服务应当强制对生成的数据以合理的方式保存六个月,并不得与行业标准相违背。设计数据的储存周期的出发点主要的考虑因素是高风险系统的使用目的与潜在影响。其一,作为人工智能技术升级产品,高风险使用者对象的范围包括诸如医疗健康行业、军工行业、航天工程行业等。这些行业所生成数据具有高敏感性、高价值性与流通范围有限性的特点,故规定数据保存的期限有利于数据作为客体保持持续稳定的状态,拥有足够的周期促进数据价值的流动。其二,高风险系统中的数据使用与国家安全、社会公共财产利益息息相关。在周期内发生突发情况时,可以根据数据溯源,迅速确定责任承担的主体与采取行动,尽可能减少风险带来的损失。
五、结语
随着人工智能技术的不断更新迭代,生成式人工智能服务日益成为AI行业的核心竞争要素之一。《暂行办法》的颁布改变了传统的法律规制模式,坚持创新与安全发展同步驱动原则,应用“模型治理”应对科技变革带来的挑战与风险,减少法律滞后性对科技创新的阻力。但是,《暂行办法》仍有较大的提升空间,存在数据安全保障性不强、风险等级划分不明确等问题,可通过平衡技术创新与社会安全的关系,增强个体数据规范的实际效用性,秉承安全与发展并重的基本原则,搭建风险分级分类治理制度,从而有效促进数字经济的长足发展。
参考文献:
[1] 张学博,王涵睿.生成式人工智能服务系统的法律规制——以ChatGPT为例[J].上海法学研究,2023(6):246.
[2] 孙祁.规范生成式人工智能产品提供者的法律问题研究[J].政治与法律,2023(7):162-176.
[3] 支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023(4):34.
[4] 卢家银.法古循旧:人工智能时代合理隐私期待的法律适用[J].现代传播:中国传媒大学学报,2021,43(11):5.
[5] 陈景辉.捍卫预防原则:科技风险的法律姿态[J].华东政法大学学报,2018,21(1):13.
[6] 曾雄,梁正,张辉.欧盟人工智能的规制路径及其对我国的启示——以《人工智能法案》为分析对象[J].电子政务,2022(9):10.
[7] 胡小伟.人工智能时代算法风险的法律规制论纲[J].湖北大学学报(哲学社会科学版),2021,48(2):120-131.
[8] 何渊.智能社会的治理与风险行政法的建构与证成[J].东方法学,2019(1):68-83.
[9] 季卫东.数据,隐私以及人工智能时代的宪法创新[J].南大法学,2020(1):12.
[10] 李帅.人工智能的风险预测与行政法规制——一个功能论与本体论相结合的视角[J].行政管理改革,2019(10):50-58.