生成式人工智能数据风险的法律规制

2024-05-09 23:24蒋永传
关键词:服务提供者规制人工智能

蒋永传

(上海师范大学 哲学与法政学院,上海 200234)

一、问题的提出

早在1950年,艾伦·图灵发表《计算机和智能》与《机器能思考吗》两篇论文,为人工智能概念的提出奠定了基础,并由此赢得“人工智能之父”的美誉。此后,以约翰·麦卡锡(John McCarthy)为代表的学者于1956年在美国达特茅斯大学召开的学术会议上正式确立了人工智能(Artificial Intelligence)概念[1]。伴随着人工智能技术的发展和创新,运用算法逻辑输出文本、音频、视频等数据内容并非近些年刚兴起的新事物,学界也多以“人工智能生成内容”“人工智能生成专利”“人工智能生成成果”“人工智能生成作品”等作为研究对象,研究焦点集中于知识产权领域相关问题。2022年以ChatGPT(Chat Generative Pretrained Transformer)为代表的集语言交互、图文生成、音视频创作、代码编写等多种生成模式软件兴起,生成式人工智能类似人类思想的交互能力让人们感受到极大震撼。比尔·盖茨称,人工智能时代已经开始,ChatGPT是自1980年以来最大的技术变革;NVIDIA CEO黄仁勋称,我们正处于AI的iPhone时刻。

人工智能技术的发展催生了新的行为方式,一方面人工智能逐渐成为经济发展的重要引擎,另一方面也带来了诸多影响深远的新问题[2]。数据风险成为现阶段生成式人工智能无法规避的安全风险。然而,在生成式人工智能风险治理研究中,以“生成式人工智能如何监管”“生成式人工智能的法律规制”等概括性研究为主,聚焦于数据风险的研究尚有所缺乏。

2022年3月1日《互联网信息服务算法推荐管理规定》(以下简称《算法推荐管理规定》)施行;2023年1月10日《互联网信息服务深度合成管理规定》(以下简称《深度合成管理规定》)施行;2023年8月15日《生成式人工智能服务管理暂行办法》(以下简称《生成式人工智能暂行办法》)施行。紧密的法律规定出台,一方面提升了我国针对生成式人工智能法律规制的力度;另一方面,上述规定的颁布与征求意见稿的时间相距较短,最终修改之处亦较多,反映了目前对于生成式人工智能的认识仍是“管中窥豹,时见一斑”,成熟度不高,学界在此基础上接续研究,仍有充分的空间。本文通过梳理生成式人工智能数据风险的类型,分析现行法律规制生成式人工智能数据风险的现状及不足,并在此基础上探讨完善数据风险治理的路径。

二、生成式人工智能运行各阶段的数据风险梳理

大数据时代,最复杂的莫过于数据的真伪辨析。数据是人工智能模型训练和优化的基础养料,是大模型训练的“基础和命脉”[3]。生成式人工智能所依赖的数据源是否可靠直接影响其输出内容的准确性,算法逻辑如何从已知数据范围内识别获取可靠数据、分析整合数据生成所需内容,亦关乎着需求信息的质量。相较于传统搜索引擎获取信息的渠道,生成式人工智能为用户提供了全新的数据获取渠道。基于生成式人工智能的运行模式的局限,其仅能根据用户指令在特定条件下生成逻辑必然结果,而对于生成过程用户无法探知或无能力探知。生成式人工智能的运作模型依赖大量的数据输入,运用已有数据分析,处理输入指令获得用户倾向结果。在收集、存储、处理、生成这一系列应用过程中,不可避免地会产生诸多风险。

(一)数据收集阶段

生成式人工智能以出色的语言交互等功能令用户惊叹,其每一次回应都依据海量的数据支撑,以ChatGPT最为显著。问题回应的全面性,取决于数据收集的全面性,由此可能引发以下两方面的风险。

第一,数据过度收集风险。面对不确定用户的不同需求,生成式人工智能设计之初或升级之时,实际无法获知所有的用户需求。其应用范畴涵盖文本生成、图像生成、音视频生成等领域,能够满足用户聊天对话、创作艺术作品、生成原创音乐、完成代码编写和初步的算法设计等多种需求,并且未来有可能通过利用多模态数据在教育领域取得重大进步[4]。因此,在技术测试阶段需要充分假设到所有可能的用户需求并设计预演输入指令,以防无法做出准确回应。对所有可能输入指令作出回应的前提性条件为充分收集各行各业的数据信息,包括但不限于个人数据、企业数据、公共数据等,在此过程中,可能侵犯个人信息、企业商业秘密、国家秘密等。

第二,数据非法收集风险。生成式人工智能技术的应用通过各类互联网软件或移动端APP体现,然而用户在使用上述软件时必须进行注册并同意其预先设定的相关格式条款,其中就包括数据收集条款,该条款构成使用APP之前提,无同意条款则无使用权限。因此,ChatGPT类APP的使用者无论是否真正了解到该收集条款,其已经默认同意或明示同意。而这些数据收集条款是否依法依规进行,在如今生成式人工智能管理法律法规未健全的背景下,多依据于企业内部规则。因而,应当设立专门的监督机构以确保生成式人工智能收集数据的流程合规合法[5]。

(二)数据存储阶段

在大数据时代的背景下,信息及数据在各行各业中的作用日渐凸显,生成式人工智能基于海量数据架构,亟须对所利用的数据进行有效存储。同时,传统电子数据存储过程中,主要以计算机系统硬件为载体,磁盘空间有其限度,因而基于人工智能技术对用户电子数据进行存储实为必要[6]。然而,大量案例表明生成式人工智能数据泄露风险已日渐凸显。2023年3月,OpenAI首席执行官Sam Altman承认一个小故障短暂地导致ChatGPT泄露了随机用户的对话[7]。三星员工在至少三个不同的场合向OpenAI公司的ChatGPT泄露敏感的机密公司信息后陷入困境,然而ChatGPT却保留了它提供的数据进一步训练,以改进其AI模型[8]。意大利也因此成为第一个禁止ChatGPT的西方国家,数据保护监管机构命令OpenAI公司暂时停止处理意大利用户的数据,以调查涉嫌违反欧洲严格的隐私法规[9]。在如此众多的数据泄露案例发生之际,如何通过法律规制推动技术治理,并建立统一的数据安全保障机制成为关键性问题。

(三)数据处理阶段

第一,数据质量风险。数据质量风险主要由以下三类主体导致。首先,算法设计者。算法设计者固有的局限性使其可能充斥着价值偏向、认知窄化、算法歧视等问题,因此从演进原理来看,必然导致算法处理数据的偏差[10]。其次,数据标注员。ChatGPT基于人类反馈的强化学习机制,由标注员模拟用户与代理进行对话,生成对话样本并对回复评分,将优质结果反馈给模型,使其在人类评价奖励和环境奖励中学习,而人类标注员可能存在认知和感知层面的局限性,因此使得标注的数据质量参差不齐[11]。最后,个体使用者。现阶段,生成式人工智能的应用场景决定其必然倾向与人类的偏好相契合,而个体使用者的偏好输入可能与人类整体系统价值观偏离,数据输入质量未能获得有效保证,输出质量亦无法保障其正当性,数据质量风险暗藏于生成式人工智能训练模型之内。

第二,数据系统性偏差风险。人工智能系统根据数据进行训练,数据随着时间的推移而变化,样本的偏差可能诱发算法逻辑计算结果之偏差,由此产生系统性偏差[12]。即使是人工智能领域的专家,尚无法在稳定性和可塑性之间找到有效的平衡方法[11]。生成式人工智能应尽可能避免无限制的数据处理和利用,合理限制关于处理数据的深度[13]。

(四)数据生成阶段

第一,数据编造风险。有研究表明,ChatGPT 在中文的知识和常识问答、学术问答等方面可能会偏离事实,其输出的内容很容易出现错误,且它会使用流畅的句子对编造的虚假事实进行阐述,使真实信息与虚假信息混合,对信息来源受限的群体具有一定的迷惑性[14]。基于生成式人工智能数据训练之模型,内部算法可能无法准确识别各参数之间的联系与区别,而出现不同概念之间的混淆,进而产生不同数据之间交叉编织的情形。如何通过规范内在模型,使生成式人工智能数据模型逐渐凸显专业性,避免简单编造信息的问题,是目前生成式人工智能数据风险研究中的关键。

第二,意识形态风险。在数字时代,人工智能成为意识形态领域斗争及渗透的一种主要工具,以美国为代表的国家通过生成式人工智能等技术,进行意识形态的输出,使其他国家的意识形态安全受到了极大的威胁[15]。生成式人工智能侵蚀意识形态的方式往往较为隐蔽,意识形态风险不容忽视。其生成内容以大量数据为依据,然而这些数据本身就充满着西方国家的思想和价值观念,经由算法逻辑处理的输出内容亦存在价值、意识、信仰等诸多方面的隐蔽内容。既有研究已表明,ChatGPT生成内容并不回避涉及我国政治方面的言论,且存在大量对我国有偏见的生成内容[14]。

综上所述,生成式人工智能技术在快速发展的同时,也带来了诸多风险,各个阶段皆存在着典型的风险,但并不意味着该风险仅存在于该阶段,如数据泄露风险,虽然归于数据存储阶段讨论,但此类风险仍存在于其他阶段。此外,数据披露风险亦贯穿于上述各个阶段。由于针对生成式人工智能的专门立法世界各国皆处于初级探索阶段,对于数据披露规则尚未形成成熟的机制。合理披露数据的收集程序、收集类型、储存方式、处理过程、生成规则有利于防范上述数据风险的产生。而现阶段,法律不完备的背景下,数据披露内容的选择权仍在于各企业,选择性披露使用户无法窥探生成式人工智能的全貌,因此也极易诱发相关领域之风险。总体而言,在生成式人工智能收集、储存、处理、生成数据的过程中,由于涉及数据范围广、跨度深等特点,不可避免地产生诸多风险。鉴于此,应当规范生成式人工智能应用数据的全流程,使生成式人工智能在应用数据时确保数据效率与数据安全之间的平衡。

三、生成式人工智能数据风险的法律规制现状及其不足

现行人工智能法律规制的框架,基本仅能应对传统人工智能所产生的问题,而随着生成式人工智能的发展,传统法律机制已无法应对生成式人工智能的颠覆性变化[16]。尽管目前针对生成式人工智能产生风险的研究愈来愈多,但世界各国专门的立法进程仍然较为缓慢,例如美国发布的《人工智能权利法案蓝图》、欧盟发布的《人工智能责任指令》《产品责任指令》、英国发布的《一种支持创新的人工智能监管方法(白皮书)》,皆非针对生成式人工智能的专门性法律规定。与此相反,我国关于生成式人工智能法律规制方面的相关立法及监管已经走在世界前列[17]。从广义的“深度合成”概念角度来看,《深度合成管理规定》的适用范围涵盖了生成式人工智能的内容[18]。《生成式人工智能暂行办法》《深度合成管理规定》《算法推荐管理规定》可称为我国目前针对生成式人工智能法律规制的“三驾马车”。但不可否认的是,目前法律规制的现状仍然是处理当前突出的算法歧视、隐私和责任等“灰犀牛”问题,对于可能在长期以及未来出现的“黑天鹅”问题缺乏了解与关注[19]。生成式人工智能在运行的各个阶段所面临的数据风险诸多,本文将对我国生成式人工智能数据风险法律规制的三大主要问题进行梳理和分析。

(一)未形成统一的生成式人工智能数据风险责任体系

经上文梳理,生成式人工智能运行各阶段面临着数据过度收集、非法收集、数据泄露、数据质量、意识形态、数据披露等诸多风险,鉴于生成式人工智能从收集数据到生成数据的整体性,因而需要建立一个统一的生成式人工智能数据风险责任体系。我国目前关于生成式人工智能数据风险法律责任的规定仍存在诸多不足。

第一,“依法”“以相关规定”等表述导致责任承担未达到应然效果。《生成式人工智能暂行办法》作为专门性规制生成式人工智能的法律规范,针对法律责任的条款寥寥可数,且基本使用“依据某某法律、行政法规”“不符合法律、行政法规”之表述;《深度合成管理规定》仅在第二十二条中规定了违反该规定的法律责任,并使用“依照有关法律、行政法规的规定处罚”之表述;《算法推荐管理规定》亦在法律责任章节中使用“法律、行政法规有规定的,依照其规定”的条文表述,且三部法律中皆出现“依法追究刑事责任”的条文。由此可见,关于生成式人工智能法律责任的具体条款中大量使用“依照有关规定”“依法”等表述。然而在法规范体系中上述语词并没有实际的规范效力,它未能提供超出语词本身的指示功能,滥用“依法”等表述也会带来诸多的负面效果[20]。上述三部法律规范已经作为人工智能领域的专门性法律规范,却将法律责任引至其他相关法律规范,只会增加法律责任的不确定性。

第二,过于依赖行政责任的规制手段。作为规制生成式人工智能最主要的三部法律规范,共同的特点是过于依赖行政责任的规制。在条文中简要规定构成犯罪的,应当承担刑事责任,实际上并不能起到立法者预期的指示作用。对于相关主体的民事责任甚至未进行象征性的规定,完全忽视了生成式人工智能数据风险可能引发的民事侵权问题。例如,生成式人工智能存在数据过度收集风险,但法律规范中并未明确数据收集原则,容易造成数据民事侵权的问题。

第三,未合理分配相应主体责任。目前关于生成式人工智能规制的法律规范中,过分强调了服务提供者的责任。一般认为,我国人工智能治理基于的现有算法监督体系其最终落脚点仍在于服务提供者的责任[21]。因此,我国对服务提供者应当承担的责任进行了大量规定,却忽视了技术研发者、数据提供者、系统操作者的责任,责任分配并不合理。各责任主体之间的协调及逻辑成为生成式人工智能治理的核心。

综上所述,我国目前关于生成式人工智能数据风险的法律规制并未形成统一的责任体系,数据风险的治理无法依据上述法律规范形成统一的治理机制。

(二)生成式人工智能数据风险防范义务不明确

第一,数据披露义务规定不足。数据披露,指通过一定的标识方法,向外界特别是向公众揭示特定的内容是由人工智能而非人类创造[18]。《深度合成管理规定》第十六条规定服务提供者应当在生成或者编辑的数据中进行披露;第十七条规定了服务提供者和服务使用者两种情形,对于可能导致公众混淆或者误认的,服务提供者应当进行主动披露,在条款列举的情形之外,应当提供显著标识功能,提示服务使用者可以进行披露。《算法推荐管理规定》第九条规定了服务提供者发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。《生成式人工智能暂行办法》第八条规定了清晰、具体、可操作的数据披露制度,并确保数据的准确性。总体来看,生成式人工智能数据披露义务主要为服务提供者承担,对服务使用者的披露义务未作规定。虽然设立了任何组织和个人不得删改、篡改、隐匿标识之义务,但关于服务提供者违反数据披露义务的法律责任未做细化规定,使条款应然状态无法有效实现。此外未就数据披露的内容进行细化分类,使服务提供者承担的披露义务过重,不利于生成式人工智能的发展。

第二,数据审核义务规定不具体。《算法推荐管理规定》规定算法推荐服务提供者应当定期审核数据制度,但并未就定期的频率、审核规避何种数据类型做进一步具体规定,导致该条款实际应用效果不佳。《生成式人工智能暂行办法》规定生成式服务提供者应当开展预训练、优化训练等训练数据处理活动,但未就技术运营过程中的审核义务进行规定,仅规定了技术研发过程中应当开展数据标注质量评估,抽样核验标注内容的准确性。《深度合成管理规定》强调了对服务使用者的输入数据和合成数据进行审核的制度,但未详细规定审核制度的具体执行方式。总体来看,三部法律规范的出发点皆意在建立服务提供者的数据审核义务,但由于过于笼统的规定,无法使条文落地,进而导致法律的实然效果与应然效果之间存在较大差距。

综上所述,我国现行法律规范关于生成式人工智能服务数据风险防范义务的规定并不明确。此外,由于生成式人工智能以数据、算法、算力等为核心,算法逻辑直接关联数据处理的各流程,亦会产生相应数据风险。但是,我国目前算法可解释义务规定亦不足。在ChatGPT类生成式人工智能面世前,算法可解释义务在传统人工智能领域较容易施行,但当生成式人工智能的算法逻辑和运行模式产生与传统人工智能不同的重大变化时,算法可解释义务可能并不容易发挥其原有的功能,例如当生成式人工智能基于使用者输入特定数据的模式生成特定内容,其输入与生成的逻辑很可能已经超出原有算法逻辑设计者的本意。

(三)生成式人工智能数据风险监督机制不健全

第一,监管方式的滞后性。首先,生成式人工智能技术的发展已明显颠覆传统人工智能技术的原有模式,传统人工智能规制基于算法可解释性为核心的监管机制,但生成式人工智能的运行逻辑与模式已发生改变。由于服务使用者输入的数据差异可能导致不同的输出内容,亦存在不同主体输入同一数据输出不同结果的可能性,因而在对算法进行解释时,监管者已无法预测生成式人工智能的运行结果,即难以进行与之匹配的监管方式。其次,基于生成式人工智能的数据训练能力,样本和数据分析不断发生动态改变,数据内容难以基于现行的法律规制框架进行监督管理。

第二,投诉举报机制不健全。《生成式人工智能服务管理暂行办法(征求意见稿)》曾规定了对于用户举报的不符合该办法要求的生成内容,服务提供者有内容过滤义务和在3个月内防止再次发生义务。虽然该条款在正式施行的办法中予以删除,但至少表明了立法者在细化投诉举报机制方面的努力。目前,《生成式人工智能暂行办法》仅笼统规定了服务提供者建立健全投诉举报机制,相关条文沦为宣示条款,无法发挥实际的功效;《深度合成管理规定》中甚至未规定服务使用者的投诉举报机制;《算法推荐管理规定》规定可以向有关部门投诉举报。由此可以看出,生成式人工智能数据风险的投诉举报机制尚不健全,向服务提供者投诉举报机制和向行政部门投诉举报机制亦未有效衔接,尚未形成数据风险投诉举报处理之闭环。

四、生成式人工智能数据风险法律规制的完善路径

(一)建立统一的生成式人工智能数据风险责任体系

第一,对“依法”“以相关规定”等条款进行一定的删改。因目前关于生成式人工智能的法律规制仍处于初级探索阶段,《生成式人工智能暂行办法》亦突出“暂行”之特点,随着生成式人工智能的发展,相关法律规范的完善空间仍然较大,可修改性较强。建议在后续立法或修订已有法律规范时,避免或删改一定的无实际规范效力的“依法”等表述,由此实现对生成式人工智能数据风险的体系性和精确性治理。

第二,明确造成数据风险所应承担的行政、刑事、民事责任。由于生成式人工智能涉及数据、算法、算力等诸多问题,若将所有问题的法律规制皆规定在一部法律之中,以目前的立法技术尚无法达到。但可以实现的是,细化行政责任和刑事责任的承担方式,并在法律规范中规定造成数据风险的民事责任。通过行政、刑事、民事责任的协同治理,确保数据的安全、可信、合规。采用公私结合的治理路径能发挥更大的治理效用,充分释放社会效益,实现责任的合理分配[22]。

第三,通过分类手段合理分配相应主体责任。生成式人工智能的责任主体包括服务提供者、技术研发者、数据提供者、系统操作者等相关主体。通过分类手段合理分配相应主体的责任,实现生成式人工智能数据风险的治理。服务提供者的相关责任为目前法律规制的重点,无须过多再行赘叙;技术研发者对于数据风险应当承担相应的技术研发责任、算法偏见责任;生成式人工智能数据收集阶段可能侵犯他人合法的数据权利,此种情况的发生亦可能是数据提供者自身侵权的原因,因此数据提供者应当承担相应侵权责任;系统操作者由于自身原因亦可能造成数据侵权、数据泄露等问题,从而承担相应的过错责任。在后续立法或现行法律规范修订过程中应充分考察各相关主体的法律责任,以主体分类方式合理分配相应主体责任。

此外,还应当考虑到促进生成式人工智能科技创新与数据风险控制的动态平衡,不应过重地规定相应主体的法律责任,旨在建立统一的生成式人工智能数据风险责任体系。

(二)明晰及细化生成式人工智能数据风险防范义务

第一,细化生成式人工智能数据披露义务。数据披露在生成式人工智能健康发展的进程中发挥着尤为关键的作用,应当在相关法律规范中明晰生成式人工智能主体的义务。首先,应当细化服务提供者披露数据的具体类型,规避不必要的数据披露。例如《深度合成管理规定》中规定利用生成式人工智能编辑数据也需要进行主动披露,实际已超过必要限度。其次,不能要求服务提供者披露所有数据,盲目扩大披露内容可能增加查阅者的负担,无法有效识别想要查阅的数据,数据披露范围应当仅限于有高风险且必要的数据。最后,设置违反数据披露义务的相匹配的法律责任,以期实现法律的应然状态。

第二,明晰生成式人工智能数据审核义务。应当明确的是数据审核义务的主体为服务提供者,因此,要防范生成式人工智能各类数据风险,应当从服务提供者的角度建立企业内部的数据合规管理体系[23]。在企业合规管理体系的框架下,细化《算法推荐管理规定》的定期审核数据制度,明确服务提供者应当在多长时间内至少进行一次审核的频率,且对于具体数据审核的类型进行详细规定,与数据披露义务一致,无需审核所有数据内容,仅需要对高风险有必要的数据内容进行审核。例如关于不同国家相关政治的言论,需要重点审核,妥善处理数据收集及生成数据的内容,以防发生干扰他国内政的风险,确保生成式人工智能技术中立的地位,避免成为个别人违法犯罪的工具。

(三)构建生成式人工智能数据风险监督管理机制

第一,丰富生成式人工智能数据风险监管方式。首先,根据技术发展灵活调整生成式人工智能数据风险的监管方式,由算法可解释为核心调整为数据可控制为核心,纵深发展至生成式人工智能数据收集、储存、处理、生成的各个阶段,延伸数据控制范围及方式[16]。其次,通过“实验性监管”,开辟生成式人工智能数据风险监管的缓冲区,引导新技术在经过实验后确定最适宜的监管方式[24]。最后,推动构建生成式人工智能全球治理的监管体系,注重在教育、学术、法律等重点领域的使用,有效监管意识形态风险[25]。此外,需要充分重视数据风险监管与数据技术发展的平衡,以监管适宜促进技术正轨发展,以技术创新丰富监管方式。

第二,健全生成式人工智能数据风险投诉举报机制。虽然正式施行的《生成式人工智能暂行办法》删除了服务提供者的内容过滤义务和防止再次发生义务,但是仍需要考虑修改完善原征求意见稿中的条款,在日后法律规范修订过程中,予以增加具体的投诉举报条款,丰富投诉人的投诉举报方式,细化服务提供者的具体处理措施。同时在已有的行政机关举报投诉制度的基础上,细化行政机关的处理措施及时限。合理连接私力投诉举报处理和公力投诉举报处理,提高处理方式的透明度,做到公平、公正、公开。

五、结语

生成式人工智能技术的发展,推动了人类生活生产方式的进步,但诸多数据风险也随之而来。存在于生成式人工智能运行各个阶段的数据风险逐渐成为生成式人工智能技术发展的“影子区”。现行的生成式人工智能法律规制现状仍存在诸多不足,通过建立统一的数据风险责任体系、明晰及细化数据风险防范义务、构建数据风险监督管理机制等方式解决目前生成式人工智能技术发展中出现的数据风险。人工智能技术的未来应当是基于“完全自主的智能”,人工智能通过自身观察、感知、认知、推理、学习和执行,从大数据范式向大任务范式进行转变[26]。尽管本文基于现行生成式人工智能技术的大数据模型提供了诸多解决数据风险之建议,但仍希冀未来生成式人工智能依赖大数据的模式能够彻底得以改变,基于少量数据和大任务的模式,从源头控制生成式人工智能数据风险的产生,塑造小数据风险控制的新态势。

猜你喜欢
服务提供者规制人工智能
主动退市规制的德国经验与启示
网络服务提供者的侵权责任研究
2019:人工智能
人工智能与就业
论网络服务提供者刑事责任的归责模式一一以拒不履行网络安全管理义务罪为切入点
保护与规制:关于文学的刑法
数读人工智能
论网络服务提供者的侵权责任
论《反不正当竞争法》的规制范畴
下一幕,人工智能!