人工智能大模型研发应用所涉数据权益的三大法律问题

2024-02-08 00:00:00李振华
数字法治 2024年6期
关键词:合理使用著作权

内容提要:数据是人工智能大模型性能的决定性因素,也是法律关系最复杂、责任主体最繁复的领域。大模型厂商在使用数据来训练和应用大模型时,普遍面临著作权侵权、违反个人信息处理要求和触发不正当竞争等三大数据权益上的法律风险,亟待从法律法规层面完善相关规则,发展负责任的人工智能。本文建议,合理平衡大模型厂商和大模型应用服务商“两个主体”、大模型研发训练和应用服务“两个阶段”的法律责任。具体包括:一是将作品仅用于大模型训练适度纳入著作权“合理使用”范畴,进一步明确人工智能生成内容享有著作权的认定条件;二是适度放宽大模型训练阶段对个人信息数据的使用限制,完善“匿名化”在实践中的认定标准;三是适度包容用于大模型训练的数据爬取中的轻微不规范行为,为大模型的发展构建鼓励创新、包容审慎的监管环境。

关键词:大语言模型 数据权益 合理使用 著作权 个人信息数据

一、人工智能大模型研发应用在数据权益上存在三大法律问题

(一)著作权侵权问题

其主要表现在训练数据著作权侵权和大模型生成内容著作权侵权两方面。

1.开源数据和网页爬虫数据是大模型训练数据的主要来源,但著作权侵权风险较为突出

以国内某大模型使用的训练数据为例,爬取自通用网页和开源社区的数据量约占训练数据总量的84%。然而,这两类数据有突出的侵犯著作权的风险。一是开源数据“有原罪”,比如,Books3、Bookcorpus等开源图书数据集中采集的大量图书并未获得版权持有人的同意授权,而大模型厂商使用相关数据之前无法逐一核实图书的侵权风险。二是爬取数据“难许可”,比如,微信公众号、知乎、贴吧等内容平台上用户原创发布的很多作品受法律保护,但要取得用户一对一的授权使用许可用于大模型训练在实践中很难操作。

同时,缘于人工智能大模型训练是近年来的新生事物,《著作权法》中规定的著作权豁免情形中,尚不包括“将作品用于人工智能大模型训练”。《著作权法》规定,只有在“个人使用”“适当引用”“学习研究使用”等情形下可以豁免著作权,用于大模型训练难以归纳到上述情形中。比如,“个人使用”仅限于个人用途,而大模型的训练应用均由企业主导、开拓商业化的场景,显然不符合要求;“适当引用”的适用前提是“为介绍、评论说明某一作品”或“说明某一问题”,而大模型是通过将语言token化、学习其中蕴含的概率关联、形成参数,与评论和介绍作品没有关系;“科学研究”对作品的利用限定在“少量复制、仅用于学校课堂教学或者科学研究”,而大模型训练中需要大量复制作品,且未局限在科研或教育用途中,故也不适用。

2.使用生成式人工智能(AIGC)创作的内容生产模式,导致作品著作权界定存在模糊地带

人类借助AIGC进行创作,势必对内容创作权益的生成、保护模式产生巨大冲击,这里涉及三个层层递进的问题:一是AIGC生成内容是否可能侵犯著作权;二是AIGC生成的作品是否受著作权保护;三是使用AIGC服务创作内容的权责应该如何分配。目前这三个问题已有实践探索,但仍有待深化研究。

一是AIGC生成的内容可以构成侵犯著作权,但侵权责任主体有待明确。广州互联网法院对“AI画出奥特曼”一案作出裁决,认定被告(AI应用服务提供商)未尽到合理的注意义务、未使用技术措施阻止侵权作品生成,侵害了原告对奥特曼作品享有的复制权和改编权。这是实践的创新探索,未来对于用户、大模型厂商和AI应用服务商的责任应当如何分配的一般性原则,有待进一步提炼和说明。

二是在AIGC辅助创作的情况下,作品可以享有著作权,但辅助创作和替代创作的界限需要明确。北京互联网法院裁定,用户以向stable diffusion模型输入提示词、调整参数、裁剪拼贴等形式创作,体现了用户的审美选择和个性判断,对生成的独创性图片享有著作权。这一判例的前提是,AIGC是辅助人类创意表达的工具、人类在创作中居于主导地位。目前,关于AIGC创作模式属于辅助人类创作还是替代人类创作,需要法官结合个案情况作出具体判断。

三是AIGC生成内容的权属由服务商和用户按照约定分配,但部分协议的权责分配明显不对等。由于多个主体(应用开发者、创作者、大模型厂商等)参与了作品的形成,生成内容的权属多以用户协议来约定,但部分协议有权责分配不公的倾向。比如,有些协议规定“用户的知识产权属于平台所有,但侵权风险和对平台造成的损失由用户承担”,显然有失公平。

(二)违反个人信息处理要求问题

大模型训练数据中不可避免地包含一些个人身份信息和个人行为信息,国外厂商如Open AI、Meta均在用户协议中提示用户个人生成的内容会被用于大模型训练。面对个人信息数据,国内大模型厂商一般先对个人信息进行去标识化或匿名化处理、达到无法识别具体个人的程度后,再用于模型训练、优化。但是,这种实践面临合规风险。

一是“处理目的”变更需重新取得个人同意,给大模型训练带来了巨大的合规成本。《个人信息保护法》第14条第2款规定,“个人信息的处理目的、处理方式和处理的个人信息种类发生变更的,应当重新取得个人同意。”将原本用于其他用途的个人信息数据转用于大模型训练,应当属于“处理目的”变更,需寻求个人重新授权。然而,大模型训练数据量非常大、应用场景的迭代非常快,如果变更一次要重新取得个人同意授权,会产生非常大的沟通成本。

二是处理已公开个人信息的“合理范围”和“对个人权益有重大影响”内涵模糊。《个人信息保护法》规定,“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”,“个人信息处理者处理已公开的个人信息,对个人权益有重大影响的,应当依照本法规定取得个人同意”。倘若用于大模型训练属于“合理范围”并不属于“对个人权益有重大影响”,大模型厂商的合规成本将大幅下降。然而,关于“合理范围”和“对个人权益有重大影响”如何界定,尚未有权威的解释或指导性的判例。

三是关于“匿名化”的标准还不够清晰可行。个人信息匿名化处理后可以不受《个人信息保护法》的约束,这是大模型训练解决个人信息安全的根本方法。但客观上,绝对的“匿名化”在技术上是无法实现的,目前对于经过怎样的处理才能够达到“匿名化”的标准,还没有清晰可行的标准规范。

(三)触发不正当竞争的风险问题

爬取网页数据是国产大模型最重要的数据来源。尽管大模型厂商一般对爬取数据有规范严格的流程,基本可规避刑事责任、侵犯商业秘密等显性风险。然而,业内通行的方式爬取数据,用于训练大模型,还可能引发不正当竞争风险,主要表现在两方面。

一是绕开网站反爬机制、在不影响网络运行的情况下仍有违法风险。“是否影响被爬取方正常提供网络服务”是此类不正当竞争的第一个判断标准,比如,网络爬虫很多情况下要绕开网站的robots协议等反爬虫机制,尽管robots协议本身并不具有法律效力、突破robots协议一般不会对被爬取网站的网络服务构成负担,但从司法案例看,是否突破robots协议常被视作判断数据爬取方是否具有主观恶意的重要依据。

二是基于被爬取数据训练的产品可能被认定为与被爬取方存在“实质性替代”。不正当竞争的第二个判断标准是“是否存在实质性替代”。司法实践中,一般以“足以导致被爬取方的产品被挤出现有市场”作为存在“实质性替代”的判断标准。尽管基于AI大模型开发的产品是通过学习被爬取方数据的内在关联、参数化之后,再提供内容生成服务,与被爬取方直接向用户提供数据的模式有实质差异,但倘若被爬取方产品的市场份额由此下降,可能被认定为存在“实质性替代”。

二、域外相关实践案例总结和法律动向

(一)多倾向于豁免大模型训练数据的著作权责任,但基本不认可AI生成作品享有著作权

欧盟通过设置文本和数据挖掘的著作权保护例外,支持豁免大模型复制网络公开作品著作权责任。欧盟《单一数字市场著作权指令》明确了“在合法访问的作品或载体上进行复制和提取时,豁免著作权责任;除非权利人以适当方式明确保留上述权利”。换言之,欧盟通过明确著作权方“默示许可+Opt-out(选择退出)”的模式,减免了大模型厂商复制公开作品的著作权责任。日本援引“非欣赏性利用”原则,明确了用于大模型训练的所有作品均不受著作权限制。2018年,日本修改了著作权法,将“不以欣赏作品原有价值的利用”视为对著作权的“合理使用”范围,并在兜底条款中特别补充了“在电子计算机信息处理过程中对作品表达所进行的不为人类所感知和识别的利用情形”,实质上将复制、存储、处理作品用于大模型训练的全流程给予著作权豁免。新加坡明确“出于数据分析的目的可以复制著作权作品”。2021年,新加坡修订了著作权法,新增规定“在访问合法的情况下,著作权作品可用于计算数据分析,如情感分析、文本和数据挖掘,或训练机器学习,无需寻求每个著作权所有者的许可”,豁免了大模型厂商训练数据的著作权限制。美国的“四要素+转换性使用”认定标准为豁免大模型著作权责任预留了空间。美国判定著作权是否“合理使用”需要考量使用目的与性质、著作权作品的性质、使用部分占被引用作品质与量的比例、该使用对著作权市场造成的潜在影响“四要素”,同时要考察新作品相对于原作品“转换性”的程度(产生了新作品还是仅替代了原作品)。参照谷歌图书馆案判决先例,有较大的可能豁免大模型训练数据的著作权责任。

欧盟、美国认为AIGC作品只有在体现人类创意性工作的时候才能享有著作权。欧盟认为,AIGC生成内容是否属于作品,必须根据属于文学、艺术、科学领域,人类智力活动,独创性,表达四个要件综合判断;只有AIGC生成内容中体现了人类智力活动的独创性,才能被认定为作品。美国的认定原则与欧盟基本相同,但在实际操作上,倾向于认为当前AIGC创作作品无法体现人类创意的主导地位,故不能受著作权保护。比如,美国著作权局拒绝对利用人工智能平台Mid journey创作的科幻漫画书给予著作权登记,理由是并没有体现作者创意的主导地位。英国是仅有的少数认可“完全由计算机生成的作品”也可以享有著作权的国家。英国《1988年著作权、外观设计和专利法》规定,没有人类作者的计算机生成作品的保护期为自作品制作之日起50年(人类作品的著作权有效期为70年)。

(二)对于个人信息的收集处理要求,欧盟以“opt-in”为原则、美国一般以“opt-out”为原则,尺度上较宽松

欧盟在采集个人信息时以“opt-in”(选择进入)为原则,整体尺度上较宽松。欧盟《通用数据保护条例》(GDPR)中规定了包括取得个人同意、维护公共利益以及实现数据处理者或第三方合理利益等六种合法处理个人信息的情形。而我国《个人信息保护法》仅认可“个人同意、公共利益和人力资源管理”等情形,并不认可数据处理者实现自身利益是合法性基础。同意规则上,欧盟认为“同意必须是自由给出的、特定的、知情的、以清晰的声明或者肯定的行为表明数据主体对于处理其个人数据的明确意愿”;我国则规定“敏感个人信息收集处理要求获得单独同意,甚至书面同意”。

美国对个人信息收集处理大多采用“opt-out”(选择退出)原则,倾向于减轻信息处理者的义务。根据《平等信用机会法》《金融服务现代化法》等法律法规,美国联邦对于收集个人信用有关信息采用“opt-out”原则,消费者若没有明确拒绝,视为同意对外提供个人财务信息。美国《加利福尼亚州消费者隐私法案》(CCPA)和《加利福尼亚州隐私权法案》(CPRA)规定,信息处理企业收集个人信息无需事先征得主体同意,但在后续使用、售卖过程中需要给予用户拒绝的权利(opt-out)。从对个人信息的保护程度看,我国《个人信息保护法》高于欧盟GDPR、高于美国加州CCPA和CPRA。

(三)海外对爬取网页信息用于大模型训练倾向于不认定为不正当竞争

美国HIQ诉Linked in案确认了“网页爬取”个人已公开信息属于“合法访问”。HIQ公司是一家有偿销售人力资源信息的数据服务供应商,其重要数据来源是从Linked in上爬取的个人公开数据。2017年,Linked in切断了HIQ公司爬取数据的渠道,HIQ公司起诉了Linked in。法院审理认为,HIQ公司访问公开数据的行为具有合法性,网站的授权访问只意味着对访问身份的认可,使用技术手段访问网站与普通用户的个人访问并不存在合法性的差异。

日本倾向于认为大模型厂商爬取无偿利用、合法公开的数据训练大模型,不构成不正当竞争。《日本不正当竞争防止法》规定,“与公众可以无偿利用的信息相同的数据”不受《不正当竞争防止法》保护。另外,基于此类数据加工的成果与原始数据不同的情况,对成果的转让和交易不构成不正当竞争。这实质上豁免了厂商爬取免费、已公开的数据训练大模型的法律责任。

三、相关政策建议

总体建议是国家从支持国产大模型抢占国际竞争制高点的导向出发,区分大模型厂商和大模型应用服务商“两个主体”、区分大模型训练开发与大模型应用“两个阶段”,适度放宽大模型厂商和大模型训练开发阶段的法律法规限制,适度强化大模型应用服务商主体责任,构建鼓励创新、包容审慎的监管环境。

(一)适度豁免大模型训练数据的著作权责任,进一步明确AIGC生成内容享有著作权的认定条件

一是在法律法规中明确“出于商业或非商业目的,复制作品仅用于文本挖掘和模型训练”属于“合理使用”的情形。建议在《著作权法》或者配套法律法规中,认定“复制的作品仅用于文本挖掘和模型训练”属于对著作权的“合理使用”情形。同时,采用“opt-out”(选择退出)模式保障著作权方的权利。探索著作权方、大模型厂商和大模型应用服务商三方的合理利益共享机制。根据调研,大模型厂商有意愿直接向著作权方采购正版作品数据,以节省数据爬取、清洗和结构化的成本;著作权方则希望借助大模型应用服务为作品引流,三方主体的利益导向较为一致,存在一定的合作空间。因此,要鼓励著作权方、大模型厂商和应用服务商按照“以应用端收益反哺著作权方”的逻辑,探索流量互引、收益共享的三方协作模式。建议国家相关职能部门牵头建设合规的线下数据集。设置图书电子化专项资金,重点推动公共著作权图书电子化;由国家图书馆、国家版本馆、国有出版机构等牵头建设线下语料“著作权联盟”,引导民营出版机构等深度参与,建设高质量的授权中文语料库;加大国家资助科研成果开放力度,大力支持公益性学术开放平台建设,促进学术成果高效共享。

二是进一步明确AIGC内容享有著作权的实施细则,建议通过出台司法解释、制定指导性案例等形式,进一步明确在AIGC生成内容中体现人类“独创性智力活动”、继而享有著作权的认定标准。合理划定主体之间的权责边界。要在尊重服务商、用户意思自治的基础上,以“公平合理、权责对等”为原则,研究制定AIGC服务商用户协议示范文本,明确服务商和用户的权责边界。指导AIGC服务商制定风险防控机制。建议出台《AIGC生成内容风险防控机制建设指南》,指导AIGC服务商建立关键词过滤、风险提示、输出内容控制等防控体系,总结提炼一批行业最佳实践,合理管控侵权风险。

(二)适度放宽大模型训练阶段个人信息的使用限制,完善“匿名化”的认定标准

一是适度放宽大模型训练中对个人信息的使用限制。大模型训练中使用个人信息是为了将语言逻辑参数化、形成技术底座,不是直接面向用户提供服务、不存在特定的使用目的。建议明确:将个人信息仅用于模型训练的,不属于处理目的变更,不需要重新征求个人同意;而在应用服务开发阶段,倘若涉及变更个人信息处理目的,则需要重新征求用户的同意。对于个人已公开信息的使用,要明晰“合理范围”的界定标准,探索制定“对个人权益影响”的分类分级指南,指导大模型厂商实践。

二是尽快完善个人信息“匿名化”的认定标准。只有认可匿名化处理的相对性,在实践中企业才敢依据匿名化条款向第三方提供个人信息相关数据,最大限度地发挥数据的社会价值。建议配套制定《个人数据匿名化实践指南》或相应的工作标准,明确个人信息匿名化的标准、技术路径、示范案例等,为业界实践举旗定向。

三是认可履行个人信息删除义务的多种可行方案。删除权是保障信息主体自主决定个人信息的重要途径。《生成式人工智能服务管理暂行办法》第11条第2款规定:“提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。”实践中,倘若训练数据进入模型,个人信息已token化,直接定位并删除特定个人信息困难较大。建议监管层在尊重用户意愿的基础上,认可多样化的个人信息删除方式。比如,对于尚未用于训练的个人信息,可以由大模型厂商从训练集中删除;对于已经用于训练、嵌入应用场景当中的个人信息,可以由大模型应用服务商设置输出内容过滤机制,确保个人信息删除权的实现。

(三)适度包容用于大模型训练的数据爬取中的轻微不规范行为,明确训练大模型不构成对被爬取方产品的实质性替代

一是建议适度包容数据爬取中的轻微不规范行为。用于大模型训练所实施的数据爬取行为,不是简单的数据搬运,而是在数据深度挖掘基础上的创新性使用。考虑到人工智能大模型是世界各国竞争激烈的关键领域,而我国目前面临数据开放利用不足、汉语语料不多的情况,建议在未对被爬取方网络服务产生明显负担、未对被爬取方正常运营造成影响的情况下,适度包容数据爬取中的轻微不规范行为。

二是建议认定用于训练大模型不构成对数据被爬取方产品的实质性替代。大模型训练不会再现被爬取的原始数据,而是转化为模型的参数。同时,大模型本身仅仅是技术基座,不是直接面向用户的数据产品。故而训练大模型本身不存在对被爬取方产品的实质性替代。

Abstract:Data is the decisive factor in the performance of AI large models, and also the most complex area in terms of legal relationship and subjects of responsibility. When using data to train and develop large models, manufacturers generally face three major legal risks concerning data rights: copyright infringement, violation of personal information processing requirements, and triggering unfair competition. Therefore, it is urgent to improve relevant rules to develop responsible AI.

This article suggests balancing legal responsibilities of the two subjects of large model manufacturers and large model application service providers, and of the two stages of large model training in Ramp;D and application services. Specifically, it suggests firstly, incorporating the works only for large model training into the category of “fair use” of copyright to some extent, and clarifying the conditions for enjoying copyright of the content generated by AI; Secondly, relaxing the restrictions moderately on the use of personal information and data during the training stage of large models, and improving the standards of “anonymization” in practice; And thirdly, tolerating minor misbehaviors in data crawling for large model training. All these measures will contribute to building a prudent and inclusive regulatory environment that encourages innovations for the development of large models.

[责任编辑 邢峻彬]

猜你喜欢
合理使用著作权
信息自由与版权法的变革
现代法学(2016年6期)2016-12-08 17:15:04
室外艺术品原作者署名权的行使规则案例分析
资治文摘(2016年7期)2016-11-23 01:28:38
浅析如何正确使用多媒体进行高中政治教学
南北桥(2016年10期)2016-11-10 17:24:59
数字出版的著作权保护问题研究
企业导报(2016年20期)2016-11-05 18:57:19
试论我国房地产行业知识产权立体化保护策略
“非遗”图像——浅谈非物质文化遗产的图片拍摄
浅谈新媒体时代文艺作品的保护方法
信息时代图书馆数字化服务中的著作权问题探析
从谷歌案析数字图书馆对作品的使用行为
新闻版权合理使用制度的反思与重构
出版广角(2016年15期)2016-10-18 00:23:30