连光阳?孙沁怡
【摘要】AI大模型时代的著作权保护困境大致表现为数据收集与训练端的合理使用难题,以及内容生成与传播端的可版权性难题,困境的出现源于技术隐蔽操纵、法律规范缺失和主观滥用行为等因素。从技术层面推动高阶技术应用方案建设和完善技术监督管理机制,从法制层面开放构建数据合理使用制度和加快生成内容制度回应,从社会层面集结社会多元主体共治力量和开展技术理性培育工作,是解决问题的关键所在。
【关 键 词】AI大模型;著作权;合理使用;可版权性;共治
【作者单位】连光阳,湘潭大学法学学部;孙沁怡,湘潭大学信用立法研究中心。
【基金项目】国家社会科学基金项目“算法共谋的反垄断法规制研究”(19CFX067)的研究成果。
【中图分类号】D923.41;TB18【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2024.09.007
AI大模型时代,数据资源的重要性日益突出:数据质量、规模及其多样性直接决定了AI大模型的泛化性能和价值效力——数据质量越高、规模越大、种类越丰富,AI大模型的内容生成能力和真实可靠性就越强。由于数据资源的价值前景显著,一些AI大模型企业通过技术隐蔽操作获取海量未经授权的作品资源,引发AI大模型数据收集环节的著作权侵权;一些AI大模型使用者利用“技术+人工”手段生成与特定作品有同质化竞争关系的伪作品,引发AI大模型内容生成环节的可版权性。无论哪一种行为,都是对原著作权人合法权益的伤害,同时也不利于行业和知识文化市场的良性发展。本文尝试在AI大模型时代著作权保护困境的当下,针对性地提出多元解决建议,以期为学界和业界的理论创新与实践提供有益启示。
一、AI大模型时代的技术特征与应用现状
1.AI大模型时代的技术特征
第一,资源数据化。大规模可用性数据集的形成是进入AI大模型时代的基本条件,数据作为人类知识和智能资源的集成,其质量高低和规模大小直接决定了AI大模型的泛化性能和应用前景,因此,优质资源的数据化转换和可用性价值成为AI大模型时代的核心发展要素。例如,第一代GPT(GPT-1)的预训练参数量为1.11亿,数据规模为5GB;第二代GPT(GPT-2)的预训练参数量为15亿,数据规模为40GB;第三代GPT(GPT-3)的预训练参数量为1750亿,数据规模为45GB。随着AI大模型技术的迭代升级,其预训练参数量和数据规模呈指数级增长趋势。未来,随着AI大模型时代的深化发展,以数据为中心的发展机制势必加速社会各类资源的数据化转换,这也是数据被视为继土地、劳动力、资本、技术之后社会“第五大生产要素”的重要原因。
第二,场景多元化。2014年,美国博客写手罗伯特·斯考伯和媒体专栏作家谢尔·伊斯雷尔联合出版的《即将到来的场景时代》指出,新兴技术将构建更多元的未来社会场景[1]。延伸来看,以生成式人工智能、大型语言模型、深度学习等新一代技术群落为代表的AI大模型时代,将凭借技术赋能创造更多元、更细分的应用场景。这一阶段的技术更容易造成人类语言的模糊性,社会形态有望达到如德国学者克里斯多夫·库克里克所言的“微粒社会”形态,即社会数字化、数智化发展速度更快,所有人都处于一个精细解析的社会形态中。在这个社会形态中,AI大模型将成为人们相关数据量化的主要手段,其目的是通过需求探知和及时交流,构建更多契合人们个性化诉求的任务场景。
2.AI大模型时代的技术应用现状
第一,技术的良好表现与强大赋能。AI大模型时代,随着数据、算法和算力条件的不断进步,相关技术群落已经从通用化领域逐渐迈向垂直化领域,并展现出全新的价值效益。比如,数传集团研发出版行业首个AI大模型BOOKSGPT后,短短两个月营业收入同比增长超60%,足见这个时代的技术红利。此外,AI大模型时代,技术赋能作用日益凸显,倒逼不同行业领域的跨界协作与深融创新,促使多方优势互补和共建共享,在降低技术成本和市场风险的同时,加速产业链延伸与升级。在此背景下,大量出版企业、新闻媒体等专业机构和平台与头部科技公司、网络企业展开深度合作,以充分把握AI大模型时代的发展机遇,为自身高质量发展培育更强大、更与时俱进的新质生产力。2023年7月,同济大学和腾讯研究院联合发布的《大模型时代的AI十大发展趋势观察》显示,在技术作为第一生产力的背景下,大模型的涌现、赋能、融合、泛在等趋势还将进一步强化,价值前景可期。
第二,技术的滥用风险及可能带来的负效应危机。从个人层面看,AI大模型时代的技术应用虽然强大,但也可能因为无端滥用削弱个人的能创性、思辨能力和隐私保护能力,导致过度技术崇拜。从行业层面看,AI大模型时代的技术应用,可能因为隐蔽操纵和算法设置诱发行业生存危机,如三星ChatGPT泄密事件的发生,给各行业领域敲响警钟。此外,由于不透明操作,大模型企业在数据收集和内容生成两大环节可能涉及侵权纠纷,这也是以内容行业为代表的众多行业领域面临的最大危机。据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已受理10余起侵权纠纷案件。
二、AI大模型时代著作权保护困境及成因
1.AI大模型时代著作权保护困境
(1)输入端:训练数据的合理使用难题
一方面,AI大模型时代的政策倾向与著作权保护并未得到有效平衡。目前,我国乃至全球对AI大模型时代相关技术群落的发展与应用整体持鼓励态度,如我国网信办联合其他部门发布的《生成式人工智能服务管理暂行办法》主要以鼓励创新发展为基调。倘若大模型企业或技术研发商未在合理使用制度下收集训练数据资源,则极易导致AI大模型时代的数据输入端发生侵权行为,给著作权保护带来诸多不便,这也是《纽约时报》等媒体机构和众多海外作家控诉与谴责包括OpenAI、Alphabet、Stability AI在内的AI大模型企业涉嫌侵犯著作权的重要原因。
另一方面,AI大模型时代的输入端数据使用刚需,使未被合理使用的原创作品遭受权益侵害。为了强化性能功效,AI大模型所需的训练数据规模越来越大,这些供AI大模型训练与学习的数据既有互联网的开源免费数据资源,也有版权保护期内的专业数据资源,如书籍、数据库、期刊、网络新闻等。由于数据体量庞大、授权机制烦琐、操作周期较长以及版权成本较高,一些大模型企业和技术研发商可能在未经授权的情况下私自收集专业数据资源以满足自身需求,这无疑构成对个体权利人或专业版权方的著作权侵权。正如一些学者所言,资本的逐利性会促使使用者最大限度地绕开著作权壁垒,缩减自身成本支出,从而造成侵权风险[2]。
(2)输出端:生成内容的可版权性难题
一方面,AI大模型时代的输出端存在著作权主体不适格问题,使得可版权性难题突出。目前,无论是英美法系还是大陆法系,均对“作者”作出明确规定:德国著作权法要求“作者”只能是自然人;美国版权局在最新版权登记指南中再次强调“作者”的自然人属性;我国现行的著作权法虽提出“视为作者”规则,但对“作者”仍然有主体资格要求。上述内容表明,在AI大模型时代初期,技术应用工具和内容生成模型并不具备“作者”资格,因而其生成或编创的内容不被法律认可,其著作权保护自然无从谈起。尽管有学者提出“人工智能体主体资格肯定说”或“有限资格说”的观点[3],但观点运用的前提是机器主体拥有人类的智慧,这显然不是当前技术能达到的水平。
另一方面,AI大模型时代的输出端面临生成内容属性模糊问题,即是否具有“独创性”特质,这也是造成可版权性难题的根本。我国著作权法中规定的“独创性”主要包含“独”和“创”两个维度的评判,前者主要指“独立完成”和“个性化表达”,后者主要指满足“最低限度创造”的要求。无论哪一种维度标准,现阶段AI大模型输出端的生成内容均未达到。AI大模型时代的输出端内容生成主要通过算法程序编创,其功能完全是模型技术作用的结果,且模型、算法都由研发商控制,并不具备独立完成和自主个性化表达特质。AI大模型时代的输出端内容生成并非“创造”出来的内容,而是通过对原创作品资源训练和模仿得到的“历史经验”或“拼接内容”,其创造价值和创新意义有限,对理论研究和社会实践的指导意义也有限。由于内容属性模糊,独创价值缺失, AI大模型时代的机器产物或生成内容面临可版权性难题。
2.AI大模型时代著作权保护困境成因
(1)技术隐蔽操纵
技术研发商或大模型企业出于商业目的,通过技术隐蔽操纵手段侵害原创作品著作权,如利用强大的网络爬虫技术,对互联网全域范围内的所有数据资源进行收集、分析和利用,并以技术保护为借口不对外公开内部运作流程,导致原权利人著作权保护面临侵权发现难和认定举证难等问题。2024年4月,北京市人民检察院发布的《北京市检察机关知识产权检察白皮书(2023)》显示,2023年北京市检察机关办理审查批准逮捕和起诉案件205件,其中著作权类刑事案件占比13.5%,且侵权手段具有隐蔽性特征。为达到服务用户和生成内容合规化的目的,一些技术研发商或科技公司会利用算法程序等技术手段改变原作品的内容表达,以此规避著作权法的制度保护,这种做法不仅导致侵权行为的违法性更加模糊,同时也由于技术隐蔽操纵增加了司法判定难度。
(2)法律规范不足
从立法层面来看,“三步检验法”作为《伯尔尼公约》的宣誓条款,仅是一种原则化指示内容,并无明晰的法律效力,这就为AI大模型企业或科技公司收集原作品数据提供了可解释空间,增加侵权行为认定的模糊性,甚至让侵权行为在法律层面被定义为合理使用行为。此外,对于数据输入端资源收集与训练行为的侵权判定,“思想与表达二分法”仍是主要界定方法,但AI大模型时代的技术隐蔽操纵及其可能存在的侵权行为,本质是通过改变原创作品表达方式、内容结构等来规避法律制裁,这意味着现有侵权认定标准面临著作权保护适用难题。
(3)主观滥用行为
当前,受AI大模型运行机制影响,个体或集体通过低成本、便捷性操作可达到侵权目的。加上大模型企业、科技公司以及相关部门对主体行为缺乏强制规范和有效劝导,导致主观滥用行为屡禁不止。例如,国内首例AI生成图片相关领域的著作权侵权案例,关键在于被告出于个人目的,未经告知和授权,即将原告生成的AI图片进行传播。在这一过程中,被告“截去图片署名水印”等做法是主观滥用行为的表现,旨在通过技术手段和人工篡改,达到侵犯他人著作权权益和实现个人利益的目的。
三、AI大模型时代著作权保护的规制路径
1.技术层面:推动高阶技术应用方案建设,完善技术监督管理机制
推动高阶技术应用方案建设,是有效解决技术隐蔽操纵所导致著作权保护困境的手段。AI大模型时代,应树立技术规制技术的发展思维,加快建设高阶技术应用方案及配套辅助工具,从源头上强化模型输入数据和输出内容的技术审核作用,以防范企业出于商业目的的隐蔽操纵。清华大学人工智能研究院视觉智能研究中心主任提出,利用基础模型优化减少侵权内容生成的手段虽然在技术层面有不小困难,但通过价值对齐算法强化侵权内容过滤的方式仍有较高可行性[4]。AI大模型企业或科技公司在构建模型的同时,应配套研发更高阶的技术解决方案,包括高级网络爬虫、训练内容标引工具包、敏感信息过滤系统、算法纠偏与自查程序等,从而在减少数据收集与训练、内容生成与传播环节侵权问题的同时,实现技术确权、护权与维权的理想目标。
引入第三方机构全面参与完善技术监督管理机制建设,对解决AI大模型时代的著作权保护困境具有重要作用。邀请第三方机构参与完善技术监督管理机制,能有效预防和及时发现企业或科技公司的技术隐蔽操纵手段,以此实现对著作权人合法权益的有效保护。当然,在选择第三方合作机构的过程中,应基于“回避制度”,避免与原技术研发商有利害关系的机构参与。同时,第三方技术监督管理成员可以由多个技术公司、政府机构、司法部门共同组成,这样更具有专业资质和技术优势。例如,由浙江绍兴柯桥法院主导研发的全国首个司法领域图案类查重比对应用——“版权AI智审”,目前已在最高人民法院的引导与支持下,与上海、江苏、安徽、山东等六省市高级人民法院知识产权审判庭共同签署《“版权AI智审”数字化应用共享协议》,为AI大模型时代的著作权保护提供新的技术支撑。
2.法制层面:开放构建数据合理使用制度,加快生成内容制度回应
从立法层面来看,考虑到专法立法进程缓慢、程序较多等因素,可从已有法律条款的修订、增补角度出发,构建合理、高效的规范制度。比如,对著作权法第二十四条第一款和第六款进行内容扩容,打破主体限制,将大模型企业、科技公司等纳入主体范畴中;对合理使用的非营利性目的进行进一步解释,在不突破非营利性目的的限制下将非营利性目的限于直接目的之下,从而强化对大模型企业和科技公司以技术创新为借口的不透明数据收集和训练行为的有效区分和识别。
从义务规训层面来看,道德规范的求证为引入AI大模型数据侵权行为的规制提供了正当性基础。正如一些学者所言,法律与蕴含于道德中的商业习惯、伦理间的互动为规制人工智能时代的侵权行为提供了价值追求和法律依据[5]。将“默示许可制度”纳入著作权合理使用制度之中,就大模型企业和科技公司数据收集行为是否符合道德层面的原则性和类型化规范给予充分考量,同时对“默示许可”制度严格限定使用范围和适用情形,通过这些举措有望达到降低侵权风险和提高保护效力的目标。
对于生成内容输出端出现的可版权性难题,可加快制度回应。国家立法部门应与时俱进地构建纵深式、递进式著作权归属制度。比如,在著作权法的作者内涵和权利安排方面应优化和完善现有规定,构建“法人视为作者,版权属于法人—AI视为作者,版权属于法人—AI即为作者,版权属于AI”的纵深式、递进式制度体系,取得因时而异的效果。同时,构建客观性审查制度。一是将作者权法转向版权法,二是将“独创性”的主客观一体审查转为客观审查。前者是指伴随作品中心主义转向,推动以人格权为出发点的作者权法向以财产权为出发点的版权法转变,满足一定的思想意志表达要求,并在一定程度上迎合作者主体的“去人类中心化”改造,从而在鼓励技术创新的同时,强化著作权保护的法律效力;后者是指将“创作高度”不再作为内容“独创性”的价值判断维度,让技术生成内容的价值判断回归到客观层面的“最低限度”上。
3.社会层面:集结社会多元主体共治力量,开展技术理性培育工作
从社会层面来看,要培育技术研发商和服务供应商的技术伦理意识。在To C服务机制下,技术研发商和服务供应商应在用户注册和提供服务之前,通过告知与提醒、用户协议等方式使他们了解技术以及合理使用范围,同时告知他们著作权保护须知、侵权影响及处罚措施等,使其内心自发形成一定的伦理规范和约束机制。此外,技术研发商和服务供给商还应关注用户访问权限和生成内容,以敏感词过滤、隐私信息保护等手段抑制“利己主义”心理主导下的技术滥用行为,从而达到保护著作权人合法权益的目的。
加大媒体平台和其他公共机构的技术理性教育和宣传。媒体平台应发挥自身的教育和宣传功能,以客观、真实的内容和多元、立体的渠道,向社会大众普及AI大模型时代的技术风险和现实挑战,提高大众的技术理性认知。比如,媒体平台可通过国内首例AI生成图片著作权侵权案例的全网宣传和警示,让大众及时辨别合理使用行为和侵权违法行为,并形成自身行为规范,在技术应用过程中自觉遵守法律法规和道德准则,更好地维护社会及市场的良性运行。学校、图书馆等社会公共文化服务机构应加大对社会大众的技术理性培育力度,可通过讲座活动向师生普及技术合理使用方法、原则以及著作权保护义务等内容。
鼓励社会大众参与监督治理。一些学者提出以人类受众为中心来变革版权法的理念和法律制度,其核心观点便是以社会大众为标准介入版权保护和侵权治理[6]。淘宝网于2012年设立大众评审机制,以此作为山寨商品鉴定、违规信息识别、不合理评价识别等争议事件的处理手段之一。从这个角度来看,国家及行业主管部门、内容企业以及技术研发商和服务供给商可在AI大模型时代的数据收集与训练、内容生成与传播等环节引入社会大众监督管理机制,开通用户反馈通道并对用户反映内容进行仔细核查,对涉嫌著作权侵权问题的信息予以重视并采取有效措施,以达到尊重用户知情权和保护原权利人著作权的目的。
AI大模型时代,新一代技术群落已经进入多领域应用阶段,整体呈现资源数据化、场景多元化和服务智慧化特征。AI大模型的运用在取得良好成效的同时,也暴露诸多现实风险,著作权保护便是其中之一。我们在直面AI大模型输入端和输出端数据合理使用及可版权性问题时,不仅要针对这一问题及其可能带来的负效应危机积极采取有效措施,还要从长远角度妥善处理好人技关系,真正实现以技术造福人类社会的初衷。
|参考文献|
[1]罗伯特·斯考伯,谢尔·伊斯雷尔. 即将到来的场景时代[M]. 赵乾坤,周宝曜,译. 北京:北京联合出版社,2014.
[2]郑飞,夏晨斌. 生成式人工智能的著作权困境与制度应对:以ChatGPT和文心一言为例[J]. 科技与法律(中英文),2023(5):86-96.
[3]石冠彬. 人工智能民事主体资格论:不同路径的价值抉择[J]. 西南民族大学学报(人文社科版),2019(12):94-102.
[4]倪麟. 让人工智能拾起初心[N]. 科技日报,2023-12-27.
[5]饶先成,徐棣枫. 从一元向多元互动转变:人工智能洗稿行为的规制路径[J]. 编辑之友,2021(7):84-90.
[6]梁志文. 论人工智能创造物的法律保护[J].法律科学(西北政法大学学报),2017(5):156-165.