【摘 要】为激活人工智能机器学习来源的合法基础,文本与数据挖掘行为能否适用于著作权合理使用制度,成为利用这一技术的法律难题。针对学界提出的“单独设置合理使用条款”“概括性解释合理使用一般条款”等观点,相关规范具备合理性的同时也面临条款话语体系不周延、概括性适用具有不确定性以及冲击现有规范框架导致释法不稳定等难题。对于文本与数据挖掘技术的利用,应关注未来科技发展与该技术纳入著作权法中角色定位的协调统一趋势,在现行著作权法框架下,法律规范在应对技术创新时,应保持稳定并注重平衡,把握法律条文变动的逻辑趋势以及权利义务的控制思维,为科技发展提供灵活的法律空间,以实现技术发展与法律规制的动态平衡。
【关 键 词】人工智能;机器学习;文本与数据挖掘;合理使用
【作者单位】辜凌云,北京大学法学院。
【基金项目】教育部人文社会科学研究规划青年基金项目“智能创作时代数据挖掘的版权豁免理论调试与制度构建”(23YJCZH109)的阶段性成果。
【中图分类号】D923.41 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.15.009
文本与数据挖掘技术(Text and Data Mining,以下简称“TDM技术”)已被广泛应用于生成式人工智能内容输入提取的各个环节,其意在通过对大量数据的收集与分析以发现新知识。不同于其他代码层技术,TDM技术的应用在极大促进数据挖掘与生成式人工智能发展的同时,还大幅度地影响与限制著作权人的权利预期和权利实施范围。生成式人工智能技术与一般人工智能技术的发展离不开数据的应用,独立且单一的数据文本难以产生价值,数据的价值在于对其内容与深层次内涵的挖掘分析[1],并在此基础上持续供给有效的高质量数据。TDM技术作为生成式人工智能数据获取的底层技术,通过数据挖掘实现大规模数据收集,为生成式人工智能的创造性内容输出提供基础的数据支撑。
在纯人工无法处理大规模数据的背景下,TDM技术基于所获取的数据实现内容的自动化筛选分析,并依据用户需求实现内容的有效输出。然而,该技术实施所获取的高质量数据大部分都来自处于著作权保护期的作品,因此,对数据的处理必然涉及著作权人对作品控制专有权利的范围,不可避免地存在侵权风险。客观而言,生成式人工智能技术的发展需求与著作权人的权利实施之间存在矛盾,且该矛盾还伴随作品利用的增多呈现加剧趋势。如何化解这类矛盾成为当下法律制度面临的现实问题,就著作权法律体系而言,权利限制制度常年被当作破除技术与法律协同发展壁垒的有力武器,可无论是美国的合理使用判断“四要件”,还是传统的“三步检验法”思路,对TDM技术纳入著作权限制制度的考量范围都存在适用与衔接难题。如何设计一套既能促进TDM技术和谐发展又能真正实现科技与法律自洽的权利限制模式,是当前人工智能机器学习时代著作权法必须面对的问题。
一、解构:TDM技术与著作权法规范回应
1.TDM技术行为引发的著作权侵权风险
TDM技术应用在最初阶段是对样本数据的选择,在对样本数据筛选与接触时,难免会受到权利方设置的技术保护措施限制,因而此阶段存在的侵权风险主要表现为对技术措施的规避或破坏性访问。不同于其他国家的规定,我国著作权法禁止此类“直接规避行为”,技术措施的存在使得TDM技术在最初的样本数据接触环节便可能存在此类风险。同时,在机器学习样本数据预处理阶段,TDM技术的实施过程同样可能存在侵犯技术保护措施的风险。样本数据的预处理阶段是后续文本与数据挖掘分析的客观基础,具体包括数字化和文本提取、数据分类、数据清理以及元数据与数据注释等四个环节[2]。值得注意的是,在样本数据的数字化和文本提取环节,容易因规避著作权保护措施而侵犯著作权人复制权等权利。造成该风险的因素包括两个方面:一方面,由于样本数据在大规模采集时难以绕开版权保护措施屏障,实施相关的爬虫技术容易造成对著作权保护措施的规避或破坏;另一方面,由于样本数据在提取采集时需完成对所提取图像、文档等整部作品内容的数字化扫描,并将所采集的样本数据相对稳定且持久地留存于服务器中,以便后续的分析处理,在未经著作权人许可的情况下,此种行为难以脱离著作权人复制权控制的范畴。
为保证后续文本与数据挖掘分析具备现实可行的基础,还需要在预处理阶段对采集的样本数据进行清理,使最终的数据集具有机器可读性和可搜索性。在具体实操中,样本数据的清理涉及对数据内容的修改,针对作品内容的变更或局部文字、用语的变动无疑属于著作权人的权利控制范畴。预处理阶段还涉及对目标样本数据的“转码”行为与“注释”行为。一方面,转码行为在原有作品内容的基础上,将其目标样本数据转化为机器可读的形式,所转化的内容并未脱离原有作品的实质表达范围,此阶段所涉及的转码行为显然构成对原有作品的演绎[3]。另一方面,“注释”行为对样本数据增添附加信息的行为难免因行为主体自身主观的数据训练意愿,而出现与原来样本数据内容有偏差的风险。一旦“注释”行为所形成的附加信息歪曲或篡改原有样本数据内容,很有可能侵犯著作权人保护作品完整的权利。在后续对样本数据内容分析与输出的环节中,如果需要传播所分析的内容,在传播内容涉及原本作品内容的情况下,经由线上传播渠道输出内容容易产生侵犯信息网络传播权的风险。
2.著作权法权利限制规则对TDM技术行为的适用逻辑
著作权法通过创设权利限制规则在确保维护著作权人合法正当权益的同时,还给予社会文化、科学事业、公共利益一定的发展空间,使得著作权法能够有效平衡著作权人利益与公共利益,进而促进社会文化和科学事业的发展与繁荣。就TDM技术的发展与应用而言,由于其是人工智能技术发展的底层辅助技术,有必要考虑纳入著作权限制规则的范围内,以实现不同利益之间的相互平衡,推进社会文化、科学事业的发展。
从行为规制的视角展开,TDM技术应用过程中所产生相应行为必然纳入著作权人权利控制范围内,在未获得合法许可的前提下,实施TDM技术的行为易构成对著作权人精神权利与经济权利的侵犯[4]。然而,基于著作权法立法宗旨的实际考虑,著作权法不仅应保护著作权人合法、正当的权利,还应有效推进社会文化、科学事业、公共利益等多元价值发展。TDM技术应用并非纯粹的挖掘工作,而是对数据本身价值的深层次发现,其展现的是人工智能技术应用与发展的有效实现,是机器学习、大数据分析等技术运用的底层基础。不可否认的是,数据产生的价值是决定人工智能现在和未来的关键因素[5],因此,在现今经济社会与科学事业激烈竞争的背景下,有必要关注TDM技术的应用与发展,并在现有著作权法规制范围内给予一定的例外空间,通过著作权法权利限制规则有条件地给予豁免,实现TDM技术应用发展乃至生成式人工智能技术的发展与繁荣。
从创新激励的视角展开,TDM技术凭借数据挖掘及价值分析的巨大潜力,已经成为人工智能技术发展中不可或缺的一环,有必要给予一定的著作权侵权豁免空间以更好地鼓励创新投入,刺激市场和产业发展[6],激励科技火花的深度碰撞。就技术的实践应用价值潜力而言,2016年蒙特大学的安德鲁等人运用TDM技术将冯内古特在1995年提出的“情感弧线”理论(Emotional Arcs)以数字化、图表化的形式充分展示,并运用TDM技术基于1700多个故事的情感弧线构建了最常见的情感弧线模型,该研究启发了人工智能模型研究人员和开发人员的思维,并证明TDM技术可用于训练机器学习[7]。毫无疑问,TDM技术作为知识挖掘与发现的关键技术,不是简单的数据采集技术,其还能为机器学习提供充分且有效的结构化数据,以此作为生成式人工智能技术发展的基础,推动科技的发展应用。本质上,人工智能的创造力为数据可用性不断提升所驱动[8],如果人工智能技术不通过TDM技术的帮助不断训练数据与试验算法模型,那么它的发展便如无根之木、无源之水,相关产业会因为技术合规问题而遭受重创。如果仅因为法律规范的僵化而造成技术实践和产业发展“双输”的局面,那需要反向思考对法律规范进行修改的必要性。
二、反思:现行著作权法权利限制规则适用的困境
1.条款话语体系不周延加剧法律解释的困难
针对TDM技术设置的合理使用条款的建议,大多以“科学研究目的”或“非商业性目的”作为豁免TDM技术侵权的适用条件。然而,并非简单对条款规定以“科学研究为目的”便能豁免所有TDM技术的实施行为,法律制定同样需要考虑其适用的可行性。一方面,TDM技术条款中的“科学研究目的”适用边界较为模糊。欧盟《数字化单一市场版权指令》中并未明确“科学研究目的”的具体含义,仅在序言第12条规定“科学研究”一词涵盖自然科学以及人文科学领域。自然科学由于其作为“创新性科学”的本质属性,能以定量为手段明确创新成果的产出与研究目的的设置,但是人文科学领域很大程度因其属于“主体性科学”,更多关注人类主观意识中独特的价值观[9]。这意味着,对于人文科学的研究容易因主观意识的介入而使得“科学研究目的”变得模糊,相应TDM技术条款适用上便极有可能存在差异。另一方面,条款并未明确“非商业性”的适用节点。由于大部分TDM技术条款的设置均以“非商业性”作为适用的条件,相关大学研究机构进行的非营利性科学研究便有可能纳入TDM技术条款合理使用的适用范围,典型的如基础理论研究,其不太可能产生具有市场价值的研究成果,符合TDM技术条款中“非商业性”的限制[10]。然而,如果开展的是应用型研究,那么此时极有可能因研究成果具备市场价值而不符合TDM技术条款的规定。如果将TDM技术条款中“非商业性目的”的适用节点设置为前置性条件,即进行研究的最初目的必须是“非商业性”,那么在后续研究的过程中研究成果意外获得了市场价值抑或TDM技术行为人在后续有了主观的营利目的,此时适用“非商业性目的”的节点便容易因这些因素而变得模糊,如果发生侵权纠纷,TDM技术行为人也很难举证证明自身行为在最初并不具备“商业性”目的。
此外,“科学研究目的”或“非商业性目的”的判断标准并不清晰。基于此,如何判断这两种目的存在实践困难。一方面,根据研究主体的性质判断科学研究的性质并不妥当。对于企业中的研究机构所开展的科学研究或者第三方中立机构所开展的科学研究,很难仅因其主体的性质便认定该研究满足“科学研究目的”。另一方面,如根据行为因素认定是否满足“科学研究目的”或“非商业性目的”,同样容易存在不恰当的情形。具体而言,尽管研究主体利用TDM技术进行的科学研究并不存在任何营利空间且行为满足规范的要求,但难以保证后续研究成果不产生市场盈利,以及研究主体不将研究成果应用于营利活动,此时仅根据行为因素来判定这两种目的,难以应对后续的变化情况。
2.概括性适用的不确定性容易导致法官造法
从世界范围来看,概括性适用的不确定性容易导致法官造法。美国法中的合理使用采取的是概括性适用模式,具体表现为美国版权法第107条中关于合理使用(Fair Use)的四要件认定方法。对TDM技术行为的法律适用思考中,直接使用域外关于合理使用的概念与认定要件难免存在脱离本土法源的问题,容易产生类似法官造法的风险[11]。这种风险主要是由概括性适用中不同要件认定的不确定性造成的。
概括性适用模式下认定行为是否构成合理使用存在不确定性,主要体现在以下四个方面。其一,对作品使用目的的认定以及是否构成“转换性使用”。此种模式下要求考虑使用作品是否出于营利性目的或商业性目的。在Authors Guild, Inc. v. Google, Inc.案件中,法院认为谷歌通过采用数据挖掘技术大规模推出数字化图书的行为具有高度的转换性,不仅提升了教育价值,还有助于作品的传播并使得著作权人受益。然而,如果TDM技术最终得出的结果与原本作品的内容及其蕴含的价值相差无几,甚至仅实现对作品内容的简单复制,则仍有可能无法满足合理使用判断的要求。其二,对于TDM技术所处理作品的性质考量。此种考量以作品是否具备原创性作为判断标准,如果作品的利用不区别于原作品则难以构成合理使用。由于TDM技术所处理的内容规模较大,实践中无法对其处理内容一一识别,对于原创性较低的作品,TDM技术处理是否构成合理使用具有高度不确定性。其三,对于TDM技术所处理作品的数量和质量及其在整个作品中所占的比例。客观而言,这种因素的判断较为主观,TDM技术所处理的样本数据量庞大,基于不同研究目的处理的样本数据数量也存在差异;对所处理的作品质量而言,TDM技术利用作品内容更多是通过复制、转码成相应结构化数据以供给后续机器分析,对作品质量的利用程度不仅取决于技术层面的设置,还因研究目的与预期效果的不同存在不确定性。其四,使用作品对现实以及潜在市场价值的影响。该因素的考虑在上述谷歌的案件中已有论述,如假借TDM技术实现非科学研究目的,TDM技术对于作品内容仅为纯粹的复制粘贴,并未产生相应高度转换性价值,此时对原作品的市场无疑会产生替代效应,极有可能侵犯原有作品的市场份额以及著作权人的合法利益,不宜认定为构成合理使用。
3.机械地单独设置条款冲击现有规范的体系性逻辑
在设置新的TDM合理使用条款时,除了根据TDM技术特点作出相应安排,还应考虑新增条款与其他合理使用条款以及著作权法体系的协调。就著作权法关于合理使用制度的规定而言,新增的TDM技术条款极有可能与著作权法第二十四条第一款之规定“为个人学习、研究或者欣赏”以及第六款之规定“为学校课堂教学或者科学研究”这两种情形产生规则解释的冲突。具体而言,与“为个人学习、研究或者欣赏”情形不同的是,新增的TDM技术条款的适用主体通常为非个人主体,即法人或者非法人组织。事实上,就算个人主体承担相应科学研究的TDM技术活动,其也无法脱离集体财产的支持,同时法律责任一般也由集体承担[12]。然而,尽管第一款规定设置了主体要件与个人目的限制,但是大部分国家均承认公司中的科研人员为开展科学研究使用他人作品只具有间接的商业目的,仍然不排除构成合理使用的可能[13]。此时,新增的TDM技术条款难免会与第一款的情形重合,两条款之间的适用界限存在模糊空间。
“为学校课堂教学或者科学研究”这一情形与TDM技术条款可能存在的差异主要体现为复制作品的数量。对于作品的数量认定,第六款的规定明确所复制作品的数量应为“少量”,这一点显然与TDM技术特点大相径庭。然而,正因第六款中对复制作品数量定量的要求,如果在新设的TDM技术条款中未明确规定使用作品的数量,此时在满足“少量”及“少量以下”的范围内应适用哪一条款便存在疑问。客观来看,尽管第六款存在“供教学或者科研人员使用,但不得出版发行”的用途限制,但由于该条款在目的上存在“科学研究”的空间,在未明确复制作品数量的情形下,新设置的TDM技术合理使用条款难免存在法律适用上的不确定性。
三、探索:著作权法权利限制规则体系变革应有的认知逻辑
1.稳定与平衡:法律应对技术冲击的理性态度
法律应对技术冲击的处理并非单向度的,还应考虑制度建设自身的稳定性与各方主体之间的利益平衡状态。制度回应需为TDM技术发展提供法律空间以促进其创新发展,同时也应避免因给予较为灵活的条款表述而对权利人的专有权利造成过度限制,突破法律应对技术冲击应有的灵活与公平的界限和范围。因此,在灵活与公平成为著作权法应对TDM技术冲击的规制思维时,理应在确保整体法律体系稳定的前提下,平衡著作权人专有权利与权利限制之间的合理关系,摸准法律应对技术冲击的本质内涵,为技术的发展留足适宜的法律空间。
就法律应对技术冲击的应有态度而言,不仅应关注著作权法权利限制规则体系变革中制度自身的稳定与平衡状态,还应将目光逡巡于变革过程中权利人的权利状态与所应实现法律效果的稳定与平衡。在寻找适合TDM技术发展的合理规制模式时,应谨慎设置相应条款话语,自上而下地考量所设置条款内容对原有制度体系的冲击影响,并综合评价条款设置所可能带来的正面反馈以及负面效果。同时,不同的规制模式容易造成实施效果的差异化,设置TDM技术的规制模式时应考虑所设想模式下权利人自身的权利状态。对于TDM技术规制模式的选择还应谨慎考察所涉及权利的状态变化,避免不同主体之间利益失衡。在为TDM技术选择合适的制度模式时,囿于著作权法权利限制规则体系框架,在赋予合理使用条款更大的灵活性表述的前提下,应警惕此种灵活性表述可能给著作权法体系带来的冲击。面对现有法律体系无法完全规范新型技术时,要避免因过分重视技术的发展而忽略著作权法本身深层次的价值内涵需求,在灵活性与公平性之间寻找稳定与平衡。
2.创新与保护:法律应对技术革新的规制理路
以创新的方式保护创新已成为当下知识产权司法实践应对技术冲击的主要思路,这是出于促进社会文化、科学事业发展和维护社会公共利益的需要。本质上,著作权作为维护市场竞争优势的工具之一,应满足公共政策发展的需求,释放作品供给价值,但这不能成为侵害著作权人合法权益的借口,应谨慎把握创新保护和法律条文变动的逻辑趋势。
在选择适当的治理模式以适用TDM技术时,不可避免地会涉及著作权法权利限制规则的法律条文调整变动。在此过程中,应当准确把握创新与保护的逻辑走向,并以此为调整或变动的指导原则,以实现制度的和谐与完善。具体而言,应明确创新和保护的边界以及平衡点,对于法律条文变动中创新和保护二者之间的平衡应注重本权与他权、私益与公益之间的价值衡量。在为TDM技术设置相应著作权法权利限制规则或制度模式时,应在法定范围内兼顾各方当事人之间的利益[14]。同时,应注重所设置的法律规则与法律解释的明确性和可落地性。客观来看,对于所设置TDM技术合理使用条款的话语,应明确“科学研究目的”或“非商业性目的”的界限,尽可能通过确定的话语给予司法实践客观的判断指引。同时,如参考相关域外合理使用“四要件”的分析思路,则更应注重相关规则的指引和解释[15],发挥法律解释的补充说明功能,保证利益主体对自身利益状态的合理预期。此外,还应注重与著作权法其他规则的协调。在对TDM技术设置相应规制模式时,如涉及增设新条款,应当考虑与其他规则之间的协调统一。在确保维护作者权利和作品正常使用的情况下,注重与合理使用制度中其他情形之间冲突的解决,并及时完善相应TDM技术保护措施的例外规则,以防不同规则之间发生冲突,确保TDM技术法律责任豁免的明确性。
3.开放与限度:权利与义务的序贯思路
基于权利与义务的思维控制著作权法权利限制制度变革的开放边界,其本质是通过权利义务的形式确立知识财产的分配模式、原则与具体内容,并以此模式实现市场资源的合理配置,促进社会财富与消费者福利的最大化[16]。反映到TDM技术的规制模式上,权利思维不仅要确保著作权人合法行使专有权利,还应有限度地控制相关专有权利的实施范围,以实现技术发展的重要公共目的。义务思维要求使用人严格遵守合理使用中“三步检验法”所设置的义务性要求,尊重作者与作品的合法权益,避免对作者的合法权益及作品的正常使用造成非法侵害。简而言之,通过平衡著作权人与其他相关利益主体之间的权利义务关系以实现分配正义。
在通过以权利义务思维设置法律条文以规制科技应用引发的问题时,还应注重所赋予权利的开放与限度,以合法行使权利人权利以及充分履行使用人义务的思维,处理不同主体间的问题,进行利益的合理划分,并确保市场资源得到有效配置。具体而言,一方面,应对著作权人专有权利予以针对性的调整限制。通过调整法律规则给予技术发展的灵活空间成为现阶段社会经济发展与科技进步的必要举措,以著作权限制规则体系为切口限制权利人的专有权利,使得技术发展进步成为可能。另一方面,对于除权利人之外的其他利益主体或使用人而言,应严格履行合理使用条款中“三步检验法”的义务性规定,避免对作品内容以及作者的合法权益造成侵害。此外,确保作品的正常使用和维护作者的合法权益应当成为TDM技术条款时的基本原则,必须严格遵守相关的义务性条款,通过在法律确定性与发展的开放性之间找到平衡,从而实现对创新的激励。
四、结语
将TDM技术行为纳入著作权合理使用条款,并为其提供一定的发展空间,已成为学界共识。然而,关于选择何种制度模式,当前尚未形成统一的看法。需要明确的是,对于TDM技术的制度定位,并非简单新增条款即可实现其技术价值,立法的滞后性意味着法律往往难以跟上技术发展的速度,也无法预知未来是否会有其他重要技术需要被纳入考虑。据此,更应关注著作权法中权利限制规则的变动,确保其灵活性与公平性,在综合考量技术自身的特点以及著作权激励创新的特殊性后,审慎地评估科技冲击可能带来的影响,在为技术发展提供适度空间的同时,兼顾维护权利人的合法权益,并确保著作权法体系的协调统一,以便在体系性自洽的基础上,动态解决技术实际应用中的问题。
|参考文献|
[1] ROSATI E. An EU text and data mining exception for the few: would it make sense?[J]. Journal of Intellectual Property Law & Practice,2018(6):429-430.
[2] KLEINKOPF F L. Text-und Data-Mining[M]. Baden-Baden:Nomos Verlagsgesellschaft mbH& Company KG,2022.
[3] 马治国,赵龙. 文本与数据挖掘对著作权例外体系的冲击与应对[J]. 西北师大学报(社会科学版),2021(4):107-115.
[4] 姚叶. 论“文本与数据挖掘”的合理使用规则建构[J]. 科技与法律(中英文),2024(1):32-42.
[5] ANDREI POPESCU. The Value of Data From an Artificial Intelligence Perspective,Annals of the University of Craiova for Journalism[J]. Communication and Management,2019(5):176.
[6] 陶乾,董川. 文本与数据挖掘的法律障碍与化解路径:以知识资源平iWzSUD/oeyftXlfLHW7aST2J+MXvZbSgrq1HnEy2w1Q=台的数据再利用为研究视角[J]. 出版广角,2023(6):32-40.
[7] REAGAN A J,MITCHELL L,KILEY D. The emotional arcs of stories are dominated by six basic shapes[J]. EPJ data science,2016(1):1-12.
[8] DERMAWAN A. Text and data mining exceptions in the development of generative AI models: What the EU member states could learn from the Japanese “nonenjoyment” purposes?[J]. The Journal of World Intellectual Property,2024(1):44-68.
[9]自然科学与人文科学的区别[EB/OL]. (2022-
08-18)[2024-8-16]. https://hr.edu.cn/xueshu/2022
08/t20220824_2242627.shtml.
[10] DE WOLF & PARTNERS. Study on the legal framework of text and data mining(TDM)[R]. Brussels:European Union,2014.
[11] 崔国斌. 知识产权法官造法批判[J]. 中国法学,2006(1):144-164.
[12] 董凡,关永红. 论文本与数字挖掘技术应用的版权例外规则构建[J]. 河北法学,2019(9):148-160.
[13] 王迁. 知识产权法教程(第七版)[M]. 北京:中国人民大学出版社,2021.
[14] 魏珊,马海群. TDM版权多主体利益冲突及协调博弈研究[J]. 情报科学,2021(3):172-178.
[15] 张明. 文本与数据挖掘适用著作权合理使用的解释论[J]. 出版发行研究,2023(2):51-56.
[16] 吴汉东. 知识产权制度的基本理论研究[M]. 北京:知识产权出版社,2009.