人工智能算法运行过程数据合理使用的法律规制研究

2024-04-29 01:10:26宋宗越
秦智 2024年1期
关键词:合理使用

[摘要]人工智能算法运行包含输入数据、内部学习及输出结果三个阶段,数据的收集和使用贯穿程序运行的全部过程。而算法对于数据的迭代使用和再表达可能会出现非合理使用的风险。考虑到我国现有著作权许可模式的局限,应吸收域外立法之经验,将合理使用的主体范围进行适当扩张,以顺应当前人工智能技术产业发展需要。

[关键词]人工智能算法;数据侵权;合理使用

[中图分类号]D922.16;TP18    [文献标识码]A

[DOI]:10.20122/j.cnki.2097-0536.2024.01.014

一、问题的产生

在科技飞速发展的大数据时代,人工智能算法作为一类通过预先设定模型并进行自主分析数据的智能程序,已经可以完成机器自动化、医疗、语言识别处理甚至文学艺术创作等社会多领域的工作任务。人工智能算法之所以被称之为“智能”工具,核心在于其整个运行过程与人类大脑神经网络存在高度相似性:首先抓取海量的数据,再选择合适的模型对数据进行训练,不断在演练中试错、优化并发现规律,最终产生所需的结论。可以说,人工智能算法以数据作为基础和“养料”,输入数据越多,最终作出决策或输出结果的正确性就越强。在如此海量的数据需求下,算法运行中对数据的大量抓取和使用则可能产生著作权侵权及个人信息侵权等问题。[1]

目前,现有的人工智能算法领域对于权利归属的认定研究多偏向于认定算法主体法律属性、算法生成物著作权归属方面,对于人工智能运行过程抓取并使用现有数据可能产生的数据侵权问题的相关研究较少。忽略数据侵权可能性,仅关注人工智能技术发展,无法对知识产权进行保障,也不利于经济制度的长期稳定。从长远来看反而会遏制技术的自由发展。

二、人工智能算法的运行逻辑

人工智能中深度学习算法具有和人类大脑相似的学习方式,其内部逻辑虽然因开发者赋予算法程序的不同任务而有所差别,但基本可以依据算法的大致运行过程将工作流程划分为以下三类:数据输入(知识学习),内部处理及数据输出(学习成果)。[2]

首先是数据输入阶段,也就是数据的准备和初期处理阶段。这一阶段涵盖数据的收集、选择以及分割,即数据的初步“筛选”过程。在这一阶段需要收集海量数据并对其进行简单的选择和预处理。排除错误数据,选择、提取正确数据,以便算法能够更好地理解和处理,汲取所需的“知识”。其次是内部学习阶段,这一部分是通过预先建立的模型训练数据并逐步掌握各种运行规律和技巧的过程。在过程中不断使用训练数据对模型的参数进行调整,使算法能够从数据中学习和适应,并在此过程中不断优化。最后是输出阶段,即输出最终结果:算法创作最终生成特定创作物,而算法模型运算则是将训练好的模型部署于实际应用中,用于完成不同的任务需求。如新闻个性化推送机制或个人信用评价机制。[3]

这三大流程基本涵盖了算法的整个生命周期,而人工智能算法与其他程序不同的是:算法每做出一次运算或生成一个自主创作物,就会再一次优化和改进自身的程序模型。算法的三个流程是不断循环往复的,每一次输出结果都会增加一份经验,而其生成物或特定模型也会越来越精准,越来越满足指向性需求。这样的特点使得算法会不断使用和处理已有的及最新吸收的数据,在海量数据的需求下,产生数据侵权风险的可能性将呈指数增长。

三、算法运行过程中的数据侵权风险

(一)输入阶段

输入阶段是数据进入算法过程中的第一步,这一阶段的主要任务就是对数据进行初步的收集和整理。进入大数据时代,人们所接触并使用的“数据”已经不再局限于计算机为载体的各类学科的高精尖技术知识,而是广涵了社会时事新闻、公民个人隐私及文学影视作品等领域的各类庞杂而复杂的信息。并且随着信息社会的发展和演化,数据甚至呈现出了可交易的财产利益属性。这些非技术层面的数据有些属于公共领域的开放性素材,而有些则涉及个人信息隐私和作品著作权。获取允许开放使用的公用数据显然合法合规,但随意使用其他在网络上有权利所属的数据,则会产生相应的侵权风险。[4]

当前,算法获取数据主要依靠“抓取”“购买”及“转换”,即直接利用互联网现有的数据信息、直接或间接购买所需的数据材料或将非数据形式的信息转换成数据形式三种途径。其中,“转换”非电子数据的行为要考察其使用性质,不得超出合理使用之范围;而“抓取”和“购买”直接使用网络现有数据,需要注意是否授权及授权的范围,即使有使用许可,超出授权范围的使用也会构成侵权。

(二)内部学习阶段

算法在“学习”的内部处理阶段,其事先写好的程序模型会不断地接收和送回数值形式的数据,因此该阶段与输入阶段紧密结合,若输入阶段的数据构成非合理使用,那么学习阶段对数据的使用和处理当然构成侵权。算法程序对数据进行分类加工,如果输入未经授权的数据则可能成立间接侵权。

另外还需要探讨的是,如果输入阶段使用的数据不存在侵权风险,内部学习阶段对数据的处理是否有侵权可能?在前期筛选数据完成后,人们通常需将训练收集的数据转化为机器可接收并“理解”的数值,并于该阶段进行大量的设定和调整。这种并非机器全自动处理所用数据的环节是否可以理解为著作权法意义上的人为“改编”行为?有学者认为,数据的存储和计算是瞬时完成的,如果仅仅被阶段性临时存储及参与运算,则不涉及对复制权的侵犯,不应认定为侵权行为。[5]

(三)输出阶段

算法数据侵权争议多产生于输出阶段,以人工智能算法生成物的著作权归属为核心内容。通过数据的筛选及内部模型的训练,算法能够依靠人的指令完成相应任务并输出结果。在这一阶段,人工智能生成物对第一阶段输入的数据可能产生“表达性使用”:人工智能生成物的“创造”与原作品之间可能存在部分相似、实质相似和完全不同的差异区分,因“完全不同”的“再创造”具备著作权法的创新性要求,对此不再赘述。主要需考量人工智能生成物与原有数据之间存在部分相似保留及实质相似的情况:如果生成物在表达上与原数据存在实质或部分的相似性,那么则可能会构成对原有数据著作权所有者复制权、改编权的侵犯。

(四)人工智能数据使用的法律免除困境

任何新兴科技的发展总会涉及技术创新与法律限制之间的矛盾,法律与科技的关系从来都是复杂且辩证的。我国现行的《著作权法》规定了著作权侵权免除的两大类型,可概括为合理使用和法定许可,而人工智能算法作为一项新兴技术,其整个运行过程所需要的数据使用行为能否纳入著作权侵权豁免的范畴,需要进一步讨论。[6]

合理使用以个人学习、科研、适当引用为要件,抗辩著作权侵权。但在应用时需要注意其主体要求,如第二十二条第一款中强调“个人”,即排除了法人、非法人组织为该条款适用主体的情形。算法系统的建立一般需要一定的技术支撑和物质基础,其所有方、控制方一般为大型商业公司或科研机构,在实践中首先会出现难以纳入规定主体的困难。

而对于法定许可,同样也需考虑其适用要件。如《著作权法》第三十五条规定的“报刊转载”、第四十二条规定的“制作录音制品”许可等,法定许可制度对于主体的限制较合理使用更为严苛,无法匹配算法数据处理之需要。

四、数据侵权规制路径再构建

(一)数据使用规制的域外经验参考

国内学界对算法规制路径的域外参考主要分成两类,即以欧盟为代表的“非商业”模式和以美日为代表的“商业”模式。在考虑我国数据侵权规制路径构建时,可以适当参考域外对于算法运行过程数据合理使用的规制制度,为我国的制度发展及完善提供相应经验。[7]

首先是以美国、日本为代表的“商业使用”规制模式。美国是算法程序发展研究的最前沿国家,其行业标准和规制制度也较为成熟。综合考量行业自身标准与公共利益、个人权利保护原则,美国发展出了“转换性使用理论”。该理论规定,如果新的生成物使用了原有作品的相关数据,但自身具备新的信息和表达,实质上已对原有作品进行了改变,则构成合理使用。“转换性使用理论”一改以商业目的作为限制合理使用条件的规定,以“是否具有转换性”作为认定合理使用的标准。日本与美国类似,为迎合信息社会网络科技的发展和需要,几次修改《日本著作权法》,将“计算机使用数据”的合理使用范围不断扩大,不限制适用主体,为非个人及科研主体之外的商业主体开拓了著作权侵权豁免的空间。

其次是以欧盟为代表的“非商业使用”规制模式。该模式与美国、日本“商业使用”规制模式相对应,并没有全面认可“商业使用”的合理使用。但这一限制也并非欧盟各国意图利用制度限制算法技术的创新发展:欧盟委员会曾于2016年推出《单一数字市场版权指令草案》,该草案中指出,可以为各成员国“复制作品和数据的行为”提供例外,此举也将适用主体明确规定为科研机构以及适用目的为科学研究目的。2019年,欧盟又适时推出了《数字单一市场版权指令》(《DSM指令》),增加了“文本和数据挖掘”的例外情况,再次拓宽了合理使用之范围。

结合以上两类域外制度可得知,各国为促进自身科学技术的进步和发展,保证自身在21世纪信息技术变革竞争中的优势,以最大程度保障技术发展为制度改革方向。

(二)调整传统许可模式

由于我国现行《著作权法》并未对算法进行具体规制,考虑到人工智能算法对数据海量需求的特性,传统规制下的“一对一”权利赋予不具有现实可行性,若要避免算法在运行过程中对数据产生的各类侵权问题,应重新考虑调整现有的许可模式。在合理使用制度方面,应重新审视适用条件、适用主体的范围,探究在“科学研究”和“非商业使用”外增加“商业使用”的可能性,不应一味地排除商业互联网公司的主体资格。由于市场自由竞争的特性,互联网公司会主动进行科技研发,将合理使用的范围扩大至商业使用范畴,长远看来不仅可将“算法”归入我国《著作权法》规制的范畴,还能促进算法技术的进步和发展。

有部分学者认为,将“商业使用”纳入合理使用制度会违背合理使用具有公共利益的初衷。因此对于传统许可模式的调整也可放眼于法定许可制度,如我国《信息网络传播权保护条例》中给予农村地区居民的特定作品许可,进行利益平衡之尝试,在著作权人明确表示异议后再撤销其准用许可。

五、结语

综上,对于算法运行过程中可能涉及的数据侵权风险,可借鉴域外经验,在保证合法适用数据的同时,又不因新技术的出现推翻传统制度的规制范围,尝试在传统规制的前提下进行适当调整。

参考文献:

[1]彭飞荣.论算法创作中涉数据的著作权侵权风险及其化解[J].法律适用,2023(4):46-55.

[2]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022,36(4):128-140.

[3]杨绪东.人工智能编辑之合理使用探究[J].科技与法律,2020(1):8-14.

[4]吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020,32(3):653-674.

[5]徐小奔,杨依楠.论人工智能深度学习中著作权的合理使用[J].交大法学,2019(3):32-42.

[6]刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019,22(2):68-79

[7]许娟.利用爬虫技术侵犯企业数据知识产权法益的司法解释[J].苏州大学学报(哲学社会科学版),2020,41(1):47-58.

作者简介:宋宗越(1999.3-),女,汉族,山东德州人,硕士在读,研究方向:民商法。

猜你喜欢
合理使用
Google Library十年版权之争终获合法判决的经验借鉴
现代情报(2016年11期)2016-12-21 23:52:56
数字版权管理与合理使用权利冲突的解决路径
出版广角(2016年16期)2016-12-13 02:43:02
信息自由与版权法的变革
现代法学(2016年6期)2016-12-08 17:15:04
室外艺术品原作者署名权的行使规则案例分析
资治文摘(2016年7期)2016-11-23 01:28:38
浅析如何正确使用多媒体进行高中政治教学
南北桥(2016年10期)2016-11-10 17:24:59
“非遗”图像——浅谈非物质文化遗产的图片拍摄
从谷歌案析数字图书馆对作品的使用行为
论对音乐作品的著作权保护
商(2016年28期)2016-10-27 08:45:39
新闻版权合理使用制度的反思与重构
出版广角(2016年15期)2016-10-18 00:23:30
论网络环境下著作权的合理使用
商(2016年12期)2016-05-09 09:56:30