著作权法视角下学术论文算法检测的考量及应对

2021-11-15 13:44余瑞芬朱丹

出版广角 2021年19期

余瑞芬?朱丹

【摘要】当下，算法在学术评价中具有较大影响，引发了使用检测报告时人与技术谁是主宰的争辩。从应用特征来看，算法具有不透明性、局限性及权力扩张化等特点，诱发了其与著作权法的深层次不融合。要解决因算法权力扩张而形成的制度适应问题，就要以著作权法为出发点去考量算法，细分比对库的文类，拓宽识别对象，从作者自觉遵守学术论文规范和他人有效监督两方面，让学术论文评价回归社群自治。

【关键词】著作权;学术论文;相似度检测;算法

【作者单位】余瑞芬，江西科技学院教育学院;朱丹，江科学术研究编辑部。

【中图分类号】D923.41 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2021.19.021

隨着互联网的兴起与发展，各大知识资源数据库相继开发了相似度检测系统，这类系统通过算法计算得出检测报告。在评价学术论文时，这些报告被视为重要的甚至决定性的标准。算法检测之所以成为主流，很大程度上是因为数字便利化产生的积极效应，但也引发了很多问题。探讨算法检测引发的问题，对于探索我国学术论文评价路径优化是一项重要课题。

一、著作权法视角下算法检测的考量

本文定位于算法本身，从相似度检测、反检测考量、数字痕迹处理三个角度去反观著作权法视角下的算法检测。

1.相似度检测与作品独创性认定有偏差

新出台的论文行业标准对相关术语进行了定义，认定标准更加细致实用。但在实际操作中，高校和期刊需要更为便捷高效的评价方法，比如很多高校评价学位论文时习惯使用算法检测方法，以初步筛查人工答辩的范围，这极容易造成一些不良后果。首先，为了保证比对库作品的“质”和“量”，相关机构试图积累各种“充分数据”，扩大超文本和“数据湖”容量，这使得各资源库陷入无序的市场竞争中。其次，以连续多个字为单位，待检测论文被分解成无数小单位，这在一定程度上破坏了作品的思想独创性。

当下，算法检测越来越多地被作为学术论文评价的手段，但这与作品独创性认定原则有偏差。《最高人民法院关于审理著作权民事纠纷案件适用法律若干问题的解释》第15条规定了独创性需满足两个条件：其一，是否由作者独立完成;其二，是否具备“创作属性”。就第一个条件来看，数据学习和分析使人们的关注点集中在检测结果本身，作者的创作过程得不到应有的重视，在网络空间里，“独立完成作品”这个条件很难论证;就第二个条件来看，检测机构最终提供一份数据报告，以规定的重复率为标准，这使得作者的创作行为不再具有原本意义上的创作属性。

2.“反检测”考量异化了表达规则

本文所说的“反检测”考量是指在相似度检测的前提下，作者对检测系统和方法的关注，以及在一系列技巧的指引下对论文的修改。我们可以看到，在体现学术自由上，“反检测”考量与表达规则是背道而驰的。学术自由是内在思想和外化表达结合的体现，作者有权利在公开场合展示知识，并且有权利选择是否公开表达自己的思想。但学术自由和“表达”在“反检测”考量中受到了较大影响。其一，“反检测”考量影响了表达的多样性。同一思想可以外化成不同的表达方式，过于倚重文字这一表达方式，就容易忽略图片等方式。其二，“反检测”考量割裂了思想与表达。思想与表达是作品不可或缺的组成部分，“反检测”考量使人们无法真正了解作品所要体现的思想，从而割裂了思想和表达。

3.数字痕迹处理消解了著作权的私权属性

数字痕迹处理将数字曝光在公众视野里，使得数字痕迹拥有公私两种属性。一方面，数字痕迹“精准刻画”个人信息，其对象、主体和媒介都具有私权属性;另一方面，基于公共基础设施，数字通过相互配合与社交泛化，形成全数据模式。而作品自创作完成时依法享有著作权，这是一种原始权力保护，带有“依照受控行为界定专有权利”的特点，本质属于不是权利人自用而是他人禁止权的私权。在一个封闭计算的流程中，待检测论文生成的数字痕迹至少交互了两次，在格式化检测中被初次支配，在匹配算法中被深度计算，或许还将在检测报告中被循环转换。可见，数字痕迹处理在消解作品本身的同时也在消解著作权的私权属性。

二、根源——算法的应用特征不融合

1.算法的不透明性

（1）技术因素：算法技术保护模式具有私法属性。目前，国外对算法的技术保护有商业秘密模式与专利模式两种，都属于私法保护模式。商业秘密模式重点在于全方位的保护，当算法造成实际损害时，对其追责效率降低。而在专利模式下，常见的“黑箱”算法、“感知”算法和“奇异”算法则超越了人类当前的认知范畴，连发明人都很难清晰地描述技术方案里的具体操作规程[1]。

（2）人为因素：对算法技术不了解，但绝对信任。算法常常被视为中立的、权威的、科学的代号，它的出现把人们从具体的可信账本中解放出来，转而信任普遍主义的抽象系统。数字经济依靠平台扩张，产生信用资产化效应，用户在信任中创造并获得价值。陌生人在数字世界通过一定的合约机制就可以建立信用共识，不需要第三方的调处[2]。在这种绝对信任下，人类想“利用算法、模型等数学方法重塑一个更加客观的现实世界”，被学者生动地定义为盲目的“数学洗脑”。

2.算法的局限性

（1）比对库资源有限，没有细分文类。无论是全样本数据，还是传统抽样小数据，都可能存在样本偏差。在样本识别与设计中，样本不完整问题越突出，特征数据就越容易“以偏概全”，导致检测结果缺乏完整性与代表性。因此，各大知识资源数据库积极争抢数字情报，扩大文献类型的覆盖面。但目前国内大多数比对库尚未在文类上细分文献资源，文献规模也无法实现“充分数据”。

（2）计算序列有限，执行过于机械化。算法是将输入转化为输出的计算步骤的序列[4]，在算法模式下，对同一类问题的任何初始输入，机器都能展开计算，在完成有限步骤之后终止计算。如果一个算法有缺陷或不适合某个问题，在经过有限步骤的计算后，机器将得不出结果，进入死循环。可见，过于机械化的执行可能会让系统陷入困境。

3.算法权力扩张化

算法在为人类数据评估和行为分析带来便利的同时，也因“黑箱”操作而泛化为权力扩张。首先，权力在政府治理中的扩张。如果学术评价比较重视重合率，那么教育等相关机构就会推广使用相似度检测的方法，在这样的背景下，各大高校和期刊也只愿意购买能提供该项服务的知识库。其次，权力在物理边界上的扩张。互联网的虚拟数字传播极快，下载功能极为便捷，推进了自然语言信息化，扩大了知识共享的接触空间。如今的学术文献浩如烟海，数据库发生集聚，数据联系强化，这让处于某个细分领域的作品与自然语言之间的关系更加密切。数据分析框架对人和世界产生了决定性影响，论文检测不仅是事后对抄袭行为的监测，而且成为框定论文是否符合原创标准的一种调控技术[5]。

三、应对——学术论文评价路径的优化

日前，中央宣传部、教育部、科学技术部、工业和信息化部、公安部、文化和旅游部、国家市场监督管理总局、国家广播电视总局等九部委印发《关于加强互联网信息服务算法综合治理的指导意见》，提出利用三年左右的时间，逐步构建治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局。这显示我国在法律框架下已开展算法治理。在这样的背景下，笔者认为，应当推动学术论文评价人类自觉化，规制算法权力。由于算法检测在技术层面尚无法完全优化，在学术论文评价中只能作为辅助手段，笔者建议，可从相似度检测规则的优化和对学术论文规范的遵守与监督两方面展开探索。

1.相似度检测规则的优化

检测规则优化包括文类细分与拓宽对象范围两方面，要研究这两方面内容，首先要明确回答两个问题：文类细分怎么从侵权判定中找到切口？相似度检测怎么识别非“实质性相似”的作品？

（1）参照侵权判定制度，细分比对库文类。在司法实践中，对整体观感法与抽象分离法的适用范围和标准没有进行严格区分，二者因读者不同而形成了一个相对平衡的弹性空间。不同的读者又因作品属性不同，做出不同的处理，从而形成相似判断的考量因素[6]。但是从属性细分来看，文哲史类论文对功能和事实的表达胜过对审美或艺术性的表达，其承载了更多的技术特征和功能性元素，包含更多的公共领域素材，因而其独创性认定有一定特殊性。一般来说，我们把论文上传数据库时已经做了文类细分，但建立比对库时没有进行同样的操作，导致数据循环在起点和终点处形成矛盾，检测实效不匹配。因此，根据思想表达原则进行文类细分，是弥补算法评价局限性的关键。将作品的功能、思想、事实等元素剔除后，再进行相似度认定，更为科学规范。

（2）把识别对象拓宽到非“实质性相似”范围。在司法实践中，侵权裁判规则能够解决一部分学术论文“实质性相似”的纠纷，但只靠作品比对不能实现学术论文的强势保护，还需要利用学术专业判断进行约束。具体来说，应拓宽识别对象，不限于识别“实质性相似”。我们应当尊重任何一种原创行为，加强对高级抄袭、公有领域的合理使用、翻译、改写、思想剽窃等行为的识别。为此，有关部门应重视学术专业判断，使专业判断能够自主应对学术问题，而不是仅仅依靠公权力规制算法。

2.对学术论文规范的遵守与监督

目前，对于算法规制，学者大多转向法律和社会规范的互动，尝试在法社会学理论中找到进路，避免自己陷入“法律更多而秩序更少”的境遇。

（1）作者遵守学术论文规范的自觉。为了开展自我保护，防止被数字权力评分与贴标签，作者更愿意约束自身行为，做到合法合规，将自己纳入道德规范的框架。这说明作者具有良好的“合作者”品质[7]，而这种品质促使作者自觉遵守相应规则，维护学术氛围。

（2）他人对学术论文规范的有效监督。他人对学术论文规范的监督行为，如成立论文评价小组，实质上是让论文评价更为民主化。总的来说，要实现他人对学术论文规范的有效监督，应从两方面着手。其一，须提高论文评价小组成员对算法的警惕性，并以监督者身份督促创作者重视学术规范，从社群层面构建学术论文评价的共建共治共享规则，而非过于依赖算法检测结果。这样，学术论文评价才有可能回归到人工审核的社群自治[8]。另一方面，构建新型的学术秩序空间，让作者回归智力创造主体本身，形成治理機制健全、监管体系完善、算法生态规范的算法安全综合治理格局，促使评价机制更加民主化。

在评价学术论文时，算法检测虽然给人们带来了便利性，但也限制了人类智力成果独立自信的表达，造成很多风险隐患。因此，在著作权法框架内，从算法应用特征出发，找到相似度检测的优化规则，并发挥学术论文规范的作用，对于推动大数据时代论文行业的高质量发展具有现实意义。

|参考文献|

[1]孙建丽. 论算法的法律保护模式[J]. 西北民族大学学报（哲学社会科学版），2019（5）：148-154.

[2]郝国强. 从人格信任到算法信任：区块链技术与社会信用体系建设研究[J]. 南宁师范大学学报（哲学社会科学版），2020（1）：126-136.

[3]TYLERWOODS.“Mathwashing”Facebook and the zeitgeist of data worship[EB/OL]. （2016-06-08）[2021-06-18]. https：//technical.ly/brooklyn/2016/06/08/fredbenenson-mathwashing-facebook-data-worship.

[4]算法导论（第3版）[M]. 殷建平，等译. 北京：机械工业出版社，2012.

[5]段伟文. 数据智能的算法权力及其边界校勘[J]. 探索与争鸣，2018（10）：92-100+143.

[6]梁志文. 版权法上实质性相似的判断[J]. 法学家，2015（6）：37-50+174.

[7]罗伯特·C.埃里克森. 无需法律的秩序[M]. 苏力，译. 北京：中国政法大学出版社，2016.

[8]谢嘉图. 论规制网络洗稿的社会规范路径：以反思著作权法的功能为逻辑展开[J]. 电子知识产权，2019（8）：14-29.