白龙
[摘要]随着ChatGPT为代表的第三次人工智能发展浪潮的出现,推动了数字出版业的智能转型。但机器出版物的潜在风险随之浮现,主要体现在造成机器与人类的知识版权归属纠纷、机器集成式出版物存在剽窃与抄袭行为,以及大量循环使用二手文本内容损害知识创新等问题。文章认为应时提出生成式人工智能的数字出版使用指南、加强反剽窃的双重把关和设置人机出版物分离的分级评价体系,是应对生成人工智能对数字出版发展的潜在风险的有力措施。
[关键词]ChatGPT;数字出版;机器剽窃;机器出版物
过去十年间,随着机器深度学习技术获得突破性发展,人工智能技术被广泛运用在包括出版业在内的各个领域。特别是以ChatGPT为代表的聊天生成型预训练变换模型,在出版市场上备受瞩目,其能够自主地从海量文本数据集中通过学习训练,快速生成智能化、规范化的印刷文本,从而应用于图书出版,提供学术知识生产服务。基于强大的生成逻辑使ChatGPT能自主生成看似人类书写的文本内容,凸显写作风格拟人化。基于先进的大型语言模型,以ChatGPT为代表的生成式人工智能技术正逐步颠覆传统的出版业规则。由机器主导的全域智能化新格局成为数字出版的新引擎,人工智能的全局性知识服务也逐渐替代传统的人工知识服务,机器出版物将成为出版行业的主流产品。
里夫金在《工作的终结》曾预测,人类终会从根本上重组社会,因为在生产、搬运产品和提供服务方面,越来越多的人工被机器所替代,机器让所有人都无事可做[1]。全能的算法机器加速了后人类社会的到来,智能机器工具拼接组合碎片化的人类知识,等同于已有知识的重新输出。但圄于信息不对称和知识层断裂,个人对算法机器重新组装的知识出版服务依然充满需求。人工智能的自主文本生成功能,将知识创作从一门传统手艺变成出版服务,乃至一种流通的出版商品。于是人类知识服务被取代和接替,将逐步让位于机器知识服务。机器出版凭借高度集中化的知识累积能力,成为出版业的主流形态。但正如新勒德主义所告诫的,技术存在非中立性且形成不可抗拒的力量,人们对新技术的未知风险要保有预防姿态,特别要重视颠覆式革新技术对人类社会带来的负面影响。面对ChatGPT迅速流行于出版业的发展趋势,出版从业者应及时限制ChatGPT的技术滥用和反思出版伦理。
一、版权之争:机器的著作署名争议与知识版权归属纠纷
ChatGPT究竟是否能作为作者署名引发出版业广泛讨论。持肯定态度的人重视机器内容生成的贡献价值,他们认为机器是创造出版内容的核心要素,理应支持机器在出版物上署名的权利,出版业人机融合写作的大趋势不会更改。但持否定态度的人占绝大多数,许多著名出版商公开反对机器的特殊署名,强调机器在内容生产中只能是“人造”的工具,它无法摆脱作为人类产物的事实。
(一)接纳机器获得特殊创作身份作者署名
对机器作为作者署名持肯定观点的出版商,承认人工智能聊天机器人对创作出版作品的实际贡献,认为赋予机器作者身份能体现其对研究过程的真正参与价值。生成式人工智能辅助写作促进自助出版图书的激增。亚马逊电子书城商店中已有超过200多本电子书将ChatGPT列为作者或合著者,甚至开设一个完全由ChatGPT生成的图书子栏目[2]。无独有偶,机器署名作者的学术出版作品也逐渐涌现。已刊发的机器署名文章譬如《护理教育中的开放人工智能平台:学术进步的工具?还是滥用?》《ChatGPT在美国执业医师资格考试的表现:医学教育上使用大型语言模型AI辅助的潜力》《GPT-3能否以最少的人工输入自行撰写学术论文》等,都将ChatGPT列为联合署名作者,部分学者或学术编辑认为机器的学术生产将是一种不可逆的潮流。
(二)反對机器与人类获同等身份的署名作者
倾向于反对ChatGPT成为独立作者的人占绝大多数,他们普遍将ChatGPT视为一种辅助性的机器写作工具,认为其不能够与人类作者平起平坐,取代不了人类写作独有的核心地位。因为人工智能聊天机器人自动生成的文本,是不受版权保护的作品,不能承担法律责任就不能满足作者的资格标准[3]。《自然》《科学》等多家权威期刊明确拒绝将人工智能聊天机器人列为论文的作者。爱思唯尔出版集团强调,作者在稿件中应明确披露人工智能技术的使用,并对其负有最终责任。人工智能技术输出内容不能取代类似数据解析、总结结论等关键研究任务,也不应将人工智能聊天机器人列为作者或合作者[4]。可见,机器之所以不符合独立作者的身份标准,是因为它无法对科学出版物的内容和完整性负责。机器生成的出版物究其根本也是以人类思想为指导,由人类意志编写程序后按照预期目标所达成的产物。
(三)欠缺独创性的知识版权争议
虽然ChatGPT生成的作品具有高级智能化的特点,但并不意味着它能满足法律的要求,与人类一样享有权利主体的地位[5]。从出版物的版权法理上看,将机器视为作者不具备独创性的条件。独创性是著作权存在的主要条件之一,受版权保护的数字出版物至少在“独”与“创”两方面符合基本要求。一方面,数字出版物须由作者独立完成,不允许复制、抄袭他人观点论断;另一方面,数字出版物要体现作者的智力创作,包含创作者的真实意图、个性主张、精神贡献与主体身份等重要因素[6]。ChatGPT在协助人类写作时打破了著作的独创性,利用机器生成内容并进行个人署名,或将机器生成内容大量使用在个人署名的作品中,以不诚实的行为隐瞒公众,违背独立完成原则。此外,越发智能、越接近人类写作风格的机器生成内容,融入人类数字出版作品中,将导致难以区分人与机器的参与比例,人类思维的创新性随着大量的机器生成内容融入被消解。
二、隐藏的出版剽窃:机器生成的集成剽窃与检测困境
ChatGPT与网络搜索引擎相比更为精准和有效,改变人们以往检索获取出版资源的方式,使作品被快速复制、抄袭的风险增高。人工智能聊天机器人在出版业的可用性越来越高,如科幻杂志《克拉克世界》,仅在2月份就收到超过500篇被标记为人工智能聊天机器人抄袭的文章,在毫无解决方案之下只能暂时关闭投稿途径[7]。人类与机器的混合创作内容,无法用统一的尺度来衡量剽窃或辅助行为的标准。实际上,人工智能聊天机器人的功能强大已经远超辅助人类创造知识的服务范畴,为滋生剽窃行为提供了数字化路径。
(一)生成内容的集成式剽窃机理
机器生成内容是基于海量数据信息内容的集成式剽窃过程。ChatGPT的能力是大规模的数据集训练得出的结果,且数据的收集方式不受任何限制。类似OpenAI这样人工智能机器人的研发公司,数据收集的透明度一直都十分欠缺。大量数据集的采集是未经同意从互联网上“窃取”的文本,有相当一部分来自受版权保护的作品。显然机器生成内容事实上并没有获得版权许可,无疑侵犯了版权所有者的专有权。快速生成内容的智能机器作为大量出版成果“收割机”,俨然违反了著作权保护法,盗用已出版或人类已创造的显性知识。在原始的学术生态之中,ChatGPT提供难以检测出剽窃的代写服务,蒙蔽审稿人和编辑,变成众人皆可利用的写作“代工厂”。人工智能聊天机器人的剽窃内容识别难度大,剽窃手段更为隐秘,它擅长将海量信息(含受版权保护的作品)重组拼凑成看似全新的文本。机器生成内容存在未进行学术伦理审查的漏洞,这可能导致未经授权盗用他人智力成果的行为出现。即便机器作为一种工具不存在主动、故意侵犯著作权的自主意志,但当机器生成的侵权内容被使用到出版物中,就已经发生剽窃、抄袭他人的原创成果行为,属于一种客观过错。
(二)生成内容剽窃的审查检测困境
机器生成内容对人工审查而言,因文本信息高度接近人工写作的风格,导致编辑无法分辨段落文章是由真人创作还是AI生成。不仅于此,机器生成的文本内容,在机器学习的版本或问答时间上存在差异,答案无存档站点且无法统一,给编辑查验带来困难。未升级的剽窃检测工具难以精准审查作品的原创性,无法检测到与现有受版权保护的书面文本相匹配的信息。受到版权保护的出版作品,在机器生成内容之时已经被拆散整合和重新拼凑,连贯输出的文本就可能被替换成重新换词描述的句段,这无疑增加了检测和打击抄袭的难度。目前,ChatGPT生成的内容缺少可靠的原始参考文献来源,对聊天机器人学习训练的数据来源不进行准确论证,就可能导致引用出处的虚假风险。人工智能聊天机器人无法辨识部分有偏见或误导性的内容,机器学习的数据可能来源于虚假新闻或伪造的信息,存在歪曲科学事实的嫌疑。尽管部分学术出版集团要求作者提供个人声明并注明机器生产内容引用出处,便于编辑识别剽窃行为,但仅凭作者的个人学术伦理来实现剽窃的自我审查不切实际,个体的道德自律无法从根本上杜绝剽窃行为的发生。
三、丧失创新,循环使用二手文本内容损害知识出版的原创性
按照库兹韦尔的观点,ChatGPT的智能优势在具备利用有限的资源,在杂乱无序的海量知识文本中发现规律的能力[8]。以ChatGPT为代表的人工智能聊天机器人,展现了智能传播时代的知识可供性。它拓展出版知识传播的边界并加速人类知识的获取,创造一种人机混合的知识供应模式,搭建了用户与知识的全新连接关系。知识链虽有革新,能够快速生产大量文本信息并响应用户的知识诉求,但人类的知识创造原动力遭到破坏。只整合不创造的机器生成内容,使人类持续探求知识的深度和质量不断降低,是对人类知识原创性的不尊重。
(一)生成式机器作为机械复制的信息整合工具
在本雅明看来,机械复制时代具有摧毁原创独特性的危害,衰落枯萎的是原创作品的光环[9]。后工业社会,机器的大规模使用,也为作者提供了最便捷的机械复制手段。这会导致人类过度依赖机器生成内容从而放弃艰巨的脑力劳动,以最小的付出谋求最大的利益回报。机器生成内容的便利诱发人類的惰性,使知识被锁在给定的答案范畴之内,人的创造力和想象力就会受到影响,从而导致原创知识出版停滞,阻碍人类探求知识的欲望。随着人工智能技术的快速迭代升级,人类社会的知识结构越来越像芒福德所提出来的“巨机器”,这种巨机器所使用的技术越来越单一,导致人们只能等待机器的知识投喂,逐渐沦为技术的奴隶[10]。出版作为一种知识生产活动,创造累积的知识让社会从蒙昧走向文明,是推动人类知识发展的动力所在。但ChatGPT对原有知识的复制拷贝,并不会产生新的知识。机器生成的内容并非是新知识的生成,只是依靠智能整合编造知识,使其成为串联文本信息的工具。
(二)机器出版物损害知识出版的原生动力
机器出版物基于已创造或既有数据生成的文本,是整合网络数据资源的再利用,这无疑忽视了人类社会知识的独创性,损害了人类原创思想和知识体系。之所以人们会对ChatGPT有新鲜感,是因为它会输出我们所不知情的观点或知识罢了。ChatGPT生成的知识信息来自当下或曾为人类做出知识贡献的互联网节点。换句话来说,每个创造互联网内容的人都可能是ChatGPT的作者,知识变成了所有人共享的集体智慧。但与罗兰·巴特反对作者成为作品唯一解读者的传统观点不同,如今ChatGPT将海量的互联网文本与作者完全分隔开并进行技术转换,这种技术导致作者被彻底隐藏。作者名义的大规模消逝换来的是无名的知识图谱和知识库,生成式人工智能一旦成为百科全书式的解决方案,是否还会有人愿意耗费大量精力、时间,将自己的思考和经验知识出版发行?当人类原创知识内容的稀缺性被逐渐消解,其含金量就会降低。当人类本能地利用高科技来避免累积和创造知识,就标志着出版作为知识生产与传播的意义茫然无存。
四、生成式人工智能应用风险的应对策略
ChatGPT作为智能出版辅助角色,为出版业的智能化转型、机器与人工协同的发展补充更多活力,譬如协助编辑在学术格式规范、例行数据收集、语法词汇校对等方面的工作。随着人工智能技术迭代加快,人工智能聊天机器人还将进一步发展到设计实验、撰写和完成全文稿件,实现同行评议甚至指导编辑是否接受或拒绝手稿的程度[11]。机器出版物将成为数字出版业的新增长点,大规模使用机器辅助出版的趋势不可避免。面对不断涌现的风险,出版界应正视机器辅助工作成为行业趋势的事实,并给出一套合理的管理模式。面对出版行业的生成式人工智能应用风险,业界可从三个方面突破改进。
(一)提出人类作者为责任主体的生成式人工智能使用指南
以人类作者作为责任主体意味着由人类作者全权承担出版物的版权责任,人类作者是第一责任人,也是唯一责任人,作者直接对整个文本内容准确性和完整性负责。当出版作品存在人类与机器两种作者身份时,所有的责任均由人类承担。这是因为人类作者直接从智力生产中受益,机器不能够从人类发表的作品中获得学术价值,也就无法承担由此带来的责任。无论是《保护文学和艺术作品伯尔尼公约》还是《中华人民共和国著作权法》第二条的规定,都表明享有著作权的创造主体应当是人类,机器不具备法律主体属性。目前,出版业亟须达成行业共识,尽快出台生成式人工智能使用指南,以具体条款约束人们使用人工智能聊天机器人的行为,明确人类作者的主体责任,预防因权责不明导致的侵权风险。
(二)更新迭代反剽窃技术,实现编辑与智能检测双重把关
目前,已有多种反作弊检测器被运用于识别机器生成的文本。如普林斯顿大学研发的反作弊检测器DetectGPT和GPTZeroX,OpenAI推出的人工智能文本分类器,抄袭检测服务公司Turnitin研发的AI写作检测工具等,在一定程度上能够识别人工智能的抄袭痕迹,检测出任何未做声明和标识的人工智能生成内容。另外引入反剽窃的元数据水印技术可有效檢测人工智能的生成内容。ChatGPT中的水印文本,涉及嵌入单词、字母和标点符号模式的密码学,更改生成内容中使用的单词是一种为文本加水印的方法,使系统可检测其是否为AI文本生成器的产物[12]。通过人工智能输出检测器与编辑共同检查审阅,能够有效辨别文本内容是否属于原创以及识别出疑似剽窃的文本。
(三)设置机器与人类出版物的分级评价体系,定位机器的辅助属性
机器出版物的大量涌现已成为一种不可逆转的趋势,因为读者对快餐式的出版物有着强烈的产品需求,它是填补出版市场空白的新增长点。但机器生成内容的核心是预测与描述,并不在于创造新知识。创造性思考的欠缺,使得机器出版物无法与知识密集型的人类出版物相提并论,出版业要想广泛应用生成式人工智能技术,就必须制订出机器与人类出版物的两套评价体系。人机有别的评估体系旨在说明人类出版物的贡献价值和评价起点始终要在机器出版物之上,机器出版物只能是人工智慧成果的一种附属产品,在出版物的社会影响力、口碑指数、学术贡献度等指标评估上要将机器出版物进行单列,把机器生成的作品特别标注出来,能够凸显人类出版物的知识稀缺性和原创性。
[参考文献]
[1]里夫金.工作的终结:后市场时代的来临[M].王寅通,译.上海:上海译文出版社,1998.
[2]GREG BENSINGER.ChatGPT launches boom in AI-written e-books on Amazon[EB/OL].(2023-02-22)[2023-08-25].https://www.rappler.com/technology/chatgpt-launches-boom-artificial-intelligence-written-ebooks-amazon/.
[3]HUH S.Emergence of the metaverse and ChatGPT in journal publishing after the COVID-19 pandemic[J].Science Editing,2023(10):1-4.
[4]ELSEVIER.Publishing ethics[EB/OL].[2023-08-25].https://www.elsevier.com/about/policies/publishing-ethics.
[5]顾骏,许春明.意志与责任:法律人工智能[M].上海:上海大学出版社,2020.
[6]李晓宇.元宇宙下赛博人创作数字产品的可版权性[J].知识产权,2022(07):20-46.
[7]LOH M.The editor of a scifi magazine says he's getting flooded with plagiarized story stories as AI tools take off:‘It quickly got out of hand[EB/OL].(2022-02-22)[2023-08-25].https://owlver.com/businessinsider/stories/chatgpt-ai-written-stories-publisher-clarkesworld-forced-close-submissions-2023-2#.
[8]魏佳,王方,孙为.视听艺术空间的数字化重构[M].北京:中国传媒大学出版社,2019.
[9]海伍德.造假:艺术与伪造的权术[M].殷凌云,毕夏,译.北京:商务印书馆,2017.
[10]秦学智.波斯曼传媒与教育思想[M].太原:山西人民出版社,2020.
[11]VAN DIS E A M,BOLLEN J,ZUIDEMA W,et al.ChatGPT: five priorities for research[J].Nature,2023(7947): 224-226.
[12]MONTTI ROGER.How The ChatGPT Watermark Works And Why It Could Be Defeated [EB/OL].(2022-12-30)[2023-08-25].https://www.searchenginejournal.com/ChatGPT-watermark/475366/#close.