AIGC论文检测系统的技术缺陷与学术期刊因应

2024-11-03 00:00:00周濛
出版与印刷 2024年4期

关键词:人工智能生成内容;AIGC;AI 文本检测;知网AIGC 检测服务系统;鉴字源AIGC 文本识别系统;技术缺陷;学术期刊;因应策略

DOI:10.19619/j.issn.1007-1938.2024.00.027

作者单位:深圳大学学报(人文社会科学版)编辑部

引文格式:周濛. AIGC 论文检测系统的技术缺陷与学术期刊因应[J]. 出版与印刷,2024(4):20-30.

随着人工智能生成内容(artificial intelligencegenerated content,英文缩写AIGC)技术在学术出版领域的发展与渗透,一些作者已经开始利用AI 工具,例如ChatGPT,来撰写学术论文,AI 代写现象频发。甚至在国际知名期刊之中,也能发现AIGC 的痕迹。例如,2024 年3 月爱思唯尔(Elsevier)出版集团旗下期刊《表面与界面》(Surfaces and Interfaces)上的一篇论文出现了ChatGPT 常用生成语——“当然,以下是关于您主题可参考的介绍”;2023 年8 月物理学一流期刊《物理写作》(Physica Scripta)发表的一篇论文中出现了 ChatGPT 的按钮标签——“生成回答”(regenerate response)。这些AI 生成的毫无意义的措辞竟然能在作者、编辑、审稿人、校对的审校后幸存下来,说明学术出版主体在应对AIGC 技术的能力方面存在不足。为了应对这一情况,已有部分科技出版企业相继研发并推出AIGC 论文检测系统,探索AIGC运行规律,尝试攻克内容识别、算法效率、可信评估等技术难题,以识别学术文本中的AI 生成内容。在利用AIGC 论文检测系统的实践之中,探究学术期刊出版单位如何警惕系统的技术缺陷,应对机器风险与技术风险,并发挥独立于机器之上的主观能动性以构建有效的AIGC 识别策略,对于推动学术期刊的数智化发展具有重要意义。

就AIGC 对于学术期刊的影响这一研究主题,已有较多国内外学者进行了探讨。在实证研究领域,国外的Catherine A. Gao 等学者[1] 以及国内的沈锡宾等[2] 通过比较AI 检测工具和人工评审者在AI 写作判别能力上的差异,指出特定AI 检测工具可以较好识别出ChatGPT 改写的医学论文摘要,借助这些工具可以帮助学术编辑更好地发现AI 代写行为。在制度研究领域,张凌寒等[3] 认为应设计AIGC 质量光谱标识,要求对生成来源、责任主体、内容质量进行强制标识,以激活标识制度在信息内容筛选中的实质作用;蒋雪颖等[4] 则提出要建构多元主体协同监管的学术出版生态框架,尝试为AIGC 技术下我国学术生态的良性发展提供可能的进路。在行业研究领域,王鹏涛等[5] 分析了AIGC 技术与知识生产的耦合性,识别由AIGC 引发的信任危机,在此基础上探索学术出版行业的信任机制理论模型与实践路径;张重毅等[6] 指出学术出版行业存在AI 工具使用程度不易把握、隐性学术不端行为更不易识别、科研伦理问题更加不易发现、现行同行评议制度权威性不易保证、著作权及研究成果分配不易处理等方面的挑战,提出出版主体要清晰认识自身的核心优势和定位。在对策研究领域,赵凯[7]提出了以人机协同审核、编辑价值重塑迎接新挑战的策略构想,使AI 真正成为新的内容生产力和审核力引擎;曹联养[8] 则提出了前置审查的应对策略,包括更新作者反学术不端承诺、在常规查重外使用自动化工具检查辨识AIGC、对成果中重要观点的来源进行核查、对学术成果所依据的主要事实和数据进行核查等解决方案。

已有研究成果虽然多方位、多角度地指出了AIGC 的具体风险与影响,并为学术期刊应对AI 代写现象提供了出版政策、行业、主体层面的建议,但尚未涉及AIGC 检测系统的技术原理和技术缺陷,也未能明确说明出版单位如何在实操层面利用AIGC 检测技术来解决问题。具体而言,该研究领域还有待从以下三个方面进行补充:第一,在实证检测方面,可识别医学领域AI 改写摘要的检测系统未必能推广至其他学科,尤其对于语言逻辑或词汇多样性更为复杂的人文社科领域,以及经过多次语料投喂而能够模仿用户写作风格的高级AI 工具,AIGC 检测系统的效果可能不尽如人意;第二,在技术缺陷层面,目前的研究鲜少提及AIGC 检测系统的误报、漏报现象,也忽略了不同学科、场景、领域、类型的文本检测标准缺乏通用性的问题;第三,在实操因应层面,现有研究的对策与制度构想还不能渗透进具体的学术出版活动之中,出版单位如何理解AIGC 检测系统的技术原理与功能,以及如何在审稿校对过程中将人工审核与机器检测相互结合,仍旧是难以克服的现实问题。基于以上不足,本文在已有研究基础上作进一步探索:首先,使用两个国内较知名的AIGC 论文检测系统对10 篇由ChatGPT 生成的法学论文摘要和10 篇由其他AI 改写的法学论文摘要分别进行检测,以验证检测工具的AI 鉴别能力;其次,通过分析检测结果总结检测工具的技术缺陷,并基于其技术原理分析缺陷成因;最后,将缺陷与成因置于学术出版单位的出版场景中,总结出版主体使用AIGC 检测系统需要避免的问题,提出实操层面的技术应对策略。

一、数据来源和研究方法

1. 检测样本说明

由于国内现有研究使用的检测样本仅来源于医学文献,为了进一步检测AIGC 论文检测系统的AI 识别能力,本文选取了2023年发表在某中文核心期刊的10篇法学文献。法学论文的语言逻辑层次和词汇组合难度相对而言更为丰富和复杂,AI 工具也更加难以模仿法学学者的文风和思路,大幅提升了识别测试的难度。

样本分为三组:①对照组,为入选的10篇文献摘要原文,均在400 字左右,不对其作任何文字处理;②AI 生成组,先通过向ChatGPT 投喂原文标题、摘要以及关键词,生成对原文内容的分析与评价,再基于相应回答(response)使用提示词(prompt)“根据此题目与对话内容,重新生成500 字左右的学术论文摘要”,最终获得10 篇AI 代写样本,不对其作删改处理;③AI 改写组,使用国内一款声称能够降低AIGC 疑似程度的AI改写软件,向其输入10 篇AI 生成组样本,最终获得10 篇字数为600 字左右的AI 改写样本,改写软件默认与原AI 生成组的文本相似度控制在65%—80%,不再对其作删改处理。

2. 具体检测方式

本研究并不试图寻求严格意义上的统计学结果,仅针对检测系统的直观输出结果进行简要的数据分析,并对检测失败的样本进行具体的文本分析以寻求技术缺陷根源。目前国内市面上的AIGC 论文检测系统一般兼具文献相似性检测与AIGC 文字占比检测双重功能,由于此前已有学者实证分析过AI 代写文本能否通过文献相似率检测,且重复率结果与本文研究目的并不相关,因此本研究不再对样本进行相似性检测。

对于具体的检测系统,本研究选择了较多科研与出版机构使用的同方知网(北京)技术有限公司的“知网AIGC 检测服务系统”(简称“知网检测系统”)以及南京智齿数汇信息科技有限公司的“鉴字源AIGC 文本检测系统”(简称“鉴字源检测系统”)进行判别。

二、技术缺陷表征:检测系统的低准确度、高差异率与弱敏感性

通过对AI 生成组、AI 改写组以及对照组的共30 篇样本同时使用知网检测系统和鉴字源检测系统进行检测,最终生成60 条检测记录,数据结果如下表1所示。

知网检测系统与鉴字源检测系统都以疑似AIGC 片段的字数占全文的百分比为检测数据,经过不同的赋值方式,标记检测的片段有多大概率属于AIGC。知网检测系统的结果是经过系统加权计算的数值,系统通过对不同程度的疑似片段分别进行系数赋值(高度疑似AIGC 值为0.9—1,中度疑似AIGC 值为0.7—0.9,轻度疑似AIGC 值为0.5—0.7,不予标识为0—0.5。左侧临界值包含在对应范围内,如AIGC 值=0.5,即为轻度疑似AI生成,AIGC 值<0.5 则系统不进行标注,判定不属于AIGC),最终得到系统评估的AIGC片段占比而非实际占比。例如,AI 生成组第6 篇摘要在知网检测系统中被标记为中度疑似的字数实际只占全文的46.5%,但系统经评估后为其疑似程度赋值为0.79,最终得到加权占比36.7%。鉴字源检测系统的结果则是实际字数占比,被标记为高度、中度、轻度的片段,其疑似AIGC 的概率分别为70%—100%、60%—70%、50%—60%,概率小于50% 的片段不予识别为AIGC;左侧临界值判定同知网检测系统。例如AI 改写组第3 篇摘要全文都被鉴字源检测系统标记为AIGC, 其中前41.6% 的片段为高度疑似,后58.4% 的片段则为轻度疑似。通过分析表中数据,可以初步总结出目前AIGC 检测系统的三点缺陷,即低准确度、高差异率与弱敏感性。

1. 低准确度

总体来看,对照组的检测结果都为0%,说明两个系统对于发现哪些文本由真人撰写具有优秀的鉴别能力;而从生成组的结果来看,不管是知网检测系统还是鉴字源检测系统,能够成功判别存在AIGC 的篇数都只有4 篇,成功率只有四成,都未能达到及格线。由此可见,目前流行的检测系统虽然能够大概率确认真人不是AI,但并无能力准确判别AI 就是AI。知网检测系统对不同疑似程度分别进行赋值的做法虽然看起来更加科学,但总体来看其实际检测出的疑似片段并不如鉴字源检测系统多,尤其对于两者都判别为高度疑似的生成组第2 篇摘要,鉴字源检测系统的检测结果要远高于知网。由此可知系统的准确度与生成结果计算方法的复杂程度并无直接关联。

从改写组的检测结果来看,AI 改写软件降低AIGC 占比与程度的能力明显不足,有时还会适得其反。只有对生成组第8、9、10篇摘要的改写成功避开了系统检测,其他改写要么降低得不多,要么进一步加重AI成分。但从改写软件的降AI 原理来说,其本身就是将AIGC 词句替换为类似真人的表达方式,如果检测系统反而评估改写后片段的AI 成分更多,则从侧面表明了检测系统在识别真人语气方面仍然不够敏感。

2. 高差异率

生成组中知网检测系统和鉴字源检测系统检测结果较为一致的只有4 篇,差异率达到60%(此处的差异率为两个系统检测结果不一致的篇数相对于总检测篇数的占比,是否一致只针对系统能否识别到AIGC 片段,不论占比是否完全一样)。其中生成组第2 篇都被检测出高度疑似,第3、4、7 篇都被检测为无AI 创作成分;其他6 篇文章的检测结果则完全不同,有的知网检测系统能够检测出AI 创作成分,有的鉴字源检测系统能够检测出AI 创作成分。以上结果说明不同AIGC 检测系统的技术原理和参考模型存在差异,训练程度与应用场景也各有不同,对于典型AI标识词的识别也不一致,差异性特征较为明显。虽然改写组中知网检测系统和鉴字源检测系统检测结果较为一致的有9 篇,差异率仅10%,但这只能侧面说明AI 改写软件的降AI 方式非常机械化,检测系统只能对简单易识别的AI 改写标识词具有一致的鉴别能力。

3. 弱敏感性

针对生成组检测结果为0% 即未被查出具有AI 创作成分的样本,本研究进一步对其中的文本进行了细致分析,可以发现一些人工较为容易辨识的AI 标识词也通过了检测,例如“以上内容强调了”“本文得出了”“以下是”等词句,可见检测系统的AI 词库与智能语言模型的发展训练水平落后于ChatGPT一类的大语言模型,致使系统对于AI 词汇、语句、语气的识别高度不敏感。而基于AI 改写组中同时通过两个系统检测的4 篇文本,可以发现一些降AI 方式反而更为夸张与生硬(如刻意加入模板化的关联词或语气词、使用过于主观化的描述方式等),可见检测系统对部分机械化的反AI 技巧也不够敏感。

三、技术缺陷根源:模型训练不足、算法优化不当、预设词库匮乏

本研究的数据结果反映了AIGC论文检测系统的实际鉴别能力并不理想,在辅助出版主体识别AI 代写行为方面还有很大不足。就表层原因而言,一方面可能是由于检测难度的提高,检测的样本是由经过语料投喂与简易训练的AI 工具生成的,且使用了语言逻辑复杂性较高的法学文献素材;另一方面则是由于AI 工具的机器学习速度远远超过了检测系统的更新迭代速度,就同一AI 工具依据不同版本或不同发展阶段的语言模型生成的类似文本,检测系统可能只具有鉴别旧模型的能力,对新模型则无能为力。与此同时,通过仔细分析检测系统的技术原理,还能够发现一些技术领域的深层次原因。

以“AI 文本检测”作为关键词在中国专利公布公告网( http://epub.cnipa.gov.cn/Index)上进行搜索,只得到同方知网的专利公告记录。该专利名称为“一种AI 生成文本的检测方法、装置、介质及设备”,专利申请号为2023110993486,公布/公告号为CN17151074A。专利摘要声称该发明可以判定待检测文本是否为 AI 生成文本,不仅检测效率高,而且不受审核人员的主观因素影响,使得检测结果更加准确。从专利摘要附图(图1)可以看出,检测方法主要由文本分类模型、目标损失函数、预设字典及预测模型四部分构成(S101—106为包含专利权利要求的具体实施例)。检测步骤如下:①文本分类模型输出待检测文本的第一概率值,以评估该文本是AI 生成的可能性;②目标损失函数输出待检测文本的偏离度特征,以评估该文本与真人文本之间的差异程度;③预测模型及预设字典输出待检测文本的扩散度特征值,以表明文本中的词汇多样性和使用频率;④经过统计分析得出待检测文本的句子长度特征及字词分布特征,结合第一概率值、偏离度特征、扩散度特征值综合判定待检测文本是否为AI 生成文本。此外,知网检测系统首页的宣传语表明,它主要以知网结构化、碎片化和知识元化的高质量文献大数据资源为基础,基于预训练大语言模型算法逻辑,结合“知识增强AIGC检测技术”和若干检测算法,从语言模式和语义逻辑两条链路,应用AI 检测AIGC。

1. 语言模型训练水平不足

从以上公开的技术内容可以看出,知网的AIGC 检测系统主要由系统自身建立的大语言模型以及配套算法构成。通过比较,可以发现检测系统的大语言模型与ChatGPT 等AI 生成工具的大语言模型存在较多不同(详见表2),其中最重要的差异就是两者的训练机制不同。检测系统的大语言模型依附于技术主体提供的海量学术文献数据库,它通过对海量学术文献进行深度学习,构建了一个庞大的知识库。当有新文章提交检测时,系统会将其与知识库中的文献进行比对,从而快速找出相似或重复的内容。因此,其训练语料的来源主要由两部分构成,一是基于现有文献构建的知识库,二是机构或个人用户提供的海量检测样本,前者构成了检测的人工对照组,而后者则构成了检测的AI对照组。由于现有文献丰富,基于人工对照组的识别与区分训练相对容易,这就可以解释为何前述检测可以大概率识别真人是真人。相反,不管是知网检测系统还是鉴字源检测系统,目前开放使用的时间都很短,用户直接提交AI 代写论文交由系统检测的案例相对较少,进而导致AI 对照组的语料来源相对匮乏,其文本识别与区分训练成熟度远远不及人工对照组,即本研究结果反馈的检测系统较难识别AI 是AI。

此外,不同检测系统大语言模型的结构复杂性存在差异,再加上训练时间与语料质量的参差,其实现的迭代次数不同,进而导致模型学习成熟度的不同。就知网检测系统与鉴字源检测系统相比,知网检测系统虽然依托着中国最大的学术期刊库,语言模型建构基础较好,但使用价格较高,容易导致学校、科研机构等用户选择价格较为便宜、迭代更为成熟的鉴字源检测系统,进而使其模型训练水平受限。这一点也能在一定程度上印证为何测试结果中鉴字源检测系统检测出的疑似占比更高。

2. 算法中目标函数的优化不当

不同的模型可能采用不同的算法进行训练和优化,这些算法的效率和适应性也会影响语言模型的最终表现。以知网检测系统为例,算法中的目标损失函数是比较检测文本与AI 对照组差异的重要手段,其运行效率和方式的改变将会直接导致模型在优化过程中所关注的文本特征发生变化,进而影响检测性能。随着语言模型不断深入地进行机器学习,当初设计的目标损失函数可能难以继续匹配容量更大的知识库样本,新增的多样化文本类型与特征也会使计算资源不堪重负,如果不对函数功能进行优化、对性能进行提升,则会导致模型迭代缓慢、检测效率变低,最终影响检测结果的准确度。

此外,相关函数可能还会设定识别、区分文本特征的评价指标,不同系统设定的指标不同,语言模型在优化的方向上也会存在差异,比如更侧重于提高局部的精细度还是整体的准确度。就本研究的数据来看,虽然知网检测系统输出结果的疑似占比并不高,但其对于片段鉴别的精细度更高,原因就在于其评价指标的多样性,即以句子长度特征及字词分布特征、第一概率值、偏离度特征、扩散度特征值这四个指标综合判定待检测文本的可疑性。对于疑似程度赋予更为精细的权值而不是以简单的范围作为函数运算的输入值,将能够较大程度体现文本的疑似特征。相反,鉴字源检测系统虽然标识了较多范围的疑似片段,但局部精细度明显不足,难以突出特定语句的疑似特征。由此可以反向推出,鉴字源检测系统评价指标的多样性稍显欠缺。

3. 人工预设词库匮乏

知网检测系统中的“预设字典”指的是一个事先定义好的词汇集合或词汇数据库,它用于辅助检测系统在分析和识别AI 生成文本时,对特定词汇或表达方式的使用进行评估。预设字典通常包括AIGC 的高频词汇、特殊表达、语言模式、错误或异常用法等词库。设定此类词库的目的在于提供一组标准或参考,以便检测系统可以有效地对文本进行分析和判定。通过比较待检测文本中的词汇使用、表达方式、语言模式等与预设字典中的条目,检测系统可以更准确地判断文本是否为AI 生成。

然而,如果预设字典只由检测系统通过检测样本进行收集与扩充,那么在检测从未遭遇过的AIGC 片段时,系统很难判别此样本是否为AI 代写。知网检测系统与鉴字源检测系统之所以对AI 样本具有弱敏感性,根本原因还在于预设字典中缺少人为添加AIGC词库的功能。本研究AI 生成组中一些人工能够大概率辨识的模板化AIGC 片段(模板句式虽然也会由真人使用,但一般不会在段落中循环反复出现,这容易被检测系统忽略),如ChatGPT 被高频提示词引导后经常生成的句首“本研究的结论强调了”“本文主要探讨了”“本文揭示了”等通过了检测,足以说明目前市面上的研发企业对检测系统的设计忽略了这一点。相反,本研究使用的AI 改写软件却具有自定义词库的功能,能够不断收录用户偏好的词句,通过不断学习和模仿用户的文风和写作习惯,以增强其对AIGC 的反侦测能力。如此发展下去,AIGC 检测系统将会在AI 改写软件迭代更新中落于下风,陷入止步不前的困境。

四、学术期刊因应:系统研发与期刊发展的良性互动

不管是AI生成技术的滥用,还是更有针对性的AI 改写技术的迭代,学术期刊都面临着识别和管理AI 生成文本的挑战,与广泛普及的文献重复率检测系统一样,未来期刊主体对AIGC 检测系统的使用也是势在必行。但正如前文所述,目前的AIGC 论文检测系统还存在较多技术缺陷,如果期刊主体引入相关系统却不善于运用和训练系统,以辅助审稿,则难以应对飞速发展的AIGC 技术并实现学术期刊的数智化发展。为此,本研究认为应当将出版科技企业对检测系统的研发目标渗透到学术期刊行业的整体发展层面,双方在这个过程中需要积极构建人机协同、良性循环的沟通与合作。学术期刊作为技术需求主体,则需从研发配合、行业发展、编辑实践三个层面促成这种良性互动。

1. 系统研发配合层面

首先,学术期刊出版单位应主动与技术提供商进行沟通,了解最新的AIGC 检测技术,并根据自身的需求提出建议,以促进系统研发的不断完善和发展。在测试系统的使用过程中,笔者曾与系统推广人员进行沟通,并将部分检测结果以及测试样本反馈给相关后台人员。在沟通过程中能够发现,检测系统的销售推广人员与技术服务人员并非十分清楚系统的功能设计不足与技术机制缺陷,对于AI 生成工具与改写工具的迭代现状与市场发展也缺乏细致了解。这很大程度是由于学术科研机构与期刊单位对于检测系统的使用不够深入,负面反馈不足。系统研发人员通常没有学术出版行业的从业经验,因而对于系统的升级与完善未充分考虑用户的实际使用体验和感受。期刊单位作为检测系统的最庞大用户群体,如若不积极主动地提供自身的需求与建议,则难以使研发人员实时推进大语言模型的发展、相关算法的优化以及预设字典的扩充。

其次,学术期刊出版单位应积极参与新版本检测系统的测试,根据论文类型、学科场景、应用领域提供更为丰富的检测样本,帮助技术提供商优化语言模型和配套算法,使其更加精准和高效。如前文所述,检测系统大语言模型的训练需要兼备海量的学术文献知识库和AIGC 文本,而目前用户向系统中输入的AIGC 文本还远不能够匹配现有知识库,导致训练素材与活动的匮乏。不同领域、学科、行业的期刊具有多样性的专业实践基础,可以在出版活动中基于日常收稿输出大量经过训练的具有高质量、高专业度、高仿真性的AIGC 文本。这些优质文本可以大幅度缩减语言模型的迭代时间间隔,不断提高系统对不同场景的适应性和检测不同学科论文的准确度。

最后,学术期刊出版单位应注重日常积累并记录在出版活动中发现的疑似AI 生成的特殊词汇或语句,将其分门别类地添加到基于特定学科或实务场景的词库中,以供预设字典作为参考。仅依靠研发企业自身收集的词库难以满足语言模型进行识别与比较文本时所需的语料资源,而期刊审稿、编辑、校对人员在各个出版环节中积累的高频词汇、特殊表达、语言误用或异常用法能够大幅度弥补系统收集能力的不足,进一步完善比照标准。预设字典的完善本质上是一种人机协同的发展过程,系统将单个期刊人工创建的词库收集起来,发布到整个期刊集群之中,词库再被其他期刊利用来检测AI 文本,输出正向反馈,以此可形成期刊与期刊之间、期刊与系统之间的良性互动。

2. 期刊行业发展层面

AIGC 论文检测系统反馈的疑似文字占比实际上是一种类似于论文重复率的中性数值,但与单纯的抄袭、不规范引用不同,AIGC的具体内容并不一定对于学术研究与期刊行业发展毫无用处。期刊行业作为知识创新的守门人,把握着知识生产的演进方向,[9] 因而更需要客观评价检测系统的结果,以规避AI 代写的学术不端行为和辩证利用AI 生成的高质量与真实性知识内容作为使用检测系统的双重目标。

一方面,学术期刊要以筛除低质量AI 文本为目标,严格把关恶意利用AI 工具的学术不端行为。为此,可以基于AIGC 检测系统建立学术期刊互联的内部局域网与期刊行业云,建立更紧密的检测系统处理与期刊结果反馈评价之间的互联互通,实现AI 稿件拒稿信息以及AIGC疑似文本的共享。目前知网腾云采编系统在升级版本(V10.3)中就采用了“刊群”功能用于期刊互联,不管是因一稿多投还是其他学术不端行为被退稿,作者及文章都有可能会被期刊社群体拉黑、拒稿。同时,该系统还实现了正常退稿后作者的一键转投功能,大大提升了期刊对同领域论文的资源共享能力。AIGC 检测系统的发展同样可以利用刊群的共享机制,通过召集期刊出版单位共同打击AI 代写惯犯、共同评价AI代写文本,使期刊行业能够齐心协力应对学术科研领域的AI 乱象。

另一方面,学术期刊要以合理利用高质量AI 文本为目标,充分发挥AIGC 技术的知识生产能力。在评估AIGC 检测系统提供的疑似文字占比时,期刊单位应考虑AI 生成内容的质量和真实性。在适当引用和标注的前提下,高质量的AI 生成内容也能推动学术发展。同时,期刊出版单位要严格把控学术原创性的标准,善于引导作者有效、规范地利用AI 工具,展现自身的独立思考和学术贡献,避免学术不端行为出现。

3. 期刊编辑实践层面

编辑是在期刊出版活动中实际利用AIGC检测系统的主体,检测结果是否准确最终应当由编辑决定。对于一些经过深入训练和调教而生成的高度类人化文本,虽然检测系统难以通过语句成分和逻辑表达识别其AI 成分,但编辑依然可以凭借对内容真实性和科学性的判断来把握真伪。正是由于AIGC 检测系统尚未成熟以及具有种种缺陷,编辑更应该发挥人机关系协同者的身份,树立正确的人机协同理念,引导系统的最优化发展。[10]

第一,学术期刊编辑要不断关注和促进AIGC 检测系统中大语言模型的迭代,推动模型配套算法的性能优化,完善个性化的预设词库。虽然大多数期刊编辑只具有学科特长而不具有技术敏感性,但大模型赖以进化的资源根本上还是来源于编辑的日常审稿校对活动。通过对检测结果进行更为准确的人工标注,不断反馈给系统并修正AI 评价指标,编辑可以正确引导语言模型向有利于学术出版实践的方向发展。此外,不同期刊的编辑通过积极参与刊群、共同监测异常等方式建设模型公共训练平台,可以有效避免AIGC内容扩散并污染文献知识库,确保系统基础文献资源的可靠性。[11]

第二,学术期刊编辑要主动培养自身识别AIGC 的技能,知己知彼才能克服AIGC检测的各种缺陷。随着OpenAI 在2024 年4月1 日宣布ChatGPT 无须注册即可使用,越来越多的期刊编辑将能够更加容易学习并使用最前沿的AI 工具。期刊编辑只有在相关操作实践中才能深入理解AIGC 的工作原理、算法,在期刊出版工作中利用好AIGC 检测系统分析结果,从而发挥基于系统之上的独立思考能力,做到活学活用,用AI 打败AI。[12]

第三,学术期刊编辑要构建自身的AIGC评判标准,基于学科专业性、场景适用性、知识创新性来鉴别检测系统的输出结果。这样的标准旨在确保能够有效识别和利用AI 生成内容,同时保护学术诚信和促进原创性研究。学科专业性意味着文章是否展现了必要的专业知识和理论深度,文中专业术语的使用是否准确,以及是否恰当地反映了学科的当前发展状态;场景适用性意味着文章内容与学术期刊的主题和范围是否高度相关,是否符合目标读者群体的特定需求和学术兴趣;知识创新性意味着文章的理论、方法、实验设计或研究结果是否新颖,引用内容是否是对现有文献的简单复述。遵循这些符合期刊发展规律的实际评判标准,才能打破AICG检测系统的机械化认知,真正让AI 服务于编辑工作。

五、结语

随着AIGC 技术的成熟以及使用门槛的降低,作为学术不端行为守门人的期刊编辑将承担防范AI 代写行为的重任。笔者测试比较了两种AIGC 论文检测系统的检测能力,从技术人员视角对系统的语言模型、算法函数、评价参数进行了较为细致的梳理,分析得出系统技术缺陷背后的问题根源;再从学术期刊编辑的视角将缺陷的解决引入期刊实践工作之中,最终提出学术期刊需要与技术提供方进行良性互动,让系统的发展成果能够真正辅助期刊编辑鉴别AI 代写行为并合理利用AIGC 的优质内容。由于经济成本与篇幅原因,本研究未能获取更多学科的检测样本,也未能使用更多的检测系统获取更多的检测数据,使得研究在大规模的统计学意义上缺乏更加可信的数据结果。此外,由于难以获取有关检测系统更为详细的公开技术信息,对于技术原理的分析存在一些只基于技术逻辑但未经现实检验的推测,有待于系统技术人员的进一步证实。未来期待在多学科、多场景、多环节的AI 文本检测领域继续推进该主题的研究。

延伸阅读:在学术出版中合理利用AIGC技术

2024年4月,知名期刊《自然》(Nature)的专栏文章《ChatGPT 通过三种方式帮助我进行学术写作》(Three Ways ChatGPT Helps Me in My AcademicWriting)引起学术界的广泛关注。文章提出AIGC 可以为学术出版提供以下三点帮助,但要提供精确的指示。

第一,润色学术写作。作者使用AIGC 来完善论文某个部分时,可先概述上下文,再使用如下指令:我正在为一份【学科】学术期刊写一篇关于【主题】的论文。我在以下部分试图表达的是【具体观点】。请重新措辞,使其更加清晰、连贯和简洁,确保每个段落之间的流畅衔接。使用专业术语。

第二,提高同行评审。专家在阅读稿件后可以使用AIGC组织评审报告。如使用以下指令:根据我对【领域】中一篇关于【主题】的论文的总结,提供一份详细的评审报告,顺序如下:①简要论述其核心内容;②指出论文的局限性;③给出修改建议。始终保持简洁和专业的语气。

第三,优化编辑反馈。AIGC 可以帮助编辑撰写精确、可操作的审稿意见。如使用以下指令:根据我的笔记,起草一篇审稿意见。指出文稿的关键问题,并解释为什么尽管文稿的选题有一定意义,但由于无法提供足够的借鉴参考价值而难以发表。请保持专业和尊重的语气。

AIGC技术给学术出版带来了挑战,但也可以提高学术出版工作的质量。AIGC 技术可以辅助我们写作、审阅和编辑文稿,并改善我们交流研究的方式。