前置审查：学术出版应对人工智能生成内容的策略

2024-03-01 01:29曹联养

出版参考 2024年1期

曹联养

摘要：本文探讨人工智能生成内容（AIGC）在学术研究中的风险和前置审查这一学术出版可以采取的应对策略。AIGC技术飞速发展，在学术研究中的应用势不可当，但AIGC生成内容或存在严重质量问题，在学术研究中使用存在重要风险，包括来源不可溯且准确性存疑、重要事实信息可信度存疑、内容创新性存疑等。为了规避这些风险，本文首次提出了前置审查的应对策略，包括更新作者反学术不端承诺、在常规查重外使用自动化工具检查辨识AIGC、对成果中重要观点的来源进行核查、对学术成果所依据的主要事实和数据进行核查等。前置审查与学术出版常规操作相衔接，将有效规避AIGC可能带来的潜在风险，保证学术出版不因AIGC的应用而降低质量甚或造假等学术不端。

关键词：学术出版人工智能生成内容前置审查

出版业的发展始终与技术进步同步，广泛应用的人工智能技术不可避免地会对内容生产领域和出版行业产生重大影响。2023年10月，《互联网周刊》发布了“2023人工智能分类排行榜”，推选出基础层（芯片、服务器、数据生产）、技术层（人工智能算法、人工智能平台）、应用层（智能机器人、智慧政务服务、自动驾驶、智慧医疗、AIGC、人脸识别算法、虹膜识别算法、智慧金融、智慧农业、智能安防、智能家居、智能客服、智能SaaS）、学术科研等4个大类19个子类的领军企业及机构340余家。[1]该榜单大致反映了中国人工智能的最新发展，从中亦可感知人工智能技术在中国发展应用之快、之广、之深。

该榜单中人工智能生成内容（AIGC）被单列为一个子类。本文聚焦于人工智能技术中的人工智能生成内容技术，探讨其在学术研究中应用的主要风险，提出了在学术出版中应对AIGC风险的策略——前置审查。

一、人工智能生成内容（AIGC）在学术研究中的应用势不可当

2022年底Open AI发布聊天生成预训练转换器ChatGPT后，谷歌推出了能够生成音视频内容的多模态第二代通用语言模型PaLM2，微软推出了集成多模态生成式预训练大模型4（GPT-4）的新必应（New Bing）搜索引擎，亚马逊也发布了大型语言模型泰坦（Titan）。[2]2023年5月中國科学技术信息研究所在中关村论坛上发布的《中国人工智能大模型地图研究报告》显示，中国已发布的人工智能大模型数量为79个。[3]

中国的AIGC技术居于世界第一方阵，领先的企业、工具及应用领域见表1。

表中信息显示了中国领先的AIGC企业及其产品。在制造业、服务业及日常生活中，自动生成文本、图像、视频、音乐、游戏等内容的AIGC技术已得到广泛应用，公众使用AIGC已没有技术障碍。自然地，AIGC也在人文社科领域得到应用，为学术研究带来了新思路和新方法。

张萌、朱鸿军认为ChatGPT在学术研究中的辅助创新方式是多维度的，贯穿于整个创作流程中，其可能完成的辅助性任务包括翻译、简洁呈现研究结果、文本生成、提炼摘要、上下文理解、数据分析等，其在推理、对话和总结方面的突出表现，可充分满足人们在短时间内低成本获取密集知识的需求。[4]

骆飞、马雨璇认为AIGC对学术生态的生产、评价、传播三个环节均产生了重要影响。在学术生产环节，AIGC可以辅助文献梳理和收集工作，可以辅助进行观点评述与讨论，可以辅助提升写作质量。[6]

作为新的能够提升学术研究生产力的工具，AIGC逐渐被研究者接受和掌握，得到越来越广泛的使用。

二、人工智能生成内容（AIGC）在学术研究中的主要风险

AIGC在学术研究中得到广泛应用，但也暴露出严重的质量问题。学术研究应热情拥抱AIGC技术，同时也应警惕AIGC带来的风险。

（一）AIGC或存在严重质量问题

施普林格·自然集团大中华区暨全球图书业务总裁Niels Peter Thomas认为，AIGC产生大量文本，可减少重复性劳动，但同时导致信息冗余、数据爆炸；其语言、评论相对中立，但可能存在科学性、逻辑性缺陷，与事实存在偏差；可帮助研究人员提高效率，集中精力攻克核心问题，但其仅总结归纳现有知识，缺乏创新性想法；可协助找到针对性内容，匹配合适信息，但难以识别或发现突破性成果。[7]

AIGC技术虽广泛应用，但其生成内容的质量却并不令人满意。2023年3月20日至4月16日，莫祖英等使用ChatGPT、Microsoft Designer等工具对22个问题进行测试，包括数据、客观事实、新闻、文学作品、学术信息、健康信息等不同类别，共获得AIGC信息28条，其中虚假信息21条，错误率为75%。[8]2023年5月28日，Douglas Johnson等发布的研究成果表明，ChatGPT回答医学问题的正确率为57.8%、全面率为53.5%。[9]

AIGC存在的质量问题，需要学术研究者及出版者高度关注。

（二）AIGC质量风险的根源

1.大规模语言模型（LLM）天然的算法缺陷

AIGC的核心是基于数据集预训练产生的大规模语言模型（LLM）。在大模型中，以语言符号表达的人类知识被抽象为字词token的参数与权重特征，这些参数与权重形成了模型理解的知识结构。在用户提出问题时，AIGC以概率算法的方式预测用户期望获取的内容并通过复制底层数据来实现内容生成。

大模型模仿人类语言和信息模式，在技术上却并不理解其概念和语义内涵。这种天然的算法缺陷会使其仅关注信息在数据集中的权重，却忽略信息本身的真实、准确和客观，导致基于错误或虚假的信息而生成新的错误或虚假信息。

2.AIGC受限于预训练数据集的质量

人工智能专家Alan D.Thompson博士于2023年3月对全球主要人工智能大语言模型数据集的来源进行了估测，其中GPT-3模型所使用的数据集容量为753GB，该数据集中维基百科的占比为1.51%，书籍的占比为2.79%，期刊的占比为13.41%，Reddit链接的占比为6.64%，常见网络爬虫数据的占比则高达75.65%。[10]

预训练数据集的局限性会自然传导成为大规模语言模型的局限性。预训练数据集包括了大量利用爬虫从互联网上抓取的信息，这些信息可能是错误的、过时的、有偏见的或人为精心策划的，还包含来自社会和历史的偏差。对于如此庞大的预训练数据集，要进行彻底的人工数据审计与加工几乎是不可能的。这也导致AIGC生成内容必然面临准确性、真实性和客观性的问题。

3.AIGC的质量取决于人工标注

为提高AIGC质量，通常由人类专家对数据集中的样本数据进行标注，AIGC基于专家对数据所做标记、分类或注释进行机器学习和算法优化。另外，AIGC的评估和反馈也以人工方式进行，标注最佳答案，进一步优化模型，以提高生成内容的真实性、准确性和相关性，减少歧视和偏见。

显见，标注人员的专业水准、政治倾向、教育背景、成长经历、社会文化环境等会对人工标注的质量产生决定性的影响。有报道指出，OpenAI在肯尼亚进行了剥削性标注工作，由一群工资过低、不稳定的工人承担了数据人工标注工作。[11]不全面的标注和低质量的标注必然会降低AIGC的质量。

（三）人工智能生成内容（AIGC）的主要学术风险

1.人工智能生成内容（AIGC）来源不可追溯且准确性存疑

生成式人工智能的模型训练过程是通过对大量数据的统计学习和模仿来实现的，并非直接依赖于特定的来源。由于生成式人工智能的模型具有创造性和灵活性，它可以生成与训练数据集中不同的新文本。对于这些新生成的文本，可能无法直接追溯到具体的来源。事实上，AIGC一般不包含来源信息，要求AIGC同时提供来源信息时，其输出内容在很大程度上也是错误的或虚假的。不可追溯来源而使用他人学术成果会造成学术研究的伦理失范问题，导致潜在的剽窃和抄袭风险。

2.人工智能生成内容（AIGC）重要事实信息可信度存疑

AIGC生成的内容主要是通过已有的数据进行学习和模拟，其工作机理是基于形式的逻辑关系，并非基于对事实和观点的理解。以“时间”信息为例，一方面，AIGC擅长使用文本逻辑，或对时间等重要信息并不敏感，或时间等重要信息有很强的重复性、相似性，因而所生成内容常不包含时间信息或提供了虚假的时间信息，这一点已被大量测试所证明；另一方面，AIGC依赖于庞大的训练数据集进行训练，而这些数据往往存在一些不准确或者错误的时间信息，因此其生成内容中也可能包含这些错误的信息。

类似地，AIGC所表现出的“一本正经地胡说八道”“人工智能幻觉”等错误比比皆是。如果查询一个根本不存在的人物，AIGC必然会生成内容，但生成的内容却会让人啼笑皆非。明显的错误容易分辨，但隐性的错误将产生导致学术研究基础崩塌的可能。

3.人工智能生成内容（AIGC）其创新性存疑

AIGC是基于已有的数据集进行学习和模拟的，虽然AIGC可以生成新的内容，但其基础是已有的知识或信息，且这些数据可能是重复的、低质量的或者老旧的。围绕AIGC智能“涌现”的不少讨论认为，在大模型、大数据、大算力的条件下，AIGC“涌现”出智能或类似于人的意识是可能的。关键在于，在瞬间生成的大量内容中浪里淘沙，以人力找出并确认什么是AIGC涌现的智能而不是已有知识的重复是困难的，即便识别出了AIGC涌现的智能，以人力判断其创新性在成本上也是不合算的。基于AIGC目前的技术水平，其在开拓新的研究领域、使用新的研究方法、运用新的资料、创新阐述已有观点或理论等方面能够创新的可能性也是存疑的。

三、前置审查：学术出版中应对AIGC生成内容风险的策略

使用AIGC进行学术研究的风险会给学术出版造成新的压力。《科学》系列期刊规定来自AI、机器学习或类似算法工具生成的文本不能用于在科学期刊上发表的论文中；除非得到编辑的明确许可，否则不得使用此类工具生成的图表、图像或图形；AI程序不能成为科学期刊论文的作者，违反此政策构成科学不端行为。[12]《自然》杂志不接受任何LLM工具作为研究论文的合格作者，认为AI工具无法承担著作者责任；可使用LLM工具但应在方法或致谢部分说明使用情况。[13]

为了既拥抱AIGC技术带给学术研究的便利，也有效规避AIGC可能带来的风险，笔者认为，可在学术出版常规流程之前，增设AIGC前置审查环节，以有效剔除AIGC创作的成果，识别并提升学术成果中应用AIGC生成内容的质量。AIGC前置审查要点如下。

（一）更新作者反学术不端承诺，要求声明成果中包含的AIGC

学术出版机构应更新作者反学术不端承诺，增加作者使用AIGC相关规定。要求作者负责任和诚实地使用生成式人工智能，可要求作者具体说明论文是如何使用AIGC的，提供所使用AIGC的名称、版本、型号和来源。限于不同研究者的不同情况，仅靠个人自觉不能彻底解决AIGC生成内容的判别问题，还需要后续配套措施。

（二）在查重之外，使用自动化工具检查辨识AIGC生成内容

常用的查重工具较难识别AIGC生成内容。Khalil等使用ChatGPT生成了50篇论文，对一半的论文使用Turnitin软件进行检查，其平均相似度为13.72%；对另一半的论文使用iThenticate平台进行检查，其平均相似度为8.76%。[14]這表明，ChatGPT生成的论文可能会被一般的查重工具误判为高度原创的作品。笔者以ChatGPT 3.0生成的文本为样例，利用国内使用较广的中文查重工具进行检测，其识别AIGC生成内容的效率也并不高。

目前，已有多种反作弊检测器被运用于识别机器生成的文本。如普林斯顿大学研发的反作弊检测器DetectGPT和GPTZeroX，OpenAI推出的人工智能文本分类器，抄袭检测服务公司Turnitin研发的AI写作检测工具等，在一定程度上能够识别人工智能的抄袭痕迹，检测出未做声明和标识的人工智能生成内容。[15]国内首个AI机器生成文本检测工具包括AIGC-X已于2023年3月1日开始公测，可对人工撰写与机器生成文本进行区分，对内容抄袭、信息造假、垃圾邮件等方面进行识别和标记。[16]

出版机构的编辑在收到稿件后，在常规查重之外，还应使用自动化工具检查辨识稿件中的AIGC生成内容，为审稿决策及编校加工提供参考。

（三）对成果中的重要观点的引用来源进行核查

如前文所述，AIGC生成内容的来源通常不可追溯，因而，稿件中如有重要支撑性观点却没有标注来源，使用常用学术检索工具也未能查询到准确来源，则有较大可能为AIGC生成内容。如有多处类似情况，可高度怀疑稿件大量使用了AIGC生成内容。学术出版单位可制订业务指引，对类似稿件是否退稿及如何处理做出规定。

（四）对学术成果所依据的主要事实和数据进行核查

与上条类似，如果稿件中使用了重要的支撑性事实和数据却没有标注来源，使用常用学术检索工具核查确认其为错误的或虚假的，可高度怀疑其为AIGC生成内容。对于使用虚假事实、数据的稿件，应作退稿处理。

针对AIGC生成内容存在的质量问题及在学术研究中使用AIGC存在的重要风险，本文首次提出了增设“前置审查”应对策略，这一策略与后续学术出版常规操作有机衔接，将有效规避AIGC可能带来的风险，避免学术出版因研究者使用AIGC而降低质量甚或造假等学术不端。

（作者单位系陕西师范大学出版总社）