陈星潼
ChatGPT作为首批可以与用户在广泛主题里进行令人较为信服对话的人工智能生成模型,自2022年11月上线以来,引起了国内外各行各业的高度关注。仅两月内,ChatGPT的月活跃用户数已达1亿,是史上用户数增长最快的消费者应用。
在学术出版领域,ChatGPT已经成为合著作者,出现在了多篇发表的论文和预印本中。ChatGPT在学术写作中的作用引发了广泛争议,有学者认为它是提升效率、简化流程的高效工具,也有学者认为其对作者身份的完整性构成威胁。包括《自然》《科学》在内的期刊为此更新了规则,国内部分刊物也对此发表了声明,限制ChatGPT作为作者署名。而在我国,包括百度在内的科技公司已经声明,也将推出类似工具。因此,关注并思考这一主题具有现实意义。本文探索新一代人工智能与出版深度融合进程中存在的潜在风险和应用前景,为后续研究提供参考。
ChatGPT是由美国OpenAI公司开发的会话语言模型。它集成了自然语言处理的各种能力,包括问答、讲故事、逻辑推理、代码调试等。GPT是生成式预训练(Generative Pre-Training)的缩写,其发展主要得益于近年来大规模语言模型(Large Language Model,LLM)的发展。这些模型使用语言模型(Language Model,LM)对大规模数据进行训练,并构建巨大的神经网络模型。语言模型是一种自监督的文本信号, 旨在基于上述上下文预测下一个单词的概率。其起源于GPT-3,是InstructGPT的后续模型。2018年6月,OpenAI发表论文《通过生成式预训练加强语言理解》,首次介绍了自己的语言模型GPT-1。它在深度学习模型Transformer架构上, 使用了内含几十亿个文本文档的超大规模语言资料库进行训练,参数量为1.17亿。2019年2月,升级版GPT-2发布,模型参数达到15亿,且训练模型的数据库也更大。2020年, 规模达1750亿参数的GPT-3诞生。基于互联网包含大规模的文本数据,通过不断地增加数据、增加模型大小,模型的能力不断提升;通过指令微调、代码训练以及强化学习等[1],其高级思维能力出现了跨越式的增长, 产生了思维链 (Chain-of-Thought,CoT)能力和涌现能力(Emergent Ability)。它具备连续对话、上下文理解、用户意图捕捉,以及敢于质疑的能力,在写邮件、翻译、编写代码等各项应用上的表现令人印象深刻。2023年3月14日,OpenAI发布GPT-4。其不仅可以对文本进行处理和分析,还可以处理图像、音频和视频等多种模态的数据, 且在对话交互和情感分析方面有了进一步提升。
以ChatGPT代表的人工智能大模型被认为是实现人工通用智能(AGI)的可能方法。当前,布局大规模智能模型已成为全球引领性趋势。 除了ChatGPT这样的语言理解类生成模型,还有图片生成、代码生成、音频生成、视频生成等多种类别。
2023年1月,美国89%的大学生注册并使用ChatGPT做作业, 部分学生借助ChatGPT完成的论文获得了授课老师的最高评价等级。《自然》杂志报道称,一些科学家已经在使用聊天机器人作为研究助手——帮助组织他们的思维、产生对工作的反馈、协助编写代码和总结研究文献。由于一些预印本和发表的文章已经把ChatGPT作为署名作者之一, 关于ChatGPT等人工智能工具能否署名引起了广泛关注。 鉴于软件不能对出版物承担有意义的责任,不能为其工作主张知识产权,许多大型出版机构对此纷纷更新了收稿要求, 禁止或限制撰稿人使用类似ChatGPT的人工智能工具。在国内,包括《天津师范大学学报(基础教育版)》《暨南学报(哲学社会科学版)》等期刊也在第一时间做出更新。
出版商或编辑部的声明只能从道德层面来约束作者行为,而从实际看,ChatGPT及其他生成式人工智能的广泛应用可能对科技出版提出以下挑战:
1.识别难度巨大。虽然计算机程序(如Microsoft Word和Grammarly)多年来一直包含自动文本编辑功能,例如检查拼写和语法,但这些程序并非旨在创建内容。新兴的生成式人工智能为研究伦理和研究诚信提出了重要问题,尤其是在传统的抄袭检测软件对其失灵的情况下。ChatGPT能够在不添加其他想法的情况下, 使用程序来改写句子,从而减少被视作抄袭的百分比,这显然是违反学术诚信的行为。已有研究表明,使用ChatGPT生成的研究摘要,基本可以通过抄袭检测器、AI输出检测器和人工审查员的检查[2]。在一项研究中,ChatGPT撰写的50篇文章中,有40篇表现出令人瞩目的原创水平[3]。为了回应科学出版界的担忧,OpenAI宣布训练了一个分类器来区分人类和AI作者,但目前分类器的效果还有待提升[4]。对于期刊编辑而言,未来如何保证来稿的原创性将是一个难点。
2.虚假内容泛滥。由于对话型人工智能没有解释和理解内容的能力, 它经常会自动生成并不存在的参考文献。因此,ChatGPT生成的手稿可能具有误导性——基于不可信或完全虚构的来源。 正如ChatGPT的创建者所承认的那样:“ChatGPT有时会写出看似合理但不正确或荒谬的答案。”人工智能语言机器人无法理解新信息、产生见解或深入分析,这将极大影响论文的质量。ChatGPT写出的文本甚至可能会欺骗审稿人和读者, 导致错误信息的大量积累,可能会带来重大的社会危害。
3.偏见与有害信息尚存。ChatGPT是在大量现有文本数据上进行训练的, 这意味着它可能会从训练数据中继承偏见和刻板印象。在其预训练数据中,92.647%的数据为英文,而中文仅占据0.099%,对于其他语言和文化,可能会生成偏见和不当内容。同时,由于ChatGPT是一种功能强大的人工智能技术,它可能被恶意利用,造成严重的安全隐患,产生法律风险。
在科技期刊编辑出版过程中,ChatGPT及生成式人工智能有着广阔的应用前景,具体如下:
1.选题策划。一方面,使用ChatGPT等工具,在适当提示词引导的情况下,可以对不同的概念和想法进行类比,并可能产生创造性的联系, 生成有启发性和创意性的内容,为策划专刊、构思主题等提供新路径。另一方面,通过其开展信息抽取、知识图谱构建,能够对某一领域的知识进行完整扫描分析,并从中发现可能的前沿方向。
2.编辑加工。第一,ChatGPT等新一代人工智能工具可以提供语言润色和语法检查服务,由于其基于海量语言训练,行文逻辑清晰、用语较为准确,可以为编校工作提供帮助;第二,其可以协助期刊编辑检查实验报告与数据、美化图表,提升编辑效率。
3.传播推送。优秀成果展示也是科技期刊的使命和服务内容之一。利用生成式人工智能工具,可以基于期刊论文,自动生成定制化、高水平的推广内容。例如,适用于不同社交平台推广的文案、富有吸引力的邮件、基于稿件内容制作的图像与视频、 适用于不同年龄段读者的科普文案,从而丰富传播路径,扩大期刊的影响面。
4.阅读体验。中文科技期刊的国际化、数字化转型升级,首先要突破语言隔阂。目前,仅通过摘要翻译模式,很难提升中文科技期刊的国际影响力。 由于受母语迁移的影响和英语水平的限制, 国内科技期刊的摘要翻译良莠不齐。通过ChatGPT等工具,可开启类似科技学术期刊外文版工程的全文翻译工程, 甚至探索同时刊发多种语言版本的新出版模式, 让中国科技期刊更加灵活快速地在国际舞台展现风采。
5.读者服务。ChatGPT可以基于上下文信息,生成与用户意图相匹配的多轮回答,增强会话交互模式下的用户体验。如将大模型基于期刊语料库进行二次预训练,可以使其在工作场景中成为“代言人”,极大畅通与作者、审稿人、读者的交流渠道,解决沟通不及时的问题。
对于ChatGPT和生成式人工智能这样的技术浪潮,既不能过于担心、一禁了之,也不能毫不担心、放之任之。我们必须未雨绸缪、趋利避害。为此,笔者提出以下建议。
1.从国家层面,应规范生成式人工智能的发展和应用。我国近年把人工智能作为战略性新兴产业,并且重视其中的伦理规范问题, 国家新一代人工智能治理专业委员会出台了《新一代人工智能治理原则——发展负责任的人工智能》和《新一代人工智能伦理规范》等文件。面对新技术的冲击, 一要修订《网络安全法》《数据安全审计法》等已有互联网法律法规,明确生成式AI技术和应用中涉及政治、民族、宗教和互联网等相关的法律底线和红线问题,明确“可为”与“不可为”的范围和内容;二要加快生成式AI知识产权保护研究, 明确人工智能生成的数字内容知识产权与数据权益保护规则, 建立大模型产出物的内容审定和版权界定标准; 三要推进生成式AI内容监控平台建设,加强对生成式AI应用的内容监管和监控,对以生成式AI为技术手段的新型网络欺骗、 网络诈骗等违法违规行为加快、加重处罚,维护人工智能产业健康生态。
2.从期刊层面,应审慎探索出版领域人工智能实践。一要针对人工智能工具, 提前制定学术规章制度, 按照“允许人工智能提升研究论文可读性,但不能取代作者完成关键任务”的原则,规范作者来稿;二要探索建立人工智能写作识别和惩戒机制, 积极应用新一代抄袭检测工具,将检测重点从相似性检查转移到验证内容来源上;三要大力推动人工智能应用,在期刊经营管理、数据整合、资源平台、安全防护等方面,运用新一代人工智能做好国际交流和科研引领工作。
3.从编辑层面,应积极主动提升数字素养。虽然“Chat-GPT取代编辑”的新闻标题满天飞,但真正取代编辑岗位的并非人工智能, 而更可能是其他善于使用人工智能的人。因此,作为期刊编辑,一要树立终身学习的思维观念,以积极包容的心态了解并学习新一代人工智能工具,创新应用场景,将其应用于采编、策划、科研工作中,推进人机融合,大力推动科技期刊的数字化转型;二要跟进了解国内外人工智能前沿发展,洞悉新一代人工智能工具可能带来的对编辑岗位职责的冲击和安全风险问题,牢牢把握新时代我国科技期刊的本质属性与出版规律,为提升学术引领贡献力量。
虽然国内的科技期刊界至今还未受到ChatGPT的明显冲击,但生成式人工智能的颠覆式创新终将波及这一行业。我们不必“妖魔化”或过高估计ChatGPT,但仍需未雨绸缪,择善而从。新技术的应用如水,宜通不宜堵,宜顺不宜逆,相信通过科技出版同仁的不懈努力,生成式人工智能及其应用将成为提升我国科技期刊出版智能化水平的重要工具,在建设世界一流科技期刊的道路上,更好地推动科学研究和科技传播的百花齐放。