ChatGPT 在智慧图书馆建设中的机遇与挑战

2023-11-29 08:22:12赵逸淳张雪峰华中师范大学信息管理学院安徽师范大学美术学院安徽工程大学经济与管理学院

图书馆理论与实践 2023年6期

张强，高颖，赵逸淳，张雪峰（．华中师范大学信息管理学院；．安徽师范大学美术学院；3．安徽工程大学经济与管理学院）

1 引言

ChatGPT（Chat Generative Pre-trained Transformer）是由美国OpenAI 公司研发，于2022 年11 月30 日正式发布的一款对话形式的语言模型［1］。该模型基于GPT—3.5 训练而成，作为一种生成式语言模型，ChatGPT 是基于超大规模的语料库训练而成，这些语料库包括真实世界中的海量百科知识和对话数据，因此ChatGPT 具有极强的语义理解和文本生成功能［2］。ChatGPT 除了知识渊博以外，更重要的是其可以根据上下文来识别用户的意图，并以交互的方式与人类进行沟通、交流［3］。

因操作简单、容易上手等特性，ChatGPT 一经推出就迅速在社交媒体走红，仅一个月时间注册用户就已破亿［4］，比尔·盖茨认为这种AI 技术是继互联网与个人电脑之后最重大的发明［5］，英伟达（Nvidia）的CEO 黄仁勋认为AI 的“i-Phone 时刻”已经到来［6］。2023 年2 月2 日，Microsoft 公告宣布将在旗下所有产品集成ChatGPT，包括Bing 搜索、Office、云计算平台Azure等［7］。2023 年3 月15 日，OpenAI 正式推出基于GPT—4 模型训练的ChatGPT。GPT—4 是一种多模态大模型，在人机交互环节支持文本、图像等多模态输入，除了拥有强大的识图能力外，其文本输入能力也得到了很大提升［8］。2023 年3 月24日，OpenAI 宣布ChatGPT 支持安装第三方插件，可以帮助ChatGPT 联网访问最新消息和第三方服务［9］。

ChatGPT 除了在工业界引起了讨论风暴以外，在学术界同样如此。当前，已有关于ChatGPT 对教育生态、情报信息、科研工作等所产生的影响的相关讨论［10-14］。然而上述讨论多从介绍ChatGPT 的发展历程入手，未能充分阐释ChatGPT 的核心概念与技术原理，针对智慧图书馆建设方面的探讨也稍显不足。因此，本文在介绍ChatGPT 核心概念与技术发展历程的基础上，探讨ChatGPT 在智慧图书馆建设中的机遇与挑战，为AI 时代智慧图书馆高质量发展与建设提供借鉴。

图1 PFM在人工智能三大领域的基本发展历程

2 ChatGPT 相关概念阐释

2.1 预训练模型（Pretrained Foundation Models,PFM）

ChatGPT 作为一个基于深度学习的预训练模型，其核心在于PFM，PFM 背后的预训练思想在当前的大模型中起到了至关重要的作用［15］。特征抽取是机器学习与深度学习都需要解决的核心问题。生成式预训练模型（GPT）采用的是Transformer 作为特征抽取器，在大规模数据集上进行自回归训练，另一个知名的模型是谷歌提出的BERT（Bidirectional Encoder Representations from Transformers）模型，两者均为基于Transformer 预训练模型的代表［16］。作为一种通用模型，PFM在文本生成、文本分类、图像处理、边缘检测、图分类等领域都表现出巨大潜力，已经在自然语言处理（NLP）、计算机视觉（CV）和图学习（GL）三大人工智能领域得到了广泛应用（见图1）。PFM 在大规模数据上进行训练后，可以对类似的小规模下游任务进行微调从而达到较好的性能。

在阐释GPT 的技术原理前，有必要将GPT 与同期的BERT 进行对比，以加深对GPT 的理解。BERT 模型基于双向+ 微调，即BERT 同时利用前后的信息来猜测被MASK 的信息，更适合理解类任务，代表性项目是谷歌的AlphaGo。GPT 模型基于自回归+提示，即从左向右进行预测，并不会利用文本的右侧信息，更擅长生成类任务。可见，ChatGPT 使通用人工智能变为了可能。

2.2 ChatGPT 的发展历程与技术原理

OpenAI 公司于2022 年11 月推出的ChatGPT是基于GPT—3.5 架构所开发的对话式AI 模型，短短几个月后便更新为GPT—4 架构，与InstructGPT互为兄弟模型［17］。ChatGPT 适用于对话生成类任务，InstructGPT 适用于指令性任务。GPT 家族的发展历程见表1。

表1 GPT 的发展历程

GPT—1 提出时，在9 个NLP 任务上取得了SOTA（State of the Art）的效果。对比GPT —1，GPT—2 并未大改模型结构，而是使用了更多的参数模型和训练数据，GPT—2 生成的虚假新闻足以欺骗常人，被称为AI 领域的“危险武器”。GPT—3 相比于GPT—2 有了非常大的提高：更大的参数规模，GPT—3 的参数较GPT—2 大了100 倍；更好的模型性能，GPT—3 在语义理解与推理上表现得更加出色；更多的语言覆盖，GPT—3 不仅支持英语，还支持其他多种语言，在应用领域上也更加广泛；更强的交互能力，GPT—3 可以像人类一样进行问答与交互［18］。2020 年，初代的GPT—3 展示了三个重要能力：①语言生成，可以根据提示词来补全整个句子；②上下文学习，遵循指定的任务示例，可以为新的用例生成解决方案；③世界知识，包括事实知识和常识。那么GPT—3 又是如何发展成为初代ChatGPT（这里指的是2022 年11 月推出的基于GPT—3.5 版本）的？图2 展示了GPT—3 到GPT—3.5 的发展历程［19］。

图2 GPT-3 到GPT-3.5 演化过程

2020—2021 年，初代的GPT—3 经过代码训练、指令微调和基于人类反馈的强化学习，展示出强大的突现能力。OpenAI 通过代码训练与指令微调对GPT—3 进行增强，最终获得了Codedanvinci-002（用于代码）和Text-danvinci-002（用于文本），它们具有与初代GPT—3 不同的能力。①响应人类指令的能力。GPT—3 的输出主要集中在训练集中的常见句子，而当前模型可以针对指令词和提示词生成更为合理的答案。②泛化到全新的任务。当用于微调模型的指令数量达到一定规模时，模型也可在从未见过的新问题上产生有效回答，这种能力在知识问答上尤为重要，因为用户总会用各种方式提出新问题。③代码生成与理解。与前置模型相比，增加了对代码的理解与生成功能。④使用思维链进行复杂推理。Code-davinci-002 与Text-danvinci-002 两个模型较GPT-3 具有较强的思维链推理能力。

Text-danvinci-002 经过基于人类反馈的强化学习的指令微调（RLHF）后，得到了ChatGPT，ChatGPT 具有如下能力。① 更具信息的回应。ChatGPT 的回应更加冗长，用户需要明确自己所要求的答案是简洁的，才能得到相应的答案。②更加公平的回应。ChatGPT 对涉及多个利益实体的事件会给出平衡各方的答案。③拒绝不恰当的问题。由预先设置的内容过滤器和RLHF 触发的模型结合处理。④拒绝知识之外的问题。拒绝回答在2021年9 月之后所发生的事件，RLHF帮助模型区分问题是否在其知识范围内。

需要说明的是，上述的所有能力都是模型本身就存在的，而不是由RLHF 生成的，RLHF的主要作用是触发/解锁其突现能力。

OpenAI 目前还未发表关于GPT—4 的论文，但是已公布相关报告［20］。报告称，GPT—3.5 和GPT—4 在日常交互中的区别很微妙，但是当任务的复杂度达到一定阈值时，GPT—4 的回答比GPT—3.5 更可靠、更有创意，且能处理更为细致的指令，GPT—4 相比于GPT—3.5 有如下四个方面的提升。①GPT—4 具备多模态输入能力，可对图文结合的输入进行分析，但目前并不具备多模态的生成输出能力。②GPT—4 在专业领域的性能表现大幅超越GPT—3.5 及SOTA 大模型。在美国律师资格考试测验中，GPT—4 的成绩位于前10%，而GPT—3.5 的成绩只达到了后10%的水准。③GPT—4 能够处理更长的文本信息，具备更强的创作能力和推理能力。GPT—3.5 支持处理的文本字数上限为3,000 字，而GPT—4 可处理25,000 字的长文本。④GPT—4 支持用户进行自定义对话风格。用户可以通过输入命令来定义GPT—4 的交互式对话风格，而之前的ChatGPT 只具备一种风格。

2.3 ChatGPT 的RLHF 过程解析

RLHF 机制触发了ChatGPT 的许多功能，本文参照ChatGPT 官网给出训练示意图，对其机制进行解释（见图3）［21］。

图3 基于RLHF 机制的ChatGPT 训练示意图

首先，通过监督微调训练一个初始模型，由AI 训练师来提供对话，在对话中分别扮演用户和AI 助手，再将新生成的对话数据集与InstructGPT数据集混合起来转化为对话的格式。之后，AI 训练师对模型生成的答案进行排名，并用排名数据训练奖励模型。最后，使用近端策略优化来微调模型，并迭代多次。

整体来看，ChatGPT 分为预训练和微调两个阶段。在预训练阶段，模型自然地进行学习，类似于人类在一个全新环境进行无监督式的学习，而微调阶段则是由创造者进行引导。

3 ChatGPT 对智慧图书馆建设的机遇与挑战

以ChatGPT 为代表的人工智能工具在许多领域均具备应用场景。在游戏领域，利用AI 机器人在前期模拟玩家进行平衡性测试，后期可以充分挖掘玩家与NPC 之间的交互可能，增强玩家的沉浸式体验，在游戏制作过程中可以充分发挥AIGC（ArtificialInteligenceGeneratedContent）的生产力，弥补PGC（Professional Generated Content）、UGC（User Generated Content）的生产潜力缺口，提升游戏制作效率。在媒体领域，可以推进人机协作共创，基于AI 自动编写新闻，减轻工作人员的负担，自动化地进行智能生产，推动传媒向智媒发展。可以预见，ChatGPT 正深刻融入并影响着人类工作、生活的方方面面，势必会成为文化事业和产业构建智慧服务的新力量。

3.1 ChatGPT 在智慧图书馆建设中的应用场景

智慧图书馆自提出以来，尽管已历经几十年的发展，但是依然是一种受限智慧，其所能开展的服务受到各种条件的限制。智慧图书馆是空间智慧、业务智慧、服务智慧、资源智慧、管理智慧等形成的统一有机体［22］，ChatGPT的引入为图书馆的智慧建设与服务提供了理论基础和实践可能，有可能重塑甚至颠覆当前图书馆的服务体系。

3.1.1 助力图书馆的信息资源管理建设

图书馆是保存人类文化遗产、提供科技文献情报的重要场所，图书馆信息资源管理建设的方式与特点直接关系服务成效。自助借还机、智能图书柜等物联网设备为图书馆的信息资源管理提供了“骨架”，而ChatGPT 则为这个“骨架”注入了生命。如，在文献资源书目编制与标注方面，ChatGPT 可以直接对文献内容进行分析，自动为书目添加标签和分类号，并生成文献的元数据，更好地分类管理文献。针对已有文献，ChatGPT可以进行书目信息的校准，保持图书馆书目信息与元数据的规范化，提升元数据质量。ChatGPT还可以助力图书馆馆藏资源实现数字化整合。图书馆馆藏资源异构现象极为常见，不同来源、不同模态的资源在当前的OPAC 系统中难以得到统一、有效的整合。GPT—4 模型以支持多模态输入的方式来获取单模态输出，且同意接入第三方插件进行联网。ChatGPT 这种强大的能力促进了图书馆内部资源整合和外部资源对齐，将多个独立的数字资源进行优化，结合为一个新的有机体，使得图书馆资源更加智慧化、有序化，深刻改变了图书馆的资源整合模式和资源处理方式，将图书馆员从体力劳动中解脱出来，有更多的时间与精力从事创造性工作。

3.1.2 助力图书馆智慧空间场景建设

图书馆的空间场景包括物理空间场景和虚拟空间场景，物理空间场景主要包括图书馆建筑、设备、人力资源等物理环境，虚拟空间场景主要包括使用VR、AR 等虚拟设备所打造的虚拟实验室或虚拟空间。ChatGPT 在图书馆智慧空间场景建设的主要应用在于导航与分析。在导航方面，虽然国内的公共图书馆和高校图书馆已普遍拥有智能机器人辅助导航，但是当前的智能机器人智慧程度较低、无障碍交互效果不佳。即将ChatGPT 所具备的多模态输入功能接入到智能机器人中，可以充分发挥数字包容特性，更好地帮助老年人和残障人士等弱势群体，达到“用户—需求—场景”的三方平衡。这一优势在虚拟空间场景将发挥得更加充分。在数据分析方面，将ChatGPT 接入图书馆数据中枢，可以对用户的使用习惯、阅读方式等进行同步更新与分析，再通过云计算、大数据技术进行用户画像，就能够提供精准的知识推送服务，满足用户的个性化需求，使整个图书馆空间场景更加智慧多元。

3.1.3 助力图书馆的智能咨询服务建设

凸显图书馆智慧服务的个性化与差异化是当前图书馆智慧服务工作的重要任务。如前文所述，ChatGPT 可以根据用户设定生成合适的回复，而不是单一的语气和态度，满足了用户的个性化定制需求。同时，ChatGPT 支持多模态多语种的输入，在文本方面，用户不再需要学习复杂的检索式与检索技能，只需要以自然语言的方式进行提问，且无须考虑语言鸿沟问题，ChatGPT 会精准识别用户的意图，尽力寻找用户所需的文献资源，并按照一定的排列逻辑进行返回，扩大智能咨询服务的覆盖面。同时，用户可以以图片的形式进行提问，ChatGPT 利用强大的图像处理能力将多模态实体进行对齐，返回对应的文字信息或图片信息，这也为一些弱势群体使用智能咨询服务提供了便利。ChatGPT 查询所采用的是对内容的检索分析而非简单地检索元数据，参考咨询的质量将因此得到很大提高。ChatGPT 还可以为用户建立知识库系统，分析用户的过往检索信息，为用户制定个性化知识库，从而提高用户对图书馆的黏性。

3.1.4 助力图书馆的馆员服务能力建设

随着社会的不断发展，图书馆服务也在不断完善，然而囿于传统思维，AI 技术的发展对图书馆服务产生了颠覆性的冲击。大部分图书馆在AI技术与服务业务的融合上仍有较大不足，主要原因在于馆员的技术能力未能跟上技术发展的步伐。因此，图书馆员需要提升自身的数字素养与数字技术能力。此前，图书馆界常以技术培训与研讨的方式帮助馆员学习新的技术，而今，ChatGPT对于馆员来说不只是开展服务的辅助工具，更是提升自身技术能力的“百科全书”，是实现图书馆员全面发展的有效工具。一方面，图书馆员无法完全了解纷繁复杂的馆藏资源，造成回复用户咨询时效率低下。ChatGPT 具有雄厚的知识背景，掌握多种语言，且支持翻译后统一为中文或英文，极大地方便了馆员整理书目和开展学科服务等工作，助力图书馆打造人机协同的服务新模式。另一方面，图书馆员是图书馆开展科学研究的重要人员，ChatGPT 可以帮助他们追踪学科前沿热点，协助他们进行特定资源的主题挖掘与分析，帮助其生成馆藏资源的元数据描述，还可以利用ChatGPT 在制度编制、新闻稿撰写、文章编译等方面为馆员提供帮助，减轻他们的工作压力，提升馆员的工作效率和信心。

3.2 ChatGPT 给智慧图书馆建设带来的风险和挑战

尽管ChatGPT 可以为智慧图书馆的建设带来诸多帮助，但是由于其仍处于发展阶段，故依然存在很多问题。OpenAI 是马斯克等人于2015 年成立的非营利AI 组织，马斯克已于2018 年离开，近日他在推特上炮轰OpenAI 违背初心，已经成为一家闭源的营利性公司［23］。因此，ChatGPT 的某些技术对于普通用户而言就是“黑箱子”。

3.2.1 隐私泄露问题

2023 年3 月23 日，OpenAI 的首席执行官Sam Altman 在社交媒体上宣布，由于开源代码库的一个错误，ChatGPT 出现了一个严重的问题，即在部分用户的聊天历史对话框中出现了别人的聊天记录［24］。而事实上，ChatGPT 的隐私政策中包含其可以使用用户的交互数据来辅助训练模型的条款。因此，一旦ChatGPT 类工具接入图书馆，大量的用户个人信息、阅读记录等有可能因技术手段等原因而被泄露。就研究者而言，很多学者通过图书馆来访问科研数据库，一旦接入了ChatGPT，有可能会在提问、查询、检索等阶段暴露自己的学术观点或意图，ChatGPT 目前已可以通过插件接入互联网，有可能会将与之前用户交互的数据重组后作为答案反馈给后来的用户。

3.2.2 问答真实性问题

ChatGPT 本质上是一个生成式模型，通过概率来不断生成后续的文本。搜索引擎是基于真实数据来返回网页或者答案，而ChatGPT 是依据概率生成的内容，无法保证其真实性和准确性［25］。正是由于其概率性，ChatGPT 针对某一个同样问题的前后回答甚至会自相矛盾。笔者要求ChatGPT 提供与“智慧图书馆建设”有关的学术论文时，其反馈的格式非常规范，但是很多论文最后证实是不存在的。如果用户询问的是本专业问题，用户还可以通过判断来确认其真实性，而当用户在做跨领域相关研究时，若不加以详细甄别，则很有可能会被误导。且GPT—4 已逐步向多模态方向发展，有心之人可以利用其生成“图文并茂”的虚假新闻，公众难以辨别真实与否。更甚者，这些错误的低质量信息会成为ChatGPT的训练数据，从而影响未来模型训练数据的质量。此外，ChatGPT 基于大量的网络数据进行训练，由于目前中文数据占比较少，受性别、种族、政治、文化背景等的影响，模型的训练数据可能存在一些偏见，针对很多涉及国家、民族的政治问题，ChatGPT 可能会给出带有偏见性甚者是错误的答案。

3.2.3 版权风险问题

ChatGPT 是基于大规模数据训练而成的，开发者目前并未完全开源其算法、数据、运行机制等。训练数据中可能包含大量具有版权的文本资源，ChatGPT 的回答也缺少对相应来源的引用，用户在采用相关答案时可能无形中就产生了剽窃、侵犯版权等问题。因此，这些内容在公开发表时，是属于ChatGPT 自身还是作者本身，仍有待商榷。

综上所述，用户在使用ChatGPT 类工具时，需要检查输出结果以确认来源的可靠性，注意保护自身的隐私安全，学会批判性思考，不盲目相信工具和模型。图书馆在引入ChatGPT 类工具时，需要对其进行监管，通过严格审查来检验模型的输出结果，确保相关内容符合法律法规，还需要设立应急管理机制以便及时删除错误信息。

4 结论

ChatGPT 给各行各业都带来了颠覆性冲击，尽管目前还存在一些问题，但是ChatGPT 在短短的数月内就进行了多次迭代升级，可见ChatGPT的时代已不可阻挡，也让我们看到了通用人工智能的曙光。图书馆作为开展资源服务、助力科研教育的重要场所，需要认识到ChatGPT 对图书馆建设的颠覆性影响。从图书馆机构到图书馆员，均需因时应势而变，积极做好馆藏资源建设与人员转型与储备，以迎接ChatGPT 时代的到来。