AIGC 赋能智慧图书馆建设:基础、特征、场景及策略∗

2023-04-18 22:13胡安琪
高校图书馆工作 2023年5期
关键词:模态人工智能智慧

●胡安琪

苏州科技大学图书馆,苏州,215009

引言

2017 年,微软人工智能少女“小冰”完成了世界首部完全由人工智能创作的诗集《阳光失了玻璃窗》。 2018 年,世界上首个由人工智能创作的肖像画《埃德蒙·贝拉米》在佳士得拍卖行以43.25 万美元成交,成为第一幅被拍卖的人工智能艺术品[1]。 2022 年, OpenAI 的大型语言生成模型ChatGPT 在各大领域掀起热潮,自公开试用以来,其用户规模在两个月内破亿,其具有高情商多轮对话和自动生成图片、文本、代码、音视频等能力,深受用户喜爱。 ChatGPT 的火爆出圈也引起学界对人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的高度关注。 2022 年9 月,中国信息通信研究院发布了《人工智能生成内容(AIGC)白皮书(2022 年)》,其中对AIGC 进行了定义,即AIGC 既是从内容生产者角度进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合[2]。 AIGC 技术实现了低成本的自动化内容生产,这一内容生产方式的转变将重塑内容生产供给行业,推动行业迈向新台阶。

目前,图书馆的内容生产模式仍以专业生产内容(Professional Generated Content,PGC)和用户生产内容(User Generated Content,UGC)为主,这两种内容生产模式的效率并不高且人机交互的智能性不强,从而导致用户体验不佳。 AIGC 的出现与发展,将推动图书馆内容生产模式的变革,实现“PGC+UGC”向“PGC+UGC+AIGC”转变。 同时,在国家积极推进全国智慧图书馆体系建设的背景下,AIGC 的发展也为智慧图书馆建设带来了巨大的机遇。 随着AIGC 技术的不断成熟和应用场景的大规模普及,以及图书馆智能化要求的提高,未来AIGC 在智慧图书馆内容生产中的比重将大幅提升。

1 图书馆内容生产模式的历史演化

现代图书馆正在经历从数字图书馆向智慧图书馆的变革,人工智能技术的出现与优化加速了这一进程,同时也推动了图书馆内容生产模式由“PGC”向“PGC+UGC”再向“PGC+UGC+AIGC”演化。

1.1 专业生产内容模式

PGC 是数字图书馆建设初期的主要内容生产模式,此时的互联网是静态互联网,其资源组织方式还是经典的目录式分类[3],内容的创建及发布权主要在专业人员手中,他们借助鼠标、键盘等传统输入设备生产内容,用户只能通过图书馆官方网页浏览内容,无法参与到内容的生产过程中。 该模式生产的内容具有较强的专业性,因而生产的内容质量较高,但其内容生产规模有限,内容生产成本会随着内容生产量的增加而不断提升[4]。

1.2 用户生产内容模式

数字图书馆向智慧图书馆过渡的主要内容生产模式是UGC,但这并不意味着对PGC 的摒弃,而是二者的叠加,即“UGC+PGC”。 在图书馆转型发展的过渡时期,移动互联网、社交媒体等平台大量涌现[5],内容生成及发布权由专家让渡给用户,用户通过语音操作、隔空手势识别等方式生产录入内容,成为内容生产的中坚力量。 用户从自身需求出发生产内容,内容呈现出个性化、多元化等特征,并借助平台推荐系统触达具有类似需求的用户。 该模式生产的内容呈现规模化特征,在很大程度上丰富了图书馆的资源,但其背后存在内容质量参差不齐的问题,用户的内容生产很难在保证内容质量和原创性的情况下兼顾更新频率。 因此,此种内容生产模式引发的效率问题亟待解决。

1.3 人工智能生成内容模式

AIGC 将成为智慧图书馆时代标志性的内容生产模式,在智慧图书馆发展阶段,内容生产模式转变为“PGC+UGC+AIGC”。 AIGC 是利用人工智能技术驱动机器创作内容,目前主要用于生成文本、图像、音频、视频等模态的信息。 早期的AIGC 基于小模型展开,为了与特定场景任务相匹配,这类模型需要特殊的标注数据训练,因此,该模型通用性较差,无法任意迁移。 2014 年,生成对抗网络(Generative Adversarial Networks,GAN)诞生,使AIGC 转向大模型领域,在大数据、大算力与强算法的支撑下,AIGC实现了各种模态内容的生成。 2022 年11 月,OpenAI 发布了ChatGPT,以此为代表的大模型AIGC 能够以对话的方式,在理解用户问题和上下文语境的基础上满足用户多样化的信息需求,并且可以在提问和回答的交互中通过基于强人工反馈的自主学习完成与用户的共同进步[6]。 AIGC 具有内容生产规模大、质量高、单位成本低的优势,将成为智慧图书馆的主要内容生产模式。 未来,随着AIGC模型的迭代更新,智慧图书馆内容将不断创新和发展。

2 AIGC 赋能智慧图书馆建设的技术基础

目前,AIGC 能够实现文本、图像、音频、视频等不同模态数据的生成与相互转换,将其应用于智慧图书馆建设,自然离不开底层支撑技术。 其中,计算机视觉技术、自然语言处理技术、多模态大模型技术作为AIGC 的关键技术支撑,将推动智慧图书馆海量数字内容的孪生、编辑和创作[7]。

2.1 计算机视觉技术支撑智慧图书馆数字孪生

智慧图书馆数字孪生是指将现实图书馆中的物理属性(如物体的大小、形状、颜色等)和社会属性(如主体行为、主体间关系等)进行数字化,建立从现实图书馆到虚拟图书馆的映射。 智慧图书馆数字孪生需要运用计算机视觉技术中的智能增强和智能转译技术。 智慧图书馆在数据内容采集、存储、传输过程中可能会出现数据缺失、损坏等现象,运用智能增强技术可以消除上述问题,将原有的低质量原始数据经过增强后生成高质量数字内容,使现实中的数据内容在虚拟世界中完成数字孪生并重构完整的客观世界。 相比于智能增强技术,智能转译技术更加注重不同模态数字内容间的相互理解、融合和转换。 在智慧图书馆建设进程中产生了大量文本、图像、音频、视频等多模态数据,为了与某些特定的服务场景相适应,需要进行大量的数据内容转换。 例如,利用智能转译技术将语音信息进行字幕合成,依据文本内容进行语音转换,甚至是将给定的图像、视频转换成文本、语音等[8]。

2.2 自然语言处理技术支撑智慧图书馆内容编辑

智慧图书馆内容编辑旨在对虚拟世界进行编辑,从而直接对物理世界产生作用,实现实时反馈和互动。 智慧图书馆内容编辑需要运用到自然语言处理技术中的语义理解技术和属性控制技术。 语义理解技术是对数字内容进行编辑的基础,智慧图书馆包含的数字内容大多以多模态形式呈现,且内容由多种不同的语义信息组成,早期的语义理解技术无法处理语义纠缠问题,随着自然语言处理技术的进一步发展,基于生成模型的可解耦语义学习技术诞生,通过理解并学习不同语义成分的变化,可解耦语义学习技术对数据内容有更深刻的理解。 在语义理解技术的基础上,数字内容的智能属性控制技术将直接根据用户给定的属性,对原有数字内容进行修改、编辑。 属性控制技术可以被运用于智能图像编辑、文本改写、智能调音等工作任务中,从而提高智慧图书馆数字内容的创作效率。

2.3 多模态大模型技术支撑智慧图书馆内容创作

智慧图书馆内容创作可以分为基于模仿的创作和基于概念的创作。 基于模仿的创作需要人工智能模型先观察人类的作品,通过学习这类作品的外部特征和内在特征,然后进行模仿式的创作。 2018年,世界上首个出售的人工智能艺术品就是人工智能模型基于模仿创作的佳品。 基于概念的创作不再是简单地对某一类型的作品进行观察和模仿,而是致力于在海量数据中学习抽象的概念,进而通过对不同概念的组合进行全新创作。 基于概念的创作需要依赖算法模型对多模态数据进行理解、融合及生成,多模态大模型技术的迭代升级为智慧图书馆基于概念的创作带来了极大的发挥空间。 多模态大模型技术主要用于寻找不同模态数据间的对应关系以及实现不同模态数据间的相互转化和生成。 基于多模态大模型技术,AIGC 具备了更加接近人类的创作能力。 例如,近期火爆的ChatGPT,在极大程度上繁荣了内容市场,在内容创作领域发挥了巨大价值。

3 AIGC 赋能智慧图书馆建设的内在特征

AIGC 正越来越多地参与数字内容的创意生产工作,以人机协同的方式释放价值,成为新一代互联网的内容生产基础设施。 智慧图书馆建设的重点目标是为广大用户群体提供智慧化服务,AIGC 在底层技术支撑下将推动智慧图书馆跨越式发展,同时呈现出用户体验升级、内容生产效率高、个性化特征显著、双向实时交互增强等内在特征。

3.1 用户体验升级

区块链、人工智能、虚拟现实、5G/6G 等技术的迅猛发展,推动智慧图书馆向元宇宙空间延伸,实现“在线”向“在场”转变,AIGC 将成为打造图书馆虚拟世界的重要基石。 AIGC 除了能够生产文本、图片、音频、视频等二维内容,还能结合虚拟现实技术生产三维的立体物、场景及数字人。 在AIGC 技术的支撑下,用户能够在虚拟场馆中体验各种文化活动,用手触摸三维立体书籍、文化艺术品等,还能与各类用户的虚拟化身进行实时交互,包括对话、握手、共同合作完成某项任务等,当用户的视觉、听觉、触觉、嗅觉、味觉等多感官交织在一起时,用户体验将产生跨越式提升。

3.2 内容生产效率高

AIGC 赋能智慧图书馆建设的一个显著特征是内容生产效率大幅度提高。 相较于PGC 和UGC,AIGC 可以在很短时间内生成大量数字内容,使其服务于智慧图书馆建设。 随着多模态大模型的不断优化,AIGC 能够从大量数据中学习并识别人类无法发现的复杂内容。 因此,未来AIGC 可能在内容生成质量上超越人类。 此外,AIGC 还具有规模递减优势,即随着AIGC 生产内容规模的扩大,单位内容产生的边际成本趋近于零。 此外,AIGC 赋能下的人机协同生产模式能够释放工作人员的时间和精力,将部分程序化任务交由人工智能完成,工作人员则能够将更多精力专注于服务形式及内容的深度创新,从而不断提高内容生产效率。

3.3 个性化特征显著

以ChatGPT 为代表的AIGC 模型拥有对话情境理解能力,该能力能够依据用户的历史对话信息理解用户实际知识需求,并结合当前学习内容,为用户提供个性化学习支持[9-10]。 同时,AIGC 还能够通过多轮对话发现用户对某些内容的错误理解,进而及时纠正,为用户提供符合其年龄、身份的个性化内容。 此外,AIGC 技术还能够与云计算、大数据等技术紧密结合,全面记录用户的个人身份信息、借阅信息及搜索信息,并不断模仿人脑的思维方式进行自主学习[11],主动分析用户的多样化信息需求,提取关键信息,从而为用户进行个性化服务推荐[12],实现内容服务的精准触达。

3.4 双向实时交互增强

从人工智能的实践成果来看,目前,AI 交互类产品种类很多,但早期的AI 交互类产品大多以“语义预定义型”规则为主,这些AI 交互类产品可以辅助用户进行交互行为,但它们是基于用户的习惯性行为需求而产生的,因此,不会对用户交互行为生态产生重要影响。 而内容生成式AI 产品聚焦于“语义生成型”规则,在尊重用户习惯性交互行为的前提下,又具有一定的行为方式引导性,进而从根本上重塑了用户交互行为的生态结构[13]。 ChatGPT 聊天机器人模型是内容生成式AI 的代表性产品,其能够学习并理解人类语言,与用户进行自然、连贯的多轮对话[14],能够对用户提出的问题产生质疑,并为用户提供多种解决方案。 当智慧图书馆引入AIGC类产品,用户与机器、环境的交互模式将发生重大转变,交互的即时性和高效性将显著提升。

4 AIGC 赋能智慧图书馆建设的应用场景

目前,人工智能时代已经到来,智慧图书馆必须紧紧抓住AIGC 的时代机遇。 在计算机视觉、自然语言处理、多模态大模型等底层技术的支撑下,将用户体验升级、内容生产效率高、个性化特征显著、双向实时交互增强等内在特征作为AIGC 与智慧图书馆融合发展的运行逻辑,积极探索AIGC 赋能下的智慧图书馆建设场景与应用,从而推动智慧图书馆内容生态螺旋式上升发展。

4.1 智慧生产系统:多元化生产

智慧图书馆时代也是“模型”主导内容生成的时代,以人为主的知识生产将被以机器为主的内容生产取代。 因此,智慧图书馆可以利用AIGC 技术打造全新的智慧生产系统。 智慧图书馆的智慧生产系统包括两大部分:一是原有馆藏资源的数字孪生,即将AIGC 与计算机图形学、区块链等技术相结合,将智慧图书馆馆藏资源以数字孪生的形式进行复刻,实现实体馆藏数字化。 通过这种方式,将会实现馆藏资源在虚拟空间的永续保存。 二是原生数字资源生产,AIGC 技术支撑下的原生数字资源生产需要依靠多模态通用大模型、强算力和大规模训练数据,而图书馆是数据内容的聚集地,除了拥有书目、论文、专利等文献资源数据和用户个人资料、阅读行为等用户数据[15],还包括各种传感器动态实时捕捉的智慧图书馆环境状态数据[16],这些数据将融入AIGC 的整体架构中,成为预训练数据的一部分。AIGC 赋能下的智慧图书馆不仅可以大规模生产出文本、图片、音频、视频等内容,还能进一步生产出3D 物品、虚拟场景、数字人等内容,并实现多模态数据内容的转换生成。 2022 年9 月,谷歌发布了文本生成3D 模型工具DreamFusion,同年12 月,英伟达在NeurIPS 上展示了AIGC 模型GET3D,该模型具备生成具有显示纹理的3D 网格的能力,可根据2D图像快速合成3D 物体,这2 个模型在生成速度和分辨率上都在不断升级,智慧图书馆可以借助此类工具重塑图书馆内容生态,拓宽现实世界和虚拟世界的边界,为用户提供虚实融合的沉浸式体验。

4.2 智慧检索系统:生成式检索

在数字图书馆信息检索过程中,用户需要对检索词的组合进行反复试验和修正才能检索出所需答案,如果想要进行更加精准的检索,还需要具备一定的检索技能和知识,因而大多数用户的检索效率不高。 当AIGC 技术及其代表性产品出现后,智慧图书馆可以借此打造智慧化检索系统,实现“生成式检索”,该系统以自然语言处理、机器学习、计算机视觉、人机交互、数据挖掘等技术为支撑[17],检索依托的终端设备可以是手机、平板、穿戴设备等。 当用户输入文本、图像、音频、视频等多模态自然语言查询请求时,系统首先将用户的多模态自然语言转换成特定的知识表达形式,并利用AI 的内容理解、知识学习、计算推理等技术[18]以可视化方式向用户输出个性化、智慧化的答案。

4.3 智慧传播系统:精准化传播

数字图书馆信息内容传播主要依靠的是馆员,但此种传播模式在服务时间、服务内容和服务质量上不可控[19]。 随着人工智能技术的普及和发展,图书馆陆续开发了各类机器人承担信息传播任务。 例如,清华大学图书馆开发了基于AI 标记语言的机器人“小图”,上海交通大学图书馆开发了基于MSN的聊天机器人“小交”[20],但此类型的机器人目前还无法处理复杂的用户需求。 ChatGPT 的火爆出圈使GPT 技术被高度关注,智慧图书馆可以将GPT 技术与机器人技术进行有效结合,开发更适合特定服务场景的智能聊天机器人,构建智慧图书馆的智慧传播系统。 在该系统中,用户可以运用自然语言与系统进行交流,系统可以有效识别用户声音、表情、行为及所处环境[21],通过语义分析、机器学习和计算机视觉等技术,准确理解用户意图,快速搜索与用户最为匹配的信息,并根据语料库中的知识计算出最佳答案,将答案进行智慧化推送。 同时,该系统还能够在多轮人机交互过程中不断优化模型,以更加智慧化的形式为用户提供知识服务。

4.4 智慧评估系统:个性化评估

AIGC 可以辅助智慧图书馆创建智慧化学习评估系统[22],在学习开始前,人工智能系统可以针对用户以可视化的形式生成用户自身情况分析报告,让用户明晰自身原有的知识结构,从而选择合适的学习方向。 在学习过程中,人工智能系统将实时收集用户在整个学习过程中的数据,包括表情数据、动作数据、心理变化数据、生理反应数据等,针对这些结构化和非结构化数据,运用大数据分析技术、数据挖掘技术进行关联规则分析、回归分析、聚类分析[23],形成智能化评估报告,并通过云服务推送给用户[24],帮助用户了解当前学习状态和挑战,从而为用户提供个性化的学习建议。 在学习结束后,人工智能系统将以可视化的形式展现用户在整个学习过程中的认知学习图谱,让用户了解自身认知迁移变化,同时,该系统还能够将评估结果与其他利益相关者共享。 在人类反馈强化学习机制支持下,人工智能系统甚至能够分析用户对评估结果的反应。AIGC 支撑下的智慧化学习评估系统将重塑智慧图书馆评价模式,使其向智能化、智慧化方向发展。

5 AIGC 赋能智慧图书馆建设的发展策略

AIGC 时代已来临,智慧图书馆应当借助计算机视觉、自然语言处理、多模态大模型等技术变革机遇,在新的运行逻辑下针对多元化生产、生成式检索、精准化传播、个性化评估等服务场景,通过完善基础语料库建设、训练高质量大型语言模型、提升相关人员数字素养、升级智慧图书馆基础设施等手段,推动智慧图书馆的发展跃上新台阶。

5.1 内容生产层面:完善基础语料库建设

AIGC 技术应用的关键在于海量多源多模态数据资源,智慧图书馆作为数据资源的聚集地,拥有强大的数据基础。 其不仅拥有图书、期刊、专利等静态馆藏数据,也包含用户借还书、查询、参考咨询、荐购等动态数据,同时还涉及各种传感器动态实时捕捉的图书馆环境状态数据。 将这些海量的数据资源作为AIGC 的“燃料”和“驱动力”,可以为图书馆生产适应各大场景的文本、图片、视频、音频等数据内容,但这也存在一些问题,诸如数据标注费时费力、数据多样化不足、数据获取与使用面临隐私保护的挑战等。 因此,图书馆需要探索新的路径来完善基础语料库建设。 而合成数据可以帮助图书馆解决上述问题,其是计算机模拟技术或算法创建、生成的自标注信息,可以在数学或统计学层面反映真实世界数据的属性,能够作为真实世界数据的替代品来训练、测试AI 模型[25]。 图书馆利用合成数据技术可以改善数据质量、避免用户隐私泄露、增加数据多样性、提升AI 模型训练速度和效果。 因此,未来可以将合成数据纳入智慧图书馆基础语料库建设,推动智慧图书馆的可持续化发展。

5.2 内容检索层面:训练高质量大型语言模型

AIGC 将重塑智慧图书馆信息检索新范式,基于海量文献数据训练高质量的大型语言模型是将人工智能模型嵌入智慧图书馆检索服务中的关键。 大型语言模型的训练和学习是文本生成的核心,并且大型语言模型具备易扩展性,能够实现跨模态的知识沉淀,同时,还能够利用海量无标注文本进行预训练。 智慧图书馆可以参考基于人类反馈的强化学习思路,以图书馆海量文献数据、用户行为数据、空间环境数据等为基础构建大规模语言模型,通过反复测试、迭代,不断优化,使其在关键词生成、文献分类、智能问答、文本相似性计算、摘要生成、情感分析等图书馆检索服务中发挥价值。

5.3 内容传播层面:提升相关人员数字素养

内容传播效率的提升除了需要依靠智能机器设备,还需要依赖高数字素养的馆员和用户。 一方面,AIGC 技术的准入门槛较高,图书馆馆员中拥有人工智能专业背景及相关技术的人员并不多。 另一方面,AIGC 与智慧图书馆深度融合后会引发系列问题,诸如知识产权归属与认定困难、虚假信息与错误信息泛滥、用户个人隐私信息泄露 、算法歧视等。因此,智慧图书馆在引入AIGC 技术之前,需要配备AIGC 技术团队,通过提供后期专业学习和定期培训的形式打造适应各种场景应用开发的复合型人才队伍,提升内部人员的数字素养。 同时,图书馆需要通过常规培训与制度安排,培养工作人员及用户的AIGC 技术风险认知、个人隐私信息保护意识、AIGC生产虚假信息鉴别能力,以提升工作人员和用户的数字素养。 此外,图书馆还可以联合相关部门制定一套适合我国本土发展的用户数字素养评价指标体系,通过评价与反馈不断优化数字素养提升路径。

5.4 内容评估层面:升级智慧图书馆基础设施

基础设施是AIGC 生产数据、存储数据、分析数据和利用数据的载体,也是推动智慧图书馆发展的支撑力量,因此,升级图书馆基础设施是打造智慧图书馆智慧评估系统的基础和保障。 首先,AIGC 在智慧图书馆中的应用对算力提出了较高要求。 例如,GPT-3. 5 模型采用了海量的训练数据,拥有超过1 750 亿个参数,其在Azure AI 基础设施上进行训练,总算力需要消耗3 640 PF-days(即假如每秒计算1 000 万亿次,需要计算3 640 天)。 然而,目前绝大多数图书馆无法独立承担如此庞大的算力供给,因此,图书馆可以借助企业设施和国家工程提高算力。 例如,图书馆可以依托企业GPU 云服务器和国家“东数西算”工程,利用API 接口调用相关应用程序来打造智慧图书馆基础设施体系。 其次,图书馆应当投入一定的资金来购买智能可穿戴设备。 例如,美国罗得岛大学图书馆已将可穿戴技术引入图书馆中,用户借助可穿戴设备可以自由进行阅读、学习和交流,图书馆继而收集可穿戴设备中的多模态数据,利用人工智能模型对用户的生理和行为数据进行综合分析和评估。 由此可见,AIGC 与可穿戴技术的结合,对智慧图书馆建立强大的智慧评估系统十分关键。

6 结语

AIGC 的内容创造力、跨模态融合及认知交互力等技术优势将进一步推动图书馆传统服务模式的转型,逐步实现“AIGC+”的智慧化服务模式。 未来AIGC 在智慧图书馆中的应用场景将进一步拓展,结合区块链、虚拟现实等技术,最终实现场景间的深度融合,构筑虚实融合的“自生成、自更新”[26]的新型内容生态。 但不可否认的是,目前AIGC 技术发展还不够成熟,将其应用于智慧图书馆建设还存在一些难点。 因此,在智慧图书馆建设进程中,应当提前制定好AIGC 战略性发展框架,通过单点局部建设,逐步推动整体发展。

猜你喜欢
模态人工智能智慧
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
有智慧的羊
由单个模态构造对称简支梁的抗弯刚度
智慧派
多模态话语模态的协同及在外语教学中的体现