宋灵超
2017年政府工作报告明确提出大力发展人工智能技术[1],自此国内人工智能领域进入快速发展阶段。同年第六次全国公共图书馆评估工作中,智能数字参考咨询成为省级(副省级)评估定级加分项纳入评估标准。智能化管理和服务已经成为图书馆发展与建设工作的重要组成部分[2],引起业界学者的高度关注。图书馆智能咨询服务是在智能技术不断发展的前提下,在读者对咨询服务实时性、便捷性的需求下诞生的。它梳理咨询问答并基于信息组织理论搭建知识库,采用人机对话方式在线解答读者咨询。与传统咨询服务相比,智能咨询可以24小时在线,无须专门场所,无须现场值守人员[3]。这些优势让其快速发展并成为智慧图书馆建设的重要一环。笔者在2022年1月时调研国内“双一流”一期建设的42所高校智能咨询服务应用情况,发现有18所高校图书馆上线该服务,占比达42.86%。可见,智能咨询服务应用于国内高校图书馆已较为普遍。
随着我国图书馆智能咨询服务发展,研究理论、方法也在不断更新、迭代,研究成果大量发表于学术期刊上。但同时,部分图书馆在系统建设方面缺少理论指导,不了解读者需求,智能咨询服务无法充分体现AI功能,甚至成为智慧图书馆推广的阻碍因素[4];部分学者对这一领域缺少认知,不确定哪些研究角度对促进服务发展有重要意义。文献调研发现,目前国内并无关于图书馆智能咨询服务发展现状的综述和文献计量类研究。有关图书馆智能技术的综述研究[5-8]集中于智能技术在图书馆的整体应用,对智能咨询服务只是从功能角度介绍服务的特点和应用,缺少深入透彻的文献梳理和主题分析。因此,梳理研究成果,探究我国图书馆智能咨询服务的发展历程和研究热点、研究趋势,为系统建设提供参考,为学者提供研究思路就显得十分重要。本研究以文献计量学理论为基础,结合可视化技术,对我国图书馆智能咨询服务科研文献进行系统梳理,并从多个角度挖掘研究主题和研究热点,试图回答:图书馆智能咨询服务的研究现状如何?现有研究在哪些主题上取得了成果?对该领域的未来发展路径有何展望?
(1)数据来源。本研究主要针对我国有关图书馆智能咨询服务的科研文献展开调研,为保证研究数据权威性和代表性,选择中国知网(CNKI)、万方、维普3个国内具有代表性的数据库作为数据来源。
(2)处理过程。本研究以“(智能咨询OR自动问答OR聊天机器人OR智能回复OR智能问答)AND图书馆”为检索式,在CNKI、万方中使用主题检索,在维普中使用“题名或关键词”和“摘要”字段检索,检索时间截至2021年12月31日,获取文献:CNKI 99篇,万方58篇,维普246篇。为提升数据质量,对文献进行二次筛选,筛选标准为题名、关键词或摘要中明确提出图书馆智能咨询,剔除新闻报道、重复文献等,最终获得182 篇论文。本研究依托平台导出EndNote格式引文数据,基于“篇名、作者、期刊、关键词、摘要、时间、基金”等数据进行分析,其中CNKI和维普导出数据并无基金信息,笔者采用人工查询汇总方式进行二次收集,最终形成“我国图书馆智能咨询研究基础文献数据集”。
(3)研究方法。本文主要利用文献计量学理论展开研究。利用Excel展示文献数量随时间分布情况,利用可视化工具RAWGraphs展示期刊分布、基金分布、机构分布情况,利用可视化工具VOSViewer展示作者分布、关键词分布情况。
文献数量随时间分布反应主题研究趋势。从图1可知,本主题2001年出现1篇文献,2021年文献达19篇。现代科学发展时期科学文献的年率递增可6%-8%[9]。在本研究中,2001-2021年文献年率递增15.86%,远高于平均水平。研究数量在2019 年达到最高峰,随后出现下降,基本维持在20篇左右。从分布规律看,本主题文献在2016年前年发文数量10篇以下;2017-2019年爆发式增长,年均发文数大于18篇。数量的暴涨反映智能咨询服务已引起业界关注。
图1 发文数量逐年分布图
本研究涉及82种期刊,182篇文章。参照布拉德福定律[10],将期刊分为3个区域:第一区为核心区,期刊7种,发文量区间7-10篇,论文60篇,占比32.97%;第二区为相关区,期刊20种,发文量区间2-5 篇,论文62 篇,占比34.07%;第三区为非相关区,期刊总数55种,发文量区间1-2篇,论文60篇,占比32.97%。
为探索发文学科信息,笔者以CNKI“期刊导航”中“学科导航”里的“专题名称”为分类依据,排除6种未被收录的期刊,统计剩余76种期刊的学科信息,排名前四的依次为:“图书情报与数字图书馆”34种,发文123篇;“计算机软件及计算机应用”7种,发文8篇;“基础科学综合”5种,发文7篇;“教育综合”4种,发文4篇。由此可知,研究主要集中于图书情报学科,少量分散于计算机、基础科学、教育等学科之中,跨学科研究趋势不明显。
基于图书情报学科为主要研究学科的统计结果,以2021 年“中文社会科学引文索引(CSSCI)”为统计标准,探究上述期刊被CSSCI(包括扩展版)收录情况。统计发现,82 种期刊中,CSSCI收录18种,占比21.95%。按区域划分,核心区3种(共7种),相关区13种(共20种),非相关区2种(共55种);但是,CSSCI收录期刊发表论文75 篇,占比高达41.21%。按区域划分,核心区35 篇(共60 篇),相关区38 篇(共62篇),非相关区2篇(共60篇)。收录该主题文章的CSSCI 收录期刊平均刊载4.17 篇,远高于非CSSCI收录期刊的1.67篇,这反映出CSSCI收录期刊对该主题的关注更多。以核心区为例展示期刊及其发文数,见图2。
图2 核心区期刊及其发文数目
本数据集有63篇文章有项目基金支持,占比34.62%。其中,53篇文章有1个基金支持,8篇文章有2个基金支持,2篇文章有3个基金支持。根据项目归属基金和编号信息梳理、去重后得到6个分类72个项目。按照基金类型分为3个层次:第一层次为国家和部委级,包含:国家社会科学基金13个项目,国家自然科学基金3个项目,教育部人文社会科学基金2个项目;第二层次为各省市和高校级,包含:省市科研基金36个项目,高校科研基金15个项目;第三层次为其他科研组织级,共3个项目。根据数据统计结果,笔者绘制圆形树状图,对省市科研基金进一步细化,如图3所示。从图中可知,校级基金和国家社会科学基金支持发文数量最多,占比38.89%;各省市中,江苏(7)、黑龙江(6)和广东(5)基金支持发文数量最多。由此可知,研究受到国家、省市和高校多层次关注。
图3 基金类型分布图
本数据集包含研究机构168个。单篇论文机构数从1至4,其中单一机构论文163篇,占比89.56%,两个及以上机构论文19 篇,仅占10.44%,可知多机构合作比例较低。
机构信息的粗细粒度不统一。例如,四川大学信息管理系和四川大学公共管理学院都属于四川大学。对类似机构数据进行处理后得到142个机构。笔者基于这一数据从地域分布和机构发文数角度分析热点发文机构信息。首先,除1篇文章涉及美国华盛顿州外,其余涉及国内27个省级行政区。发文数排名前9的省级行政区为:江苏(34 篇)、北京(21 篇)、广东(16 篇)、湖北(15篇)、吉林(13 篇)、黑龙江(12 篇)、浙江(11 篇)、河南(8篇)、上海(8篇),占比75.82%;单个机构发文多于3篇的有16个,排名前三的依次为南京大学(6 篇)、武汉大学(6 篇),国家图书馆(5 篇),图4中笔者绘制树形图展示发文量较多的部分机构和对应省级行政区。
图4 部分机构发文量统计
本数据集有作者280人,篇均1.54人;第一作者164人,人均发文1.11篇。所有作者中,发文4篇的2人,占比0.71%;发文3篇的21人,占比7.50%;发文2 篇的19 人,占比6.79%;发文1 篇的252 人,占比90.00%。第一作者中,发文4篇的2人,占比1.22%;发文3篇的2人,占比1.22%;发文2 篇的8 人,占比4.88%;发文1篇的152人,占比92.68%。根据统计结果,结合普赖斯定律[11],从所有作者角度分析,发文数量排名前17的作者发文53篇,占比29.12%。从第一作者角度分析,发文数量排名前13的作者发文31篇,占比17.03%。两个数据均距50%存在很大差距,不符合普赖斯定律,说明高产作者数量偏少,绝大部分作者属于低产作者,杰出作者有待形成。在VOSViewer提供的作者关系图中,链接强度反映作者间合作强度。针对所有作者数据得到聚类157簇,簇中作者数量从1至12,合作总强度为482。选取合作总强度最大的4个簇进行展示,如图5所示。图5中展示了以柳益君、姚飞、王晰巍和胡潇戈为代表的合作者共现情况,分别刻画了江苏理工学院12个作者4篇论文、清华大学7个作者4篇论文、吉林大学6个作者2篇论文、武汉大学6个作者2篇论文的链接情况;而节点的颜色则代表发文年份的平均值。分析可知,清华大学的研究起步较早,江苏理工学院、武汉大学和吉林大学近些年初步形成了研究团队,取得了一定的研究成果,但数量较少,需要进一步加强。
图5 强度排名前四的作者簇
本数据集包含关键词726个,篇均3.99 个,去重后383 个。累计出现10次及以上10个,5次及以上27个,3次及以上35个,2次及以上79个。本研究选择3次及以上关键词,绘制关键词可视化图表,见图6。
图6 关键词出现次数大于等于3的可视化图表
图6中节点大小表示关键词出现频次,以节点大小衡量高频词出现情况,排名前十的关键词依次是:图书馆(53)、人工智能(36)、参考咨询(34)、高校图书馆(20)、智慧图书馆(16)、智能咨询(13)、微信(12)、机器人(10)、数字图书馆(10)、信息服务(10)。这些词代表热点研究方向;节点间连线表示关键词共现强度,以节点链接数衡量词语的共现情况,排名前十的词语依次是:图书馆(25)、人工智能(20)、参考咨询(19)、智慧图书馆(14)、信息服务(14)、高校图书馆(12)、微信(12)、智能咨询(11)、深度学习(10)、信息咨询(10),这些词形成主要研究大类;节点用渐变颜色表示时间属性,每个节点的时间由包含该关键词的文献出版时间取平均值计算得出。从时间维度分析,排名前十的最新热词依次是:智慧图书馆(2019.81)、自然语言处理(2019.50)、新媒体(2019.50)、深度学习(2019.11)、智慧服务(2018.67)、图书馆机器人(2018.67)、机器学习(2018.60)、人工智能(2018.47)、智能机器人(2018.29)、智能(2018.20)。对关键词时间属性四舍五入取整,结合RAWGraphs工具,统计得到历年研究热词,见图7。
图7 历年研究热词统计图
结合图7研究热词,提取关键词所属文献进行研读、归纳,总结出以下4个研究主题。
图书馆智能咨询服务是利用智能技术对咨询服务理论的探索。结合关键词可视化分析可知,这种探索主要集中在早期研究中。按照研究内容的不同,可以分为对图书馆引入智能咨询服务可行性探讨、对理论模型构建方式探讨两部分。
对图书馆引入智能咨询服务的可行性探讨是智能咨询服务诞生的前期理论准备。这些研究有从信息咨询服务的智能化趋势角度展开,基于咨询信息和手段智能化态势[12-14],人工智能技术和咨询服务相结合的方法[15-16]等多维度推导图书馆智能咨询服务的可行性与必要性;也有研究从咨询服务发展现状角度展开,通过对数字参考咨询[17]、实时参考咨询[18]的现状调研得出智能咨询将在参考咨询中扮演重要角色的结论。
对理论模型构建方式的探讨是对构建机制、方法的理论研究。这些研究既有将智能咨询作为咨询模型的一部分开展研究[19-21],也有将其作为独立个体展开研究[22-24]。从共性角度分析,智能咨询模型大体可分为知识库、技术层和应用层三层架构[24]。从图7可以看出三层架构是后续研究重点,其中,知识库负责问答知识的收集、组织,与“知识库”关键词对应;技术层是对知识推理方法的研究,与“深度学习、机器学习、自然语言处理”等关键词对应,是近年研究热点;应用层是系统与读者沟通的交互层,与“微信、智能机器人、咨询机器人、新媒体”等关键词相对应,也是当前研究热点。
知识库是影响智能咨询系统服务效能的核心要素[25],决定服务深度和广度[26]。在图7中,“知识库”是研究重点。知识库建设核心问题在于知识来源获取、分类组织方法。
知识来源获取是知识库建立的前提条件,目前主要通过互联网、FAQ问答库、本馆特色知识库[27-30]获取。其中,互联网途径是指从“百度百科”等网络问答资源库获取大量范围广泛的知识问答,但该方式容易导致知识库容量过大,满足读者需求程度存疑;FAQ问答库是指各图书馆公开的咨询问答信息,满足需求的概率更高,但没有形成完备的知识体系;本馆特色数据库是图书馆收集本校读者咨询形成的特色库,更符合本校读者需求。
分类组织是指基于特定领域信息对结构化或非结构化知识进行存储,方便系统后续获取和利用。在现有研究中,李玲等[28]利用元数据规范结合工作实际提出知识库多级分类及建设方案;胡潇戈等[31]引入知识图谱构建多源数据融合的图书馆智能咨询系统知识库。
目前知识库相关的研究数量较少,覆盖也不全面。例如,知识来源获取缺少读者的参与,组织分类缺少从图书馆功能、服务类型以及后期维护角度的考量。
知识推理类研究是探讨系统推理逻辑,核心在于读者提问与知识库问题的匹配机制。知识推理是系统开发的重点与难点,目前的解决方案包括范例推理[32](Case-Based Reasoning,CBR),关键词、Tag标签匹配[33-34],人工智能标记语言(Artificial Intelligence Markup Language,AIML)模式匹配算法[35-36],关联数据SPARQL 查询匹配[37],深度学习匹配算法[38],知识图谱向量相似度匹配算法[39-40]等。此外,有研究者利用算法优化提问形式提升匹配准确率[41]。基于关联数据、深度学习、知识图谱的知识推理是当前研究热点。
交互平台类研究是对智能咨询服务与读者交互方式的探讨。按照载体不同分为虚拟平台类研究和实体机器人研究。虚拟平台类研究大多利用即时通讯工具开展服务。涉及的工具从早期BotPlatform[33]、MSN[34]到目前的微信[30,42]。随着新媒体技术发展,跨媒体[43]平台建设也引起学者关注。实体机器人研究在软件基础上结合硬件技术制造出实体机器人,将智能咨询服务从虚拟融入现实,如中国矿业大学图书馆和国家图书馆结合语音、运动控制技术构造实体咨询机器人[44-45]。
(1)学科交叉融合发展趋势不明显。图书馆智能咨询服务主要由图书情报学科与计算机学科交叉演变而来。然而,基于发文期刊所属学科信息可知:“图书情报与数字图书馆”占比67.58%,“计算机软件及计算机应用”占比仅有4.40%,跨学科科研数量明显偏少。这反映出国内研究依旧以图书馆领域为主力,研究主题并未得到计算机领域的重视,学科交叉融合发展趋势不明显。
(2)研究黏性和科研合作不足。基于所有作者发文信息统计,仅发表1 篇文章的作者占比90.00%,按照发文数量可划分为低产作者,可见研究持续性较差、黏性不足。同时,科学研究需要观点、思路的碰撞,不同学者对同一问题的解决思路、方法会存在差异,不同机构所面临的实际问题也不同。因此,学者间、机构间合作对增强科研水平、寻找新的研究问题具有重要意义。然而,作者共现和机构合作统计结果表明,我国无论是作者合作还是机构合作发文均较少,跨机构合作更少。因此,从产出角度分析,研究黏性不足;从合作发文角度分析,作者、机构间合作有待加强。
(3)智慧度和功能拓展不足。以当前技术水平,智能咨询只能针对常见问题给出明确回复,尚无法完全取代人工咨询。同时,结合文献主题归纳和系统调研,目前图书馆智能咨询服务与其他服务之间大多是独立的,个性化服务能力偏弱。例如,大多系统并未接入图书检索、借阅查询等功能,欠缺对读者需求特征的把握。以南开大学图书馆为例,笔者调研发现在人工参考咨询与智能咨询均可获取时,读者使用智能咨询服务的主观意愿并不强烈。
(4)反馈机制和评价体系不成熟。智能咨询服务的最终目的是解答读者咨询。因此,读者的使用体验对系统优化起到决定作用。然而当前研究对读者咨询需求、咨询体验关注极其欠缺。有研究[24]提出建立反馈机制,但是仅局限于理论探讨,并无应用案例。同时,目前并未形成评价指标与评价体系,系统之间无法进行量化比较。
(1)加强科研合作,形成研究团队。近年学科交叉发展势头明显,利用交叉学科共有的研究领域可以产生新学科生长点和研究前沿[46]。温芳芳等[47]指出:当前学科交叉与融合趋势日益显著,科学研究的合作化、集体化倾向加强。而图书馆智能咨询服务具有明显的学科交叉属性,但在科研合作方面存在明显不足。因此,利用学科交叉发展现状,强化科研合作,对服务的发展至关重要。在具体执行方面,笔者以为可以从图书馆、科研学者两个角度提供实现路径。图书馆应重视智能咨询技术对传统咨询服务的改良和优化,利用现有平台(如CALIS、全国图书馆参考咨询联盟)整合国内高校、公共图书馆智能咨询服务,促进知识库资源共享和图书馆之间的交流合作,为服务的规范化发展提供保障;关注本主题的学者应将目光转向学科之间的交叉融合,主动寻找与其他学科技术、方法层面的结合点,强化不同学科间合作,构建研究团队,寻找新的研究点,推动研究主题发展。
(2)加强新技术应用,拓展咨询服务功能。智慧图书馆建设打破了各业务系统之间的数据壁垒,基于数据共享和挖掘的一站式服务成为可能。智能咨询服务可以利用数据治理成果,融入读者常用的文献检索、借阅查询、座位预约等功能,再结合最新的技术手段,让服务功能得到拓展,服务能力得以加强。以当前较为热门的技术手段为例,可以利用用户画像技术[48]抽取用户特征标识,构建“虚拟世界人像”,为读者搭建便捷、功能全面、个性化的智能咨询服务;可以利用图数据库技术构建复杂网络,形成蕴含更多信息的向量化表示以精准的完成问题匹配;可以结合硬件的发展,融入最新的语音、运动控制技术成果,打造功能完善的实体机器人,让智能咨询服务“看得见、摸得着”。
(3)加强评价类研究,形成良性发展循环。与参考咨询服务通过评估发掘并解决问题,提升服务质量相类似[49],智能咨询服务需要通过评估提升服务质量。在具体操作上,一方面,可以从读者需求入手,通过问卷、访谈等收集读者对智能咨询服务的使用体验和功能需求,制定并不断完善基于读者需求的评价指标体系,推动系统功能优化;另一方面,可以从系统对比评估角度入手,通过对不同系统应用效果的对比分析,从知识库建设、回复准确率、功能差异等多角度开展对比评价,基于评价结果形成规范和标准。基于以上方式,系统可以形成良性发展循环,避免成为“空中楼阁”,也能拓展研究角度并注入活力。
从文献计量结果看,近年我国图书馆智能咨询研究数量上升趋势明显;研究集中于图书情报领域;获得包括国家社科基金在内的多级别基金支持;南京大学、武汉大学等机构发文数量较多;中低产作者比例偏高。现有研究可分为可行性与理论模型类研究、知识库类研究、知识推理类研究和交互平台类研究;目前面临学科交叉融合趋势不明显、研究黏性和科研合作不足,智慧度和功能拓展不足,反馈机制和评价体系不成熟等问题,未来可从加强科研合作、加强新技术应用、加强评价类研究等路径进行拓展。本研究以科研文献为数据来源展开研究,缺少对用户应用数据层面的探索,未来将从这一角度展开系统评价类研究,以期推动图书馆智能咨询服务的发展。