勇美菁,钟永恒,刘 佳,王 辉
(1.中国科学院武汉文献情报中心,湖北武汉 430071;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190;3.科技大数据湖北省重点实验室,湖北武汉 430071)
人工智能(Artificial Intelligence,AI) 是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学[1]。随着大数据、信息及网络技术的发展,学术界开始越来越重视人工智能发展对各领域的影响。强大的数据处理与分析能力使人工智能在国内图书情报领域发挥越来越重要作用的同时,也带来新的机遇和挑战。
本文利用软件CiteSpace,检索并分析CNKI 收录的国内图书情报领域人工智能的文献研究,探讨人工智能在国内图书情报领域的研究主题热点与未来发展趋势,梳理人工智能在国内图书情报领域的研究演化过程,为进一步探索图书情报领域人工智能的理论与实践研究提供参考和借鉴。
2019 年2 月,以主题为“人工智能”,文献分类目录为“图书情报与数字图书馆”,分别在CNKI的期刊论文数据库、硕博论文数据库及会议论文数据库进行检索,检索结果为764 条。去重并筛选检索结果,剔除征稿通知、选题指南及相关度较低等类型的论文,最终剩余682 条文献记录,其中,276篇收录在《CSSCI(2017—2018)收录来源期刊目录》包含的期刊,占总数的40.47%。
某一主题发文量随发文时间的变化直观反映该主题研究的趋势变化与研究进展。据统计,国内图书情报领域人工智能方向的研究论文年度分布如图1。
图1 国内图书情报领域人工智能研究论文年度分布
国内图书情报领域最早关于人工智能研究方面的探索始于20 世纪80 年代。1984 年夏培德[2]首次在国内期刊论文上提出将“新技术革命”与图书情报工作联系起来,对知识进行系统化、标引化和信息化处理,形成文献系统、目录系统和检索系统。蔡曙光[3]在国内图书情报领域明确提出“人工智能”,并探讨作为人工智能研究成果的“专家系统”在图书情报工作中的应用。这一阶段的研究主要从理论层面展开,少数基于实验方法进行研究。此后,随着计算机技术的逐渐发展,人工智能开始融入各个领域,但在国内图书情报领域人工智能的研究一直较少,处于缓慢发展阶段。研究方向是语义网络、机器学习等技术更新领域的研究文献出现一定程度增长。王丽华[4]基于语义网的数字图书馆关键技术,对本体开发、元信息及元数据等关键问题进行必要阐述。陈红梅[5]提出构建图书馆网络知识服务的5个重点以及面临的8个问题。张玉峰等[6]在信息管理、人工智能和认知科学等多学科理论与技术基础上,提出基于机器学习的知识检索模型。从2016 年至今,国内图书情报领域人工智能相关文献数量增长迅速,开始进入高速发展环节。除利用文献计量方式研究我国人工智能的发展现状与发展趋势之外,对人工智能的研究也拓展到图书情报领域的方方面面,逐步进入纵深化研究发展方向[7]。国内图书情报领域人工智能研究在不断发展相关技术的基础上进行扩展与延伸,更加重视如智能阅读[8]、智能图书馆[9]、深度学习与情报分析[10]、用户行为[11]、知识服务[12]等实践与服务层面的应用。
除期刊论文之外,2000 年以后,图书情报领域开始出现以“人工智能”为主题的硕博学位论文,共30 篇,占总数的4.40%。硕博学位论文主要集中围绕智慧图书馆、信息智能服务、知识库构建、智能化资源检索等。而各类会议也十分关注图书情报领域人工智能研究的发展,就智慧服务与图书馆发展、人工智能技术在情报领域的应用、知识组织的方法与工具等方向不断展开深入探讨。例如,2002年江浙沪晋图书馆中青年论坛开展“扩大知识工程内涵,确立图书馆知识中心地位”及“实施知识工程,推动图书馆建设”等方面的探讨;2018 年北京科学技术情报学会学术年会“智慧科技发展情报服务先行”论坛从文献计量、论文专利视角,讨论人工智能的发展及人工智能反过来作用于知识服务、情报服务的新走向。
利用1984—2018 年的文献数据,通过CiteSpace生成机构合作图像,如图2。依图所示,目前国内图书情报领域人工智能研究方面发文较为分散,机构合作情况较少,鲜有的合作关系比较单一、固定。结合表1 的研究机构发文量排名,可以看出国内图书情报领域人工智能研究主要学术研究机构类型以各高校信息管理学院(武汉大学信息管理学院、南京大学信息管理学院等)为主,其次是信息类科研院所(北京市科学技术情报研究所、中国科学院文献情报中心等)及各高校图书馆(南京大学图书馆、东南大学图书馆)。除此之外,各省市公共图书馆也在国内图书情报领域人工智能方向的研究中占据重要地位,例如上海图书馆等。其中,在论文数量排名前30 的机构中,42.28%论文来源于高校信息管理学院,信息类科研院所与高校图书馆分别占20.81%和18.12%。
图2 人工智能研究机构网络图谱
表1 研究机构发文量排名
通过软件CiteSpace 分析文章作者,如图3 所示,国内图书情报领域人工智能研究方面的作者分布较为分散,其中,南京大学信息管理学院邵波(7 篇)和河北大学信息管理系贾同兴(6 篇)等是该领域的领军人物。前者的研究重点在于智慧图书馆、图书馆机器人、机器学习与用户行为,后者的研究重点在于自然语言理解、标引词表、专家系统、情报检索等。其次较为关注国内图书情报领域人工智能研究方向的学者还有方平(5 篇)、邱均平(4 篇)、胡德华(3 篇)等。
在作者合作方面,20 世纪后期开始出现作者合作,其中包括国内学者之间的合作以及国内学者、华裔作者与国外作者的合作。在1988 年和1989 年岸美雪等[13-14]合作探讨“人工智能与图书馆”的关系;1991 年Croft W B 等[15](美国马萨诸塞大学计算机信息系)合作探讨“智能情报检索”。之后围绕人工智能在国内图书情报领域中研究的作者合作研究进一步发展和加深,出现一些合作关系较为密切的团体,例如:北京邮电大学信息工程系的李蕾、王楠、钟义信、郭祥昊、韩鹏、贾自燕、高清霞;吉林大学管纪文、黄祥喜、邱涤虹、张成奇;哈尔滨工业大学计算机系王建波、唐正伟、杜春玲、王开铸;北京市医学情报研究所龚文涛、徐国桓、武立莹、刘会霞、张世红等。但是,国内图书情报领域人工智能研究方面的作者合作关系与其他领域相比仍较少,研究力量分散,独立性较高,主要原因可能在于“人工智能”这一方向在国内图书情报领域刚刚兴起,尚未形成稳定合作网络与研究体系。
图3 人工智能研究作者网络图谱
突变词分析用于探索某一时期学术发展的前沿主题,是指通过分析某一时期的词频变化来判断突然涌现或正在兴起的新兴热点。检索到的文献数据经过软件CiteSpace 处理后,共16 个突变词,如表2。
表2 国内图书情报领域人工智能研究突变词列表
从突现词开始出现的时间来看,人工智能关键词突现最早出现在1984 年,开启了国内图书情报领域人工智能研究的新方向,但早期研究大多停留在理论层面,并且与图书情报领域结合并不紧密。随着人工智能不断发展,情报检索、知识工程、语义网络、深度学习等相关技术逐渐发展,成为国内图书情报领域人工智能研究的前沿内容。其中,2000—2004 年突现的关键词多而频繁。例如,2004年深度学习、知识组织、本体成为重点关注内容,研究除追求基础技术的突破之外,开始从系统、方法等方面寻求切入点,从根本上提高人工智能在图书情报领域的应用效果与效率。从突现词持续时间来看,目前超过10 年的突现词有语义网络、专家系统、本体与人工智能。其中,语义网络在2003 年和2005 年出现两次,并且每一次都持续10 年左右,可见作为人工智能程序运用重要的表示方式之一,其在国内图书情报领域人工智能研究中发挥重大作用。尤其是自然语言处理、神经网络、知识图谱的进一步应用为语义网络的发展提供了可靠保障。从突变强度来看,人工智能、知识工程等宏观层面的基础性关键词由于其总结性与代表性最明显,突变强度最高,代表某一阶段的总体研究目标。其次,信息检索、搜索引擎等优势性技术在2000 年左右早期应用于图书情报领域的人工智能研究时的突变强度较高。但近年来出现的突现词普遍突变强度不高,表明国内图书情报领域人工智能的研究更加丰富与多元,在理论、技术及应用等各方面都有更加广泛的研究与布局。
关键词的出现频次是某一主题文献研究热度表现的重要指标。利用软件CiteSpace 中的“term”与“keyword”进行分析,并将top50 的关键词排序,发现共126 个频次在2 以上的关键词,部分如表3。
表3 关键词词频降序排名
表3 中关键词可以分为三类:第一是宏观概念主题,包括:人工智能、知识工程、智慧、大数据、智能、AI,词频共358 频次。此类关键词主要是对人工智能在国内图书情报领域发展方向的宏观描述,具有高度概括性,贯穿研究演进的整个过程。第二类是技术发展主题,包括数字、语义网络、搜索引擎、知识组织、深度学习、本体、技术、文献计量、语义网、机器学习、数据挖掘、知识图谱、自然语言理解,词频共167 频次。此类关键词种类较多,关键词阶段性变化比较明显,技术的不断发展促进国内图书情报领域人工智能的研究深度与应用方向。第三类是服务与应用主题,包括机器人、信息检索、情报检索、专家系统、情报工作、高校、服务、CiteSpace、智慧服务、物联网、智能机器人、互联网+、知识服务,词频共151 频次。此类关键词主要围绕人工智能的应用实例(机器人、专家系统、物联网等)、服务形式(智慧服务、知识服务等)以及服务对象(高校等)3 个方面展开,表明国内图书情报领域人工智能研究实践的进一步丰富。需要说明的是这3 个类别并非泾渭分明,而是彼此交叉重叠的。技术发展是服务与应用的基础,而这两者都是在人工智能等宏观描述框架下不断发展和演进的,因此进行词频统计时不能简单合并这些词语。总结来看,人工智能等宏观概念主题是关键话题,贯穿始终;而“技术”“应用与服务”则是衍生出的高关注话题,也是当前的研究前沿与热点。
中心度是除词频外,描述节点重要性的又一重要指标。中心度高的点作为引文网络中的关键节点,一般连接两个不同的聚类。按中心度排序的关键词部分结果如表4。
表4 关键词中心度排名
对比表3 和表4 数据发现多数关键词的词频与中心度成正比关系,二者相辅相成。例如,人工智能、知识工程、信息检索、机器人、数字等词频和中心度双高的关键词,一直是人工智能在国内图书情报领域发展过程中重点关注的方向。此外,部分关键词词频较高,但是中心度较低,例如专家系统、本体、情报检索等,这种关键词一般并不独立作为主题,而是从属于某一个特定中心聚类。而机器学习、深度学习、数字参考咨询服务、数字人文等词频较低而中心度较高的关键词,表明围绕这种关键词已开展一定程度的研究,但是研究数量尚少,讨论并不充分,有成为未来关键研究主题的潜力。
软件CiteSpace 一般采用平均轮廓值(silhouette,S 值)与模块值(modularity,Q 值)两个指标评价词语聚类的清晰度。其中,S 值反映类内相似性和关联性是否明显及是否受其他类影响,取值范围为[-1,1];Q 值反映类间差异性是否明显,取值范围为[0,1]。
本文利用软件CiteSpace 进行“keyword”分析,最终选取阈值为top 50 为最优聚类结果,如图4,目前人工智能在国内图书情报领域的研究主要有8 类。这种条件下,Q=0.539 7,S=0.583 8,二者均大于0.5,可认为分类结果成立,但可以看出各类间仍存在一定联系,关键词的类间差异性和类内相似性不够突出。
图4 关键词聚类
对关键词聚类结果进行时间轴划分,如图5。在国内图书情报领域人工智能的研究早期发展比较缓慢,进入2012 年,随着大数据时代的到来,数据量迅速膨胀,人工智能在图书情报领域的重要作用也更加明显。这8 类中,对搜索引擎的研究最早开始,并持续发展,主要包括情报检索系统、人工智能搜索技术、索引技术等。2010 年之后开始更加重视发展技术,语义网络、知识工程、数据挖掘开始成为国内图书情报领域人工智能研究的主流。其中,对语义网络的研究主要包括神经网络、自动标引、虚词表构建等领域;知识工程重点关注知识组织、知识表示、知识服务以及本体的研究;数据挖掘充分发挥专家数据库、自然语言处理等数据挖掘技术的优势。近年来,尤其是2016 年之后,国内图书情报领域在进一步提升人工智能技术的基础上,更加重视人工智能所带来的数据服务与应用。数字(数字图书馆、数字学术、大数据等)、智能(智能空间、机器学习、智能仓储及物联网等)、机器人(数据服务、智能机器人、图书馆机器人)等利用人工智能技术实现的具体应用与服务研究热度提高,相关领域越来越广。但高校图书馆、高校图情工作仍作为重要的研究对象贯穿国内图书情报领域人工智能研究的发展。就关键词互引关系来说,人工智能、信息服务、数字、知识、数据分析等是基础性关键词,在各类研究中引用关系密切,类间互引频繁。
图5 关键词聚类时间轴
目前,国内人工智能在图书情报领域的研究主题彼此重叠、关系密切,交叉领域的研究较为多见。主要分为早期的理论基础研究、中期的技术进步、及目前的实际应用与个性化服务,其中,智慧图书馆、智能数据服务、大数据技术、知识工程、物联网等是近年来的研究热点。中心度较高的主题又称为新研究方向的潜力,例如,机器学习、深度学习、数字人文、数字参考咨询服务等。
智慧图书馆是一种公共智慧服务,通过融合价值、理性与实践智慧建立更广泛的信息共享空间与更具吸引力的公共文化环境,是图书馆发展的新模式。目前,智慧图书馆的研究主要停留在围绕智能搜索、推荐服务等技术为核心,提高图书馆工作效率和效果的“智能”阶段[16]。未来,人工智能在图书馆的应用将更加趋向“智慧化”,主要将围绕三方面:(1)构建智能管理体系。结合图书馆内容和人工智能技术,构建自动借阅系统、图书全帧系统等,智能化整合图书馆文献资源,升级智慧化管理模式及服务流程[17]。(2)重新审视阅读与图书馆服务。对海量异构文献实现快速总结型阅读、发现型阅读、知识构建型阅读及建构与评价型阅读等,使阅读服务贯穿“数据-信息-知识-智慧-解决方案”发展的全过程,形成主动、双向、创建的服务模式[18]。(3)提供智慧图书馆个性化智能服务。不断加大重视用户数据与信息的力度,加快更新分析技术与工具的速度,为读者提供更高效的个性化信息服务[19]。这要求图书馆员为用户提供可计算、可操作、可分析的知识资源,使用户逐步具备自主分析与挖掘知识的能力[20]。(4)将人工智能的智能语音及计算机视觉等技术连接图书馆资源,利用智能机器人为图书馆用户提供智能、精准、有效服务的同时,提升图书馆各项服务的人性化和智慧化[21]。
大数据时代,信息数据以爆炸式速度增长。传统数据处理与分析技术已不能适应当前数据分析处理及可视化等一系列需求。与此同时,人工智能开始在智能数据服务中占据越来越重要的地位,尤其是社交网络数据的挖掘与分析成为国内图书情报领域人工智能研究的热点和趋势。社交网络以其数据量大、更新速度快、表现形式多样的独特性为人工智能技术的发展提出新的挑战,研究可以从以下两个方面展开:(1)对社交网络数据的文本挖掘与情感分析,实现偏好预测。社交网络产生大量复杂、多样的数据信息,出现多种基于社交网络准确识别并预测用户情感偏好的模型[22]。基于社交网络用户在线评论的属性特征,通过程序语言量化分析评论文本情感极性[23]。(2)对社交网络数据的用户行为与关系分析、传播分析,实现数据可视化。基于自我建构理论、自我决定理论、计划行为理论等,构建社交网络知识共享行为动机模型[24]。通过语义网、自然语言处理等技术,结合可视化及数据聚类技术实现社交网络数据信息交互式可视化[25]。
随着国内图书情报领域人工智能研究对知识工程需求的不断增加,其关键技术创新也从早期的专家系统、知识库、本体等简单、单一技术朝知识融合、知识图谱、机器学习等综合性、系统性方向发展,并成为知识工程研究的趋势之一。其中:(1)知识融合成为知识化和智能化过程的关键环节。在大数据环境和人工智能技术发展的双重因素作用下,知识融合为完善知识服务、智慧服务、催生高级智能形态提供重要理论和技术支撑[26]。基于系统论、相关性原理和三螺旋理论提出科学知识结构融合主题表征方法,定义“主题指纹”概念并构建知识结构模型[27]。(2)重新定义知识发现。一方面在大数据和机器学习的支持下,智能检索越来越普遍[28]。例如,Google Scholar、我国国家科技图书文献中心的智能搜索引擎等,支持知识组织与关联检索。另一方面出现了越来越丰富的知识挖掘方法。通过机器学习、文本分析、知识对象抽取等方法,对数字化可计算化内容进行知识计算,从而实现深度的知识发现[29]。(3)知识表达需要重新定义。知识内容正逐步建立与完善从获取数据、抽取特征与规范、解析对象与关系、构建图谱的知识图谱机制(Knowledge Graph)[20]。知识图谱自2012 年被谷歌首次提出以后,迅速成为知识工程领域关注的研究热点。知识图谱支持识别对象、推理关系、理解文本等方法,同时进一步支持智能检索、知识管理与推荐及各类智能应用。知识推理是知识图谱补全的重要手段,基于神经网络的知识推理方法具备更强的推理能力和泛化能力,对知识库中实体、属性、关系和文本信息的利用率更高,推理效果更好[30]。(4)当前机器学习在国内图书情报领域的研究热点主要在于文本分类自动化、数据信息检索智能化、推荐服务个性化等方面[31]。
本文将CNKI 中图书情报领域人工智能方向的研究论文通过软件CiteSpace,从发文力量和研究演进角度进行分析,探究国内图书情报领域人工智能研究的演化过程,将图书情报领域的人工智能研究分为智能、语义网络、高校、机器人、数据挖掘、知识工程、搜索引擎、数字8 类。自2016 年起人工智能在国内图书情报领域方面的研究进入快速增长阶段,现有研究主题联系密切、彼此重叠,存在领域交叉现象。智慧图书馆、智能数据服务、知识工程等主题作为近年来国内图书情报领域人工智能的研究热点仍有深入探讨的空间。机器学习、知识图谱、语义网络等人工智能技术的发展也拓展了国内图书情报领域的研究潜力。
与此同时,在推进国内图情领域人工智能研究发展的过程中,还需要从人文、政策、法律等方面为构建人工智能全球治理机制贡献力量。另外,积极推进图书情报领域人工智能应用的产学研协同合作,不断丰富和延伸图书情报领域的研究方法,推动学科之间深度交叉融合,在大数据与人工智能环境下发挥我国图书情报领域更大的作用。