李建伟
摘 要 新一代信息技术在图书馆领域具有广泛的应用前景,不断推动着图书馆服务向智能化迈进,也将进一步革新当今以智慧图书馆为主的服务形态。论文从计算智能、感知智能、认知智能三个人工智能发展层次探讨人工智能给图书馆带来的发展机遇以及人工智能在图书馆领域的发展重点,从人工智能发展形态的角度提出如何构建未来智能图书馆应用服务生态体系。
关键词 人工智能 互联网+ 智能图书馆
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2018.11.012
0 引言
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学[1]。近年来,人工智能相关智能物联、云计算、大数据、移动互联网等创新技术不断涌现与突破,如2016年人工智能程序AlphaGo战胜人类专业围棋高手,引起了全社会对人工智能与科技创新的广泛关注。如今,诸多人工智能的研究理论已经在社会领域得到了实践,某些智能设备的单项能力甚至超越人类。世界各国已经开始重视人工智能蕴含的巨大潜能,正积极推进人工智能与行业的融合发展。2015年中国发布《关于积极推进“互联网+”行动的指导意见》,将“互聯网+人工智能”列为11项重点行动之一[2];国务院于2017年印发《新一代人工智能发展规划》也强调人工智能是引领未来的战略性技术,要把人工智能发展放在国家战略层面系统布局、主动谋划。“人工智能+图书馆”是新时期智慧图书馆的进一步发展,国家政策的大力支持,为“人工智能+图书馆”提供了发展机会。21世纪的图书馆应把握住人工智能发展的重大历史机遇,努力推动人工智能与图书馆学科的交叉融合,以云计算、大数据等核心技术为要素推动图书馆向智能化方向发展,实现文献信息服务的智能化、个性化和精准化。
1 图书馆计算智能应用服务生态
人工智能依次经历了计算智能、感知智能、认知智能三个阶段的发展。计算智能使用强大的算法处理海量大数据,让机器能和人一样计算、存储和传递信息,这也是人工智能不断向前发展的基础。随着大数据的发展,新时代人工智能的典型特征是大计算、大数据与大决策交互融合。
1.1 基于图书馆大数据的计算智能
新一代互联网环境下的图书馆建设有丰富的数据库,拥有海量的电子图书、期刊、多媒体等信息资源,发展人工智能具有良好基础。除了建设有典型的结构化数据库资源,图书馆还包括大量的非结构化数据资源。一是物联网数据。图书馆很多设备加装了传感器形成物联网,实现了物与物、人与物之间的交流,产生了庞大的数据。二是互联网数据。随着高校图书馆网络化的普及,图书馆可以获取大量读者访问行为特征数据,系统收集的数据资源每天都在增长,长时间的数据积累开始具有大数据特征,机器的智能化使得图书馆的数据库更加复杂。云计算与大数据技术的结合则让这些庞大的数据产生了更大的价值,挖掘找到隐藏在大数据背后的世界[3]。利用人工智能的数据挖掘与非线性处理技术加工海量的信息数据,图书馆可以发现读者行为存在的规律,可以把过去只能定性的问题定量化,进而改变传统认知,帮助我们分析与预测未来的发展趋势。具体表现为以下3点。
(1) 为资源采购提供决策支持。利用读者访问资源的行为数据可以开展有效的用户知识需求分析,帮助图书馆做出更加主动的采购决策。如通过收集、加工和处理读者数据库访问记录、下载历史日志、资源使用评论信息、文献借还记录等,挖掘分析用户的资源倾向和兴趣需求。
(2) 智能搜索和筛选服务。人工智能技术可以有效地感知读者群体的认知及心理变化,同时结合读者的专业对用户的信息需求进行判断,实现根据用户需求进行资源智能搜索和筛选的目的。图书馆充分发挥信息资源优势,可提供诸如面向舆情风险控制的智能舆情监测、信息传播神经网络变化趋势预测等智能服务,可利用大数据对相关学科资源进行聚类分析、热点预测、知识关联分析等,帮助构建学科知识图谱。
(3) 为学科研究提供学术共享环境。图书馆应用智能机器人提供的知识交互功能,为科研人员构建了虚拟社区,创造了良好的学术共享环境。在学术研究领域,新一代人工智能程序还可以发现大型知识库学科之间的知识关联,从而使学者的跨学科研究成为可能。
1.2 实现精准化的信息服务
在更新迅速的数字资源中,用户往往需要花费大量的时间和精力筛选有价值的资料。为节约时间,提升效率,图书馆利用大数据技术实现数据聚类与关联分析,可大大提升传统的学科咨询、数据共享等基本文献服务能力,实现用户需求的精准特色服务。
图书馆信息管理系统的借阅记录保存在结构化数据库中,通过聚类、关联分析可实现数据库读者借阅历史日志和图书的内容特征数据的发掘,可以发现有相同兴趣特征的读者的借阅习惯。
聚类分析是一种综合层次型、网格、基于模型或概率密度等多种数据分析方法的数据挖掘技术,目的是让聚类生成的同一簇中的数据对象的性质尽可能相似。如图1所示,通过聚类,图书馆可以准确区分不同特征的读者用户群体,进而主动推荐资源。首先,所有业务数据形成资源池,统一转换格式;其次,挖掘引擎基于挖掘方法库进行模式评估,以寻找最有效的发现方法用于发现有价值的关联规则;最后,推送系统在用户界面根据用户提交的信息在规则库匹配规则,再利用合适规则去推送用户可能感兴趣的资源。图书馆通过挖掘分析图书文本的写作风格可以帮助读者寻找合适的图书,或通过处理成千上万册的图书信息,收集分析图书特征,以帮助读者更加深入地发现和利用它们。如果读者群体的兴趣发生变化,还可以追溯用户,分析用户偏好,将之前图书推荐一对多的方式改为一对一,形成精准的个性化推荐。借助人工智能技术主动推送信息资源,告别了被动等待读者发现的传统服务方式,能使馆藏资源得到更好的利用。
2 图书馆感知智能应用服务生态
感知智能就是让设备和人一样,能看懂图,能听懂话,能与人进行交流。各式各样的传感器能够采集数据,能分析、传送数据,能进行记忆、交互控制等,如同人类的五官,为智能设备感知具体物理世界提供了可能。应用感知智能提升图书馆服务水平也是“人工智能+图书馆”极为重要的应用前景形态。
2.1 图书馆智能人机交互
人机互动方式从早先的CMD命令发展到用鼠标图形界面操作,再到今天智能机器人能听、能看。计算机技术的不断突破,越来越“拟人化”的人机交互服务被应用于图书馆管理服务中,将使得图书馆知识管理过程更加高效便捷,并对图书馆服务方式等带来革命性的变革。如2017年5月南京大学图书馆融合超高频RFID、互联网、物联网、人工智能等技术,发明图书馆机器人——“图宝”。“图宝”不仅可以代替人工进行图书盘点,与图书馆自动化管理系统无缝对接提供图书信息,还可以逐渐掌握业务知识库,成长为智慧化的机器人馆员。
2.2 智能图像识别技术的应用
图像识别技术就是想让计算机像人一样能对图像进行处理、分析和理解,能读懂图片的内容,是人工智能的一个重要领域。图书馆通过人类具有的唯一性生物特征——人脸,将图像识别技术应用于读者身份管理工作中,如刷脸借书,人脸识别门禁等等。人脸识別系统要保证识别率和识别速度,关键在于拥有尖端的核心算法。传统人脸识别方法采用单一算法,如“特征脸法”“神经网络法”等,虽然识别率较高,但由于计算量大导致识别速度十分低下,无法在应用中推广。人工智能出现的“深度学习”概念给人脸识别方法带来质的变化。拥有“深度学习”能力的人脸识别系统可能集成了几百种算法,对于每一张人脸,会在计算运行中自动优化,直到为用户“度身定制”最适合的一套组合算法,使识别率提升至96%以上。相比其他的验证方式,人脸检测不需要“强制性”地要求读者配合采集设备,在远距离、自然状态下就可获取人脸图像,隐蔽性更好。大型图书馆采用“人脸识别”+“大数据”技术可以有效完成大量用户对象的身份管理,而且人脸识别应用系统的巨大计算量可以在云端完成,运行速度快、操作简单、结果直观。
2.3 智能语音服务
语音是人类交流最自然的方式,声音比其它任何媒介接受信息都要简单、方便。图书馆智能利用语音技术有诸多好处。一是提供语音朗读。将文本内容转换成语音,帮助儿童、残疾人士、视障人士克服障碍,通过语音来获取信息资源。二是提供语音输入服务。通过语音输入,可以摆脱生僻字和拼音障碍,让搜索更加高效,如中国国家数字图书馆 APP 和上海图书馆 APP,均采用了语音识别技术,读者可通过语音输入代替文本输入进行馆藏资源搜索。三是提供智能语音机器人服务。传统图书馆人工咨询服受时间、空间和人力的限制,无法满足日益增长的咨询服务需求,语音机器人服务可以代替咨询馆员为读者提供参考咨询、馆藏资源搜索、学科导航等服务。
目前不少第三方语音应用平台对专业的开发者开放开源。如2016年,百度将其具有革命性的语音技术面向社会开放共享,图书馆行业开发者可以简单快速地将百度平台强大的语音技术集成到所开发产品中,用于构建各种语音交互应用,让服务模块能听、会说、会思考。
3 图书馆认知智能应用服务生态
认知智能是人工智能的高级形态,它模拟人类的推理、联想、知识组织能力,使得机器和人一样能理解、会主动思考并采取合理行动。与其它智能形态相比,认知智能具有突出的“深度学习”能力,这是认知智能的本质特征。所谓“深度学习”,是指人工智能设备的理解能力、表达能力、智商都会随着深度自我学习而不断成长,就像生物神经大脑的工作机理一样。
3.1 自然语言理解
用自然语言实现与计算机交流通信是21世纪人工智能最关注的研究领域之一,也是图书馆人工智能应用的重要领域。人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言来传达既定的信息等[4]。人类语句虽然遵循一定的语法与语义,但由于汉语词长短不一,词汇数量庞大,语法复杂,加上语义具有二义性,有时语音模糊难以准确识别,因此让机器完全理解人类语言是一个十分艰难的任务。计算机理解自然语言内容关键是要能自动对一段文字进行标识化、句子切分、部分词性标注、组块、解析等操作,最后输出符合人类理解的文字。人工智能处理自然语言的计算机算法基于机器学习,其中分词是自然语言理解的基础性工作,就是把一段文字的词逐个切分出来。目前,自动分词技术较为成熟的方法有十多种,如最大匹配法、基于字标注的中文分词方法、逐词遍历匹配法等等,通过分词、结构分析、语法分析、词义标注等操作,计算机可以对自然语言文本内容进行过滤,再围绕语句的合法性、价值的有效性、逻辑的真实性来分别提取语用信息。
自然语言理解技术历经20多年的研究发展,已经取得了显著的成果,出现了一些实用的语言服务系统,如“搜狗听写”“哈工大讯飞语言云”,这些系统可以实现语言听写、转写、唤醒功能,准确率超过95%。智能图书馆结合精准的自然语音处理核心技术和高效、便捷的大规模“语言云”服务,可以在资源服务中借助分词、词性标注、依存句法分析等处理,以“词云”的形式展示读者关注最多的资源评价,以及对用户评价作智能分类和处理,实时发现用户喜好;可以通过对用户的留言、评价、信息交互的文本进行语言处理,自动识别用户的情绪;可以自动收集计算机前端的大量用户语言文本,让机器完成语言分析工作,自动检索资源生成摘要,进行辅助读者阅读和智能情报分类检索等等。
3.2 智能检索
智能检索是在传统信息检索系统的基础上融入人工智能技术,通过对知识一定的理解与处理能力,使信息检索从基于关键词级别提高到基于知识(或概念)级别,实现更高层次的检索功能。互联网图书馆用户需要依赖功能强大的检索工具才能从庞大数字资源中检索到所需的信息,但大部分用户往往不愿意在资源文档查找中耗费太长的时间,而是希望可以通过自然语言直接表述信息需求,由自动问答系统快速准确地反馈答案。
人工智能情报检索系统只有在充分“理解”用户的需要和预期获取文献所包含内容之间的关系的基础上,才能为用户提供全面的问题解答集。用户输入自然语言查询时,系统首先将自然语言表述转化成特定的知识表示形式,并利用人工智能的内容理解、计算推理、知识学习、判断决策等技术得到答案。智能系统包括知识表示、逻辑推理、自然语言的逻辑转换等,具有较强的推理能力。图2就是以完整意义的语言单元来进行信息智能检索的过程。由于语音识别准确率低且口语本身具有语法不规范等特性,要求基于自然语言的信息查询系统必须具备较强的鲁棒性,如荷兰的CSDOS全文库,用户只需要用自然语言像请求别人回答问题一样向系统提问,系统会对提出的问题进行推理、理解,并在相关知识资源中自动求解答案,对问题做出详细的回答。
3.3 构建面向限定领域的知识问答系统
2011年IBM的自然语言问答系统“沃森”(Watson) 在美国哥伦比亚广播公司的“危险边缘”益智问答游戏中,战胜两位前冠军,这证明了智能问答系统可以达到甚至超过人类水平。这种经典的问答系统是在已有提问集数据库中查询与用户提问相对应的答案,而面向限定领域的开放式知识问答系统则利用人工智能认知技术来构建专业的人机对话问答系统,使系统像人类一样学习思考和自我认知。面向特定领域的人机知识问答系统主要由自然语言接口的数据库查询系统、自然语言界面的专家系统、基于FAQ的知识库系统等组成。系统首先通过自然语言理解技术,获得其中的语义、情绪等信息;其次分析所有类型的数据,通过以证据为基础的学习从大数据中快速提取关键信息,并在人机交互中获取反馈,不断优化模型;同时将散落在各处的知识片段连接起来,进行推理、分析和论证,获取决策的证据;最后以自然的方式与人互动交流,反馈答案。因此用户抛开关键词和词组的种种限制,无需学习布尔检索式,只要像平时提问一样就可以得到答案。
目前,互联网的开放域问答系统通常是帮助普通用户处理一些较简单的问题类型,反馈的答案也相对较简单。面向专业领域用户的问答系统对系统反馈的答案要求较高,系统必须在深层次理解用户查询语句的基础上才能完成目标。图书馆可以借助特色学科资源,与专业的技术与资源平台合作构建限定领域的问答系统,如百度2015年发布的对话式人工智能系统“Duer OS”,该开放平台可以为图书馆开发者提供全套语音技能开发工具和方案,实现为专业学者提供更系统专业的资源,提供更好的人机接口。
4 基于虚拟现实技术的资源服务
人工智能时代的到来,也推动了以计算机技术为核心的一种现代仿真技术,即虚拟现实技术。虚拟现实技术集多媒体技术、人机接口技术、多传感交互技术等多种技术于一体,以一个三维的虚拟环境模拟人在自然环境中的状态,实现视、听、触觉等的交互体验[5]。图书馆是古籍善本收藏和保护的主要场所,为平衡传统图书馆中对珍贵图书的“藏”与“用”之间的矛盾,可以借助虚拟现实技术对书中的世界进行虚拟化。相比图片、视频等载体,用户能身临其境“翻页浏览”,“触碰”到珍贵资源,充分发挥了稀缺文献的价值,而不是束之高阁。图书馆用户培训还可以利用虚拟现实技术构建虚拟教育场景,提升培训效能,拓宽培训范围,既节省费用,也让图书馆的教育功能达到最大化。新一代的虚拟资源设备不仅集合最优质的资源,而且倡导体验阅读为主,同时实现社交分享功能,满足快乐阅读的需求。
5 结语
人工智能在圖书馆的应用发展尚处于早期的阶段,技术有待不断提高,如许多设备和程序的人机交互还停留在单一识别人的某一特征,进行木讷回应的层次,与符合人类的认知习惯和形式差距甚远。人工智能若要进一步发展,需有赖于开放科学、开放数据和开放获取的大环境,而这些对于图书馆而言刚刚起步。
伴随人工智能的发展以及物联网的不断升级更新,图书馆未来的服务将努力朝以下方面发展:首先无处不在、各种各样的传感器自然而然融进图书馆信息基础建设中,实时为决策管理提供源源不断的信息依据;其次融合人工智能、基于大数据的云计算平台,图书馆能够时刻感知用户的需求,全方位分析读者信息需求的本质,并随之快速做出合理的反应,甚至预知其潜在需求;再次,人机交互的形式,将从机械的外在互动上升至情感层面的交流,设备将变得越来越智能,系统会记忆用户的行为习惯和未来偏好,像亲密朋友一样熟悉用户的一切,能够智能地推荐相应的知识与服务,让用户的资源体验变得更愉悦。
新时期以人工智能、大数据、数字学术技术、网络身份为代表的新一代信息技术在图书馆领域具有广泛的应用前景。今天图书馆人要做的,不是在热潮后面亦步亦趋,而是积极利用自己的学科优势,参与并在人工智能的发展中有所作为,推动图书馆服务向智能化迈进。未来的“人工智能+图书馆”也将进一步革新当今以智慧图书馆为主的服务形态,帮助管理人员从日复一日的繁琐工作中解脱出来,让他们有更多机会与时间去创造价值,更好地为用户提供智能交互的信息服务。
参考文献:
[ 1 ]苗夺谦,张清华,钱宇华,等.从人类智能到机器实现模型:粒计算理论与方法[J].智能系统学报,2016,11(6):743-757.
[ 2 ]国务院印发《关于积极推进“互联网+”行动的指导意见》[J].电子政务,2015(7):52.
[ 3 ]陈国兰.如何利用大数据构建图书馆新型知识服务体系[J].现代情报,2014,34(9): 149-152,157.
[ 4 ]宣云干.基于潜在语义分析的社会化标注系统标签语义检索研究[D].南京:南京大学,2011.
[ 5 ]王晨晨.虚拟现实技术及其在图书馆的应用[J].图书馆学研究,2011(20):34-37,33.
[ 6 ]杨晓农. “互联网+”思维下“图书馆+”行动与服务新模式刍议[J]. 现代情报, 2016,36(7):30-33,40.