李雪婷+李莘
〔摘要〕图书馆的微信自动问答机器人可以为读者提供24小时信息咨询服务,提高图书馆的受关注度。本文针对自动问答技术中语言问题进行研究和分析,编写一套针对图书馆问答机器人的语言体系,设计了哈尔滨工业大学图书馆自动问答机器人来实现全时段虚拟咨询,加强读者与图书馆之间的互动交流。
〔关键词〕微信平台;FAQ;自动问答;图书馆;机器人;语言体系
〔Abstract〕Library WeChat automatic question-answering robot can provide 24-hour information consulting services for readers,improve the librarys attention.Based on analysis of question-answeringlanguage question,it is focused on preparing a language system of questions and answers.Designing HIT libraryquestion-answering robot attracted the attention of readers and strengthened the communication between readers and the library.
〔Key words〕platform of WeChat;FAQ;automatic question-answering;library;robot;language system
自动问答技术是一种允许用户以自然语言查询作为输入,系统从相关文档集中查找并返回确切答案的新型智能检索系统。目前,微信公众账号数量已超过200万。随着微信公共平台影响力的不断扩大,越来越多的图书馆利用微信公共平台开展相关服务。基于自动问答技术的微信平台公众账户服务机器人以其24小时在线、快速及时反应成为办公自动化的标志性服务项目。哈工大图书馆的微信公众号开通以来受到了很多关注,扩大了图书馆的影响力,本研究致力于在哈工大图书馆公众号基础上建立自动问答机器人系统。
1高校图书馆自动化网络服务现状分析
高校图书馆的自动化网络服务的研究工作已经开展了很多年,FAQ常见问题的问答咨询即(Frequently Asked Questions)已经在我国高校全面普及开来。这一服务有其独特的优势,不仅能将馆员从繁重、单调的工作中解脱出来,也符合当今用户自主化、个性化的趋势;同时可操作性强,对FAQ的组织与管理已成为网络咨询工作的一个重要环节,便于图书馆为用户提供服务[2]。常见问题库一般都进行分类管理,有的还可进行检索,对常见问题的分类是方便读者使用的重要方法和途径[3]。近期针对国内100所高校的图书馆FAQ进行了专项调查,超过50家大学图书馆进行了FAQ相关建设、分类浏览、提供链接等全方位服务。
但大多数基于FAQ的高校图书馆自动化服务基于人工建立的常见问题库匹配进行检索,可回答的问题数量极其有限,问题集合更新缓慢。在信息迅速发展的时代,尤其以微信、微博为代表的平台产生后,常见问题库的方式就远远不能满足信息更新的速度。而微信拥有其得天独厚的优势,它的用户基数早已突破6亿,所以,基于微信公众平台的开发也正如火如荼地发展起来。微信团队给开发者提供了一套标准的接口,为开发者的开发工作提供了很大的便利[4]。因此利用微信公众平台研究自动问答机器人将会提升图书馆信息服务效率和范围。在交互服务方面,厦门大学、东南大学图书馆提供微信机器人的智能咨询服务[5]。
本文提出以人工智能为基础的图书馆自动问答机器人技术是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。区别已有常见问题的问答咨询及FAQ,自动问答系统可以自动分析用户问题,通过对问题的分类和理解,在大规模数据库基础上利用人工智能技术自动回答读者问题,并利用哈工大微信公众平台为广大读者提供服务。
自动问答机器人的研究已经开展多年,让计算机和人一样自动回答读者问题是国内外很多学者认为不够成熟的一门技术。但这项技术在特定领域已经取得过一些显著的成果。本研究是基于哈工大图书馆的读者服务这一特定领域展开的,自动问答机器人系统设计方案如图1所示:
答案处理
答案处理部分包括答案抽取和答案排序,对信息检索得到的结果根据问题类型抽取出答案,返回给用户[6]。
3自动问答机器人关键技术
为实现上述目标,涉及以下几个关键技术需要分步进行研究。
语料收集和整理
中文自动问答研究已久,但是针对图书馆的自动问答研究还比较少见,因此语料库建设是本文研究的难点和重点。为解决这个问题,前期做了大量相关工作,主要包括:
1针对国内存在大量图书馆FAQ系统,在网络收集相关问题对1 000条。对问题进行人工校验,保留原问题的前提下根据哈工大信息补充完善答案。
3.对图书馆的工作及服务有意见或建议,向谁反映?
回答:读者意见箱。欢迎读者提出批评和建议,对留有地址或电话的读者意见,图书馆都会逐一答复。
4.图书馆实行连续开放吗?
回答:图书馆阅览室服务时间是周一~周日8∶00到1∶30连续开放。其它详见图书馆主页中的“服务时间”。
3针对常用问题人工建立针对哈工大图书馆的专用问题集。
8.407信息共享空间可以预约研修间吗?
回答:可以。方式一,可以在407室咨询台或是拨打电话86403590预约;方式二,可以关注“HITLibrary咨询部”微信公众账号信息动态中,按照预约须知完成。
9.每周三晚图书馆走进院系培训课件在哪里下载?
回答:在图书馆主页信息咨源中下载培训课件。
3利用“维基百科”和“百度知道”建立关于图书馆的通用问题集合。
56.图书馆主要功能?
回答:图书馆,是搜集、整理、收藏图书资料以供人阅览、参考的机构。
78.图书馆最早出现在哪年?
回答:早在公元前3000年就出现了最早的图书馆。
79.图书馆一词最早出现在哪年?
回答:最早由德国图书馆学家施莱廷格于1807年提出。这一概念的提出,标志着现代图书馆学的诞生。
通过以上3种方法收集到关于“哈工大图书馆自动问答机器人”问答标准句对1 000条,并对所有语料人工加工,调整格式,纠正错误,形成一套完整的语料体系。
问题的分类
机器人自动回答问题面临的第一个问题,就是分析好问题。对于机器理解“自然语言提出的问题”,首先要把问题进行分类,才能进行下一步理解。问题的类型往往决定着如何回答的问题,也就是需要一个分类的体系,见表1。表1图书馆自动问答系统问题分类体系
Ⅰ类(大类)Ⅱ(小类)例句(问句)时间年月日142.十一期间图书馆哪天放假?时间段138.周末图书馆几点到几点开馆?地点位置202.哈工大图书馆的位置?电话204.请问406科技查新站的电话是多少?表1(续)
Ⅰ类(大类)Ⅱ(小类)例句(问句)事件数据库查询12.通过校园网如何检索图书馆的外文数据库?咨询服务18.图书馆提供文献的代检代查服务吗?图书借阅35.我借的图书已经归还,但该书仍然借在我的帐上怎么办?…
33基于复述的问题自动扩展
每个人都有自己的语言习惯,因此自然语言表达的问题可能因人而异。在语料库的规模有限的情况下,必须进行问题归类,并确认同一问题的不同说法。下面两组例子,虽然表述不同,但是意义完全一致。这种想法称为中文的“复述”问题。
A类(地点类)
1.哈工大图书馆的位置?
.咱们学校图书馆在哪?
3.我明天想去图书馆办证,应该怎么走?
B类(时间类)
1.明天图书馆开门吗?(假定今天是6月25日,周六)
.这周日图书馆正常开门吗?
比如对A类问题,语料库只有第一个问题的答案,通过复述理解的分析,也要知道后两个问题和第一个是完全一致,才能回答这个问题。
问题的情感分析
人类语言的情感特点往往直接决定了问题的答案,问题的褒义和贬义反应着读者提问的喜好和希望得到的答案,被称之为“情感分析”。通过对问题情感的判断来获得更好的答案,见表。表对问题情感的判断
情感词类型例句分析正例(褒义)今天找到《×××》这本书超赞,还有下册吗?褒义词(同构)这书内容不错,就是有点陈旧,还有新书吗?褒义词(异构)反例(贬义)图书馆自习座位好紧张啊,每天都这么难找吗?贬义词(同构)今天去检索了,没有想象的那么繁琐啊?贬义词(异构)
通过上述例子可以证明情感分析的重要性。通过对情感词的判断理解才能更好的自动回答问题,但情感词也需要在特定的语言环境来进行判断,否则读者得到的答案可能是相反的。
35答案抽取的模版建立
理解了读者的问题,如何给出满意的答案才能让读者满意?机器人的表达是否有它的优势?当然,机器人还无法给出“性格各异”的“风趣答案”。因此需要建立了一系列答案模版,让机器的回答更规范和更礼貌,见表3。表3图书馆自动问答机器人问题分类系统
Ⅰ类(大类)Ⅱ(小类)例句(答案句)时间年月日××年××月××日时间段××∶00到××∶30地点位置××街××号电话0451-8641×××事件数据库查询您好,查询结果为…咨询服务主要提供(1)…,(2)…图书借阅链接指向说明…您的提问暂时无法回答,请在
工作日时间联系…4实验结果分析及研究结论
在理论研究基础上,本研究还针对哈工大图书馆自动问答系统中的问题分类和答案抽取进行了相关实验。
41问题分类实验
本文采用在很多领域被广泛应用的支持向量机分类进行分类实验,选择的最终语料规模大约为1 000个问题对。随机挑选出1 000个问题作为训练集和测试集,训练集和测试集的比例为9∶1,测试集的产生采用了随机抽取的方式以便能够保证语言的分布一致性,并采用常用的3个评价指标,对实验结果进行评价,即准确率(Precision)、召回率(Recall)和F指数(F-measure),它们各自的计算公式如下:
准确率p=正确分类的正例的数目决策树判为正例的数目(1)
召回率r=正确分类的正例的数目所有正例的数目(2)
F指数f=(α+1)prαp+r(3)
其中为准确率与召回率之间的关系权重,在本实验中设置以保证试验中准确率与召回率具有相同的权重测试结果见表4。表4测试结果(一)
项目测试集100句(%)全部语料1 000句(%)准确率p681732召回率r633760F指数f668744
4答案抽取实验
同时,本文还完成答案抽取的初步实验。为客观评价系统,测试问题由二个部分组成,一部分来自测试集20句;一部分为人工提问20句。由于暂时缺少有效的自动评价的机制,因此我们采用了人工评价的方法。人工评价由3位相关领域专家对抽取答案的语句合理性、答案准确性进行评价测试结果见表5。表5测试结果(二)
项目测试集20句(%)人工提问20句(%)答案语句合理性9580答案准确性68348
43实验分析与结论
实验结果一表明,图书馆自动问答问题集由于缺少相关研究和训练数据,还难以建立一套完全合理的问题分类体系。继续扩大语料规模,建立合理体系是未来图书馆自动问答机器人走向实际应用的关键问题,需要不断进行扩展和研究。
实验结果二表明,该系统对现有语料中的问题类型达到一个比较好的效果,但人工提问的随机性导致性能有明显衰弱,还无法对收集的问题集以外的问题进行人工智能回答。
目前,自动问答机器人的研究已经得到越来越多的关注。本文针对图书馆读者咨询需求,研究适合于图书馆的自动问答系统设计方案,并建立相应问答语言体系。通过对问题集的维护和补充,提高自动回答准确率,应用此研究成果帮助读者快速找到自己想要的答案。
参考文献
罗涛.图书馆微信公众平台的建设与研究[J].现代图书情报技术,2015,(1):96-100.
[2]王晨俊,叶春峰.FAQ在图书馆的应用及前景分析[J].现代情报,2013,(6):73-77.
[3]张超.基于用户的高校图书馆网站FAQ多维分类与应用[J].图书馆学刊,2011,(12):107-109.
[4]石凯,谌志群.基于微信的自动问答系统研究[J].计算机时代,2014,(9):9-11.
[5]李丹.图书馆微信平台建设实践与思考[J].现代图书情报技术,2016,(4):104-110.
[6]张蓓,窦天芳,张成昱,等.开发模式下图书馆微信公众平台服务的设计与实现[J].现代图书情报技术,2014,(1):87-91.
张志昌,张宇,刘挺,等.开放域问答技术研究进展[J].电子学报,2009,(5):1058-1069.