肖 玥 李念祖 谢 鹏
(首都图书馆,北京100021)
机器学习作为人工智能的核心技术,已经渗透到各个方面,从苹果的Siri、微软的 Cortana 、再到淘宝的“猜你喜欢”等无一不是应用机器学习的案例。直到2016年谷歌基于机器学习技术的AlphaGo击败世界围棋冠军李世石,人们开始逐渐关注机器学习技术。在大数据时代,机器学习凭借其在处理海量数据方面的先天优势以及良好的性能和效果,可以在智慧图书馆建设中发挥重要的作用。
2020年4月,笔者在中国知网数据库中以“机器学习”为关键词进行检索,经阅读摘要剔除非相关文献,图情研究领域与该主题相关的文献共计77篇,其中张坤等介绍了机器学习在图书情报领域个性化推荐服务、智能信息检索和自动文本分类三个方面的研究热点[1],刘浏等提出了机器学习在图书情报领域中智能问答、文本信息处理、信息服务、学术评价四个方面的应用前景[2];其余文献多数是通过算法实验对机器学习在文献自动分类进行可行性的验证或是对个性化推荐系统进行对比研究[3][4][5]。目前有关机器学习在智慧图书馆中应用方面的研究较少,且对机器学习在智慧图书馆中的应用场景的梳理与归纳也不够全面。因此本文在根据现有研究的基础上,从智慧图书馆资源、服务、管理三个方面入手梳理机器学习在智慧图书馆中的应用场景,并提出机器学习技术落地图书馆应用的发展建议。
机器学习(Machine Learning),是人工智能技术的一项核心技术方法,其实质就是利用算法来分析和处理数据,使机器从中学习并做出推断或预测,进而模拟或实现人类的行为的过程。机器学习技术强调的是“学习”的过程,通过对不断增加的大量数据样本进行分析,逐步建立起预测模型并通过“训练”过程不断修正和完善,一般来说,样本数量越多,“训练”过程越多,预测模型就越趋近于完善,预测模型所产出的结果就越精准。
按学习方式进行分类,机器学习可以分为浅层学习方式和深度学习方式,二者的区别在于机器学习中的“特征”是否由人为设定,以及训练时所需数据量大小。浅层学习方式的“特征”是一般由人为构造的,即:在训练模型前先由专家通过分析哪些“特征”是重要的,然后机器通过分析训练数据中的这些特征的数据,学习“怎样的特征的组合会导致怎样的结果”,进而产生相应的模型,在训练过程中,其使用的训练数据量不必很大,过量的数据量反而会影响浅层学习的效率。深度学习(deep learning),最早由杰夫·辛顿(Geoffrey Hinton)于2006年提出,是机器学习研究中的一个备受关注的新领域,深度学习通过模拟人脑神经元间的连接、对外界刺激的感知和传导来获取对事物的认识、解释和判断[6],深度学习进行训练前一般不必预先设定“特征”,而是使用多层神经网络进行自动学习获取“特征”,学习从浅层顺次开始,上一层学习得出的数据会作为下一层的输入数据,由浅层的初级特征逐步学习到深层的高级特征,本质上是一个从全局到局部再到细节特征,每一层都在分段学习的学习过程。由于深度学习需要自动学习获取“特征”,因此需要大量数据进行训练,其次由于其模拟神经网络的结构,在庞大训练集下,深度学习的性能要优于浅层学习。
在古籍数字化方面,古籍文字的识别是核心内容。由于古籍文字与现代印刷体文字不同,其属于手写字体,古籍文字的书写风格、笔画、形态各异,同时还会存在因年代久远出现的笔画模糊、缺失等现象,因此传统OCR(光学字符识别)技术并不能很好地处理手写文字的识别,给古籍数字化工作带来不小的挑战。以卷积神经网络等为代表的深度学习技术突破了传统OCR技术只能识别印刷字体的局限,在手写字体识别方面已有显著成果。2011年ICDAR脱机手写体汉字识别竞赛中,IDSIA团队首次将卷积神经网络算法应用于手写汉字识别,其识别准确率达到92.18%[7];随后在2013年的ICDAR手写汉字比赛中,来自富士通公司的团队使用优化后的卷积神经网络算法并获得了脱机手写汉字识别的第一名,识别率达94.77 %,而来自英国华威大学的 Graham 利用深度稀疏卷积神经网络的方法,获得了联机手写汉字识别第一名,识别率高达97.39%[8]。可见深度学习方法相比于传统方法,能达到更高的识别率,显示出深度学习在该领域的强大潜力。在图情界,已有学者开始尝试进行基于深度学习技术的古籍汉字识别研究,以期为古籍汉字元数据加工提供一种可行的解决方案。郭利敏等通过数据生成技术构建训练集773个汉字、约 24 万个训练样本,通过 TensorFlow平台进行20轮迭代训练并测试,测试结果显示识别准确率为61.09%,在增加训练样本数量后准确率提升为66.28%,指出训练样本字体的多样性有助于提升CNN网络的识别率[9]。
在古籍整理的符号标注、笺注方面,机器学习技术也同样有着巨大的价值和潜力。古籍大多没有标注断句的标点符号,需要人工辨清古文含义后再进行标注,对标注人员的专业性要求极高且工作量巨大,若利用机器学习技术对大量已进行古籍标注的样本进行训练,构建古籍标注模型,则可以实现古籍符号标注工作的自动化或是作为人工标注的辅助手段,明显提高工作效率及准确度。在古籍笺注方面,由于生僻字句需要工作人员在查阅大量文献的基础上才能进行正确笺注,工作极为繁琐,利用机器学习在大数据处理方面的优势则同样可以实现古籍的自动或半自动化笺注功能,提高以笺注的效率和准确率。
基于机器学习方法的文本分类则可以辅助识别古籍的文体风格特征,非常适用于解决古籍真伪辨别、写作年代判定等问题,在古籍辨伪方面有非常大的发展前景。目前已有学者做过基于机器学习的古籍辨伪研究,施建军运用SVM支持向量机技术,以44个文言虚字频率为特征向量,对《红楼梦》120回进行了分类研究,结果显示从第81回开始的后40回和前80回在写作风格上存在明显差别,从技术的角度确认了《红楼梦》前80回和后40回为两人所作[10]。
3.1.2 知识发现与预测
机器学习通过聚类及层次分析模型,将文献中的知识概念实体间的隐性关联关系揭示出来,形成知识概念关联图谱;通过分析文献的引证、合作等关系,揭示知识用户群体的集群关系;通过对文献的知识单元、时间、空间多维度的学习和推理揭示文献中知识单元的演化与流动轨迹并进行趋势预测。Qinsight是国外一个应用机器学习技术的用于生物医学文献的AI知识发现平台,它使用生物医学优化的神经网络和其他AI方法来模拟专家的大脑如何发现最相关的信息,辨别关键事实并发现关键概念,此外还提供先进的视觉分析来总结结果,预测趋势并发现文献中的隐藏联系[11]。国内知识发现系统可参考Qinsight知识发现与机器学习融合的经验,将深度学习引入知识发现系统,在图书馆检索系统中提供知识概念关联图谱,提升文献知识单元层面的智慧性。
3.2.1 个性化资源检索
基于机器学习的个性化资源检索,从功能上可以分为个性化检索排序以及个性化关键词预测两种。前者的功能是实现检索结果的个性化推荐及个性化排序;后者的功能是实现检索词的个性化预测。
相关性分析显示,周围神经病变、心脏自主神经功能存在相似性,存在以下特征:①正中神经与心脏自主神经功能关系更为密切;②SCV与心脏自主神经功能关系更为密切。可能原因为:正中神经在臂部损伤时可累及全部分支,手并非承重的肢体,不容易受到大血管病变的影响,其能够更真实的反映高血糖所致的神经损伤,提示心脏自主神经损伤也容易受到高血糖的影响[6]。SCV能够更好的反映静止状态下的神经功能,更好的反映高血糖神经损伤情况,不容易受到运动状态、方式等因素的影响,不容易受到干扰。
个性化检索排序,即:通过采集用户检索行为数据(如:检索词、检索策略等)以及内容偏好数据(如:浏览、下载或收藏文献内容的主题、浏览的时常等)进行机器学习,对用户行为及偏好特征进行建模,进而预测与用户检索内容主题相关或是用户可能感兴趣的其他主题文献,并将预测结果按照用户兴趣偏好程度或是检索行为偏好程度进行排序,呈现在用户的检索界面上。例如:Exlibris公司开发的Primo检索系统可根据个性化方式对检索结果进行排序,通过选择不同偏好特征并赋予不同权重的方式对检索结果进行优化,此外该系统还可以通过分析用户的搜索日志、客户反馈等情况,不断增强和优化Primo相关性排名技术。
检索词个性化预测主要是通过对用户历史检索数据以及内容偏好数据进行学习,从而对用户即将要输入的检索词进行预测,在检索栏的下拉列表中提供与用户检索主题相关或者用户可能感兴趣的规范化的检索词,并且这些规范表达的检索词随着用户在搜索栏中添加更多检索词而不断进行调整及变化。目前,图书馆还未出现个性化预测检索的相关应用,但类似的Google、百度等搜索引擎通过基于热门搜索的预测搜索算法均可以实现对用户的检索查询的预测。
3.2.2 个性化推荐
基于机器学习的个性化推荐服务,是通过收集用户的基本身份数据、内容偏好数据、社交数据等进行机器学习,从多个维度的数据中提取用户兴趣的关键特征,描绘出完整的用户画像,进而实现资源、在线教育、通知信息的个性化定制推送。例如:用户是一名23岁,专业为计算机科学的研究生,近两月借阅或是检索的文献主要集中于机器学习相关的专著、期刊及学位论文,并在豆瓣图书中关注收藏了两本有关机器学习前沿内容的图书。在通过获取用户上述信息进行机器学习后,描绘出该用户画像,发现该用户可能是关注于机器学习的学术研究型用户,因此个性化推荐系统会向该用户推荐与机器学习相关的高被引期刊及硕博学位论文、权威作者的专著、相关国际学术会议论文以及在线视频课程等在内的资源;此外还会向用户推送近期举办的关于机器学习方面的讲座信息通知;个性化推荐系统会根据该用户收藏关注的图书与馆藏情况进行匹配,提示该用户其收藏的图书在馆内有可借复本。
类似的个性化推荐已被阿里巴巴、美团点评等电商企业广泛应用。目前基于机器学习的个性化推荐服务在图书馆界尚未出现应用实例,但已经有学者开始关注机器学习在个性化推荐中的应用[12][13],研究结果表明用户画像在图书馆个性化推荐方面具有一定的促进作用。
3.2.3 个性化参考咨询
清华大学图书馆的“小图”、上海图书馆“图小二”是目前图书馆界具有代表性的基于机器学习的个性化咨询服务,其实现方式是采用有监督的机器学习方式,但采用这种监督机器学习的弊端就是在训练模型前必须要进行大量的数据清洗和加工工作,如果训练数据质量不佳会导致模型出现偏差,常常导致聊天机器人的回答准确度不高。若引入深度学习技术,能比较好地解决这一问题,数据加工上不需要过多处理仅进行简单的数据分类即可,降低了数据加工的难度。
此外,使用卷积神经网络(CNN)、循环神经网络(RNN)等深度学习技术,可以实现更多元化的智慧图书馆智能咨询服务。卷积神经网络(CNN)在图像处理领域已经取得了统治地位,使用CNN构建机器学习模型不仅可以较为精确地识别图像,而且还能理解图像所包含的内容及其相互关系,并通过自然语言表进行表达。Google的研究成果表明,将计算机视觉和语言模型通过CNN与RNN网络叠加进行合并训练,所得到的系统可以自动生成一定长度的文字文本,甚至能够完整讲述一张图片内所包含的故事[14]。将CNN应用于图书馆智慧咨询服务,则可以实现基于图像的参考咨询,通过深度学习的图像理解模型和聊天模型为儿童、老人等不便使用文字语言或是不同语种的用户提供更多元化、有针对性的咨询途径以及更精准的问题解答。同时,循环神经网络(RNN)在语音处理方面的表现也十分突出,微软公司推出的深度网络语音识别系统,可以对比音素更小的建模单元(senones)进行建模,该系统大幅度地减少了以往语音识别系统的相对误差,基准测试字词错误率为18.5%[15]。这类语音识别应用类似于微软公司的Cortana语音助手,如果该成果应用于图书馆中,则可以实现聋哑、视障人群的个性化咨询服务。
3.3.1 采购决策
采访的决策影响着馆藏资源建设的质量,但在实践工作中,无论是由采购人员进行决策还是由读者进行采购决策往往都不能带来满意的效果,因此就需要将二者进行结合,通过机器学习形成适当的采购模型实现二者的平衡,一方面通过读者基本身份数据、历史借阅等数据进行学习得出读者偏好,另一方面通过馆藏情况、历史采访数据、采购预算、文献评价等形成采访偏好,并通过大量训练进行学习赋予读者偏好以及采访偏好不同权重形成采购模型,为文献采访工作提供科学的决策依据。目前,基于机器学习的智能文献采访尚未在图书馆中有完整的应用,但机器学习技术在图书馆的借阅量预测方面则可以提供一些有价值的参考。美国韦恩州立大学图书馆利用机器学习技术正在开发一个对馆藏资源的借阅预见分析软件,以更好预测图书馆馆藏的使用情况,这个仍在开发中的应用程序使用美国国会图书馆分类号来预测书籍被借阅的可能性[16]。目前有关基于机器学习的智能采访的应用案例还未出现,但已经有部分学者开始关注机器学习在图书馆采购决策方面的应用,主要集中在使用不同机器学习算法构建或优化采购模型方面[17][18][19]。
3.3.2 文献自动分类
自动文本分类应用机器学习技术,通过大量已编目的文献数据进行分词预处理并提取特征进行学习,推理生成文献分类模型,并通过不断的训练进行修正最终得到一个分类准确率较高的模型以进行正式文献分类工作。基于机器学习的文献自动分类常用的方法有朴素贝叶斯法、KNN、决策树法、SVM(支持向量)等,其中SVM是文本分类近年来最重要的进展之一。随着深度学习的引入,以BP神经网络、CNN卷积神经网络等为代表的深度学习方法也开始应用于文献自动分类中。王昊等将机器学习算法中的 BP 神经网络引入到书目分类中,建立了以机器学习为基础的书目层次分类系统模型,并以部分类目图书作为样本,对模型的可行性与合理性进行了论证和分析[20],其研究基本解决了未进行主题标注情况下书目如何进行自动分类的问题。郭利敏将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号,并对7000多篇待加工的文献做中图法分类预测,一级分类准确率为75.39%,四级准确率为57.61%[21],证明该模型有着较低的错误率。基于机器学习的文献自动分类,在节省人力成本的同时保证了分类的准确性,使得文献标引工作更加自动化、智慧化。目前,基于机器学习的文献自动分类还处于探索研究阶段,在图书馆界尚未出现应用的实例。
3.3.3 智能排架
目前,图书馆普遍使用基于RFID 技术的智能图书定位系统来进行智能排架,但RFID因屏蔽或反射容易产生无法定位的情况。为了克服RFID的缺点,提高定位的准确率,一些学者试图引入机器学习技术对单字符的索书号进行字符识别,将识别后的索书号与保存的图书架位信息进行比较从而判断乱架图书的位置。陈旭等人采用多阈值及Seed-Filling 种子填充方法提取索书号区域图像并进行索书号分割处理,通过BP神经网络对索书号字符进行识别,经实验得出索书号符识别率达到94%,且BP神经网络相比于以往的霍夫变换法对索书号的识别率更高[22]。李俊男在原有RFID 技术的基础上,设计了一个基于深度学习的图书馆架序智能识别系统,该系统首先对书架RFID标签进行扫描并对存在乱架情况的书架进行拍照,经边缘检测、直线分割对索书号区域图像进行字符识别和分割,通过训练卷积神经网络的字符识别模型对索书号进行识别,比较所识别的索书号大小,以此来判断当前图书的顺序是否正确[23]。当前机器学习尤其是深度学习技术在图像处理领域被广泛应用,智慧图书将深度学习技术引入智能排架中,一方面可以解决小型图书馆因经费不足无法购买RFID设备而无法实现智能排架功能的情况,另一方面也可以作为原有RFID智能图书定位系统对索书号识别的辅助技术以提高定位的准确率。
机器学习技术可以渗透到图书馆资源、服务、管理等各方面,提升图书馆服务及管理的智慧性。但从上述应用场景来看,目前机器学习在图书馆中的实践应用非常少,仅仅在个性化资源检索、个性化参考咨询方面有少量的实践应用,在其他应用场景方面大多还停留在研究层面,在这种背景下,图书馆如何引入机器学习技术,如何推进机器学习技术落地智慧图书馆也是当前值得研究的问题。
国务院发布的《新一代人工智能发展规划》将人工智能发展提升到极高的战略地位,彰显国家层面对于人工智能发展战略布局的高度重视。机器学习作为人工智能技术的重要组成部分,图书馆应给与足够的重视,加强推进机器学习技术落地的顶层设计。由全国图书馆标准化技术委员会主导制定图书馆人工智能服务在资源、技术、服务等方面的具体标准,对图书馆应用机器学习等各类人工智能技术的应用范围及条件、数据收集及存储、监督机制等作出明确规范,确保图书馆在政策文件指导下应用机器学习技术。
在发展初期侧重个性化资源检索、知识发现与预测、个性化参考咨询这类用户需求度较高的服务;发展中期侧重文献自动分类、智能排架、古籍数字化等可以提升业务工作效率的应用场景;发展后期,随着机器技术实践成果的经验累积以及与其他人工智能技术的融合发展,可以着重在个性化推荐、智能采访等高智能化应用方面进行落地。
在现阶段,委托开发、合作开发是当前机器学习技术落地图书馆的主要实现途径。个性化资源检索、知识发现与预测等对平台数据(如:数据库浏览及下载记录等)依赖性较强的服务适宜采用委托开发的方式,如:Exlibris Primo检索系统、Qinsight知识发现平台等都是由商业机构进行开发,图书馆可直接购买该服务实现机器学习技术的应用落地;而个性化推荐等对图书馆用户数据(性别、年龄、借阅记录等)及平台数据依懒性均较强的服务更适宜采用合作开发方式,由图书馆提供用户的基本借阅信息,平台商业机构提供用户在平台浏览数据等信息,进行合作开发构建个性化推荐服务。此外,文献自动分类、智能采访、智能排架等对图书馆业务数据依赖性较强但开发专业度较高的应用,在现阶段也适宜与商业机构进行合作开发,图书馆应充分参与平台功能设计、底层架构、系统对接、开放接口应用等模块,实现图书馆丰富业务经验与商业机构先进开发技术的优势互补。
图书馆应着重关注数据的获取途径、数据获取的隐私保护。在数据获取途径方面,图书馆应扩大数据收集的范围进行多维度的数据采集,重点采集如:数据库登录频率、登录时间及停留时长、文献浏览及下载等在内的数据库使用信息,借阅、收藏、预约图书等在内的图书集成管理系统使用信息,在线申请、预约培训活动等活动信息,咨询FAQ、课题检索、科技查新、代检代查等参考咨询平台使用信息,以及对图书馆的微博、微信公众号评价的反馈信息等,通过全方面、多维度的采集用户信息,使个体用户在不同数据间进行互补,增强用户行为数据的可靠性,以提高用户画像构建的准确程度;此外,在获取用户行为数据的同时,图书馆也有保障用户隐私的义务,在获取用户行为数据前,需要在资源数据库、图书馆集成管理系统、活动预约平台、参考咨询系统、微信公众平台等应用平台中对所采集用户信息的范围、使用目的进行明确说明及告知,在获得用户的信息使用许可后,方可进行采集。