田文武
(呼伦贝尔学院 内蒙古 海拉尔 021008)
传统图书馆通过馆内阅览、书刊借阅和复印等形式提供服务,其服务价值由图书馆的藏书量和藏书面积等自身的指标来衡量。目前,网上数字资源还处于检索和下载的非核心业务阶段,其服务的内容有限,服务手段相对落后,特别是其服务效率不能满足用户日益增长的信息需求。随着互联网、大数据和人工智能等新兴技术的广泛应用,信息的种类和形式越来越多,存储和传输的信息量不断增加,用户获取知识资源的方式和手段也发生了变化。高校从事科研工作的教师和学生对网上数字资源的需求越来越大,传统图书馆所提供的服务内容和服务模式等受到挑战。因此,图书馆应充分利用这些新技术,及时调整馆藏资源来适应读者需求,通过资源整合提高图书馆知识资源的利用效率;通过智能化提供更加精准的个性化服务,加快图书馆的转型和智能化建设,在知识服务领域实现创新发展。
智慧图书馆是采用数字化、智能化和云技术等信息科学手段,整合不同媒体存储的信息资源,实现高效检索、灵活智能和系统安全可靠的未来图书馆运行新模式。大数据技术在智能图书馆建设中能提供的主要服务包括:
传统图书馆纸质和电子音像资源由于受时空限制共享不够充分,管理劳动强度大且使用效率较低,数字资源常分布于不同的网络平台,增加了读者检索的难度。在智慧图书馆建设过程中,可利用大数据技术和云存储技术,将实物馆藏资源数字化,与网络数据库、网上出版物等虚拟馆藏资源进行集成整合,形成一个跨平台具有很好的可扩展性和兼容性的知识网络系统。使人们在很大程度上可以不受空间和时间的限制,在智能终端以线性可视化的方式搜索知识资源,并将搜索结果集中呈现在用户终端,从而扩大检索范围、改善检索效率,实现更充分的资源共享。
(1)可为用户提供信息订制服务,根据馆藏资源的变化及时更新信息并给订制用户推荐;(2)挖掘用户潜在的信息需求,并向用户推荐符合其知识体系和当前需求的知识资源。借鉴商业网站通过对用户浏览查询商品、购物情况进行分析,挖掘用户的潜在需求并在客户端为其推荐商品的做法,图书馆也可以和用户在签订服务协议的前提下,对用户的专业爱好、研究方向、借阅图书日志、检索和下载数字资源日志等数据进行统计分析,有针对性的给用户推荐相关的知识资源,实现以用户为中心的个性化服务。
随着图书馆建设规模的扩大,信息量和承载量都在不断增加,传统图书馆在服务效率和管理方式上都难以适应。只有通过对图书馆提供的各种服务进行梳理分析和有效的信息挖掘,使用电子终端辅助设备和安全可靠的图书馆综合管理系统为用户提供便捷快速的一站式身份识别、自动借阅、按需采买等综合服务,才能实现高效的管理,让读者节省更多的时间,享受图书馆智能化带来的方便。
为了实现智慧图书馆的知识共享、知识推荐和服务优化,同时使系统具有更好的可扩展性、安全性和易于维护,从信息管理和应用的角度可以采用物理隔离的三层体系结构:系统资源层、智能处理层和功能展示层,如图1所示。这样可以把智能处理过程与后端系统资源进行隔离,有利于系统扩展,把功能展示从智能处理中分离出来,可使系统更加安全也易于维护。
图1 智慧图书馆系统整体构架
图书馆庞大的知识资源可分为纸质资源、音视频资源、数字资源、互联网订阅资源、互联网开放资源等。这些信息资源的存在形式从搜索者的角度来看是碎片化的。为了实现一体化的资源检索,需要采用统一的数据标准,建立一个集中所有不同形态资源的元数据库。其关系模式可包括资源编号、分类号、名称、作者、出版机构、出版时间、书刊号、简介、关键字、存储方式、存储网址(位置)等属性。当用户检索到相关的资源时,可以通过其存储的网址链接到相应的数字资源或者提供相应实物的存储位置。知识资源元数据需要采用不同的方式和手段来获取,如图2所示。对纸质图书、音像资料等可以为其建立元数据的数字标签,也可以通过数字处理技术将这些信息资源存储在高性能计算机或网络空间中。对馆藏和网上订阅电子资源可运用自然语言处理技术来分析挖掘相关资源的元数据。
图2 知识资源元数据库的构成
馆藏数字资源和网上的知识资源以非结构化、半结构化数据形式存在的较多。为了便于检索需要对不同结构的数据进行整理、分析挖掘,去除重复的不可靠数据并确定知识资源的关键词等元数据,从而实现知识资源的一体化检索和应用。自然语言处理技术是融合计算机科学、语言学和数学的日益成熟的一门科学,目前广泛应用在人工智能领域。根据贝叶斯假设,文档中的字词可被看成是相互独立的。因此,可以将文档表达成字词的集合,通过对集合中字词的分析统计获得构成文档的重要词汇列表。NLTK(Natural Language Toolkit)是用Python程序处理人类语言数据的领先平台,作为一个开源项目拥有强大的社区支持。它为许多个词汇资源和语料库提供了用于标记、分类、解析和语义推理使用的文本处理数据库。其处理包括分词、词形归一化、词性标注和过滤掉停止词等过程,下面给出了统计一篇文档的高频词的Python程序代码:
# -*- coding: utf-8 -*-
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
fn = open('知识资源文件.txt','rt',encoding='utf-8') # 打开文件
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件
pattern = re.compile(u' | n|-|:|;|-!|…|“|”|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words =[u' 的', u',',u' 和', u' 是', u' 等',u' 为',u' 把',u' 着'] # 自定义去除词库
if word not in remove_words: # 如果不在去除词库中
object_list.append(word) # 分词追加到列表
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_topn = word_counts.most_common(n) # 获取前n最高频的词
在词汇统计的基础上,为了评估一个字词对于文件的重要程度,可采用信息检索与文本挖掘中常用TF-IDF算法(其表达式如1所示)及针对标题和内容赋予不同权重的改进TF-IDF算法等来获取知识资源的关键词等元数据。
(1)
为用户提供个性化服务包括:(1)为匿名用户只提供信息检索服务;(2)为注册用户提供基本的信息检索、资源定制、信息收藏服务;(3)在为注册用户提供基本服务的基础上,为用户提供知识推荐服务。知识推荐服务需要跟踪和分析用户行为,这会涉及到用户隐私。因此需要在充分告知并征求用户同意的基础上签订相关的安全协议。跟踪用户行为包括用户定制及收藏的内容、借阅和下载的资源、检索和浏览的内容等。通过分析用户行为数据和资源属性等数据,对用户偏好和资源特征进行建模,然后使用基于协同过滤推荐算法进行筛选,找到用户可能感兴趣的知识资源,结合用户使用场景对推荐结果进行一定的过滤调整后推荐给用户,如图3所示。
第二,推进中国—东盟国际学术活动品质升级。为提升本校在艺术领域的国际影响力,联盟各高校举办了一系列中国—东盟国际学术交流活动,紧紧围绕“艺术+学术”的中心内容开展频繁互动,广泛分享学术成果,深入开展艺术交流。在联盟高校的广泛参与和大力支持下,这些活动的内容得到丰富,形式更加多样,成果更加丰硕,品质得到升级,发展成为中国与东盟、中国—东盟与世界艺术教育合作与交流的学术新高地。
图3 推荐系统模型
基于协同过滤推荐算法的基本思想是通过大数据技术分析用户的行为来计算知识资源的相关度。它假设,如果使用A资源的用户也使用了B资源,则A、B资源是具有一定相关性。由此通过对大量用户的统计分析可以得到不同资源的相关度的矩阵。当用户P使用了一个知识资源后,可通过相关度矩阵推荐给他与该资源相关度高的其他知识资源,如图4所示。假设A、B、C、D代表知识资源,可将P1、P2、P3用户使用知识资源的情况转化为知识资源的相似度矩阵M,如P1用户使用了A、C,则它的矩阵M[A,C]和M[C,A]置1(默认其它不相关的对应元素为0),其它同理。将所有用户的资源相似矩阵相加得到最终的资源相似度矩阵M,其中M[i,j]记录的是同时喜欢i和j知识资源的用户数,本图中合并后元素较大的是M[A,C]和M[C,A]的2,其代表了A、C资源的相关度较高,因P2用户使用过A资源而未使用C,可根据相关度矩阵将资源C推荐给P2用户。通过对大量用户进行跟踪统计,并将矩阵M归一化可得到知识资源间的余弦相似度矩阵W。与之对应的算法描述如下:
图4 知道资源的相似度矩阵
#计算资源相似度矩阵
For每个用户
For 用户P表达偏好的每个知识资源i
For 用户P表达偏好的每个知识资源j(j不等于i)
M[i,j]=M[j,i]=M[i,j]+1
M矩阵归一化
ReturnM矩阵
#按资源相似度矩阵做推荐
For用户P表达偏好的某领域的每个知识资源i
For用户P未表达偏好的每个知识资源j
查询M[i,j]相似度值并做降序排列
Return值较高的前N个元素
图书馆常见的业务流程包括知识资源的获取、编目、流通管理和服务等。通过对图书馆业务流程的分析,找出不同业务间、业务与用户间的各种关联规则,进而做好业务处理流程的优化。(1)通过系统的智能架构为用户提供统一的身份认证,用户只需进行一次注册获得用户身份并分配相应权限,登录时对用户的电子身份进行识别,通过后就可以根据权限标识使用系统提供的相应服务,如图5所示;(2)对读者检索、阅览和反馈意见进行统计分析,根据读者需求来确定知识资源的采买,提高资源的利用效率;(3)馆内通过引入各种智能终端,实现读者身份的自动识别、图书的自动借阅和归还,减少管理服务人员的负担,为用户提供智能高效的服务。
图5 统一认证系统架构
目前,大数据和人工智能技术发展迅猛,新的算法和应用层出不穷。如关键词的提取还有基于Word2Vec词聚类关键词提取算法、LDA文档主题生成模型等。推荐算法除协同过滤推荐算法外,还有基于内容、基于隐语义、基于关联规则等推荐算法。因可利用的大数据的资源量、不同的应用场景等因素会影响算法的处理效率、查准率、查全率等指标,单一的算法往往难以取得最佳的效果。如上述的协同过滤推荐算法就存在对新资源的推荐度偏低的问题,在实践中需将不同的推荐算法进行有机结合实现互补。由于科技手段的飞速发展和研究的不足,文章中给出的方案未必是最优的,一些设计还有改进的空间。随着机器学习算法的优化和可供学习的大数据资源不断积累,未来智慧图书馆所能提供的服务也会更加准确、高效。