摘 要:大数据挖掘技术作为一项新兴的信息处理技术,给图书馆信息化建设带来了深远的影响。本文首先分析了数字图书馆的发展现状和现存服务系统中的问题等,随后介绍了典型数据挖掘技术和方法,并且探讨了大数据挖掘技术在数字图书馆服务中的应用。
关键词:大数据;挖掘技术;数字图书馆
随着科技的发展,我们已经逐渐开始了大数据时代,在这个社会当中,数据挖掘技术的诞生,让人们的生活更加便利。同时数据挖掘技术也是在新时期社会发展需求下诞生出来的一种分析类技术,这种技术能够针对拥有不同特点的用户需求,提供个性化的服务,并且逐渐在社会各个领域中普及开来,文章就此介绍了数据挖掘技术在数字图书馆中的有效应用。
1 数字图书馆发展现状
1.1 数字图书馆发展特征
数字图书馆一直是图书馆领域中的重点研究对象。从广义角度来讲,以网络为基础,同时能够满足人们信息需求的就可以叫做数字图书馆。从较为严格的定义角度来分析,数字图书馆就是收藏各种数字信息,能够支持用户进行采集、检索、定位信息等服务的信息技术,突出了数字图书馆中的技术、服务与收藏等三种要素[1]。服务是数字图书馆的发展基础,目前图书馆中信息服务模式属于一种分布分散形式的传播模式,并逐渐向用户中心的集中式服务模式发展,数字图书馆在未来发展过程中也应该将重点放在智能应用、空间聚合、集成服务等领域中下功夫。
1.2 服务系统中的现存问题
从现有的服务模式实际发展状况来看,个性化服务系统目前存在以下几方面的问题,首先是信息组织的问题,比如MyLibrary主要是以现有动态网页技术和数据库技术为基础,但是没有对图书馆信息组织方式进行彻底的改变。其次是没有充分了解用户的实际需求,用户只能被动挑选自己想要的信息资源。图书馆所提供的服务基本也是以现有资源为基础,而不是从用户需求角度入手提供各种服务。最后是没有对用户的消费行为进行精准分析,在现有的服务系统当中,只能根据用户所记录的个人资料提供相应的服务,但是却没有主动跟踪和获取用户实际需求,更不用说对用户信息进行整理加工,并在数据挖掘技术的基础上找到各种规律性事物,为数字图书馆的建设发展提供可靠的参考依据。
2 大数据挖掘技术在数字图书馆中的有效应用
2.1 分类模型
分类模型是监督式学习模型,即分类需要使用一些已知类别的样本集去学习一个模式,用学习得到的模型来将不同种类的数据信息进行分类。数字图书馆可以分析、利用用户特点,对用户进行科学的分类研究,了解用户的属性和特征,掌握用户对于图书馆所提供服务的满意程度。比如数字图书馆可以根据用户的不同需求,为其提供个性化服务,通过神经网络、规则总结、决策树等多种常见的分类方法对用户特征进行分析,从而了解怎样的用户拥有怎样的服务需求,了解拥有哪一种共性特征的用户会制定某一服务,而在所有的图书馆用户中,这一群体的所占比例为多少。最终通过分类模型所得出的结论为图书馆提供服务推送,提供可靠的参考依据,挖掘潛在用户群体,同时还可以结合用户的职业背景和学历特征等因素,制定合理的服务措施。比如某些群体的用户拥有良好的经济收入,同时对在线数据库拥有较强的兴趣,对于知识的需求程度较高,那么就可以将其划分到固定服务对象一类当中,可以对其提供一定的优惠政策,促进其购买和使用在线数据库,并将数据库中不断更新的信息技术传送给用户,针对这一群体实施问卷调查,为后期的服务改进做好基础准备。
2.2 关联模型
关联模型主要是用来分析数据库中各种数据信息之间关系的一种规则,也就是说在某一事物当中,随着某一项的出现,能够引发出其它项出现在同一事物当中,就是深埋在各种事物当中的隐藏关联[2]。比如我们可以在关联规则的基础上发现以下现象,假如某位用户制定了图书馆中的某项服务,那么随之而来的也会定制其它的服务,或是和某种网络资源进行链接的用户,也会存在极大的可能与另一网络资源进行链接,那么数字图书馆就可以将两种资源或是服务结合到一起提供给用户,并挖掘具体原因,制定有效的服务措施。
2.3 序列模型
序列模型在一定程度上,十分接近关联模型,两者主要的不同是序列模型的服务对象是根据时域进行划分的,即序列模型发现的规律按照事件发生顺序进行分布。例如在以B/S模式为基础的个性化服务当中,可以通过Cookies来记录图书馆用户曾经访问过的各种资源信息,最终可能会发现,假如用户阅读A链接,那么就会存在百分之四十八的几率会在三十分钟内访问B链接,这也是序列模型中所发现的规则,假如获得了这样的结论,用户在访问A链接后,那么进入B链接就有百分之四十八的可能,这也是关联规则[3]。
2.4 聚类模型
聚类分析是数据挖掘的重要研究内容与热点问题,它是按照某种相似性度量方法(标准)对一个数据集合进行划分成多个类簇,使得同一个类簇之间的相似性尽可能高,不同类簇之间不相似或者相似性低。与分类模型有所不同,聚类模型属于无监督学习,事先并不需要知道每个对象所属的类别,既不了解相应的分类标准,同时也不了解会有哪些类出现,根据所给的聚类参数,如相似度对数据实施分解、合并。最终让领域专家判断所得结果,假如无法满足预期目标,就需要进行改良,重新聚类。一旦满足目标需求,分类规则也可以利用聚类参数获得。在这一过程中,可以针对某一群体用户实施聚类,并挖掘其中的最为相似的群体,实施有效的服务策略,选择合理的服务方式,结合用户的体验反馈,准确判断聚类成果,了解用户的满意度。
2.5 时间序列模型
时间序列模型可以在现有数据信息基础上,对未来进行准确预测,从这一角度出发我们能够发现,时间序列模型和回归模型十分接近。回归模型主要是通过历史数据对未来发展趋势进行预测,最简单情况下,应用标准统计方法即可,例如线性回归方法。但多数情况是非线性问题,比如数据库中的流量升降、网页访问数量变化等,在多种因素影响下,问题也变得更加复杂。在回归模型中,并不十分看重时间发生顺序,但是在时间序列模型中却十分看重时间特性,其中最为关键的就是时间周期层次,例如年、月、周、日等,除此之外,有时还需要结合日历问题进行分析,比如节假日等方面的影响。例如在线书库中的访问数量,随着时间的变化会产生相应的周期变化,为此数据图书馆可以根据周期变化挖掘具体发展规律,同时还可以发现周期变化的具体原因,比如遇到的假期或是学期发生了一定的变化,为此需要进一步调整工作计划。其中需要注意的问题是,挖掘时间序列数据和时间数据模型分属于两种不同概念。在挖掘时间序列数据信息的过程中可以综合利用各种方法或者模型。
3 结语
综上所述,在信息技术飞速发展的时代,数字图书馆具有较为广阔的发展前景。从长远发展角度来看,数字图书馆想要实现可持续发展的目标,就需要有效利用先进的科学技术,分析掌握不同用户的真正需求,为用户提供精准的个性化服务。而大数据挖掘技术能够在海量信息资源中迅速挖掘出最为有用的信息,并且不需要专家知识检验所得到的结论,是推进图书馆信息化进程的强有力手段,也是未来数字图书馆创新的重要领域。
参考文献
[1]马桂英,李会民.大数据技术在应用型本科高校数字图书馆建设中的作用[J].北华航天工业学院学报,2017,27(04):55-57+60.
[2]柳益君,熊太纯.大数据挖掘在高校图书馆个性化服务中应用研究[J].图书馆工作与研究,2017(05):23-29.
[3]赵志远,孙剑华.数据挖掘技术在高校数字图书馆个性化服务中的应用[J].无线互联科技,2018,15(12):141-142.
作者简介
许楠(1984-),女,汉族,研究生学历,讲师,研究方向:智能信息处理、图像处理。