张希平,姜 华
(1普洱学院 云南 普洱 665000)
(2云南省寄生虫病防治所 云南 普洱 665000)
目前,高校图书馆的信息化建设正在迅速发展,但仍然存在高校图书借阅率不高、闲置书籍较多、教师和学生进行信息和文献检索的过程中比较耗费时间等现象。因此,补充目前高校图书馆已有的借阅服务,增加个性化推荐内容,能够让用户在进行信息检索时,不仅能够看到精确查找的内容,也能够通过系统的筛选和联想,发现另一些馆藏有用的信息,从而实现更加高效的检索。在相应算法的支持下,对于用户的浏览记录进行抓取和分析,从而形成个性化的报告,能够推送相同或者相似类别的内容,使图书馆系统的推荐功能更加具有实用性。因此,对用户的浏览记录及信息进行收集分析、对馆藏文献和资源进行挖掘,并用算法使他们产生关联性,就能够更好地实现图书馆资源的利用。
目前,高校图书馆系统还存在一定问题,比如图书馆系统的设计布局比较混乱,在学生或教师进行信息检索过程中,可能会出现检索速度慢、检索出的数据较少、相关性不强等问题。这些问题会直接影响到学生和教师使用图书馆网站进行图书查找的体验,同时,如果在系统中查找图书和文献反而耗费时间较长且效果不佳,那么图书馆的图书管理系统也就失去了其实际应用性。
目前,高校图书馆系统大多使用的是汇文文献信息服务系统,能够为教师和学生提供一定程度的推荐服务,系统也具备数据挖掘的工具,能够采用算法为读者推送相关的专题和全文链接等等,还能够利用数据分析及相关算法,对目前系统中的数据进行简单统计。但是其数据挖掘和统计分析仍处于比较浅层次的阶段,在图书馆系统中的应用,在现实使用和读者体验中仍然不是很明显,并且对信息检索能力的提升也不显著。数据挖掘在这个系统中体现的价值并不大,目前的图书馆系统还没有集成数据分析的功能。
图书馆系统是结合互联网上的资源、高校内部学生与教师的信息、馆藏图书以及数据等为教师和学生提供多元化服务的系统,因此图书馆系统主要是以资源整合和读者服务为主的,能够向全校师生提供更加方便的图书馆借阅归还服务,使教师和学生在查找图书和文献的过程能够更加方便、快捷。因此,将个性化推荐系统引入图书馆系统,能够使读者在检索的过程中更加精确和快捷,在输入相关的关键词后,个性化推荐系统就能够根据关键词本身、搜索结果的点击量、借阅率以及相关文献的点击量等进行推荐。这个服务系统能够在较短的时间内,对大量数据进行挖掘并结合算法进行计算,起到帮助读者检索筛选的作用。
3.2.1 对图书馆馆藏文献及浏览数据进行归类
首先,需要对图书馆数据库中的数据进行分类,同时还需要分析教师和学生的访问数据,对其偏好度和相关信息的关联性进行分析,其中包括用户浏览时间以及具体浏览的内容等。对图书馆馆藏文献进行分类,能够更加明确在检索过程中,用户更偏向哪一类文献的检索和阅读,在推送的时候可以按照大类进行推送。而浏览时间、频率以及相关文献的数据,就能够通过个人的行为推断出某些数据的相关性。在分析数据的过程中,应当设定条件值,在分析过程中,少于条件值的数据不具备参考意义,可以进行剔除。另外,对于网页的浏览时间,也需要进行筛选,少于设定时间的浏览数据也无参考价值。在提取数据时,一般使用的公式如下:
pref={(f-fmin)(t-tmin)/[(fmax-fmin)(tmax-tmin)]}
其中,pref表示用户对于某篇文献的偏好程度,f表示浏览次数,t表示浏览时间,max和min表示最大值和最小值。在对用户的浏览数据进行分析后,就能够较为科学地判断出用户对某篇文献或者某一类文献的偏好程度,从而有针对性地进行推送[1]。
3.2.2 结合用户偏好以及数据相关度进行分析
除了可以对某个用户对某篇或某类文献的偏好程度、对用户浏览数据进行分析,还能够得出文献的相关性。在用户进行文献浏览的过程中,往往不只需要查阅其中一篇,而是对相关性较强的内容都进行阅读,从而得到用户想要的信息。因此,用户的浏览日志从某种意义上来说,也能够提取出文献的相关性。在实际分析过程中,可以将用户的浏览时间、浏览的具体文章以及用户名用序列表示,对重复序列进行筛选后,就可以结合用户偏好值进行分析。此处可以采用Apriori技术进行文献之间的关联性分析,从而能够给用户进行更加精准的推送。高校图书馆往往积累了大量的资源,每天在资源的更新和用户数据检索的过程中也积累了很多数据,用户在很难再检索的时候很快获得所需的信息。数据挖掘就是结合图书馆自身的数据库与用户的浏览信息进行关联性规则的挖掘和分类,从而能够为读者提供更加精准的个性化推荐服务,最终提高用户的信息检索效率,满足其在数据检索和信息查找中的需求,提高高校图书馆系统的高效性和便捷性[2]。
数据分类是在数据挖掘中十分重要的一部分,能够将图书馆中图书、文献等按照其特点归结到分类组中。在分类过程中,除了按照传统分类方式,按照学科、学段等方式进行分类之外,还可以借助对图书的题名进行关键词分析,通过D3.js可视化组件可以对用户的阅读偏好进行调查分析,从而依照多种分类方式对数据进行分类。决策树(decision tree)就是一个很好的分类算法,通过ID系列规则,能够将决策树及其每个分支节点都进行分类和输出,转换规则也相对简单,ID3算法和C4.5算法就能够完成。决策树中主要包含数据训练集、决策树分类算法、评估模式与预测、测试集与类别未知的数以及预测结果等部分。或者可以基于距离进行分类,将每一个类别都使用一个数值向量来表示,就能够通过相似性实现分类的结果,在计算中主要表现为距离越远,相似性越小。
应用关联规则进行挖掘能够发现数据库中各个项集之间的关联关系,因此能够解决很多问题。关联规则中一般存在两个阈值:minsup即最小支持度,minconf即最小置信度,分别反映一组物品需要满足的最低程度以及关联规则最低的可靠度。而在实际应用中,可以基于处理的变量的分类、规则中数据的抽象层次、规则中涉及的数据维度等分为布尔型和数值型;单层关联和多层关联;单维关联和多维关联等多种关联规则。应用关联规则进行算法挖掘一共有两个步骤,第1步主要是根据minsup在短时间内找出数据集D中所有的频繁项目集,这一步所耗费的时间是衡量关联规则算法效率的关键标准;第2步则是由频繁项目集与minconf产生的强关联规则的探查。因此,关联规则主要是由指定的minsup与minconf与算法进行交互,通过规则在数据中进行挖掘,最终对挖掘结果进行解释的一种挖掘模型,能够将数据库与用户所产生的浏览数据进行有机联系,从而实现对于用户的个性化推荐,提高用户的检索体验和检索效率。
Apriori算法主要是为了解决关联规则问题提出的算法,主要目的是挖掘频繁项集思想,在处理数据的过程中,主要分为频繁项目集的产生和关联规则产生两步。Apriori算法主要使用层次顺序搜索,筛选相应的候选项集,然后扫描数据库,使用subset函数找出所有候选的子集,对每一项进行支持计数。从第一个形成频繁的“1-项集(L1)”进行标记,用“1-项集(L1)”找出频繁“2-项集(L2)”,再用“2-项集(L2)”找出频繁“3-项集(L3)”以此类推,直到最终在图书馆数据库中找出能够满足最小支持度的项集L。为了提高计算机运行的效率,同时减少算法在数据库中扫描的次数,可以对Apriori算法进行改进,比如基于Partition进行数据划分,这种算法的主要原理是,在第1次扫描数据库之前,将数据库分成许多小段,这其中的每一段都可以装入内存,在第2次扫描时则是合并每个分段,验证候选集是否都是频繁项集。还可以基于散列利用DHP算法进行优化,这种算法则是通过在第1次扫描数据库产生频繁项集时,增加桶的集数,这样就能够在第2次产生候选项集时尽快进行排除,从而大大压缩了排除候选项集的时间。除此之外,还有采样方法,牺牲了一些精准度,但能够很大程度上提升筛选和推荐的有效性,适用于数据挖掘数量较大,但对精确度要求并不高的情况。
目前,高校的图书管理系统中仍存在很多问题,会对用户的使带来一定程度上的不便,不能够很好地体现高校图书馆系统的优越之处。因此,需要对目前的高校图书馆系统进行改良,主要是基于数据挖掘加入个性化推荐系统,从而能够在教师和学生查找文献和图书的过程中,能够智能化地进行联想和连接,节省教师和学生筛选查找的时间,从而提高学习和科研效率。