整合用户资源——数字图书馆用户信息知识发现研究*

2013-03-31 05:58靳晓恩
图书馆研究 2013年5期
关键词:知识库检索数据库

靳晓恩

(南昌工程学院图书馆,江西 南昌 330099)

随着信息化的发展,用户信息需求以及获取方式与习惯正在发生深刻变化。2005年OCLC的《大学生对图书馆与信息资源的理解》[1]报告显示:89%的大学生在检索信息时,首先选搜索引擎,只有2%的学生使用图书馆的信息资源。而2010年,中国互联网信息中心发布的《第26次中国互联网络发展状况统计报告》[2]显示:搜索引擎在网民中的使用率达76.3%,以半年3912万人的速度增长。可见,搜索引擎的利用率远远高于数字图书馆的利用率。但这种现象的出现,对于数字图书馆的发展而言,是挑战、也是机遇。“挑战”不言而喻,“机遇”就是数字图书馆的建设者们应尽早尽快地吸取、利用先进的信息化技术开发、建立用户信息知识库,了解用户信息需求特征,发现用户需求规律,以指导数字图书馆丰富的资源建设,从而提高数字图书馆的资源利用率。

数字图书馆是现代高新科学技术和文献知识信息以及传统历史文化完美结合的体现。其建设的目的就是为了最有效、最可靠、最可持续地满足用户的信息需求,其发展的源泉也正是广大的信息需求用户。同时,知识发现(Knowledge Discovery in Database,KDD)的兴起,是人们长期对数据处理和分析进行研究和开发的结果,它使数据库技术进入了一个更高级阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出数据之间的潜在联系,发现具有指导性作用的预测、差异性知识[3]。利用知识发现的这种功能,加强数字图书馆的用户信息管理,对用户信息进行整合、分析、挖掘处理,将会发现有用的规则和知识,指导数字图书馆资源建设,这对数字图书馆的发展来说,可谓重中之重。

1 用户信息知识发现过程分析

数字图书馆的用户信息,也就是用户在利用数字图书馆检索信息时所产生的检索痕迹,包括数字图书馆用户登陆信息和用户活动信息、用户profile、用户调查信息、网站的用户注册信息和日志文件等[4],这些信息数据受用户的偏好、兴趣、认知类型、经验、智力、使用方向、检索时间等用户信息需求情境的影响,产生不同的用户需求特点,形成差异的用户需求行为。而这一用户检索行为所产生的记录而形成的数据库与知识发现技术相结合,我们将设计出如下的用户信息知识发现的过程分析模型图(如图1):

图1 用户信息知识发现过程模型

此知识发现过程建立在丰富的用户个人信息及检索过程记录的基础上,通过对用户个人信息特征库及用户检索过程记录特征库的预处理,形成目标数据库,知识发现就是对目标数据库的分类和聚类分析、关联分析、序列模式发现、模式识别等操作,结果产生具有指导性价值的模式、规则和知识,建立对改进数字图书馆资源建设方向、增强用户个性化服务能力的指导性知识库。

2 用户信息知识发现过程实现

用户信息知识发现过程实现的步骤主要有:用户个人信息特征库及检索过程记录库的建立和预处理;针对目标数据库的分类和聚类分析、关联分析、序列模式发现、模式识别的知识发现处理;建立知识库。

2.1 用户个人信息特征库及检索过程记录库的建立和预处理

数字图书馆的用户注册信息、用户登录信息、用户profile,受用户信息需求情境的影响,形成用户个人信息特征库。而用户交互信息、检索日志文件(访问时间、访问频率、访问结果等),用户检索表达式的影响,形成用户检索记录数据库。

针对用户个人信息特征库,主要是利用推理机分析处理用户信息需求情境,识别用户偏好、兴趣、认知、经验、智力等特征,并利用搜索引擎自动采集用户需求情境特点。针对用户检索过程记录库,主要是利用搜索引擎动态跟踪服务功能,记录大量的用户交互信息、检索日志文件(访问时间、访问频率、访问结果等)。而后,利用智能过滤、兴趣识别、访问登记等搜索引擎功能对两大数据库进行数据净化预处理。这样,预处理后的目标数据库,就成为可供进行知识挖掘操作的信息库。

2.2 分类和聚类分析

分类和聚类分析是一对互逆过程,分类是利用分类模型把数据库中的数据项映射到给定的类别中;聚类是把数据分成不同的群组,目的是使同一群组的数据尽量相似,不同群组的数据差别尽可能地大。分类和聚类分析可以把净化过的用户个人信息库及检索记录信息库的信息进行群分,建立用户需求模型,数字图书馆根据特征模型为不同用户提供个性化的信息定制和推送服务。例如:美国加州大学伯克利分校信息管理与系统学院的库伯教授曾对加州大学联机目录的使用记录数据进行收集,共获得257000条访问记录,然后进行处理和分析聚类,发现有6种不同的用户类型:查找详细信息的、一般使用的、查找中具有较好的互动技巧的、知道所查项目内容的、需要依赖帮助查找的、查找不成功的用户,从而使数字图书馆可以细分用户,并针对不同的用户提供相应的个性化服务[5]。

2.3 关联分析与序列模式识别

关联分析是表示数据库中同一事物不同对象之间的相关性;序列模式是事件内部及时间上的相关性。例如:对学生的借阅记录进行关联分析得出以下关联规则:“系统类=>组织类和管理类(0.25,0.33)”,即“在一个借阅过程中,如果系统类资料被借出,组织和管理类资料同时也被借出,其支持度为0.25,信任度为0.33。”[6]。通过对用户的检索交互信息、日志文件的关联和序列模式分析,可以发现用户的检索联系及检索取向,从而指导数字图书馆的资源链建设,节约用户的检索时间及检索步骤,并智能地推送符合用户检索需求的检索条目,供检索用户参考和使用。这样,数字图书馆的资源建设即可以有的放矢,用户的检索过程又可以更加简捷和准确。

2.4 知识库的形成

知识库是对信息库的判断、抽取、分析与概括,存贮的是规律性的规则和模式。通过对用户信息的分类和聚类分析、关联分析、序列模式等知识发现处理后而形成的知识库,存贮了大量的用户检索和信息使用记录的规律,利用这些规律来指导数字图书馆的门户平台建设、资源建设方向及重点,掌握用户需求动态,推出更具人性化、个性化的知识服务,从而最大限度地提高用户信息需求满意度。

3 结束语

信息时代,用户获取信息逐渐向无缝的“自助服务”方向发展,用户期望利用信息就像“用水用电”一样方便。而数字图书馆以图书馆及互联网上的各类数字资源或非数字资源为中心,目的是为了有效组织信息资源,为用户提供便捷的、无缝的、统一的、一站式的门户检索平台,从而最大程度的满足用户的信息需求,最大限度地发挥数字图书馆信息资源的使用率。

那么,为了实现这种“双赢”发展,数字图书馆界就应该做到“知已知彼”。首先就是要充分地了解用户需求,对数字图书馆的用户信息进行有效的知识发现处理,产生可供利用的知识和规则,建立有效的用户信息知识库,以指导针对性地数字图书馆资源整合,在资源提供与推荐、推送方面作出调整与变动,有的放矢地为用户提供新的信息定制与推荐服务,从而更有效地提高数字图书馆利用率,使用户获得更为快速、准确主动的个性化信息服务,完美实现数字图书馆“知识宝库”的社会价值。

[1] OCLC.College Students‵Perceptions of Libraries and Information Resources[R].Dublin,Ohio USA:OCLC Online Computer Library Center,Inc.,2005.

[2] CNNIC.第26次中国互联网络发展状况统计报告[R/OL][2010-09-25].http://www.cnnic.net.cn/pdf/2010/7/15/100708.pdf

[3] 黄晓斌.网络信息挖掘[M].北京:电子工业出版社,2005:7-8.

[4] Kyunghye Kin.A Model of Digital Library Information Seeking Process as a Frame for Classifying Usability Problems[J].A Dissertation for the Degree of Doctor of Philosophy[D].The State University of New Jersey.2002.

[5] Hui-Min Chen,Michael D.Cooper.Using clustering techniques to detect usage patterns in a Web based information system[J].JASIST.2001(11):888-904.

[6] Chien-Hsing Wu,Tzai-Zang Lee,Shu-Chen Kao.Knowledge discovery applied to material acquisitions for libraries[J].Information Processing and Management,2004:713-714.

猜你喜欢
知识库检索数据库
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
数据库
高速公路信息系统维护知识库的建立和应用
数据库
专利检索中“语义”的表现
数据库
数据库
基于Drupal发布学者知识库关联数据的研究