王芙蓉
(山西传媒学院图书馆,山西 晋中 030619)
基于知识发现的高校图书馆机构知识库模型的建立
王芙蓉
(山西传媒学院图书馆,山西 晋中 030619)
机构知识库是学术机构将成员产生的学术资料进行收集、保存、管理,以开放和共享为目的,实现资源的永久保存和传播。介绍了机构知识库的概念和高校图书馆建立机构知识库的必要性及原则。为了避免数据冗余,便于深层次数据挖掘,以题录实体和机构实体为元数据,构建了基于知识发现的三层架构的机构知识库模型,并阐述了该模型的实现过程。
机构知识库 高校图书馆 数据挖掘 知识发现 题录
机构知识库(IR,Institutional Repository)又称为“机构典藏库”“机构存储库”“机构仓储库”等,美国网络信息联盟(Coalition of Networked Information)执行总监Clifford Lynch[1]定义机构知识库为“高校的机构知识库是高校为其成员提供的一套服务系统,用于管理和传播高校各个部门及其成员创作的数字化资料”。因此机构知识库就是学术机构利用计算机技术,将成员产生的学术资源进行收集、规范、组织、存储,形成可以运用计算机保存、管理、检索的数字资源,以开放和共享为目的,实现资源的永久保存和传播。国外机构知识库的建设已成为学术机构的一项基础教育设施,而在我国机构知识库建设比较落后,具有代表性的是厦门大学建设的学术典藏库以及香港大学的机构知识库。
机构知识库中收纳的学术资料包括公开发表和未公开发表的各种形式的学术成果,这些学术资料包括论文、专著、专利、研究报告、课件、实验报告等,以及所有格式的图像、视频资料、音频资料、文本、艺术作品等。学术资料的收集是机构知识库建设中一项繁重的任务,建立合理的征收制度,提高机构知识库的文献资源服务质量,吸引更多的教师使用机构知识库,从而激发教师主动提交学术成果,扩大收录范围和形式。对公开发表的学术资料可以运用转换工具直接将现有数据库导入机构知识库中,未公开发表的灰色文献可以运用个人自主提交的方法导入机构知识库。
机构知识库收录各种内容、不同格式的文献资源,尤其收录诸如实验报告、预印本文献、测试数据等灰色文献,这些资源也具有很高的学术价值。机构知识库可以存储成员产生的学术资料,以便得到很好的保存利用,同时成员可以通过机构知识库进行学术交流,拓展视野,提升科研能力。机构知识库也成为高校与高校之间进行学术交流的桥梁。
图书馆重要功能之一是对文献资料进行收集、加工、保存并传播文化资源。因此,图书馆在文献资源收集整理方面具有丰富的工作经验、完善的工作流程以及相关技术人员。另一方面,数字图书馆与机构知识库在服务目的上是统一的,在信息技术平台上是相似的,例如元数据仓库的建设、中间件技术、信息交换协议、RSS技术、智能代理等,运用这些技术可以建立相关的数据资源系统以及对分布式系统进行集成,从而实现对文献资源的有效整合以及跨库、跨平台的精确检索。
3.1 数据资源应不断更新、完善
机构知识库中收集的数据资源应充分体现学校教学科研的方向、特色以及水平,对学校成员产生的学术成果进行收集、过滤、整理、评价、入库,从而不断更新知识库,同时,要对知识库中的数据进行备份。机构知识库建设是一个长期、可持续、不断完善的过程,应坚持“开放存取”(Open Access)的服务理念。
3.2 具有统一标准的元数据
元数据的存储是机构知识库建设的基础,良好的元数据格式为机构知识库的二次开发与数据挖掘打下了坚实的基础。目前,我国大多数高校是使用软件工具(NoteExpress、DSpace)将数据管理系统(高校自建数据库、商业数据库)批量导入到机构知识库中,知识库中的数据标准不一、关联准确性差,不利于对机构知识库进行深层数据挖掘,这是机构知识库发展过程中面临的一个重要问题。因此,具有统一标准的元数据格式是机构知识库底层资源整合中至关重要的问题。
3.3 保护版权,合法使用文献资源
机构知识库中的文献资源按照所有权可以分为3类:机构所有、提交者所有、其他权利人所有[2]。所有权属于学术机构的文献资源一般不会产生版权纠纷问题。对于提交者具有所有权的文献资源,高校应与提交者达成协议,获得使用权利。对于其他个人或组织具有所有权的文献,高校应依据相关法律规定,制定合理的收缴与使用制度。
知识发现(Knowledge Discovery in Database,KDD)是指从数据库、数据仓库或其他资源库中运用数据挖掘技术发现数据之间潜在的关联、规则、趋势等,并将数据及其关系转换为知识模式,通过对模式进行评价,得到对用户有用的知识,并通过可视化界面展示出来。
知识发现过程可分为:搜集数据、数据预处理、数据挖掘、知识评价与表示4个步骤。①搜集数据:根据目标搜集有关数据建立数据库,笔者所讨论的数据搜集对象是数据资源系统和个人灰色资源,此时建立的数据库没有统一标准的元数据模型。②数据预处理:由于上一阶段所建立的数据库没有统一标准格式、关联不精准、存在冗余数据,因此需要对数据进行加工、转换。本文设计的机构实体模型,能够消除冗余数据,并保证数据完整性与一致性,建立有利于挖掘算法的数据库。③数据挖掘:采用挖掘算法对数据库进行挖掘。④知识评价与表示:对上一阶段数据挖掘产生的数据集合运用可视化的方法表示出来,并运用可信度与兴趣度对知识模式进行分析,去除冗余模式,更新或修改知识库内容,使知识库处于不断更新状态,决策支持达到最优。
图1 基于知识发现的机构知识库模型流程
机构知识库的建设在技术上是以现有的数字图书馆信息平台为基础,在管理上是以图书馆文献资源管理模式为基础。用户可以通过机构知识库提交、获取、共享学术资源,为用户提供一个面向不同知识服务、开放的人性化平台。笔者设计的机构知识库模型总体架构分为3层:数据处理层、知识发现层、知识表示层,这3层是相互联系、相辅相成的整体,其流程如图1所示。
4.1 数据处理层
数据处理层是将原始数据经过数据预处理得到可以进行数据挖掘的具有统一标准的数据库,可以对该数据库进行数据挖掘。机构知识库中的源数据包括两个部分:数据资源系统和个人灰色资源。数据资源系统按照内容主要包括高校科研系统数据库、学位论文数据库、外购数据库、学生作品库等。个人灰色资源是指学者自己保存,未经发表的文献资料。数据管理系统通过NoteExpress工具将数据完整无损地导入到数据库中,个人灰色资源通过自主存档技术将数据导入到数据库中。
由于从不同数据管理系统中导出的题录数据的表达、格式、分类体系不同,表达各异的同一个体会被识别成不同的个体,从而产生冗余数据和不完整数据。例如:学者、机构、主题等实体在不同数据库管理系统中有不同的名称和写法,这样的实体导入到数据库中会被识别为不同的实体;不同的数据管理系统依据不同的学科分类体系,例如中文数据库普遍使用《中国图书馆分类法》《中国科学院图书馆图书分类法》[3],外文数据库普遍采用《杜威十进分类法》《国际十进分类法》,因此笔者设计了机构实体关系模型,用户看到和使用的是机构实体的数据。该模型与题录实体一并作为元数据来存储机构知识库文献资源,支持数据挖掘与知识发现。题录实体如图2所示,机构实体如图3所示。
图2 题录实体
图3 机构实体
题录实体具有主题词、标引词、作者、文献来源等属性,题录实体数据来源于对题录数据的预处理,即对不同来源题录数据的抽取。机构实体具有机构名称、地址、学者、主题、学科等属性,机构实体数据来源于与学校信息中心的对接,同时由教学秘书或学科馆员人工关联题录实体与机构实体的对应关系。
该模型可以将半结构化的文本信息转换为具有统一标准的结构化关系数据模型,才能进行更深层次的数据挖掘来支持用户的个性化需求和决策。该模型的另一个优点是易扩充,增加了系统的稳定性和可移植性,减少开发人员工作量。例如:学者变换了所在单位机构,只需在机构实体中做修改,题录实体不需变动。又如:题录实体中若有众多表达不同的数据,不会对机构实体产生影响。
4.2 知识发现层
知识发现层是机构知识库平台的核心,采用数据挖掘算法,并通过知识表示与评价得到面向不同专题的知识库。运用关联分析、分类分析、聚类分析、回归分析、序列模式、特征分析等挖掘算法从数据库中挖掘出数据之间潜在的关联、规则、趋势等关系,并结合智能代理、中间件技术、数据库技术等,将文献资源进行选择、重组、整理、开发,从数据库中发现新的模式、知识和规则,并用可视化的方法将新知识表示出来。
经过数据挖掘得到的新知识很可能与常识或某一领域的知识不相容、重复,通过知识评价模块,根据兴趣度值去掉重复和矛盾的知识,同时根据知识的可信度修改或更新已有的知识,最终实现文献资源的整合化、专题化,构建出具有不同学术特征的知识库。依据前面的步骤不断提取新知识并进行测试,从而更新、扩充知识库,使知识库的学术价值达到最优。本文在知识发现层中通过数据挖掘与知识评价最终构建的知识库有:特色知识库、学科知识库、学科导航库、专家知识库,这4个知识库构成了机构知识库在知识体系层面的数据基础,运用JSP、XML、HTML等信息网络技术,同时以上述4个知识库为数据基础,设计知识表示层。
特色知识库的内容代表学校学术研究的发展方向,重点、特色专业的学术成果,在一定程度上反应出学校的科研实力。学科知识库是按照学科类别组织文献资源,能够为用户更加快捷、准确地提供所需学科专业的知识服务。学科导航库是将文献资源按照学科类别建立分类目录式资源体系,通过导航可以提高文献资源的查准率与查全率。专家知识库是专家学者长年所积累的学术经验、成果、智能的集合,是学科知识的精华,专家知识库的内容应扩展到全体教师,通过数据挖掘将高产和活跃学者的学术成果组织起来,从而扩大专家知识库的覆盖范围以及学术影响力,为学校科研提供更加全面、权威的决策支持。
4.3 知识表示层
知识表示层是用户与机构知识库系统交流的平台。根据用户的不同需求,经过知识发现产生不同的新知识模式,用户的参与在知识库内容的扩充和更新方面起着至关重要的作用。本文从逻辑结构上将知识表示层分为4个模块:个性化服务模块、参考咨询模块、知识交流与服务模块、知识检索模块。
个性化服务模块是让用户感觉在“自己的机构知识库”中查阅文献资源,一方面对于用户新提交的论文,根据高频主题词、投稿刊物等信息,通过知识发现得到用户感兴趣的最新学术动态;另一方面,根据用户经常检索的关键词,通过知识发现技术得到用户所需的相关信息,通过邮件、微信等方式主动推送给用户。同时,该模块能向用户提供个性化定制服务,包括信息资源定制和网页版面设计定制,根据不同需求生成定制的动态网页。
参考咨询模块是图书馆员与用户交流的平台,图书馆员根据用户在利用文献资源、寻找知识、情报等方面中遇到的问题提供帮助。用户可以在个人学术资源上传方法、文献要求、文献资源检索、机构知识库使用方法等方面进行咨询。图书馆应配备专业学科馆员进行实时与非实时解答。
知识交流与服务模块是用户提交论文并参与知识交流的渠道。用户通过身份认证后登陆该模块并提交学术资源,经学科馆员审核后方可提交到数据处理层,采用系统设定的元数据格式存储和管理资源,在知识发现层运用数据挖掘技术发现新的知识模式,从而将用户的学术成果以知识模式的形式存储到知识库,使得隐形知识显性化,便于用户进行学术资源的交流。另一方面,通过用户提交学术资源,增加了知识库的内容,提高了知识库的服务能力。
知识检索模块提供用户检索所需信息的窗口,在该模块中可以设定按照文献类型、文献来源、学科、机构、语种、年份、学者、主题等检索条件进行基本信息检索。同时也可以在该检索页面中根据主题、关键词、篇名、发表时间、文献来源、作者、跨库检索等具体的检索条件进行高级检索。该模块运用本体理念从语义、概念层面上进行检索,避免字面的机械匹配,提高计算机理解用户查询需求的能力,实现更好的人机交互。
通过设计机构实体,消除不同数据管理系统中题录数据产生的冗余与不完整信息,从而建立有利于数据挖掘的具有统一标准的关系数据库。笔者设计了基于知识发现的3层架构的机构知识库模型:数据处理层、知识发现层、知识表示层,并阐述了机构知识库模型的实现技术以及功能模块。该机构知识库模型以用户需求为中心,让用户感觉在“自己的机构知识库”中查找所需资料。通过用户的需求指导知识发现过程,创建新的知识模式,更新机构知识库内容。随着用户需求的变化,在知识表示层可以增加新的功能模块。机构知识库包含文献资源种类、数量繁多,如何在已有知识库基础上进行基于知识库的知识发现,建立多维度知识元,能够在现有机构知识库基础上进行更深层次的知识发现,建立更加科学化、人性化的机构知识库,这是今后努力研究的方向。
[1] Lynch C A.Institutional repositories:essential infrastruc⁃ture for scholarship in the digitalage ARL,no.226,pp.1-7 [EB/OL].[2008-10-27].http://www arl.org/newsltr/226/ir. htm l.
[2]于佳亮,吴新年,贾彦龙.机构知识库资源建设中的产权策略研究[J].情报理论与实践,2008(3):353-355.
[3]周婕,等.基于文献数据规律的机构知识库关键技术研究[J].情报资料工作,2015(1):68-69.
[4]冯研,王馨.国内图书馆数据挖掘技术实践应用进展分析[J].图书馆学研究,2011(10):3-4.
[5]陈学进.Web结构挖掘研究[D].合肥:合肥工业大学,2006.
王芙蓉 女,1984年生。硕士,馆员。
G258.6
2016-05-11;责编:王天泥。)