朱纯琳
关键词:关联数据;数字图书馆;知识发现系统模型
摘要:文章介绍了数字图书馆知识发现系统的现实意义和基于关联数据的知识发现过程,阐述了基于关联数据的知识发现系统模型的功能要素、构建过程和模型特征,归纳了基于关联数据的数字图书馆知识发现系统的创新之处。
中图分类号:G250.7文献标识码:A文章编号:1003-1588(2017)11-0101-03
近年来,随着关联数据的快速发展和广泛应用,逐渐呈现给人们一个“数据网络”的资源环境。如何把该网络资源环境的潜力和优势充分发挥到知识发现应用的实现过程中,是值得研究的课题。从问题起源上来说,在关联数据基础上开展的知识发现研究是为了对关联数据资源进行更加充分的利用,并且通过知识发现问题的解决更好地促进网络发展。关联数据网络的发展和知识发现活动的开展需要融合两个领域的理论体系,并做进一步扩展。在关联数据基础上开展的知识发现系统,关联数据负责把数据、发现数据的工具和网络资源环境注入知识发现中,知识发现推动着关联数据的实现和发展[1]。
1数字图书馆知识发现系统的现实意义
在关联数据基础上研究数字图书馆知识发现系统,是在分析处理大数据过程中使用知识发现技术,不仅可以克服传统图书馆的服务缺陷,还可以拓展数字图书馆知识服务的内容。
1.1增强数字图书馆对潜在知识的挖掘能力,带动资源的高效利用
图书馆在数字化进程中,比较注重检索和传递资源能力的提升,忽略了用户对资源的利用率问题。知识发现系统能把用户需求的相关知识充分地挖掘出来,实现资源利用率最大化[2]。与图书馆传统服务模式相比,知识发现系统具有以下特点:用户在搜索和获取知识A的过程中,系统可以自动把与知识A相关的知识B一同推送给用户,不仅有助于用户获取所需知识,还有助于提升知识B的利用率。因此,知识发现系统更加注重挖掘知识,在该服务模式中不仅体现了用户找知识的过程,还体现出了知识主动“找”用户的过程。知识发现系统的应用可以使数字资源的利用率得到有效提升。
1.2有效过滤垃圾信息,增强数字图书馆的个性化服务水平
随着信息技术的不断发展,在全球范围内,每天产生的信息量可達l0亿UB,如果把它们刻录到DVD光盘中,需要用掉1.88亿张光盘。在海量的数据中,必然有大量的垃圾数据存在,用户只有先排除垃圾数据,才能获取有价值的信息。在大数据时代,由于传统的信息检索方式太过单一,已经不能满足用户日益增长的资源索取需求,该问题通过知识发现系统可以得到有效的解决[3]。知识发现系统通过运用聚类、分类、收集以及关联分析方法,可以深度挖掘资源内容、用户信息以及网站结构,把其中潜在的关联信息找出来并推送给用户,使图书馆的信息服务水平得到提升。
2基于关联数据的知识发现过程分析
2.1知识发现的一般过程
虽然知识发现过程的描述方式是多样化的,但是他们只是语言组织与表达方式不同。知识发现过程的步骤依次是:对知识发现的目标、任务以及对象进行确定;对数据进行搜集和提取,构建关键性指标;根据具体任务,合法性检查和清理数据,把无关的数据去除;对数据挖掘算法进行选择;用可视化的形式表述知识发现的结果,并提供给用户和专家评价。在知识发现过程中需要反复修改以上步骤,确保最终形成的知识发现结果高效可用。
2.2基于关联数据的知识发现过程
在关联数据基础上,用户根据知识发现的特征、大数据以及网络环境特性,基于知识发现的一般规律,可以对知识发现过程模型进行重新思考和定位[4]。在关联数据基础上开展的知识发现过程有别于一般的知识发现过程,它的特点是:数据源由关系型向关联开放网络转变,整个网络中的数据源都是知识发现的基础和对象;关联数据的整合是与具体的数据转换和处理过程相一致的,不需要付出额外成本;针对关联数据的具体需求和特殊性,在数据挖掘和解释评估环节开展特定的设计。基于关联数据的知识发现过程见图1。
3基于关联数据的知识发现系统模型构建
3.1功能要素分析
功能要素包括:①数据准备功能。数据准备工作不仅是数据处理的前提,还是知识发现的基础。数据准备工作是在保证数据源的基础属性下,筛选出合格的数据源,进而保证整个数据挖掘工作的准确性和有效性。②数据获取功能。数据获取功能是知识发现的关键因素,它可以分为数据查阅功能和数据获取功能。数据获取功能是在数据源中展开搜索并获取所需数据,该功能直接影响知识发现和获取的结果。③数据处理功能。数据处理功能是在数据准备功能和数据获取功能基础上进行的,它的功能是挖掘相关联的有效数据源集合。一般情况下,数据处理环节不仅要保证待处理数据的准确性、一致性以及完整性,还要参照知识发现和数据获取的原则筛选和整理出适合数据挖掘的数据源集合。④数据挖掘功能。数据挖掘功能是知识发现系统的重要组成部分,当数据源集合经过数据处理后会自动进入数据挖掘系统,该系统会调用挖掘算法(比如数据分类算法、聚类算法以及关联性查找算法等)挖掘出所需数据。⑤知识生成功能。知识生成功能包括知识生成模式的解释功能、知识生成模式的表示功能以及可视化的显示功能等。知识生成模式的解释功能是指针对知识生成的方式进行相应的解释,知识生成模式的表示功能是在知识生成模式的解释功能的基础上抽取所需信息,并利用易于理解的方式对信息进行重新构建,最终形成知识生成模式。⑥评估反馈功能。该功能是一个需要用户和专业人员共同参与和相互交流的过程,其可以对生成的知识进行多维形式的评测,并将评测结果形成反馈意见。
3.2模型的构建
基于关联数据的知识发现系统模型采用了分层结构,并将一般知识发现系统模型的处理方式应用到系统中(见图2)。资源层为系统提供稳定可靠的数据库资源,知识发现处理层包括关联数据的获取、处理和挖掘,应用层是知识发现系统的操作界面,包括关联数据发现、关联知识发现和解释评估。知识发现过程是一个不断循环的过程,数据的关联性会随着循环次数增多变得更加明显[5]。该知识发现系统还会根据评价和反馈的结果及时调整知识关联策略,进而使知识发现的结果更加精确。endprint
3.3模型的特征
基于关联数据的知识发现系统模型的特征包括:①底层逻辑控制。基于关联数据的数字图书馆知识发现系统采用关联数据的处理方式、标准、技术、运作机制以及运行环境等作为底层逻辑控制的基础[6],因此,底层逻辑控制规则要遵循关联数据的规则。整个数据的准备、获取、整合以及挖掘过程都需要根据关联数据的控制要求进行处理。②流程方法控制。该模型将知识发现规则作为数据处理的基本准则,在程序运行过程中关联数据的处理过程要与知识发现的过程相吻合,并以发现关联知识为目的。由于受到数据处理流程的影响,模型的结构为分层结构,其结构也要受到关联数据整体框架的限制。该模型的关联数据应用方式与知识发现方式相互融合,进而更好地实现流程方法控制。③功能操作控制。功能操作控制包括关联数据的建立操作和关联数据的发现操作。功能操作控制不仅可以为模型中各个模块之间的协调运转提供技术支持,还可以提高关联数据发现功能的效率。
4基于关联数据的知识发现系统的创新
4.1知识发现在网络规模上的实现
统一标准的关联数据具有低成本和便捷实用等特点,因此,用户在进行知识发现操作时,不用考虑数据资源的物理存储位置、接口兼容以及平台操作等问题。具体来说,根据相互促进和相互协调的原则,知识发现过程可以在全球范围内进行,授权用户根据自身的数据需求扩展信息类数据资源以及非信息类数据资源,进而为整体知识发现体系提供更广泛的范围。用户利用关联数据操作可以获得意想不到的关联性数据。
4.2实现语义化的知识发现
基于关联数据的知识发现系统采用了机器自動识别的结构化数据结构,因此,在进行数据处理过程中机器可以直接进行数据处理,进而增强了数据处理的可靠性和效率。但是,半结构化或非结构化的数据不能被机器自动识别和处理,因此需要人工处理并将它们转换为机器可以识别和处理的类型。在海量数据资源的大环境下,数据类型的多样性会给数据处理带来困难。基于关联数据的结构化转换和语义关联转换可以解决数据处理遇到的困难,可以使数据能够被机器直接识别和自动处理,进而提高数据处理的速度。语义关系存在于同一个数据集合中,不同的URI对应着不同的数据集合,因此URI是数据资源的语义关系的重要标识。基于数据资源的语义关系必须满足语义查询格式的统一规范,才可以让知识发现操作能够利用存在的语义关系去进一步发现和推断数据资源的关系,进而更好地扩展语义关联的范围。
4.3知识发现的动态扩展
根据关联数据的非中心性、标准化特点和基于关联数据网络的扩展性、同步性特点,基于关联数据的知识发现系统具有开放性、动态性和可扩展性等特点。随着关联数据的数量不断增多,使得关联数据的多领域性和多来源性等问题亟须得到解决,而基于数据资源中心化的管理方式不能解决上述问题。此外,“用户查询—系统响应”的问题解决方式也不能真正体现用户知识需求的多样化和个性化。现阶段,基于关联数据的模型已经扩展了新的应用功能,其可以直接添加动态的知识发现子模块。关联数据的标准化和非中心化使得用户不必深究数据底层的具体结构和逻辑关系。系统可以根据数据集合的动态性及时发现和处理新的知识集合,进而保证知识发现的可靠性和有效性。
5结语
基于关联数据的数字图书馆知识发现系统是在对现有的知识发现系统加以研究的基础上进行了扩展和延伸,该系统更加注重关联数据的应用。笔者试图找出关联数据与知识发现的相互影响的关系,使它们能够相互弥补、相互促进,更好地实现知识发现系统的价值。
参考文献:
[1]丁楠,潘有能.基于关联数据的图书馆信息聚合研究[J].图书与情报,2011(6):50-53.
[2]陀向明.图书馆知识发现系统应用状况分析[J].科技情报开发与经济,2013(16):153-155.
[3]廖志江.知识发现及数字图书馆知识服务平台建设研究[J].情报科学,2012(12):1849-1853.
[4]管进.基于关联数据的图书馆知识服务策略研究[J].图书馆理论与实践,2012(6):9-11.
[5]林海青,楼向英,夏翠娟.图书馆关联数据:机会与挑战[J].中国图书馆学报,2012(1):58-67.
[6]黄永文,岳笑,刘建华.关联数据应用的体系框架及构建关联数据应用的建议[J].现代图书情报技术,2011(9):7-13.
(编校:孙新梅)endprint