知识组织视野下档案知识库的构建思路探析

2015-06-25 20:52毛天宇
档案管理 2015年4期
关键词:思路构建

毛天宇

摘  要:档案知识库是实现档案资源知识化、知识资源有序化及知识资源服务化的重要手段。文章从知识组织的角度入手,对档案知识库中档案知识点、档案知识单元、档案知识簇、再生的档案知识以及档案知识服务平台等构成要素的构建思路详细分析,包括档案知识点的分类标引,档案知识点的关联与聚类,档案知识单元的挖掘推理与语意关联,档案知识的再生与利用,以及档案知识服务平台的构建。

关键词:知识组织;档案知识库;构建;思路

Abstract: The base of archival knowledge resources is a important way of the realization of resources knowledgeable,knowledge ordered and serviceable.This article based on knowledge organization and analysis the construction ways of the elements of archival knowledge base,including the classification and indexing of archives knowledge point,the associating and clustering of archives knowledge point,the mining reasoning and semantic correlation of archives knowledge unit, the regeneration and utilization of archives knowledge and the construction of archives knowledge service platform.

Key words:Knowledge Organization;Archival Knowledge Base;Construction;Ideas

当今社会档案信息资源数据量大,信息冗余混乱,多元信息并存且新的数据时时刻刻都在产生,档案用户在获取所需的档案信息时经常迷茫于其中而无所适从。这正反映当前档案信息服务平台的信息组织方式与人们日益增长的知识服务需求之间不相匹配的矛盾。大数据时代的档案信息服务业发生了很大的变化,服务核心已由实体文本服务转向数字化资源服务,最终转向知识化资源服务。这就需要档案信息服务部门采用知识组织方法,构建信息丰富的档案知识库,使杂乱的档案信息有序化,有序的档案信息知识化,最终有效地服务于用户。

档案知识库脱胎于海量的档案信息资源,是对其整理加工的成果。其不仅包含档案资源本身所记载与反映的知识内容,还包括不同档案知识之间的关联,文件产生、办理中形成的背景、结构等方面的知识,档案资源客观载体上呈现的显性知识,甚至其后的知识关联,档案组织者、档案人员等存储于其脑中的经验、阅历等主观的隐性知识。[1]档案知识库有效地融入了用户的需求,可以支撑并服务于用户问题的解决。因许多潜在知识并未直接记录在档案载体上,所以需要采取知识组织方法深度挖掘,才能构建出可利用的档案知识库,并有效地服务于用户。档案知识库的构成要素如图1所示,其具体构建思路分析如下:

图1  档案知识库要素构成图

1  分析档案信息资源,分类与标引档案知识点

档案知识点的分类及标引是在分析档案知识点内容属性(特征)及相关外表属性的基础上,按照定义好的类别将其分门别类,并用特定语言表达分析出的属性或特征。[2]档案知识点的分类及标引针对的是用户所需的直接档案信息、知识,是对档案信息资源中知识点的发掘和形式上的组织,如可以从数字档案、档案全文数据库、档案目录数据库等档案客体提取用户所需的档案知识,经分类标引后直接服务于用户。对档案知识点进行分类与标引首先要对档案知识点(数据)进行采集,并进一步分析与检测其是否可用、重复及是否完整等。可用性检测主要侧重于分析数据本身是否有误或是否对用户问题的解决有用;重复数据主要是指基本相同的数据,可能由于格式或拼写上的差异,导致档案信息管理系统无法区分;不完整数据主要指信息的缺失,例如档案责任者、所属机构、度量单位等信息的缺失等。然后要对采集到的档案信息资源进行数据清洗,要选择合适的策略,筛选无用数据,合并同类信息,补充完善缺失信息,最终形成用户所需的待分类与标引的知识点集合。在对档案知识点进行分类和标引时,可以参照《中国档案分类法》、《中国档案主题词表》、网络信息资源分类法等分类标引语言词典进行设计,建立成套的档案知识分类体系,形成分类明确、层次明晰、次序井然的分类标准。[3]大数据时代档案知识点的标引可有效借助于计算机的自动标引,可采用关键词标引、概念标引、语义标引、本体标引等方法来标示档案知识点,使其具备一定的主题和属性特征。经过档案知识点的分类与标引,用户所直接需要的、知识服务密度低的档案知识集合已经形成,可以作为档案知识库的基础部分,用以满足用户基本的档案信息与知识需求,但许多潜在的知识尚需进一步开发,进行更深层次的知识组织。

2  关联档案知识点,聚类档案知识资源

档案知识点的关联组织“是将档案知识及其相互联系等关系信息也有效地存储于数据库中。这就使得原本无序的档案知识变得易于控制且有序,让原本孤立的数据呈现出有机的联系”。[4]例如用户在查阅数字档案信息资源时,遇到不了解的人物、事件等时就会产生直接查阅相关文件的需要,通过档案知识关联,就可以将数据库中的相应人物与事件等知识点与之关联,为用户提供更高效的服务。而档案知识资源的聚类组织则“是根据一定的规则将信息或知识按类聚集起来,分别给予相同的类别标记,并将类号赋予相关信息,存储于数据库中的过程、技术和方法”。[5]这就将原本分散的档案知识点按照一定的主题特征聚合在一起,使聚合在一起的档案知识点具备相同的关联或特征。经过档案知识点的分类与标引,档案知识点已经具备一定的主题与属性特征,这一层次的档案知识分别涵盖各种事件、基本概念、情景、方法、用户知识需求等知识点,可以满足用户低知识层面的需求,解决用户的一些较单一问题,可将其直接归入档案知识库中,用以解决用户单一、低知识密度的问题。而通过档案知识点的关联组织和聚类组织,形成知识密度较高且横向关联的档案知识单元,如档案文摘、索引、题录等形式的档案知识产品,实现档案知识点的优化组合,档案知识密度大为提升,可以解决用户较复杂的问题,满足用户较高层次的档案知识需求。

3  挖掘推理档案知识单元,组织关联档案知识语义

通过对档案知识单元进行挖掘、推理、语意关联等形式的知识组织,可以进一步增强档案知识单元的知识密度,满足用户更高层次的档案知识服务需求。档案知识单元的语意组织“是将信息及信息间的语义关系存储起来,构成具有语义关系的数据库。在检索和分析时,通过建立的语义关系,进行语义推理实现知识服务”。[6]档案知识单元的语义组织与关联将数据库中档案知识的原有记录、字段的关系上升到知识间的语义关系,保证了档案知识间的关联与再生及隐性知识的呈现。这种语义关系非常丰富,例如档案中事件与事件间语义关系、人与人之间的亲属关系及隶属关系、不同主题间的语义关系等。通过档案知识单元的挖掘、推理、语意关联等知识组织,改变了原有档案知识单元间的显性联系,产生了新的关联与知识,形成档案综述、档案百科全书、档案年鉴、档案主题库等更高知识密度的档案知识资源,即档案知识簇,真正实现档案资源有序化,有序档案资源知识化,最终实现档案知识资源服务化。

4  再分析各层档案知识,再生并利用档案新知识

经过档案知识点的关联与聚类、档案知识单元的挖掘推理与语意关联而形成的档案知识簇已经具备很高的知识密度,可以存入档案知识库中,服务于用户高层次的档案知识需求。然而档案知识簇层面的档案知识仍不是最高层次的知识实现,还可以通过知识挖掘与推理等实现档案知识的进一步升华,即档案知识的再生,这也是借助档案知识单元、知识关联、档案信息资源等,通过挖掘、推理、演绎、归纳等方法形成新的档案知识的过程。这一过程需要融合用户的需求及知识组织的背景,对用户需求及档案知识资源进行不同层次的细分、关联、挖掘与推理,运用统计分析、机器学习、神经网络等方法,分析出新颖、有效、潜在有用的规律等新知识。比如对用户查档新规律的归纳进而为用户提供智能化推荐服务,这里归纳出的新规律就是再生的档案知识。档案知识的再生过程也可以是从档案知识簇到档案知识点的逆向细化的过程,而在这一逆化过程的推理中也可能产生档案新知识。档案“再生知识产生过程中遵循有效性、新颖性、潜在有用性以及最终可理解性原则”, [7]以保证新生的档案知识、规律、模型等对于新的数据仍有一定的适用性,对于用户问题的解决以及社会实践的发展仍然具有实际效用。通过知识分析、推理、挖掘等再生的新知识在形式、内容等方面可能存在一定的问题,需要对其进行检查修正,结合档案用户实际使用状况及反馈等情况适当调整新知识,按照标准的规则修正再生的档案新知识,然后直接放入档案知识库中服务于用户。

5  呈现档案知识库,打造档案知识服务平台

经过知识组织形成档案知识库,接下来就是将其呈现并服务于用户,即构建档案知识服务层,这一层表现为档案知识服务平台。档案知识服务平台是连接用户与档案知识资源的门户,是档案信息资源知识组织结果的呈现形式,包括用户数据采集分析系统、多功能检索系统和可视化呈现系统三个主要模块,具体情况及流程如图2所示。

图2 档案知识服务平台功能模块简图

首先是构建用户数据采集分析系统,该系统一方面用于采集分析用户的检索请求、反馈意见等,将其分析、推理为标准详细的知识检索语言,并将分析结果进行标记与存储;另一方面,该系统可以采集用户档案知识需求信息与使用行为信息,并将其传递于档案知识组织层,用于构建用户行为分析数据库。其次是构建多功能检索系统,包括知识点检索系统、知识单元检索系统、知识簇检索系统,分别对应用户不同知识密度的检索请求。知识点检索系统主要针对用户关于事件、概念、档案原件等较低知识密度问题的检索分析,知识单元检索系统主要适用于用户关于档案文摘、档案题录、案卷分析等较高知识密度问题的检索分析,知识簇检索系统则主要适用于用户关于档案年鉴、档案主题库、档案综述、档案使用规律等更高知识密度问题的检索分析。经过数据采集分析系统处理的检索语言到达多功能检索系统后,该系统迅速将其推理匹配于相应检索层次,然后将检索分析结果传递于档案知识库,并在其中进行用户检索请求与目标资源的匹配,然后将检索结果以可视化的方式多元呈现于用户。最后是构建可视化呈现系统,分为检索结果的多元呈现、知识导航系统、知识地图服务等形式。经过档案知识库匹配符合用户需求的目标资源需要经过可视化呈现系统予以多元化呈现,包括文本、图片、知识脉络图、知识关联地图等丰富形式,还可为用户提供相关档案知识、相似档案知识、相似需求查询等关联推荐服务,将丰富的检索内容人性化呈现于用户。对于档案知识需求模糊、档案知识水平不高的用户,可借助知识导航系统与知识地图服务检索所需的档案知识。“档案知识导航系统是引导用户,使用检索工具、档案知识资源库等获取所需档案知识的服务系统。”[8]而知识地图服务则可以“用可视化图形等格式告诉用户在哪里或怎么样可以找到所需的知识资源”。[9]通过档案知识服务平台,档案知识资源库中的知识资源得以更好地呈现于用户,有效地促进了档案知识资源服务化宗旨的真正实现。

随着大数据趋势的日益深入,为解决档案信息服务平台的信息组织方式与人们日益增长的知识服务需求之间不相匹配的矛盾,需要对档案信息资源进行知识组织,构建档案知识库。通过档案知识库的构建,使得档案资源知识化,知识资源有序化,这就可以使用户避免在浩瀚的档案信息海洋中搜寻所需的档案信息,而是以档案知识的形式推送并呈现于用户面前,节省用户时间,提升服务效率,最终实现知识服务化的宗旨。

参考文献:

[1]李建忠.试论档案信息资源的知识组织与服务模式[J].档案管理,2013(1):49~50.

[2]马费成,宋恩梅.信息管理学基础[M].武汉:武汉大学出版社,2011:192~193.

[3]杨力,姚乐也.数字档案馆知识组织层次体系探讨[J].档案学通讯,2009(5):58~60.

[4][5][6]苏新宁.面向知识服务的知识组织理论与方法[M].北京:科学出版社,2014:3~29.

[7]Wang H C,Kuo H C,Chen H H,et al.KSPF:using gene sequence patterns and data mining for biological knowledge management[J].Expert System With Applications,2005,28(3):537~552.

[8]黄静.档案信息服务知识导航研究[D].南宁:广西民族大学,2008.

[9]贾玲,吕燕.论档案知识组织的方法[J].兰台世界,2012(5):31~32.

(作者单位:中国科学院文献情报中心  来稿日期:2015-03-03)

猜你喜欢
思路构建
求点的坐标的三种思路
思路在哪儿
不同思路解答
拓展思路 一词多造
换个思路巧填数
动车组检修基地与动车检修分析
环境生态类专业大学生创新创业能力培养体系的构建与实践
构建游戏课堂加强体育快乐教学的探究
共情教学模式在科学课堂的构建与实施研究
思路一变 轻松赚钱