档案知识聚合模式选择研究

2018-05-28 08:11魏扣李子林郝琦
山西档案 2018年2期
关键词:语义资源用户

文 / 魏扣 李子林 郝琦

知识聚合是在社会信息量激增、用户信息需求涌现、新兴信息技术发展应用等因素共同作用的时代背景下产生的新概念。该概念是在以文献、资料为主的粗颗粒度的信息整合的基础上不断发展的一种精细化、细粒度层次的知识单元聚合活动。当前,我国图书情报界对知识聚合理论、技术应用和实践推广已进行深入研究,但档案学界对档案知识聚合的研究却较为鲜见。截至2018年4月,笔者在中国知网、读秀知识库、万方数据资源系统—数字化期刊全文库等主流数据库中以“档案+聚合”为关键词进行题名检索,仅获得6篇文献,以“档案+知识聚合”进行篇名检索,未检索到相关文献。可见,国内档案学界对档案知识聚合的研究刚刚起步,有待进一步深入和体系化发展。作为知识聚合的关键环节,选择适当的知识聚合模式将直接影响到知识聚合结果的呈现,进而影响知识聚合服务的质量。鉴此,档案知识聚合的实现需要合理选择符合档案知识特点,满足档案知识聚合原则的档案知识聚合模式。

一、档案知识聚合产生的背景

档案知识聚合概念的提出并非偶然之举,一方面,外在环境的变化为该概念的提出营造了良好的氛围;另一方面,相关理论与实践研究成果为该理念的发展与落地提供了支撑。

(一)外在环境驱动

需求是对需要完成的某种事情的陈述,需求就是需要,是开展一项工作的前提和起点。知识经济时代,我们常常遭遇着这样的窘境——“我们淹溺在信息海洋中,却不得不面临知识饥渴”。档案用户对档案知识资源需求比以往任何时刻都要强烈,档案部门过去提供原始档案文献或者提供简单编研的档案信息等粗犷的档案服务方式已经无法满足新时代用户的档案利用需求。档案用户更加希望能够直接获取解决实际问题的档案知识,同时,也对档案知识的处理程度提出较高的要求,希望获得那些经过挖掘、整理、聚合之后的强关联性、高聚合度、高精准度的档案知识集合。因此,在这种外在用户需求力量的驱动之下,档案知识聚合的提出和研究成为必然。与此同时,图书情报与档案管理作为一级学科,近年来的发展态势良好。图书情报领域在知识聚合研究方面取得的突出成果,一方面为档案领域开展相关研究提供参考借鉴,另一方面也催生了档案界学者的“焦虑感”,迫切需要在知识聚合研究方面寻求突破。档案学者能够较为方便地借鉴图书情报领域知识聚合的已有成果,结合档案知识的自身特点,选取恰当的聚合模式和聚合方法,在现有信息技术的支撑下深入开展档案知识聚合的理论研究和实践应用。

(二)相关研究基础的支撑

尽管国内档案学者对档案知识聚合的相关研究甚少,但与档案知识聚合相关的理论与实践研究基础较为扎实,主要集中在档案信息资源整合、档案知识管理、档案利用服务三个方面[1]。首先,档案信息资源整合是根据一定需求,将分散的档案实体、档案信息及相关的档案管理要素进行融合、重组,形成能够反映一定主题的高效率的档案资源新系统[2]。蒋冠[3]、陈永生[4]、刘明[5]等学者分别从档案信息资源整合的内容、整合模式、整合技术及标准体系建设的维度开展研究。档案资源整合思想和档案知识聚合思想基本类似、大体相通。前者的对象为档案信息,粒度相对较粗,而档案知识聚合的对象为档案知识,是基于知识语义的深层次、细粒度聚合。可见,档案资源整合的相关研究为档案知识聚合的提出打下了一定的理念基础。其次,档案知识管理研究,即将知识管理的理念应用于档案管理中,根据档案工作的自身特点进行档案知识管理的具体实践。张斌[6]、徐拥军[7]等学者从知识抽取、知识组织、知识标引等流程出发开展研究,旨在为档案用户提供所需的档案知识服务。档案知识管理研究为档案知识聚合的提出奠定了扎实的理论基础。最后,关于档案利用服务研究,黄霄羽[8]、向泽红[9]等从档案利用服务方式、档案利用服务技术、档案用户需求等方面展开研究,旨在提升档案工作的社会价值。通过分析这些研究成果,发现学者们均已认识到档案利用服务中档案知识挖掘、处理、整合等的重要性,只有基于档案用户需求的档案知识处理,才能提升用户获取档案知识的体验和对档案利用服务的满意度。虽然目前档案学界还鲜有学者直接提出“档案知识聚合”,但从诸多学者近来发表或出版的研究成果的字里行间中可以发掘和透露出:档案知识聚合是档案利用服务未来的发展趋势和研究热点。

二、档案知识聚合的概念及特点

档案知识聚合概念及其特点是档案部门科学、合理地选择档案知识聚合模式的基本前提。通过核心概念的明晰及关键特点的分析,可帮助档案部门深入了解档案知识聚合的本质与需求,推动档案知识聚合工作的顺利实施。

(一)概念与内涵

档案知识聚合由“档案知识”与“知识聚合”两个概念组配而成。在综合以上两个概念的基础上,可以总结出档案知识聚合的概念与内涵。“档案知识聚合”可定义为通过对数字档案资源进行相应的知识抽取和知识表示处理,形成档案知识单元并存入档案知识库,再按照档案用户的需求,充分挖掘档案知识单元间的关联,对其进行重新聚集和组合,形成用户感兴趣的能够解决实际问题的具有较强知识性的档案知识集合。基于知识聚合的要素构成和档案知识聚合特点可归纳出,档案知识聚合由聚合主体、聚合客体以及聚合环境三个部分构成。档案知识聚合主体主要是档案工作者(随着人工智能技术的发展,未来可能会实现无人工干预的智能化档案知识自聚合模式)。档案知识聚合客体就是档案知识,是蕴含在档案资源之中,对档案用户有重要价值并能为用户提供解决问题的决策或者直接帮助其解决实际问题的信息。档案知识聚合环境要素的概念与内涵相对复杂、广泛。从宏观角度分析,主要是影响档案知识聚合的社会因素,涉及社会政治、经济、文化、教育等方面的发展情况以及此背景下的社会档案意识、社会公众文化素养、社会科技发展状况。从微观视角分析,档案知识聚合环境要素主要由理论环境、硬件环境、技术环境、需求环境等构成。

(二)档案知识聚合的特点

档案作为特殊类别的信息资源,与图书、报刊、网络信息等存在着本质区别,在内容、载体、管理方式及权限等方面存在独特的要求。因此,相较于其他类型信息资源的知识聚合,档案知识聚合特点更加显著。

1.档案知识聚合主体的特点。档案工作者作为档案知识聚合的主体,与其他知识聚合主体相比具有以下特点:一是档案工作者对档案知识聚合的整体认识较低、知识聚合的意识不高。长期以来,“国家档案观”的理念始终影响着档案工作者业务职能的发挥。尽管档案学界一直呼吁转变“重存轻用”的业务工作态度,但档案工作者的职能转型并不顺利,对档案利用方式创新的重视程度不够,档案知识聚合更是“天方夜谭”;二是档案工作者对档案知识化处理的能力不足。档案工作者的专业背景以文史类、社会学类、管理类为主,而档案知识聚合是一个重视技术应用的研究。档案工作者相对缺乏对档案进行知识处理的专业技能,需借助计算机技术人员辅助推进档案知识聚合工作。然而,计算机技术人员的档案管理知识又相对匮乏。这便对两者的沟通与配合提出了更高的要求。因此,档案知识聚合主体结构逐渐转变为档案人员与技术人员的混合形式。

2.档案知识聚合客体的特点。档案作为档案知识聚合的客体,具有四个特点。一是与其他类型的信息资源相比,档案是具有原始记录性和凭证性的信息,社会用户对档案资源的知识性需求属于刚需。因此,对档案资源进行知识聚合的社会价值显著。二是档案资源与其他信息资源相比具有保密性的特点,这便决定了某些档案资源只能在特定群体内共享和利用,其他群体不具备共享与利用权限。因此,档案知识聚合的普遍适用性较低,一般而言,针对某一主题的档案知识聚合仅能够面向特定群体甚至是个人。用户群体的精细划分也会造成档案知识聚合成本的增大,档案知识聚合成果的扩展范围受限。三是档案资源具有系统的整理方法。尊重“全宗原则”、保持档案文件之间的历史联系等档案整理的关键原则为档案知识聚合打下坚实的理论基础,减少了档案知识聚合中档案资源整合的工作量。四是档案知识聚合需在数字环境中实施,当前,纸质档案资源仍占据较大比重,因此,在档案知识聚合过程中如何对档案资源进行恰当的便于后期知识组织的数字化处理,需要开展深入的研究。

3.档案知识聚合环境的特点。档案知识聚合的环境要素特点主要有:一是目前社会整体档案意识较为薄弱,公众对档案的接触、了解和认识程度不高。档案资源获取难度系数相较于其他信息资源更大,造成公众对档案利用服务的期望值不如其他信息资源高。公众更希望能够方便地利用档案资源,至于档案知识聚合等创新性的档案利用服务实属理想状态;二是档案知识聚合的理论研究还未全面开展,目前只能够借鉴图情领域的研究成果,如何确定适合于档案知识的聚合模式、聚合方法,还需要深入研究;三是档案知识聚合实施需要纸质档案数字化设备、数字档案知识处理、存储设备等硬件基础设施支持。因此,档案知识聚合的开展存在着明显的地域性发展不平衡现象;四是档案知识聚合作为一种档案资源开发利用新理念,需要信息管理、语言分析等技术的支撑。目前的知识聚合技术虽然具有一定的通用性,但如何与档案资源的自身特点相结合,选取和开发适用的知识聚合技术是档案知识聚合研究的关键点。

三、档案知识聚合的模式选择

档案知识聚合模式的选择是建构档案知识聚合实践模型的关键。针对不同的信息资源类型、信息环境以及用户需求,应该选取相适应的聚合模式。目前,档案知识聚合模式的研究较少。因此,档案知识聚合模式的选择需要借鉴现有知识聚合模式研究成果。

(一)知识聚合模式的类型

现有研究成果中的知识聚合模式主要包括基于语义的知识聚合、基于情景的知识聚合、基于计量的知识聚合三类。这三类知识聚合模式不是相互独立、不相兼容的,可以根据实际知识聚合需求进行复合运用。

1.基于语义的知识聚合模式。从信息学的角度来看,语义是一个非常重要的概念,它是揭示和描述文献、信息之中所蕴含知识的重要工具。文献、信息等语义挖掘得越深入,语义之间关联揭示得越彻底,对于文献、信息的利用效果就会越好[10]。同理,在语义环境下对知识进行聚合时,最基本的要求就是要深入挖掘文献、信息的内在语义及语义间的关联,语义及其关联的挖掘和揭示程度是影响知识聚合效果好坏的主要因素。目前,基于语义的知识聚合大体分为基于领域本体的知识聚合、基于关联数据的知识聚合、基于主题模型的知识聚合三类。以基于领域本体的知识聚合为例,本体概念源自于哲学领域,本体即为“对客观存在事物的系统描述”,本质上指对特定领域的全部知识进行表述的概念体系,能够反映该领域内的各种概念以及概念之间的关系。基于领域本体的知识聚合首先对各领域知识进行统一识别和规范化描述,形成公认的语义描述框架,达成领域内知识概念及概念间关系的共识。其次,通过对不同领域的本体进行语义映射操作,发现异构资源、系统之间的语义关联,再对相互独立的知识本体进行基于语义关联的聚合操作,进而得到结构完整、相互关联、规范标准的立体知识网络,实现知识的深层次聚合。

2.基于情景的知识聚合模式。该模式可以根据所针对的不同情景进行划分。曹树金等将其划分为基于情境感知的知识聚合、基于实时情景的知识聚合以及基于个性化用户需求的知识聚合三种类型[11]。首先,基于情境感知的知识聚合是对情景感知传感器获得的与某一聚合对象有关的海量实时多媒体环境信息进行识别、抽取、整合,最终将这些情景信息融合到聚合结果中的知识聚合模式。该类知识聚合模式通常应用于视频监控、信息监测、动态事件数据监测、实时情景预测等方面。其次,基于实时情景的知识聚合一般发生在社交媒体环境下,通过对知识用户当时所处时间、空间、知识主题进行整合,生成知识用户的扩展模型,应用该模型分析用户的知识需求,实现基于情景的用户知识推荐。Singh等学者就将各种社交媒体环境下知识用户所处的空间、时间等情景要素与实时阅读的知识主题等各种信息进行融合,监测知识用户所处的状况,为用户在恰当的时间、适合的地点提供所需的知识,从而提升用户的知识获取体验[12]。再次,基于个性化用户需求的知识聚合,该模式是在知识聚合过程中融合入用户需求信息,根据用户特定个性化需求去进行相关知识的聚合,以提升知识聚合的精度和效果。在具体实践中可以划分为面向用户个体的需求模型构建与知识聚合和面向群体用户的模型构建与知识聚合两类。

3.基于计量的知识聚合模式。该模式主要针对科研文献而提出,通过计量学的相关方法来分析科研文献的外部特征和内容特征。其外部特征主要包括作者维度、机构维度、区域维度,内容特征则主要是文献的词语维度、主题维度和领域维度[13]。首先,对这些特征进行计量分析,将计量分析的结果直接用语义网进行表示,以此来构建基于科研文献元数据的语义关系网络。其次,从主题词共现、文献作者耦合、文献参考与引证关系、关键词共现等角度来对科研文献进行基于一定要求的聚类,形成中粒度的文献知识集合。最后,进行更细粒度的基于本体、语义的深层次聚合。因此,计量学的相关研究在知识聚合中的主要作用是对聚合对象(主要是指科研文献)进行中粒度的聚类,提升知识聚合在知识内容上层次性、关联性和结构性的精确度,最终提升知识用户需求的显性化程度。该聚合模式目前已取得一系列研究成果,相关应用实践也在逐步出现。这方面具有典型代表性的就是,武汉大学邱均平教授研究团队基于共现关系、合作关系、耦合关系三大维度深入研究了计量学在知识聚合中的具体应用。

(二)知识聚合模式对比分析

从优势、劣势、应用场景三个角度对基于语义的知识聚合、基于情景的知识聚合、基于计量的知识聚合三类模式进行比较分析(见表1),以期有利于档案知识聚合模式的确立。

(三)档案知识聚合模式的确定

根据知识聚合模式的比较研究成果,立足档案知识聚合模式选择遵循的深度性、易操作性、全面性、保密性原则,结合档案知识聚合的自身特点,本文最终将档案知识聚合模式确定为基于“语义-情景”的档案知识聚合模式。选取该模式的主要有四个原因。第一,档案知识聚合对象为档案蕴含的档案知识,为了对其进行深度聚合,必须从语义层面进行操作。基于本体的知识聚合模式可以通过构建关于目标主题的档案知识领域本体来实现对档案知识语义及其之间关联的准确描述。在此基础上,利用关联数据,将领域本体内的知识与领域外的相关知识进行聚合,进而可以保证档案知识聚合的深度性和全面性。第二,对档案资源进行知识聚合时,会涉及到大量的自然语言文本和图形图像文件。对此,可利用主题模型、文本聚类等方法对这些高维文件进行降维操作,降低此类文件聚合的难度,满足档案知识聚合的可操作性原则。第三,在档案知识聚合操作过程中,需充分考虑用户的档案知识需求,与此同时,实现聚合的全面性还需将用户所处的实时情景(时间、位置等)融入到聚合结果中,而基于情景的知识聚合模式能够满足上述要求。第四,该聚合模式是综合基于语义的知识聚合模式、基于情景的知识聚合模式的各方面优点而得到的,具有良好的扩展性,可以设计相应的安全保障功能,能够确保档案知识的信息安全和保密性。

四、结语

表1 知识聚合模式的对比分析

档案知识聚合的提出和研究具有重要的意义。档案知识聚合是从微观的视角去分析如何挖掘、处理、聚合档案知识,因此,在一定程度上是对档案知识管理中知识处理技术的扩展。同时,档案知识聚合要求从语义关联的角度,根据用户需求,对档案资源进行基于知识单元的细粒度、深层次聚合,也是对档案资源整合理论的进一步发展。作为面向实践、面向应用的研究,档案部门开展档案知识聚合的具体实践既可以有效增强档案工作者对档案进行知识化处理的意识和能力,也可以有效解决原先档案部门对不同类型数字档案进行分开处理和存储所导致的高成本问题[14]。

[1]魏扣,李子林,郝琦.面向档案的知识聚合服务研究现状及趋势展望[J].数字图书馆论坛,2018(3):20-24.

[2]余厚洪.2003-2011年我国档案信息资源整合研究综述[J].档案管理,2012(1):63-65.

[3]蒋冠.网络环境下档案信息资源整合研究[D].湘潭:湘潭大学,2005.

[4]陈永生.政府信息资源整合共享研究——从国家档案馆的角度[J].档案学研究,2010(1):46-51.

[5]刘明.网络档案信息资源整合研究[J].档案与建设,2007(12):15-17.

[6]张斌,郝琦,魏扣.基于档案知识库的档案知识服务研究[J].档案学通讯,2016(3):51-58.

[7]徐拥军.“档案知识管理”系统构建的原则与策略[J].档案学通讯,2009(2):58-62.

[8]黄霄羽,郭煜晗,王丹,等.国外典型档案馆应用社交媒体创新档案服务的实践特点[J].档案学通讯,2016(3):87-93.

[9]向泽红.基于云计算和3D虚拟技术的智能化档案信息服务研究[J].山西档案,2014(3):59-61.

[10]贺德方,曾建勋.基于语义的馆藏资源深度聚合研究[J].中国图书馆学报,2012(7):79-87.

[11]曹树金,马翠嫦.信息聚合概念的构成与聚合模式研究[J].中国图书馆学报,2016(223):4-18.

[12]Singh V K,Gao M,Jain R.Situation detection and control using spatio-temporal analysis of microblogs[C]//ACM.Proceedings of the 19th International Conference on World Wide Web,NC,USA,2010:1181-1182.

[13]董克,程妮,马费成.知识计量聚合及其特征分析[J].情报理论与实践,2016(6):47-51.

[14]吕元智.数字档案资源跨媒体语义关联聚合实现策略研究[J].档案学研究,2015(5):60-65.

猜你喜欢
语义资源用户
真实场景水下语义分割方法及数据集
基础教育资源展示
一样的资源,不一样的收获
语言与语义
资源回收
资源再生 欢迎订阅
批评话语分析中态度意向的邻近化语义构建
关注用户
关注用户
关注用户