基于OFDD标准的高校档案资源“数据化”策略研究

2019-09-10 07:22田伟蒋冠
档案与建设 2019年9期
关键词:数据化协同过滤本体论

田伟 蒋冠

摘要:档案资源数据化应是新时代档案事业发展的目标。文章基于OFD标准,以高校为具体应用场景,研究满足档案资源数据化需求的实施策略,包括对数据化资源充分包容与主要资源形态间顺畅转换的支持、对档案资源元数据体系充分支持、对本体论知识库充分支持、对档案资源协同过滤机制充分支持等方面。

关键词:OFD;数据化;高校档案;协同过滤;本体论

分类号:G270.7

Research on University Archives Resource Datalization Strategy Based on the OFD Standard

Tian Wei, Jiang Guan

(Management School of Tianjin Normal University, Tianjin, 300387)

Abstract:The datalization of archival resources should be the goal of the archives development in the new era. Based on the OFD standard, the paper takes universities as specific application scenario, and studies the implementation strategies to meet the needs of archival resources datalization. These strategies mainly include being supportive to sufficient inclusiveness for various datalized resource and smooth transition between major resource forms, being supportive to archival resources metadata, being supportive to ontological knowledge base and being supportive to archival resources collaborative filtering mechanism.

Keywords:OFD;Datalization; University Archives; Collaborative Filtering; Ontology

档案资源的数据化是新时代档案事业发展的根基与前提。当前学界往往将“数据化”作为一个与“数字化”相对的概念,把档案资源的“数据化”定义为:将档案资源的形式与内容转化为电子计算机可处理的数据,并通过档案数据管理系统实现有效管理的系统化工作。

从实践角度来看,离开了充分有效的档案数据化资源,新时代档案事业将成为无源之水、无本之木。根据调查结果,受访各高校档案部门几乎都存在档案资源检索遗漏现象(即未能找到实际上存在的馆藏档案资源),给档案工作带来了一系列问题,而问题的根本原因在于档案资源的数据化程度不足。

从理论角度来看,四重境界理论[1]表明,新时代“互联网+档案”的建设应从第一到第四重境界逐步开展。第一重境界建设完成的标志是:实现传统介质档案的充分数据化,并建立相应完善的元数据标引体系。可见,数据化是实现“互联网+档案”建设的基础条件。

当前,档案界在不断探索大数据、智能化等问题时,实际上亦应思考一个“根基问题”:档案资源的形式与内容都很好地进入计算机世界了吗?这就是档案资源“数据化”的要义所在。

如上所述,当前“找到”档案资源的问题甚至尚未很好地解决,“第一境界”尚未实现,又谈何档案资源的“高级应用”?档案资源“数据化”问题尚未研究透彻而言他,就相当于还没有解决“走”而直接去研究“跑”。

因此,必须对档案资源数据化问题给予充分重视,对档案资源数据化实现策略应加以系统性研究。当前,国家正在出台一系列政策,推动OFD版式文件标准的广泛应用,OFD代表着我国档案资源数据化未来的发展方向。因此,本文基于OFD标准,着眼于高校档案这一具体应用领域,提出档案资源数据化的若干实现策略。

1相关研究

OFD是我国自主的版式文档格式规范,由《电子文件存储与交换格式版式文档》(GB/T 33190-2016)确立。OFD标准体系使我国首次拥有了国家级的电子文档自主版式格式标准及相应技術,对于实现新时代档案资源“数据化”具有重要意义。

自相关标准发布后,围绕OFD在档案领域的应用研究逐步展开。例如,王姝等[2]对OFD在档案领域的主要应用、存在的问题进行了分析,进而提出形成OFD标准族、加大应用试点等档案OFD发展策略;高林等[3]对OFD标准进行了系统解读,给出了其在电子公文、档案等领域的应用实例;周枫等[4]对OFD格式应用场景进行了探讨,以SWOT分析法对OFD在档案领域的发展进行了分析;郭晓云[5]在研究中对OFD应用于电子公文档案一体化的策略进行了研讨;梁凯[6]对档案部门应用OFD的应对之策进行了研究。

从总体上看,OFD作为我国大力推广的、具有全面自主知识产权的版式文件标准,日益受到业界与学界的重视。相关工作具有良好的价值,但对OFD的研究尚处于初步阶段。而一些研究也提到,OFD应进一步面向实践领域推动落地研究,以突破当前其所存在的局限性。

因此,我们应结合档案具体领域的应用场景,加紧研究面向实际的OFD应用策略,以具体实践推动整体研究,促进OFD广泛应用与档案资源数据化的实现。

2高校档案资源“数据化”需求

2.1高校档案资源主要特点

文章将高校档案作为主要研究领域,是由于实现高校档案资源的数据化具有典型示范意义。从总体上看,高校档案具备以下特点:

一是档案资源门类较齐全、数量丰富。当前各高校基本根据《普通高等学校档案管理办法》等文件设立了门类齐全的档案资源体系,包含了党政、教学、财务、基建等多种类型的档案资源,在资源数量上有相当的规模,从而为档案资源数据化提供了坚实的资源基础。

二是对档案资源的管理较为规范。当前国家出台了一系列的规章制度与技术标准以规范高校档案事业的开展,在实践中这些法规基本得到了较好的执行,使高校档案资源处于良好有序的管理体系之下,从而为档案资源数据化提供了较好的运行环境和制度保障。

三是对档案资源的利用需求日益旺盛。根据以往课题的调查统计,当前对高校档案资源的利用需求数量逐年递增,对资源需求的種类也在逐步扩大。随之由于对档案资源未充分数据化而造成的各种问题也日益凸显出来,给新时代档案事业发展带来了一定阻力,从而对档案资源数据化的开展提出了迫切的要求。

2.2高校档案资源主要形态

从总体上看,当前高校档案资源主要包括以下几种主要呈现形态。

(1)文档。即文本文档,以字符作为主要表达形式的文件。它有电子文件和非电子文件两种形式。典型的文档诸如政府文件、总结报告、文章稿件、统计报表等。电子文档文件的格式包括TXT、DOC、PDF、XLS等。

(2)图像文件。即以图像信息为主要形式的文件。主要包括照片、图纸、绘画、地图等档案资源。它有电子文件和非电子文件两种形式。电子图像文件的主要格式包括JPG、PNG、BMP、TIFF等。纸质文档经数字化扫描而得的图片文件亦属于此类。

(3)音频音像文件。即以视频或音频为主要形式的文件。主要包括录像资料、录音资料等档案资源。它有电子文件和非电子文件两种形式,电子形式又可细分为磁介质文件、光介质文件、半导体介质文件等。其电子文件主要格式包括MP4、WMV、ASF、3GP、RMVB等。

(4)数据库文件。即由数据库管理系统(DBMS)所定义、操纵的数据文件。数据库文件全部为电子文件形式,包括关系型数据库与非关系型数据库两种类型。典型的高校档案资源中的数据库文件包括教学成绩数据、财务系统数据、各类统计数据等。数据库文件的主要格式包括DBF、MDB、MDF等。

(5)软件及其数据文件。即除上述四种形态资源之外的档案资源中其他软件及其数据文件。所包含的种类较为广泛。随着大数据、“互联网+”等新时代技术环境的到来,各种应用软件及其产生的数据越来越多地加入到档案资源建设范围中来。例如典型的软件及数据文件归档包括工程CAD文件、网页归档文件、社交媒体归档文件、科研软件系统文件等。

五种形态之间互有包含、紧密联系。如文档中往往不单单含有文字,还包含一定的表格、图像等,而图像文件也必然含有文字说明要素,数据库文件实际上是软件及数据文件的特例。

2.3高校档案资源数据化需求

以上五种形态档案资源对于版式文件具有不同的需求。在“四重境界”理论的视域下,我们以形态和境界为两个维度,总结高校档案资源数据化任务需求(表1)。

3基于OFD标准的档案资源数据化策略

基于以上的档案资源数据化典型需求,结合OFD标准自主性、安全性、兼容性的特点,提出以下的档案资源数据化实现策略。

3.1对数据化资源充分包容与主要形态间顺畅转换的支持

当前国家相关部门致力于推动使档案资源版式文件格式统一于OFD标准。因此OFD标准应对多种形态的档案资源具有较好的包容能力。OFD标准应充分包容各形态档案资源,避免使档案资源数据化成果呈现形态过于纷杂,同时实现档案资源数据化成果统一于我国自主知识产权标准。

OFD标准擅长于实现各类文档排版后的固化呈现,因此文档与图像文件可较为直接地应用OFD标准实现数据化成果存储。当前电子证照、政令文件等领域已经成功地开展了OFD标准应用。因此,高校档案资源中的类似数据化成果可参照实现。同时,应扩展OFD文件对于音频音像文件的包容能力,使这类档案资源能够通过OFD标准实现有效的存储与利用。

OFD是基于XML与压缩技术的电子文档格式标准。因此OFD对数据库文件应该具有较好的支持度。XML善于描述结构化数据,是一种存储与传输数据的格式标准,与多数数据库支持模型原理相通,具备对数据库文件的良好支持度。当然,XML仅仅关注于存储数据,而不提供数据索引、排序、查找、相关一致性等功能。这就意味着,可保持数据库文件的原有格式作为数据化资源形态,不必一定将数据库文件转为OFD文档存储,但应保持数据库文件归档后的长期可用性及其生成OFD版式文档的能力。

应用OFD文档存储档案数据化资源,应保障资源在相关形态间顺畅转换。例如,高校档案资源中的教学成绩单文件,往往以文档的形态呈现,但生成成绩单文件的支持数据来源于教学数据库,往往以关系型数据库文件形态呈现。那么,成绩单档案资源应以何种形态实现数据化?是应以一个个独立文档(每个文档对应一份成绩单)的形态还是以数据库文件(利用时再生成独立成绩单)的形态进行归档存储?这是权衡多重因素应加以确定的问题,以确保文档版式呈现与数据挖掘两方面需求的充分满足。

3.2对档案资源元数据体系充分支持

档案元数据是描述档案资源与档案业务活动的数据集合,其主要可分为基本元数据、管理元数据和业务元数据等。“互联网+档案”建设“四重境界”的发展要求对档案资源元数据加以充分重视,各重境界的目标必须依靠档案元数据的有效支持方能实现。这也就意味着,除了对档案资源本身充分包容之外,OFD文档也必须充分支持档案资源元数据体系的存储。

高校档案资源元数据往往采用诸如都柏林核心元素集、MARC、GILS、FGDC/CSDGM等技术标准,因此OFD文档应对相关的元数据实现充分有效的存储,并保障其长期可用性。

相关研究表明[7],在一些情况下,OFD对于档案文档资源的属性元数据保存存在信息损失现象。一些格式的流式文档在转换为OFD版式文档后,一部分元数据会发生损失。这种缺失元数据副本的问题对于电子档案资源来讲并非是可忽略的小问题,应着力加以解决。在建设OFD文档资源工程中,应充分认识到元数据对档案资源的战略意义,推动实现OFD对档案资源元数据体系的充分支持。

3.3对本体论知识库充分支持

以本体论所构建的档案资源信息概念模型是计算机可理解的智能工具,这是传统的主题词表等工具所不具备的能力。本体方法比传统的分类法、主题法等具有更强的知识导航功能,从而实现对档案资源更有效的智能管理与组织。因此,本体知识库对于实现档案资源智能检索等方面具有重要意义。

本体技术一般具有四个核心:一是形式化(Formal),本体是计算机可理解的;二是概念模型(Conceptualization),从现实世界抽象得到的、独立于具体环境的概念集合;三是共享(Share),本体中所涵盖的是人们对于事物的共同认知;四是明确(Explicit),本体中的概念与概念之间的联系均有明确约束。本体的描述语言主要包括RDF、RDFS、OWL等。

档案资源领域的本体知识库建设一般通过领域专家的系统性设计实现。通过将档案资源所含知识建为本体知识库,实现以本体形式化描述档案资源,以有效揭示档案资源所反映的丰富内容,提升档案资源管理利用的智能化水平。所建设的本体知识库作为智慧结晶,应确保可靠的长期可用性。因此,应探索应用OFD文档标准对档案资源本体知识库实施可靠存储。通过发挥OFD标准在持续可解释、显示一致性、可转换性等方面的优势,使档案资源本体知识库获得一种良好的存储环境,发挥其应有作用。

3.4对档案资源协同过滤机制充分支持

个性化推荐是实现档案资源智慧检索的重要支持机制之一,协同过滤是实现个性化推荐的核心机制。为实现档案资源协同过滤,需要收集存储档案用户对档案资源的评价反馈数据、档案用户自身属性数据、档案资源利用行为数据等。这些数据应与档案资源数据化成果密切结合,有效驱动档案智慧检索系统的运作。因此,对档案资源协同过滤支持数据的有效存储和可用性保障可作为OFD文档的一项应用。

OFD文档标准是基于XML实现的,具有较强的描述结构化数据的能力。而协同过滤支持数据在概念模型层面往往是矩阵的形式,在逻辑存储层面则可采用结构化数据结构。因此,应用OFD标准对协同过滤支持数据进行存储是较为可行的。也就是将协同过滤支持数据作为若干独立的OFD文档进行归档存储。该方式可较大程度上发挥OFD标准的优势,实现档案资源协同过滤平稳有效运行。

与将协同过滤支持数据嵌入档案资源本身存储相比,将协同过滤支持数据作为若干独立的OFD文档进行归档存储有诸多优点。例如档案用户评分反馈数据可独立作为一系列OFD文档存在,从而实现矩阵计算等方面的快速调用与运算,无需每次都调用档案资源本身对应的各个OFD文档。而档案用户属性等数据作为独立的OFD存储,则有利于避免数据冗余与数据不一致等问题的出现。

3.5对档案资源跨界获取数据交换充分支持

应充分发挥OFD标准在安全性、兼容性等方面的优势,促进档案资源数据化成果的远程跨界交换共享的实现。

档案资源的跨界获取完备主要可分为两类应用场景:一是事务办理类,二是兴趣研究类。前者要求档案资源在事务所涉及的组织机构之间能够实现交换共享,后者要求与研究主题相关的档案资源能够打破物理位置限制而实现交换共享。当前应充分利用OFD标准推进实现这两类场景档案资源的跨界获取交换。

由于OFD格式基于业界主流的“XML描述+ZIP打包”模式,因此OFD标准产品从其内在机制上就较为适合实现数据化档案资源的远程跨界交换。一方面,XML是各种应用程序之间进行数据传输的最常用的工具,为异构平台间交换数据提供了良好的描述能力。另一方面,ZIP打包支持诸如ASIP、TSIP、AIP、DIP等信息包交换,易于实现数据化档案资源的跨界共享。此外,OFD标准支持以数字签名等方式进行数据交换过程中的安全认证,在数据交换安全性方面有较好保障。在以OFD标准存储档案资源数据化成果的基础上,应进一步开发OFD文档跨界交换应用软件,制定相应数据交换规章制度,实现四重境界的建设目标。

4总结

OFD当前是一个主标准,解决了数据存储、压缩、位置等问题,但其相关标准族尚待研究完善。这不仅是一个围绕OFD的技术问题,更是对于档案资源数据化拓展与深化认识的问题。只有全面深刻认识档案资源数据化、以数据化实践拓展OFD应用领域,才能形成建立在实际需求之上的完善标准体系。

为此本文基于OFD标准提出若干档案资源数据化实现策略,对于拓展OFD标准应用、推动档案资源数据化工程具有积极意义。

*本文系中国高等教育学会档案工作分会研究课题“‘互联网+’时代高校档案馆发展研究”(项目编号:ZGD-Y-2018-05)阶段性研究成果。

注释与参考文献

[1]田伟,韩海涛.基于“四重境界”的“互联网+档案”建设策略研究[J].档案学研究, 2019(3):55-61.

[2][7]王姝,徐华,王少康.OFD版式文档应用研究[J].档案学研究,2019(1):95-100.

[3]高林,李海波,丛培勇,王寒冰.OFD版式文档国家标准解读[J].信息技术与标准化,2016(10):42-44.

[4]周枫,吕东伟,邓晶京,黄丽萍,骆建珍.OFD格式在档案领域的应用初探[J].档案管理,2018(4):35-37.

[5]郭晓云.国家版式文档格式规范(OFD)标准[J].兰台世界,2018(3):33-36+12.

[6]梁凱.档案部门应用OFD格式的若干思考[J].浙江档案,2017(1):64.

猜你喜欢
数据化协同过滤本体论
“互联网+”背景下的智能互联汽车数据化媒体服务
本体论视域下大学本体要素及资源分类探析
“法律解释”与“法律诠释”之术语辨析
浅议古代哲学的本体论思维方式
基于链式存储结构的协同过滤推荐算法设计与实现
基于相似传播和情景聚类的网络协同过滤推荐算法研究
基于协同过滤算法的个性化图书推荐系统研究
混合推荐算法在电影推荐中的研究与评述
浅析人力资源管理的E化
对“未来教室”的初步探索