黄 帅 唐筠杰/上海大学图书情报档案系
随着现代信息技术的飞速发展,作为承载社会信息的重要载体,档案的内涵与外延均正发生巨大变化,档案界提出从数据角度对档案进行管理。于英香从时间轴、空间轴、状态轴三个维度对档案数据的特征进行表述,认为档案数据的价值已上升至多元,并基于“价值重构”的思想提出一种针对档案数据管理的新模式[1]。金波与晏秦从数据关联、数据共享、数据管理空间以及数据管理环境四个方面对数据管理的特点进行描述,认为其不仅是一种先进的管理技术,更是一种全新的思维理念[2]。不断革新的技术给档案管理领域带来了诸多挑战,档案工作者必须从数据管理角度对新技术环境下的档案数据及档案数据管理进行探索。
2019年2月,国家档案局公布《基于非关系型数据库的档案数据存储规范(征求意见稿)》,指出“档案数据包括电子档案的内容数据、传统载体档案数字化副本的内容数据以及两者的元数据(含目录数据)”[3]。虽然档案数据作为数据的种概念,可以继承数据的特征,但档案数据与一般数据还是存在较大差异。具体来说,数据可服务于多种目的之下,但其本身并不具有目的性,一旦失去了这些目的,数据就没有了任何价值;而档案数据在生成之初便被赋予了明确的目的性,档案数据的原始记录性是在其生成时就存在的,根本目的就是为了长期保存以备查考。
电子文件诞生以来,档案界对新技术环境下的档案管理形式与方法展开了广泛讨论。纳入新来源观、连续体论、元数据控制等理论后,电子文件管理形成了一套较为完善的体系。而档案数据管理作为电子文件管理的新阶段,其理论架构的构建还在研究探讨之中。周枫和杨智勇运用5W1H分析法对档案数据管理进行研究,剖析了档案数据管理中需要研究的方向及可使用的方法手段[4]。陈雪燕和于英香在分析了档案数据管理与传统档案管理的融通和冲突后,阐明了向档案数据管理范式转型的要点[5]。
通过以上研究可以看出,档案数据管理的研究还处于起步阶段,其研究范围与内容都还不够深入。当前新技术的出现为档案数据管理带来了新的机遇与挑战,机遇体现在数据研究的热潮使得档案数据管理开始受到重视,挑战体现在需要搞清楚较之于传统档案管理,档案数据管理的创新点是什么。
数据管理这一概念最初兴起于计算机学科。金波与晏秦在总结了不同视角下对数据管理的定义后,将其归纳为“运用云计算、物联网、大数据、智慧工程等现代技术对数据资源进行有效的收集、处理、存储、挖掘和利用,保障数据长期可用,实现数据价值,提高组织运行效率和核心竞争力”[6]。由此可见,数据管理用以支撑人们对数据进行复杂而多样的智能处理需求,是数据使用的基石。
数据管理使得档案界人士对档案管理模式的认知发生了根本性变化,即开始认同数据的价值,并探索“全数据”档案管理模式,推动档案管理范式逐渐转型为档案数据管理范式[7]。在大数据时代,数据成为一种核心力量,其价值已不再局限于传统的D-I-K-W(数据—信息—知识—智慧)金字塔模型,技术直接赋予了数据话语权。如何组织、挖掘和利用档案数据,成为当前档案管理的重点所在。因此要构建全新的档案数据管理理念,充分发挥出档案数据的作用。
将数据管理引入档案管理知识体系后,由于不同学科体系对事物及问题揭示的深度与广度不同,档案的形态、价值及其实现途径将面临冲击,引发档案知识体系重构。首先,档案存在形式将发生变化。传统档案的原始记录性规定了档案的基础存在形式,在新技术环境下,档案数据也应满足这一形式。换言之,满足系统性要求的原始记录形式的数据,即可作为档案数据。其次,档案管理原则将发生变革。在万变不离其“宗”的传统档案管理体系下,以事由原则为基础的主题检索与利用将成为可能,而利用索引技术甚至可能出现全宗不再是“刚需”的状态。最后,档案价值鉴定规则将发生变化。档案数据难以独立地发挥作用,需要与多种数据一同被处理,只有保证数据与数据之间的完整联系才能体现档案数据的全部价值。
传统档案的应用场景多为本组织内部,如政府部门、企业等内部使用,而数据管理改变了档案数据的主要应用场景。首先,档案数据不再受空间限制,组织外人员使用档案数据的几率会极大增加,档案数据应用群体从组织内人员转向社会大众。其次,由于档案数据来源广泛,任何数据都有成为档案数据的可能,档案数据不再处于供给不足的状态。因此如何从海量档案数据中发掘出有价值的档案数据,并使其发挥出最大价值将成为新的关注点,档案数据的应用方式从收集保管转向价值挖掘。最后,使用者对档案资源的需求已不再局限于公文、文献、记录类资源,开始拓展至图像、音频、视频等多媒体数据,档案数据应用范围从文献资源转向数据资源。
以符合新技术环境的要求对档案数据进行存储,是新技术环境下档案数据管理最为基础的一步。档案数据的存储为后期档案数据的利用奠定了基础,高质量的档案数据存储环境才能真正发挥数据的价值,因此存储数据的数据库必须具有高适应性、高扩展性。针对传统关系型数据库在档案数据存储中的局限,利用分布式非关系型NoSQL数据库的抗单点故障能力和动态伸缩性特点,在保证高效读写和灵活管理多结构档案数据的同时,使档案存储具有良好的适应性、可靠性和扩展性[8]。传统关系型数据库模型一般存在检索速度慢、结果质量低、横向扩展差等问题,而NoSQL数据库能实现档案数据库整体功能的负载均衡与故障转移,提高档案数据存储的质量,满足高速度高质量的检索要求,实现档案数据由“资源”向“资产”转变。
对档案数据进行挖掘利用可使用Web数据挖掘技术,根据不同用户的行为特征提供个性化档案数据服务,使档案数据与用户需求双向控制达到最优化。Web数据挖掘技术可从Web文档及活动中抽取出潜在的信息,挖掘多种类型的数据。该技术主要利用在线服务用户需求模型功能,即对用户在线的档案数据使用行为进行挖掘,获取用户在网络交互过程中的二手数据。再对用户行为进行跟踪,进而分析出不同用户的兴趣,动态地提供定制化档案数据利用服务。利用Web数据挖掘技术识别档案数据用户的真实需求,使得档案数据服务更加生动,推动以用户为中心的个性化档案数据服务。
档案数据具有高度易变性,因此在储存、传输与处理等过程中极易被篡改,且受到攻击后一般难以恢复。档案数据所强调的真实性主要依赖于对数据存储系统的信任,当数据存储系统不再可信时,该系统中的所有档案数据都可能不再真实,会导致比数据丢失更加严重的后果。使用区块链技术可消除潜在风险,保障档案数据安全。首先,区块链技术具有高度防篡改性[9],能够保证档案数据真实可靠。其次,区块链没有集中的硬件或者管理组织,能实现档案数据的多主体治理。最后,采用公有链与联盟链相结合的安全防护机制,推动档案数据链式保护思维的建立,以极大地提高档案数据的保密性。此外,将区块链技术运用于档案数据保护模式中,还能防范由于内部成员共谋引发的安全事故。
一是档案数据的经济价值问题。以往档案学研究并不过多关注档案的“经济效益”[10],而且实践工作更强调社会效益。而对档案数据进行研究时,应注重研究其产生的经济价值。目前档案数据潜在的经济价值已逐渐展现,关注档案数据的经济效益,能够更好地实现档案数据的社会价值。二是档案数据的产权归属问题。以社交媒体档案数据为例,人们通过社交媒体发布个人数据时,与自身隐私相关的基础档案数据便成为了公共资源,其他用户一旦采集这些数据并加以分析利用,那么这些再生数据的相关权利可能属于研究者,可能属于形成者,也可能属于数据提供者。所以需要对档案数据的产权及相关权责进行更加深刻和具体的讨论,结合具体情况进行分析。
一方面,支持阅读各模式下的通用数据解读规则还没有建成。DDI(the Data Documentation Initiative)作为一套国际元数据管理标准,虽被广泛用于国外社会科学数据归档活动中,但没有对变量名称、编码说明进行标准化规定,利用者在描述档案数据时可能会出现偏差。克莉丝汀·伯格曼教授(Christine L. Borgman)就以“年龄”字段为例,提出由于不同记录者的记录习惯不同,年龄字段既可以解释为岁数,也可以解释为出生年份,如“年龄”字段中的“59”既可表示“59岁”,也可表示“出生年份为1959年”。缺少了对档案数据变量名以及编码的说明性描述,档案数据的价值会大打折扣[11],有时甚至会无法使用。
另一方面,档案数据形式众多,没有统一的数据挖掘解码标准使得研究者需要采用多种解码方式对数据进行分析。由于各机构都有一套独立的数据库管理体系,不同机构对其内部的档案数据描述语言不尽相同,利用时需要使用多种解码方式对档案数据进行分析,工作效率不高。此外,由于研究的要求不尽相同,多数情形下需要将非结构化数据重组为结构化数据。非结构化数据不是很适用于理论论证性研究,因此研究者在利用大数据对非结构化数据进行研究后,都要再次使用一套算法,将非结构化数据整合成结构化数据,为进一步的研究所用[12]。因此,重构档案数据管理的内部规则是必要之举。