康蠡+周铭
摘要:本文借鉴生态系统和大数据生态系统的定义,对档案大数据生态系统作出界定,认为档案大数据生态系统由档案大数据、档案大数据主体及档案大数据环境构成,其结构主要体现在系统要素的组合排列和作用范围两个层面,大数据技术和理念赋予档案大数据生态系统一系列新的特征。
关键词:档案大数据生态系统构成结构
Abstract: Based on the definition of ecosystem and big data ecosystem, we define the archival big data ecosystem, which is composed of archival big data, archival big data master and archival big data en? vironment. Its structure is mainly embodied in two levels——the combination of system elements and the scope of functions.Owing to the application of big data technology and thinking, archival big data ecosystem has a series of new features.
Keywords: Archival big data; Ecosystem; Compo? sition; Structure
隨着大数据理念和技术在档案领域的应用日益深化,档案大数据已逐步由概念论说走向尝试应用阶段,由此给档案部门带来了巨大挑战。从对象上来看,档案大数据的开发应用既涉及多种体量巨大的数据,又涉及处理这些数据的技术、人员、设施等,因而要充分发挥档案大数据的价值,就不能单纯地将档案大数据作为一个独立对象来分析,而必须以系统的眼光对与之相关的所有要素进行通盘考虑。鉴于此,本文将生态学观点引入档案大数据领域,在借鉴生态系统和大数据生态系统定义的基础上,对档案大数据生态系统的定义、构成及其结构加以探讨,以助益人们更好地理解档案大数据。
一、档案大数据生态系统的涵义
生态系统这一概念最早由英国生态学家坦斯利(A. G.Tansley)于1935年提出,其含义是指一定空间中共同栖居着的所有生物(即生物群落)与其环境之间由于不断地进行物质和能量流动过程而形成的统一整体。[1]生态系统概念的核心强调的是自然生物界与环境之间不可分割的整体性,蕴含着关联、共生、统一等思想,因而具有很强的普适性,被广泛应用于自然、经济、社会研究的各个领域。
近几年,应大数据研究和实践的需要,有学者开始将其与大数据结合起来,使得大数据生态系统研究快速兴起。但笔者梳理文献发现,目前学界对大数据生态系统的探索尚处于起步阶段,就其定义仅初步形成了两种观点。
一种观点以IBM的架构师史蒂芬·沃特(Stephen Watt)为代表,认为大数据生态系统实际上就是数据的生命周期,即数据采集、存储、查找、分析和可视化的过程。[2]另一种则以国内学者郭自宽等为代表,认为大数据生态系统是用来描述围绕大数据管理的共存共生的各类技术和工具。[3]两种定义分别从过程和器物的角度来描述大数据生态系统,虽然没有完整地揭示大数据生态系统的内涵,但为认识大数据生态系统打下了基础。
作为数据管理理论和实践的新发展,大数据开启了一次重大的时代转型,对包括政府、教育、金融、医疗等在内的各个领域产生了深远影响。而伴随着大数据体系与档案工作的融合不断加深,来自档案领域的数据在数量与种类上以空前的速度急剧增加,并带来了一系列新的数据处理技术与方法,这些要素借由“档案人”的数据处理活动,通过物能流和数据流彼此作用、有机结合,从而催生出档案大数据生态系统。
档案大数据生态系统的提出源于档案大数据处理实践的急切需求以及大数据生态与档案工作的整合,故而可借鉴生态系统和大数据生态系统的概念对其进行界定。根据前述生态系统和大数据生态系统的定义,可以认为档案大数据生态系统就是:在一定时空内,档案大数据主体之间及其与档案大数据环境之间基于档案大数据活动而形成的功能统一体。
就其实质而言,档案大数据生态系统实际上是从生态学的角度对档案大数据主体与其所处环境之间相互关系和状态的一种隐喻,其主旨在于倡导以生态系统的视角和方法来看待和探究档案大数据现象及本质,更好地促进档案大数据的管理与应用。
档案大数据生态系统的定义表明:一方面,从形式上看,档案大数据生态系统实际上是以“人”为中心、以档案大数据为纽带、以大数据技术等为支撑而形成的人工系统,组成系统的各个要素相互关联、相互依存,构成一个不可分割的有机整体,共同推动档案大数据生态系统的形成与健康成长。另一方面,就归属和价值来讲,档案大数据生态系统以档案大数据的流动、转化和利用为核心职能,其构成了大数据生态整体的子系统。虽然档案大数据生态系统乃是大数据生态体系与档案工作交融的产物,但其绝不等于二者的简单叠加,而是代表了档案业务活动在大数据时代管理数据、利用数据的新模式,代表着对以往档案管理服务模式、技术体系、价值观念的创新、超越和发展。[4]
二、档案大数据生态系统的构成
由其形态来看,档案大数据生态系统是一个典型的复杂系统,完整的档案大数据生态系统包括了众多生物成分(统称档案大数据主体)和非生物成分(即档案大数据环境),同时还包括了兼具主客观属性的档案大数据。
(一)档案大数据
所谓档案大数据,即是指在档案业务活动中形成和采集的,跟档案及档案业务活动密切相关的各种有价值的、难以在可接受时间内分析处理的数据集。其主要来自如下方面[5]:1.档案本身。也就是档案管理机构收集的电子档案、音视频档案以及传统载体档案数字化成品所记录的内容数据(原始记录)、管理档案的元数据及反映档案形式的电子数据,如档案载体材质、规格的数据、档案管理系统的数据等,以及由档案内容数据加工生成的电子档案目录、文摘、指南等数据。这些数据是档案大数据中最具档案特色的部分,也是档案大数据的核心。2.档案部门的业务活动。此类数据一部分由档案业务部门自己生成,一部分则由档案业务部门通过各种途径收集而来,主要涵盖档案部门的概况数据、档案政策数据、法律数据、馆藏结构数据、行业动态数据等。3.档案用户。具体如用户的个人情况、位置数据、查询浏览数据、需求偏好数据、向档案服务部门发送的服务请求数据以及对档案服务的评价反馈数据等。与以往的大规模档案数据、海量档案数据相比,档案大数据具有数据体量大、处理速度快、数据类型多、时效性强、复杂程度高等特点,[6]它们构成了档案大数据生态系统的资源基础,同时也是档案大数据生态系统价值的源泉。endprint
(二)档案大数据主体
档案大数据主体也叫档案大数据人,是指需要档案大数据并参与档案大数据活动的个人、团体或组织。作为物能转换和数据流转的节点,档案大数据主体可谓档案大数据生态系统中最活跃、最关键的因素,其数量与质量不仅直接决定着档案大数据生态系统的形成,也影响着它的演化与发展。在档案大数据生态系统中,不同节点的主体通常扮演着不同的角色,承担着不同的职能,根据职能和角色差异可将其分为:1.档案大数据生产者。他们占据着档案大数据源头的位置,主要发挥档案大数据生产和创造功能,其生产的大数据不仅能为自身带来价值,而且为其他主体的活动提供数据支撑,因此他们也是档案大数据生态系统中最基本的行为主体。在大数据时代,由于参与档案活动的任何主体都可以制造大量数据,故而档案大数据生产者与档案形成者的范畴几乎是一样的,其既可以是政府机关,也可以是社会组织和个人,只是他们产生的数据并不最终都转化为档案。2.档案大数据管理者。具体又有档案大数据监管者和档案大数据组织分解者之分。其中,档案大数据监管者是指为了保证档案大数据活动有序、规范地进行,而对参与档案大数据活动的主体进行监督、管理和控制的个人和组织,如制定相关政策和法律,进行档案大数据行政管理和数据安全管理的机构及其工作人员。[7]档案大数据组织分解者则是直接从事档案大数据处理活动的主体,其基本职能是对档案大数据进行采集、清洗、存储、挖掘、分析,并以适当的方式传递给档案大数据消费者,其主要包括归档部门、档案室、电子文件中心、档案馆、社会企业等机构及其工作人员等。3.档案大数据消费者。也就是以档案大数据消费为目的,通过有偿或无偿方式获取档案大数据并加以利用的个人或组织。就作用而言,档案大数据消费者以其广泛多样的需求从源头上牵引着系统内的数据开发、业务创新和服务策略,因而被视为档案大数据生态系统进化的前导性力量。
(三)档案大数据环境
档案大数据环境指的是围绕档案大数据主体并对其产生影响的各种因素的总和。作为档案大数据活动的依托与场所,档案大数据环境决定着档案大数据主体的生存条件、情感认知、价值取向和行为活动等,从而影响着档案大数据生态系统的形成和发展。如若环境有利于档案大数据主体的活动及其成长,就能够在特定的区域聚集功能各异的档案大数据人种群,促进档案大数据生态系统的生成;反之,就将抑制档案大数据生态系统的产生。从范围上看,可把档案大数据环境分为外部环境和内部环境两个范畴。外部环境意指宏观的政策环境、社会环境、经济环境、教育环境以及行业环境等,属于系统发展变化的外生变量,对档案大数据主体的活动起着间接的支撑、引导和制约作用。内部环境则是指档案大数据主体生存、活动的微观空间,主要由档案大数据基础设施、档案大数据技术、档案大数据制度以及档案大数据文化等组成。其中,基础设施主要涉及通用硬件设施、数据生成设施、数据捕获设施、数据存储设施、数据处理设施以及数据传输设施等,它们构成了档案大数据生态系统的物质基础。档案大数据技术则涉及数据生成技术、数据采集技术、数据存储技术、分布式处理技术、可视化技术以及数据传递技术等,其既是档案大数据生产、处理的工具支撑,又是推动档案大数据生态系统进化的直接力量,档案大数据生态系统因大数据技术的出现而出现,也因大数据技术的进化而进化。档案大数据制度主要包括数据安全制度、数据共享制度以及数据标准制度等,作为系统内各主体及其与环境互动博弈后达成的规范体系,其可为档案大数据生态系统提供有序化运行的规则框架,为档案大数据活动的合法化提供制度保障,对于优化档案大数据环境、促进档案大数据生态系统的健康运行和发展意义重大。而档案大数据文化则是指弥漫于整个系统的大数据理念,它能够让系统内各主体高度认识数据对自身乃至整个系统的重要性,并将以往的因果思维转向用数据作预测、找出最佳解决方案的思维模式。
三、档案大数据生态系统的结构
生态系统结构反映了系统内各组成要素在连续时空中的排列组合方式、相互作用形式以及相互联系规则,[8]表征的是生态系统构成要素的组织秩序。在档案大数据生态系统内,其构成要素通过相互作用与排列组合,形成既与其他大数据生态系统相似、又具有自我特色的结构。具体言之:针对某个特定的档案大数据生态系统,其结构主要体现在系统内各要素所处的位置及其相互关系上(图1,见第13页)。从图1来看,档案大数据生态系统各要素及其与环境之间通过物质流、能量流和数据流结成了复杂的非线性关系。首先,处于同一生态链上的档案大数据的生产者、组织分解者与消费者之间基于数据生产、采集、分解、传递与消费而结成了互利共生关系,并且各自与档案大数据监管者形成被监管与监管的关系。其次,系统中的同种档案大数据人(如数据生产者、数据管理者)之间,一方面为了获得更多的用户、数据、影响力等资源会产生不同程度的竞争,另一方面由于自身能力、资源局限,基于实现各自利益的最大化,彼此之间(或与第三方)又会采取合作(如协同服务、业务外包、大数据众包等)的方式形成合作关系。其三,档案大数据生态系统本身是一个相对开放的系统,其需要不断从外界吸入物质、能量和数据(信息),同时又不断向界输出数据产品和废弃物,以此维持系统的稳定与平衡。因此,档案大数据生态系统既受到外部环境的影响,同时也能对环境做出适应和反馈。
以更宽广的视野来看,档案大数据生态系统的结构还体现在其层次的分化上。根据系统的作用范围,其可分为微观、中观和宏观三个层次(图2,见第13页)。其中,微观系统是指由单个档案数据机构(如数字档案馆、数字档案室)内部各要素通过档案大数据相互联系和作用发展而来的数据生态系统,它是档案大数据生态系層次结构最基础、最常见的单元。中观系统指的是介于宏观和微观档案大数据生态系统之间的一种系统形态,其通常由一定区域内的档案数据机构通过数据联盟、互利合作而形成。宏观系统则是指一个国家或国际间的档案数据机构通过档案大数据共享、彼此关联以实现共同发展而形成的数据生态系统,它构成了档案大数据生态系统层次结构的最高形态。总体而言,以上三个层次的档案大数据生态系统呈现出从微观到中观再到宏观的扩张规律,因为构成要素的数量不断增多,三者的运行机制也呈现出复杂性递增的态势。endprint
综合图1、图2来看,由于档案大数据生态系统内嵌于大数据生态环境,其与传统的档案生态系统相比,除具有整体性、层次性等基本属性外,又具有了诸多新特征:1.数据种群的多样性。与小数据时代的档案生态系统以结构化的数据为主不同,由于数据生成手段的丰化与更新,档案大数据生态系统中的数据种群变得更加多样化。这种多样化不仅体现在前文所述的数据来源方面(数据产生、分布于多个不同的生态位),更体现在数据类型上:档案大数据既包括了大量的结构化数据,也包括了大量的半结构化、非结构化数据,呈现出多类数据种群共生共长的局面。2.基于对物联网、传感器、移动互联网以及云计算等技术的深入应用,档案大数据生态系统具备高度的可扩展性和灵活性,支持PB级甚至更大规模数据的获取、存储、组织、分析和决策;能够有效解决传统的大数据处理方式面临的结构化、半结构化以及非结构化数据的复杂处理需求,[9]致使档案资源得到更加深入广泛的挖掘和开發。3.大数据技术使得系统内的各种数据得以互联互通与高度共享,以档案知识应用为核心的活动在系统内不间断展开,系统内主体之间及其与环境之间的各种数据以数据流的形式动态地生成和流转,[10]数据的交换更加频繁,彼此间的互动碰撞更加激烈,同时也更容易受到外部环境变迁的冲击,[11]整个系统因而表现出更强的关联性、动态性、开放性和协同性。4.在档案大数据生态系统中,因为分析处理技术的精进,档案大数据消费者和管理者可分别基于对档案数据、用户数据及业务数据的关联、整合与分析,发现社会、组织、个人历史活动或档案利用活动的客观规律,从而察觉新的问题,做出新的决策,创造新的知识。这就使系统主体由关注技术转向关注数据,让数据成为系统运作的指南针和变革的触发器,而不是辅助决策的工具。同时,由于系统内外各要素的高度关联和互动,档案管理者能够全面感知整个档案数据流转过程的动态变化,掌握上游档案数据生产者的数据形成状况和下游档案消费者的个性化需求,从而优化档案数据采集、开发和传递等流程,实现档案数据与主体需求以及各主体之间的精准对接,大大提高档案工作效率和效益。
*本文为海南省哲学社会科学规划课题“生态文明发展中海南生态档案资源体系构建与应用研究”[项目编号:HNSK(QN)15-45]的阶段性成果。
注释及参考文献:
[1]牛翠娟,娄安如,孙儒泳,等.基础生态学(第2版)[M].北京:高等教育出版社,2014:208.
[2]Stephen Watt.Deriving new business insights with big data[EB/OL]. [2017-3-18].http://www.ibm.com/de? veloperworks/library/os-bigdata.
[3][9]郭自宽,张兴旺,麦范金.大数据生态系统在图书馆中的应用[J].情报资料工作,2013(2):23-28.
[4]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[5]康蠡,金慧.档案大数据定义与内涵解析[J].档案管理,2017(1):24-26.
[6]孟歆.大数据时代档案数字资源整合的难点及对策分析[J].山西档案,2015(1):78-81.
[7]娄策群,杨小溪,周承聪.论信息生态系统中信息人的相互作用[J].图书情报工作,2010,54(20):23-27.
[8]戈峰.现代生态学[M].北京:科学出版社,2008:368, 559.
[10]叶大凤,黄思棉,刘龙君.当前档案大数据研究的误区与重点研究领域思考[J].北京档案,2015(7):14-17.
[11]资武成.“大数据”时代企业生态系统的演化与建构[J].社会科学,2013(12):55-62.endprint