付启明
随着大数据理论的普及和应用,大数据的商业价值已在诸多领域得以充分展现和证实,从早期亚马逊图书网站的智能推荐功能,到如今具备信息智能推送服务的移动应用程序等,大数据已与我们的日常生活息息相关,“数据”也被认定为极具价值的“无形资产”,甚至是除“土地、劳动力和资本”之外的第四生产要素。但对许多企业而言,数据仍然只是其经营管理的附属产物,存在于各类记录或业务管理信息系统中,其真正价值并未得以发现和利用。档案管理部门作为各类记录的最终责任主体,管理着巨大的历史数据“宝藏”,因此,发掘企业档案所蕴含的数据资源,为大数据在企业的应用提供数据支撑,并依托大数据应用创新档案管理模式,应成为大数据时代企业档案管理的重要理念之一。
一、大数据理论与企业档案资源
国务院于2015年9月印发的《促进大数据发展行动纲要》对大数据给出了相对权威的定义,即“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。定义明确了大数据的主要特征、核心环节及应用目的,就主要特征而言,容量大指数据规模庞大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能读解的信息;类型多是指大数据所包含数据类型已由传统的结构化数据为主转变为结构化、半结构化、非结构化数据并存,且数据来源众多;存取速度快要求大数据依托分布式文件存储系统、分布式计算框架及分布式数据库管理系统实现对海量数据的实时读取分析,以确保数据利用的时效性;应用价值高则意味着大量低价值密度数据的集合所隐藏的价值是巨大的,挖掘数据背后的价值也正是大数据应用的目的。
要将大数据理论应用到企业档案管理实践中,必须先明确档案资源与大数据的关系,对此,已有学者从数据、信息与档案的定义及特征的角度进行了对比论证,认为档案资源属于数据范畴,且档案资源包含大量价值密度更高的数据(以下简称“档案数据”),但对比大数据与档案数据的特征,档案数据并不是完全意义上的大数据。这一点可以通过企业档案管理的实际情况来证实,首先,企业档案资源仍然以纸质档案、电子档案及相关的元数据等为主,大量纸质档案和电子档案有待数字化、数据化,大量数据有待提取整合后才可用于数据分析;其次,从数据存储模式及利用需求来看,基于管理需求及数据安全考虑,大部分企业依然以集中式数据存储为主,通过关系型数据库进行管理,无法实现对多类型大量数据的实时读取分析;第三,档案归档范围侧重于具有查考利用价值的记录,而大数据则强调收集分析与某一事物相关的所有数据,两者价值属性判断标准的不一致导致企业档案数据无法完全满足大数据应用的来源要求。
二、应用前提
上述《大纲》明确了数据的采集、存储和关联分析是大数据应用的核心环节,采集是前提,存储是基础,分析是关键。从具体实施来看,数据采集需要具体业务人员提供数据的有效识别支持,而数据存储、分析则需要信息管理、统计学、数学模型建立等专业技术的支持,因此,企业大数据应用可以看作是多部门、多专业协同合作的结果,而要实现大数据在档案管理业务中的应用,必须先具备以下条件。
(一)建立以企业数据管理为核心业务的职能机构。一方面,逐步建立完善的数据管理工作体系,联同各业务部门从公司层面开展全方位、全局性的数据梳理、收集工作,并从数据存储、提取、整合及分析需求出发部署满足企业大数据应用的软硬件设施,实现为公司经营管理提供基于大数据应用的决策建议;另一方面,则从企业各部门业务需求出发,以业务开展所有相关数据为基础,为业务流程优化提供技术支持或建议,基于大数据理论的档案管理提升正属于此类。
(二)充分发掘档案数据资源,为大数据在档案管理中的应用创造条件。档案数据从来源上可分为两部分,一部分来源于档案自身,即各部门所产生的具有查考利用价值的记录,是需要经过数字化、数据化后方可使用的数据,是公司决策和各部门业务流程优化的重要数据来源;另一部分则是档案管理部门在档案管理过程中所产生的数据,如各种介质档案相关的元数据、基于物联网的档案实体管理所产生的数据、员工查询利用各类档案所产生的数据等,这部分数据涵盖档案管理各项具体业务的所有工作环节,是档案管理提升的主要数据来源。档案数据的发掘必须充分依托于企业数据管理机构,档案管理部门则应从业务流程层面为数据的识别和收集反馈需求或建议。
三、策略初探
大数据的核心在于预测,是通过将数学算法运用到海量的数据上来预测事情发生的可能性,从另一个角度来看即通过大量数据的分析来发现事物之间的潜在关联,基于大数据理论的企业文档管理提升,一方面是借助大数据的预测核心来优化档案管理业务流程,另一方面则是通过提升档案管理水平为企业大数据应用创造条件,具体包括以下几个方面。
(一)优化企业内部文件管理流程。档案是文件的归宿,而文件在现行利用阶段往往对时效性有较高的要求。笔者以负责建设项目EPC总包管理的工程公司为例,项目建设期会产生大量来自设计院、施工单位、设备供应商等单位的文件需要在规定时间内完成内、外部分发流转,传统操作以管理程序(分发规则)为依据,由专人逐份或批量内部分发及外部转发,随着项目的增多及管理信息化水平的提升,管理信息系统逐渐积累大了量的文件分发数据,且同类型项目的文件在内容、分发及编码规则上基本一致,因此,根据大数据预测的核心,可以建立基于文件分发规则、企业各部门组织机构代码、文件标题、编码、版本等元数据、文件关联信息、多项目历史分发信息的数据分析模型,并利用模型来分析预测后续文件的分发信息,代替传统分发方式以提升文件管理的工作效率。同样,企业内部的其它文件也可以基于合理的數据分析模型来实现预测性流转。
(二)档案信息主动推送。传统档案利用多是档案管理人员根据用户需求提供被动式的利用服务,且档案用户一般不会主动关注企业馆藏档案的变化情况,后续馆藏如增加符合利用需求的新档案,往往不能第一时间为档案用户所知悉。随着公司发展,档案管理部门在业务过程中必然会积累大量的包含档案用户信息、文件查询记录、档案利用需求说明等在内的利用数据,建立基于利用数据、员工岗位信息、文件历史分发信息及档案文本信息的数据分析模型以预测档案用户的潜在利用需求,一方面可根据历史利用记录为用户推送新的档案信息,另一方面,可为用户推送与岗位职责相关的档案信息,将传统被动服务模式转变为主动推送服务模式。信息推送应用过程中还应综合考虑档案的密级属性及企业密件管理要求,以提供关键信息如标题、关键词等为主,而非直接推送电子案卷,此外,还应建立成熟的反馈机制,由用户对主动推送的信息就适用性等进行评估反馈,并作为后续的数据来源,实现主动推送功能的动态完善。
(三)从档案管理角度拓展数据来源,为企业大数据应用提供“资源”。首先,探索扩展企业文件材料归档范围,在传统的档案价值鉴定基础上向数据价值鉴定拓展,逐步将业务部门的低价值密度数据纳入“数据”归档范围;其次,建立覆盖全部档案资源的全文数据库,为数据的识别、提取创造条件。全文数据库的建立一方面是针对已有的档案资源开展全面的数字化和文本识别工作;另一方面则通过提升档案管理的信息化水平,对后续各类记录从编制、生效到归档、利用实现全生命周期的基于管理信息系统的跟踪和管控,实现档案数据更直接、更高效的利用。
(四)利用大数据发现文件的潜在关联关系。档案案卷是基于卷内文件的关联关系而形成的,这种关联需要档案人员通过特定信息来识别和判断,档案编研亦是围绕某一特定主题来开展信息的收集、汇总和整合工作,本质上也是围绕特定主题来发现不同来源文件的关联关系,都与大数据“发现事物之间的潜在关联”的理念一致,因此,在文件元数据、文本内容等大量数据基础上建立基于关联规则的数据分析模型,既可为传统纸质档案整理反馈卷内文件排列建议,逐步实现用电子案卷的生成和管理,也可为相对简单的编研工作如大事记、组织沿革等识别、提取所需的相关信息。
四、结语
企业大数据应用应基于专业的数据管理团队和技术平台,档案管理作为一项具体业务,基于大数据理论的管理提升只是应用的具体体现之一,档案资源为大数据应用提供数据来源,大数据应用为档案管理提升提供技术支持,二者相互促进,相互依赖,大数据时代企业档案管理应遵从这一理念来不断创新业务开展模式,实现企业档案管理业务效率和工作深度的共同提升。
(作者单位:中广核工程有限公司)