文·樊树娟
随着社会信息化程度的加深,档案信息资源数量正以前所未有的速度增长,并广泛存在于政府部门、企事业单位以及个人等不同类型的社会主体中。信息技术的发展使档案信息更多的以非结构化与半结构化数据的形式产生和保存,档案数字化进程的加快也使档案资源的形态快速向数据化转变,我们正在走向档案大数据时代。在这一时代背景下,档案逐渐被视为一种数据资产,其意义并不在于档案数据资源的庞大占有量,而在于对其所蕴含的信息和知识进行充分开发和利用,像一座“数据矿山”,需要通过各种手段提炼出有价值的信息和知识产品,才能更好地服务于经济发展和社会进步。
目前,学界对“档案大数据”的定义仍没有定论,大多数学者在大数据定义与特征的基础上进行探讨阐释。有人强调档案大数据的体量巨大,用目前主流软件工具在合理时间内无法从中获取信息[1];有人认为档案大数据特指档案中的大数据,是档案数据的集合[2];有人指出档案大数据是在档案业务活动中形成的与档案相关的数据集[3];也有人从大档案观、知识挖掘、思维方法与管理模式等方面来强调档案大数据与大数据联系之密切[4]。从不同角度理解,几位学者的观点都有其合理性。
从理论探讨和实践尝试两方面来看,档案大数据在生成、管理、开发和利用等方面已经具有大数据的一些基本特性,但其本质仍然是具有原始记录性的档案。档案大数据更像是档案信息化过程中自然产生的一种现象或档案工作发展的新样态,在这一现象发展成熟之前,各界尚无法对其定义进行明确界定。但可以看出,档案大数据的核心内容是档案资源,以大规模数据集形式存在,必须借助先进的信息技术手段进行科学管理、智能开发与开放共享式服务,才能充分挖掘数据资源的内涵,发挥潜在的无限价值。
档案大数据的来源主要有三个方面:一是各类业务系统在运转过程中直接产生的业务数据流转成档案数据,包括电子文件、音视频文件、系统数据、用户数据等;二是立卷单位和档案部门将纸质文件或实物等通过扫描、拍照等方式转换成电子形式而生成的档案数据;三是基于网络平台而产生的具有保存价值的档案数据,如电子邮件、社交媒体、各类网站产生的档案数据。随着信息化发展的深入,由业务系统生成而流转到档案系统的档案数据与基于网络平台产生的档案数据将成为档案资源的主流,而且具有归档及时、数据量大、数据类型复杂等特点。目前,传统纸质档案资源经过数据化处理转化而成的档案数据也仍将占据一定的比重。
档案大数据既具有大数据的一些基本特征,也有其独特性:
1. 数据体量巨大。社会各领域存量档案数字化工作持续推进,各类业务系统产生的档案数据快速累积,加之产生于官方网站、社交媒体等网络平台的档案数据资源也陆续被纳入归档范围,档案部门积累的档案数据规模越来越大,数据集总量甚至能够达到PB甚至EB级别。
2. 数据类型复杂。在网络化环境中,基于各类业务系统与网络平台产生的半结构化与非结构化数据逐渐占据主流,特别是社交媒体在生活中的广泛应用使得照片、音视频等数据占据了较大比重,档案大数据类型必然呈现出更加多样化和复杂性的特点。
3. 数据价值密度高。档案数据是具有较高完整性、真实性与准确性的数据,其价值不会随着数据规模的扩张而降低,这是档案大数据的独特之处。在档案内容开发中重视档案数据的全面性、复杂性与相关性等特征,并在数据关联的基础上进行全数据分析反而会更大程度地提升数据价值,进而开发出更高价值密度的信息和知识产品。
4. 数据兼具动态性与稳定性。档案大数据在数据处理流程上可以实现动态生成与捕获、实时鉴定与存储、自动著录与标引以及智能分析与开放共享,但数据本身的稳定性才能保证其作为档案的证据与凭证功能。实时的数据流需要经过规范处理才能转换成有效的档案数据,如将数据锁定为不可更改的稳定状态。
5. 技术依赖性强。档案大数据的存储、处理与服务等每一个环节都对信息技术具有强烈的依赖性。以数据驱动技术创新是大数据时代发展的必然趋势。因数据体量大、结构复杂等特点,目前主流软件工具已不能完全满足档案大数据开发与信息服务方面的需求。盘活档案数据资产,创新档案信息服务必将依赖于信息技术的创新与完善。
6. 处理速度快。在信息技术的帮助下,档案数据在生成、流转、检索、分析、查阅、获取等各个处理环节都能在较短的时间内快速完成。在“数据为王”的时代,数据占有量与数据分析处理速度是决定档案大数据开发与信息服务效果的关键因素。
在大数据时代,从大量档案数据中分析潜在的价值,决定着档案馆的发展水平及方向。档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆进行资源开发与服务的主要方式[5]。基于档案大数据的信息开发质量与服务水平将成为衡量未来档案馆核心竞争力的重要因素。
面对大数据时代带来的机遇与挑战,档案部门必须积极应对,突破传统的思维方式,要树立互联网思维、数字化思维、数据化思维、客户化思维[6],用大数据理念重构档案数据开发与服务思维模式、组织架构与运行方式。
培养大数据思维方式不仅要正确认识档案大数据规模之大、类型之繁多、结构之复杂,更要认识到档案大数据管理与开发过程中的一系列原理,比如接受数据的混杂性、重视数据之间的关联性等。这种思维方式所对应的档案工作方式与传统的档案收集、整理、鉴定、统计、利用等规范化工作流程截然不同,档案数据收集、鉴定等工作过程将更加动态化与实时性,数据内涵挖掘、信息与知识呈现将成为档案大数据状态下档案工作的重心。
信息社会的发展使公众的信息权利与需求意识进一步觉醒,以用户为中心、优化用户体验是档案部门转变姿态与创新服务模式过程中应遵循的首要理念。在档案大数据开发过程中要秉承以用户为中心的原则,利用大数据分析技术分析用户需求与信息利用偏好,进而根据用户需求开发有用的知识产品和面向问题解决的信息服务方案,实现档案利用个性化。
在档案信息服务过程中要优化用户体验,优化档案资源的可用性、有用性、可找到性、可获得性、满意度、可靠性和价值性体验[7],不断提高档案数据资源质量,准确把握档案信息用户的动态需求,主动开放共享公众利用频次高的档案信息,或针对档案利用平台注册用户以及其他老用户开展档案信息推送服务,使信息服务更加便捷化、人性化。
大数据时代是让数据说话的时代。档案大数据信息服务的核心是以数据为驱动、以技术为支撑,通过数据挖掘、数据分析、数据可视化等工具为用户提供更有价值的信息与知识,进而提高效益、推动科学管理与决策。档案数据资源建设是档案大数据信息服务的基础。大数据不仅仅是数据量巨大、数据种类繁多,在数据挖掘中更要关注数据之间的关联性,即数据的整合度与共享度。因此,在档案数据资源建设方面不仅要重视自身档案数据积累状况,更要积极参与推动行业内部甚至全社会范围内档案资源的关联与共享。
档案部门要进一步深化档案数字化工作,在此基础上加快档案数据化进程,将数字档案资源转化成适用于大数据挖掘和分析技术的数据形式。更要加强馆际合作,可以通过建立档案资源库连接池的方式实现各行业、各系统档案资源库的连接,强化数据关联,实现数字档案信息资源的整合共享[8]。此外,要重视收集分散产生于各类网络平台的网络数据,网络数据具有数量庞大、类型多样和内容繁杂的特点,档案部门在抓取网络数据归档时需要进行鉴定与审核,保障档案数据的真实性与准确性。
随着各行各业积累的档案数据资源越来越多,加上档案资源整合与共享程度的提高,未来将形成多个具有海量数据资源的档案资源库。如国家档案局开发的国家开放档案信息资源共享利用系统自上线以来,全国各省市公共档案馆已经陆续在共享平台上公开了大量特色档案资源,全国范围内的档案资源整合共享已初见成效。
随着档案数据资源的不断丰富以及公众查档需求的不断增加,利用网络技术构建多样化、网络化的档案信息服务平台成为必然需求。如基于大数据技术应用的档案大数据分析平台、基于档案网站的信息公开与智能检索平台以及基于移动互联网终端的档案服务微平台等。通过构建多样化的服务平台并实现平台之间的连接互通来整合档案数据资源,打通档案数据资源之间的物理隔阂,增强共享融合,将有助于实现档案数据资源的一站式检索与智能分析。
网络化的档案信息服务方式开启了互联网时代档案远程服务的新篇章。特别是移动互联网终端的开发使用,为档案信息服务的开展提供了更加便捷的工具。移动终端以其存储量大、携带方便、操作简单、服务快捷、性能更高等优点,拓宽了档案信息接收途径和信息服务路径,并以绝对优势占据市场有利地位[9]。手机APP、微信公众号、微信小程序、微博等基于移动终端的工具在公共档案馆和高校档案馆的档案信息服务工作中已经有较多成功应用的典型。推进互联网与档案工作深度融合是档案信息服务创新发展的未来方向,移动网络服务方式凭借其便捷性优势在未来的档案信息服务中将有更广泛的应用。
海量档案数据资源的开发与服务是一项非常复杂的工作,档案部门虽积累了大量的档案资源,但其在大数据技术等创新技术应用方面并不具有优势,数据的开发与信息服务需要引入其他领域专业人员的参与。跨领域、跨机构、跨部门等多种跨界合作对于新时期档案工作的开展非常必要。通过跨界合作的方式为档案数据挖掘和数据分析任务灵活匹配高水平的技术人才,既能够保障数据开发与信息服务的质量,也能够有效弥补档案部门各领域专业人才不足的问题。
档案部门在档案管理系统开发、档案数字化、档案资源开发等方面大多采用与其他单位合作的方式,积累了较多的项目合作经验。随着档案数据资源积累的增多,档案工作在数据收集、归档、大数据技术应用以及信息服务等方方面面的跨界合作将更加普遍。例如在网络数据采集方面,跨界融合为实现档案部门、用户和新媒体等网络运营商三方协同优化数据归档提供了一个前所未有的契机[10]。一方面档案部门可以与网络运营商合作研发网络数据抓取和数据分析技术,实现网络数据的及时归档;另一方面可以发挥社会公众的力量,调动公众在档案数据收集、资源开发和信息服务中的自主性与参与性,让用户争做“市民档案员”,提高网络数据采集的全面性。
档案安全保障体系建设是我国档案工作“三个体系”建设中的重要一环,档案实体安全、档案数据安全、用户隐私安全、访问渠道安全等都是档案部门非常重视的问题。大数据时代环境下的档案数据安全保障工作必须制定严密的风险防范机制,包括档案数据生成时的前端风险控制、数据流转过程中的访问通道安全控制、数据管理过程中的容灾备份措施等。档案数据载体的稳定性、访问通道的安全性以及网络系统平台的开放性等都对档案数据资源安全管理具有很大的影响。
基于档案大数据的信息服务在实现档案信息开放共享和服务便捷化的同时也带来了信息泄露和侵犯用户个人隐私等种种安全问题。在档案工作中,无论是采用跨界合作还是吸引公众参与的方式,都必须以维护国家机密和个人隐私为前提。涉密信息不上网是基本准则,在此基础上开展档案数据分析与档案信息开放等工作要对档案数据资源内容进行必要的鉴定与审核。在对大量档案用户访问数据进行挖掘分析过程中,需要注意预防用户隐私信息的泄露。
大数据技术虽然为档案数据开发与服务带来了便利,但其应用要因地制宜,不是所有单位或所有类型的档案大数据都适合引进大数据技术。档案部门要根据自身积累的档案数据体量和内容制定适用的数据开发方案,避免数据开发过程中带来档案信息安全问题。
人才是推动档案工作创新发展的关键。档案工作正处于一个新的业态环境中,工作内容比以往更加丰富也更加复杂,对档案人员的素质要求更加趋于专业化与精细化。在新的发展时期,档案工作人员要不断加强学习,了解信息化背景下的档案工作新样态,紧跟时代要求,在自己所熟悉的领域之外涉猎一些其他领域的知识,拓宽眼界,培养大数据思维方式,尽快掌握数据管理、开发与服务方面的理念与方法,适应档案大数据发展带来的新的工作流程与方式。
档案部门在引进人才方面要注重丰富人才的层次与结构,在引进档案专业人才的同时,着重引进一些大数据管理与应用相关方面的技术型人才。促进不同学科背景与工作技能的人员相互学习与交流,使其不断强化自身综合素质,在档案工作中进一步加强档案数据资源建设与大数据技术应用,深化数据内涵挖掘力度,更大程度地盘活档案资源的潜在价值。
档案大数据的发展代表着档案领域一种新的数据生成、存储和处理样态。如果说档案数字化是档案信息化发展的初始阶段,档案数据化则是档案信息化发展的深化阶段,是档案数字化建设的发展方向。信息技术的发展已经将社会推进到了大数据环境中,档案数据资源以前所未有的速度不断形成和累积,是各行各业的档案部门在信息服务工作中所共同面临的新局面。基于这样的局面与发展趋势,档案部门必须抓住机遇,多方面做好准备迎接挑战,在改革与创新中转变档案部门一直以来所处的边缘化的尴尬境地,也让沉睡已久的档案在新的社会环境中焕发活力。
★本文为山东省档案局2016年科技项目“档案大数据开发和服务机制研究”成果之一。
●
[1] 高茂科.对档案大数据关键环节的认识[J].中国档案,2013(10):72-73
[2] 鲁德武.试述档案大数据的定义、特征及核心内容[J].档案,2014(4):13-15
[3] 康蠡,金慧.档案大数据定义与内涵解析[J].档案管理,2017(1):24-26
[4] 叶大凤,黄思棉,刘龙君.当前档案大数据研究的误区与重点研究领域思考[J].北京档案,2015(7):14-17
[5] 周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8):6-9
[6] 周玉鹏.“互联网+”助推档案服务业发展——全国首届“‘互联网+’时代档案服务业发展高峰论坛”召开[J].中国档案,2016(3):25
[7] 王毅,魏扣.优化用户体验的数字档案资源服务策略研究[J].档案学通讯,2017(1):64-69
[8] 米永宁,耿志杰.应用大数据技术开发数字档案信息资源的现实困境与策略研究[J].北京档案,2016(11):16-19
[9] 周耀林,贾聪聪.“互联网+”战略下数字档案信息服务发展策略研究——基于SWOT框架的分析选择[J].档案学通讯,2016(4):56-61
[10] 王协舟,王露露.“互联网+”时代档案工作改革的几点思考[J].档案学通讯,2016(5):94-100