文·李燕 耿丽 刘亚娟
大数据是数据科学的一个分支,是数据、技术和应用三者的统一体。2015年8月,国务院印发《促进大数据发展行动纲要》,系统部署了大数据发展工作。《纲要》提出,要加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,完善法规制度和标准体系,科学规范利用大数据,切实保障数据安全。因此,对于高校来说,采集大数据、研究大数据、应用大数据,实现大数据时代推动教育模式、人才培养模式、决策模式等多方面的创新,具有非常重要的意义。
大数据时代给我们的是一种全新的思维方式,大数据思维方式包含三层意思,简单地说,就是更多、更乱、关联。
为了从海量数据中获取隐含在其中的有用信息和知识,首先需要获得大量数据,因此,进行数据采集是首要的。但是采集的海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到获取知识的执行效率,有可能导致结果的偏差,特别是目前开放的信息资源没有实现集成,信息结构不统一,数据不系统、不完整、不共享。更为严重的是没有形成一个统一的能够描述数字资源的格式规范和建设基础数据库的标准方法、资源的整合、组织与存储的技术方案和行之有效的建设思路;另外,还由于建设基础数据库的关键技术(如海量、非结构化的数据存储解决方案)、基于知识管理的数据仓库和数据挖掘等技术尚未得到广泛应用,大大降低了大数据库建设的速度和质量,致使各类信息资源难以形成一个统一的资源库整体,限制了大数据的深层次挖掘和广泛利用。因此建立大数据采集方案、确立采集范围是非常有必要的。
档案信息数据是大数据系统不可或缺的重要组成部分。随着当今社会步入大数据时代,大数据与档案工作已逐渐融为一体、密不可分。美国档案学者杰拉尔德•汉姆先生曾指出:档案应该记载“人类生活的方方面面”,要“创造一个反映普通百姓生活喜好、需求的全新的文献材料世界”,档案馆藏是反应“人类生活的广阔领地”。由此可见,实现档案信息资源的集成化管理和共享化利用是档案贴近公众、服务社会的最佳解决方案。档案资源惟有回归社会,得到最大限度的利用,才能体现档案保管的价值和作用。因此,在开展大数据建设的过程中,首先应当利用高质量的档案基础数据库,充分利用数据挖掘、数据分析工具提供快速检索与服务,实现档案信息资源的社会化共享,真正体现档案保存的价值与意义。
目前,我国大数据发展的核心挑战体现为三个关键词,共享、开放和安全,这也是《促进大数据发展行动纲要》的三大着力点。充分利用现有企业、政府数据资源和设施平台,统筹建立低成本、高效率的大数据基础设施和区域性、行业性、数据汇集平台,避免盲目建设和重复投资,注重对现有传统数据中心及服务资源的综合改造和利用,避免造成损失浪费。
大数据采集是一个长期的、复杂的系统化工程,包括各类标准规范的制定、信息的组织与存储、资源的整合与集成、数据存储服务器和提供数据检索服务的软硬件平台的建设、开展基础数据库建设的组织与团队及其长效服务机制的形成。其中,标准规范与数字资源的滚动建设则是最基本也是最重要的内容,完整、系统、准确、及时、安全是大数据收集的基础性工作,因此,必须做到以下几点。
(一)真实准确。指对数据的内容、结构和背景信息进行鉴定后,确认其与形成时的原始状况一致。所有数据要实事求是,保持数据原始性,确保准确无误,禁止出现任何的夸大、缩小或扭曲等现象。
(二)齐全完整。指数据内容、结构、背景信息和元数据等无缺损。完整性要求数据的覆盖面要全面齐全,涉及的内容要广泛深入,禁止出现残缺短少,漏报少报、挂一漏万的现象。
(三)系统规范。系统性要求数据采集标准口径统一,数据之间保持有机联系、前后呼应,禁止出现贪多求全、不计标准地零乱堆砌、滥收乱报现象。
(四)及时迅速。指数据即时更新、问题数据及时纠正或重新上报,数据及时更新至指定时间并做好必要的日志记录。及时性要求各单位各部门相关人员要按照数据采集时间进度要求,克服工作头绪多、事务忙的矛盾,及时完成数据的收集、整理,不得出现延误现象。
(五)安全可靠。安全性要求既要保证各类数据的实体安全和密级安全,力求不受损失、不失密,又要保证各类数据保存、传输使用中的安全,免遭意外破损。
首先,根据大数据采集方案的基本原则与要求,以档案馆“归档范围表”为基础建立大数据采集方案是行之有效的方法。“归档范围表”的内容是根据各归档部门的职责和任务制定的,涵盖了本单位的所有工作活动中产生的具有参考价值的、各类载体的原始记录。“归档范围表”是档案馆收集档案的依据性文件,而且是根据长期的档案管理工作中所积累的大量的数据资源和先进的管理经验形成的,为数据采集方案的制定打下了坚实的基础。
其次,根据档案工作规范制定大数据采集的业务规范和制度,明确接收数字化信息和开展馆藏档案数字化加工的工作要求。主要包括数字化档案的收集、归档、移交、接收的工作制度和内容、范围、方式、方法及安全保障的要求;开展馆藏数字化加工的全过程工作方法、安全制度、保密措施、人员要求等;大数据的滚动建设与完善制度和工作要求。各单位各部门主要负责人是档案工作的第一责任人,也应该作为本单位数据采集工作的第一责任人,要把数据采集与档案工作同时列入议事日程。立卷单位的兼职档案员同时具体负责本单位的数据采集工作,严格按照“四同步”管理原则,切实执行“三纳入”工作制度,加强规范化管理,强化基础业务建设,提升大数据采集工作水平。
大数据采集其实是一个集成化过程,就是将工作中各阶段、各层次相关联的数据协调起来,实现信息流和业务流的不间断连续运行。而在档案管理中,档案从形成、整理、移交、保管到最终被利用,跨越了多个阶段、多个单位和部门,每个阶段和每个部门都包括多项业务,各个阶段的各项业务之间都存在信息和流程的集成问题。因此,基于“归档范围表”的大数据采集方案可以实现所有单位与部门在同一系统中完成数据资源的采集工作。
总之,以“归档范围表”为基础建立大数据采集方案,可以对包括学校档案资料数据在内的各类数据信息的收集保管和开发利用具有重要意义。最重要的是,大数据工作利用档案管理基础开展工作,可以更快更好地提高师生重视程度,完善管理手段,加大宣传力度;补充数据的总量,畅通采集途径;完善数据平台,实现数据共享,优化开发利用效果,加快推进覆盖全校师生员工的大数据建设,更好地为高校建设发展和广大师生的教学科研服务。
●
[1] 国务院.促进大数据发展行动纲要,国发〔2015〕50 号
[2] 温孚江.大数据农业[M]. 北京:中国农业出版社,2015.
[3] 薛四新.档案馆信息化与档案管理变革[M].北京:机械工业出版社,2008.
[4] 雷昌玲.新时期高校档案归档范围与保管期限表编制问题研究[J].云南档案,2010(9).