李彦
(湖南师范大学档案馆长沙410081)
对档案大数据的思考
李彦
(湖南师范大学档案馆长沙410081)
档案与大数据既密切联系又相互区别。本文从档案大数据的内涵、生成机制及对档案职业发展的影响等方面对档案大数据进行阐述。
档案大数据档案大数据档案职业
近年来,研究档案大数据成了热点。有人甚至认为,学界对档案大数据的研究存在过度解读。2017年4月20日,笔者在中国期刊网上搜索篇名含“大数据”、“档案”关键词的论文有619篇,含“档案大数据”关键词的论文有20篇。就统计数据来看,从大数据的视角来探讨档案问题的研究确实不少,但具体到以“档案大数据”为对象的研究,我们还看不到解读过度的场面,档案大数据研究仍任重道远。
数据是反映客观事物属性的记录。在计算机科学中,数据是指所有能被计算机程序处理的具有一定意义的数字、字母、符号和模拟量等介质的总称。
大数据是指规模巨大到无法在一定时间内用常有软件对其内容进行抓取、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具备体量巨大(Volume)、类型繁多(Variety)、存取速度快(Velocity)、价值密度低(Value)的基本特征。郑金月认为,这些特征都不是大数据的本质,其本质“在于大数据的分析和应用,在于创造新价值”[1]38。事实上,无论是大数据、还是传统意义上的数据,其终极价值都在于分析与应用,并创造新价值。因此,笔者认为,掌握海量的信息数据,并对这些数据进行专业化快速处理,发现新的知识,创造新的价值,只是大数据的战略价值所在,而不是其本质所在。大数据从本质上讲仍是数据,只是它已不再局限于通过传统的“因果关系”来分析数据,而是采取“关联分析”的组织结构技术与方法,实现实时的数据处理。
大数据不仅是一个技术性名词概念,它还蕴含了人们认识世界的思维方式、技术手段,是一种新的价值观和方法论,更是“正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”[2]。
《档案法》规定,档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。档案具有社会实践性、历史性、确定性和原始记录性等基本特征,原始记录性是档案的本质属性,档案价值是档案存在的意义所在。
档案与大数据联系密切。两者尽管表现形式不同,但都是整个社会记忆的重要组成部分,都是作为主体的人在社会实践活动中产生的、用于表示客观事物的信息。档案、大数据均是信息的表现形式与载体,经过特定的加工处理,都能转化为有用的信息。在一定的条件下,档案、大数据也能相互转化。
档案与大数据差别显著。主要表现在三个方面。
1.价值取向的背离。价值筛选是档案形成的基本前提,没有保存价值的东西不能成为档案。而从大数据视角,任何数据都是有价值的信息资产,只是价值的大小有所不同。大数据本身就是一些价值密集度低的数据集合,数据价值趋向极小值发展。档案注重价值的大小,大数据则关注数据的齐全。由于价值取向的不同,在庞大的资料体系中,档案被鉴定保存的规模、质量都受到了环境的制约和人为的影响,而大数据的广度远大于档案。
2.存在形态的差异。档案既有实物的实体形态存在,也有电子档案等数据形式的存在。从整体上讲,在各种形态的档案中,数据档案只占小部分。当然,通过一定的技术手段,占据主体的实体档案能被转化为数据档案。
3.处理时效的差异。大数据要求数据的在线开放性、实时动态性,不在线的数据不属于大数据。档案往往具有滞后、静止和稳定性,即使是电子档案的生成与收集,也是对确定内容的在线归档,很少具备动态变化。由于一些特殊的原因,有些档案只能局部开放,不宜全部向社会公开,有些档案数据不能公开在线利用。因此,即使是档案数据,也不完全具备大数据的基本特征。
档案与大数据的诸多差别,充分表明档案不是大数据,大数据也不是档案。大数据时代,一些分散状态下价值密度低的大数据在应用中产生了巨大的价值,有了档案的完全属性。笔者认为,大数据太大,且它们多是开放环境中在线的、实时的、动态的数据分析与应用。因此,即使起了作用,也不一定非要作为档案长期保存下来。现实生活中,各行各业产生的各种结构化、半结构化和非结构化数据也并没有全部纳入档案管理。许多企业,他们更关注数据的存储、分析与应用,对数据是否要变为档案并不注重。当然,随着数字存储技术的发展,数据存储成本一旦小于数据的利用价值,就具备了作为档案保存的可能性。如果解决存储问题,理论上大数据都能转化为档案,档案的概念也将重新被定义。
鉴于档案与大数据的显著差异,研究档案大数据似乎是一个悖论性话题。笔者认为,从属性认知出发,用“档案数据”的表述比用“档案大数据”更为合适。如果我们坚持使用“档案大数据”这一热门术语,首先必须澄清它的基本内涵——它不是特指大数据中具有档案属性的数据,它只是一个“属加种差”的名称定义,如同经济领域的大数据、气象领域的大数据不能说明大数据具有经济性、气象性一样,档案大数据就是各行业中的涉档大数据,并不说明大数据具有档案属性。例如,高校档案大数据可以理解为高校档案工作中生成的大数据,这些数据有的具有档案属性,有的只是档案工作中形成的大数据,不具有档案属性。
档案大数据的生成主要有两大来源,其一是档案工作系统内部生成的档案大数据,包括档案工作中形成的大数据和档案部门管理的各类实体档案转化的大数据。前者主要有档案管理系统生成记录、日志、报表等信息,档案网站建设数据信息、智能档案库房监控视频数据等,这些数据有的本身就能作为档案保存下来,有的也许不具有档案的特征,但它们是档案业务管理的必然结果,分析挖掘这些数据,有利于改进档案管理、提高档案服务,理所当然构成档案大数据。后者主要是实体档案通过诸如纸质档案数字化扫描,档案目录库、多媒体数据库和全文数据库建设等技术处理后,转化生成的数字化档案。“档案数字化不等同于档案数据化”[3]6,数字化档案如果以图像形式存在,就很难通过检索词进行检索,只有对图像文本内容进行识别、分类、著录和标引,对目录与全文进行了挂接等,档案的数字化才能实现数据化。档案数据化后,一些具备大数据特征的档案数据才能真正成为档案大数据。其二是档案工作系统外部生成的档案大数据。大数据时代,各行业均会产生许多结构化、半结构化和非结构化数据。如在高校,行政、党群、教学科研、学生、基建、财会等不同业务系统均会产生大量的数据。只有一部分在线的、开放的大数据,因为存储价值大于存储成本,而被筛选为档案集中管理起来,成为档案大数据。绝大多数的数据只能分散保存在不同的业务管理系统里。
与大数据一样,档案大数据也是一种新的档案思维分析方式和技术手段,它对档案职业发展产生深远影响。
1.促使档案观念变革。档案大数据带来档案研究的思维革命。笔者认为,坚持大数据与档案的无限渐近,是档案大数据研究带来的基本判断,“一切归档”的“大档案理念”强烈冲击传统档案理论,促成档案概念、特性、价值、安全、技术、利用等“档案学术归约的重建”[4]16,如文件生命周期理论在大数据动态环境中还有意义吗?档案利用服务的私密安全边界能拓展到什么地步?电子档案的动态性数据能否作为大数据保存?在线大数据如何作档案性质判断?怎样控制档案大数据的管理权限?等等。
档案大数据研究还将改变传统的档案处理与管理思维,进一步促成档案资源信息化、数据信息共享化、档案服务网络化、档案管理技术化思维的树立。
2.推动档案技术进步。传统的档案技术已无法适应以数据关联、组合创新为模式的档案大数据需要。基于互联网、云计算发展,在档案大数据理论与实践领域,实体档案数字化、大数据仓库构建、大数据资源攫取、数据存储、智能知识挖掘分析检索、离线与实时数据分析、大数据运维及云计算、数据层交换和高性能并发处理、数据安全管理等技术不断应用,先进的档案设施设备、智能化的档案管理平台不断完善,档案技术进步的软、硬件环境更加夯实。
3.引领档案服务创新。大数据时代,“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆的主要业务”[5]7,档案服务方式正从凭证服务升级为数据服务。档案服务内容在增多,不仅提供所需要的档案信息,实现档案的传统价值——信息价值,还要挖掘基于用户需要的知识,实现档案的“数据价值”[6]12。档案服务对象在扩大,不仅面向档案形成者、涉档用户,更要面向社会多元化用户;档案服务手段更加多元化,档案服务朝着个性化、网络化、开放性、智能化和交互式发展。档案大数据要求加大档案数据的公开与公布力度,创新档案技术与服务手段,构建智能档案馆平台,加大云服务建设,提高资源共享程度。
4.提升档案科学管理。更加注重档案数据标准化建设。为有效管理来源广泛、结构各异的信息数据,要坚持“数字档案资源格式统一、数据规范、长期可读,便于共享”原则,积极制订统一的档案数据资源管理标准,引导规范各业务系统生成档案数据。
更加注重档案管理体制完善。“统一领导、分级管理”档案管理模式是档案工作的基本原则,极大保障了档案事业持续发展。当然,这种模式也受到很多批评。受传统档案管理体制思维影响,档案大数据研究主要围绕档案馆这个组织实体进行。在大数据背景下,档案数据产生、存储、利用的多元性、便利性、实时性弱化了档案馆的保管实体地位,“数字档案将越来越趋于由该档案原始数据生产者进行动态管理与维护,并向其他社会组织或个人提供访问服务”[4]16。“档案馆主体”向“数据源主体”的转变是档案大数据的基本趋势,这必然要求改革传统档案管理模式,探讨“分类管理”、“分工管理”等模式,将“分级管理”无法触及的档案工作纳入管理,加强各部门、行业的沟通与协调,提高资源共享的期待与责任。
更加注重档案法制建设。将“依法治档”融入“依法治国”战略,用大数据思维来构建保障档案数据的法规体系,重点规范档案数据的生产、储存、利用,合理界定数据安全、隐私保护、数据权益的边界,非法使用数据的处理等。
更加注重档案人才智力建设。大数据时代,档案工作者不再局限于传统的档案专业人才,它要求更多的熟悉大数据知识与技术的数据工程师、数据分析师、高级管理师等数字技术人才加入档案职业。当然,档案管理部门的专长不在于大数据处理,创新“不为所有、但为所用”的人才智力模式,加大与专业的档案数字化企业、大数据技术企业合作,利用其人才智力优势服务档案大数据建设。
总之,档案大数据不是颠覆档案,而是发展档案。它为档案赋予了大数据时代特征,开启了档案职业发展的新方向。
[1]郑金月.关于档案与大数据关系问题的思辩[J].档案学研究,2016(6).
[2]国务院.促进大数据发展的行动纲要[Z].2015-09-05.
[3]于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2).
[4]叶大凤等.当前档案大数据研究的误区与重点研究领域思考[J].北京档案,2015(7).
[5]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8).
[6]郑金月.数据价值:大数据时代档案价值的新发现[J].浙江档案,2015(12).
10.16565/j.cnki.1006-7744.2017.17.18
湖南省教育厅科研项目资助(项目编号16C1020)。
李彦,湖南师范大学档案馆讲师,管理学硕士,研究方向为档案管理。
G270.7
A
2017-04-12