何玉颜/上海大学图书情报档案系
2015年8月国务院颁布《促进大数据发展行动纲要》,标志着大数据发展从此纳入国家发展战略。《纲要》特别指出:“建立‘用数据说话、用数据决策、用数据管理、用数据创新’的管理机制,实现基于数据的科学决策,将推动政府管理理念和社会治理模式进步。”政府大数据治理是指政府运用大数据治理理念、手段与技术,充分挖掘海量政府大数据中蕴含的价值,实现政府治理能力提升的过程,是国家治理能力现代化的体现。如今,档案界逐渐开始接纳数据管理理念与技术并付诸实践,档案工作在大数据的背景下如何创新发展已成为界内热点话题;国家治理体系与治理能力现代化建设也要求档案工作实现从传统管理向现代化治理的转型。大数据治理给档案部门带来了新的发展机遇,档案部门在政府大数据治理中的意义与参与路径,值得我们关注和思考。
据国家档案局统计,截至2016年底全国共有档案行政管理部门3127个,各级各类档案馆4237个,主要以国家综合档案馆、国家专门档案馆和部门档案馆为主。全国各级国家综合档案馆馆藏档案65062.5万卷,馆藏电子档案218.4万GB,馆藏档案数字化副本2243万GB[1]。通过以上数据可以看出,档案部门是政府数据的聚集地,各部门的档案都首先汇集到部门内部的档案室,并将有长久保存价值的档案向国家各级综合档案馆移交。档案部门还拥有海量的历史数据,能够记录和反映政府各部门在不同历史时期的工作动态,为政府部门总结发展规律、优化工作决策等提供了数据资源保障。
档案部门掌握大量政府数据资源,政府大数据治理不断深化促使档案工作模式发生变化,档案工作逐渐由传统的业务驱动向数据融合转变,进而转向数据驱动。在业务驱动阶段,档案工作流程紧跟档案处理业务流程,信息系统也多以业务为中心构建。随着政府大数据治理要求的提出,档案工作将逐渐走向数据融合和数据驱动阶段,档案部门要融合其他政府部门的数据,基于这些数据提供更多的数字档案资源增值服务;同时也向数据驱动转型,真正做到以数据为中心构建信息系统,并进行跨部门、跨行业、跨领域的综合数据分析与挖掘。
档案部门参与政府大数据治理,为档案学理论研究带来了新的机遇与挑战。当前已经有一部分学者开始关注大数据的发展对档案学理论研究的影响,但档案学与政府大数据治理相结合的研究目前仍是空白,传统档案学理论研究主要依靠理论思辨或实证研究的方法,而档案部门参与政府大数据治理有助于从大数据技术、理念等方面推动档案学理论研究,拓宽档案学的研究范围,为档案学理论研究注入新的活力。
档案数据资源的收集完备和有效融合是档案数据得以开放和共享的前提。档案部门要想参与政府大数据治理,首先应将政府各部门和组织的各类数据收集进馆。美国曾以立法的形式确定“最小数据集”制度,在各个领域强制收集必要的数据,并据此进行科学决策,从而推动了治理的精细化和透明化[2]。档案部门所收集的数据既包括传统数据资源,也包括大数据环境下产生的新型数据资源,如来自传感器、RFID等的物联网感知数据;来自微博、Web日志、点击流等的社交媒体交互数据[3]。数据的多源性使得资源的异构性普遍存在,主要体现为数字档案资源格式、类型、标准、运行平台等方面的异构。为此,档案部门应提升对异构数据的处理能力,进行深度数据融合。
数据融合是对各种异构数据提供统一的表示、存储和管理,以实现逻辑或物理上有机地集中,即以一种统一的数据模式描述各数据源中的数据,屏蔽其平台、数据结构等异构性,实现数据的无缝集成[4]。实现档案数据的融合是档案部门参与政府大数据治理的前提,档案部门应担当起解决数据异构问题的协调责任。首先档案馆应协调馆内资源的融合工作,实现馆内档案数据的共享与集成化;对多样化的存储格式进行处理,实现文本、图形、图像等多种数据格式、结构化与非结构化数据的统一。其次要统一数据格式等相关要素,实现档案馆馆际之间的数据共享。最后还需要深入形成数据的各政府部门,对数据形成进行前端控制。
政府数据开放与共享是政府大数据治理的核心,各国纷纷从政策、法规、技术等方面探索政府数据开放的创新发展。目前我国正按照“统一平台、互联互通,存量共享、增量共建,物理分散、逻辑集中”的原则,整合各政府部门之间的数据。
档案部门在政府数据开放和共享中扮演着重要角色,其一是协调者的角色。在政务信息公开的进程中,政府职能部门各自为政,“数据孤岛”现象普遍存在。档案部门应当积极参与整合各部门政务信息公开的数据资源、基础设施,并发布数据共享规范,利用云计算等新兴技术建立数据资源共享平台,与政府各职能部门通力合作对于政府大数据的捕获、存储、开发利用和长期保存至关重要。其二是把关者的角色,档案部门多年来积累了丰富的档案开放鉴定的经验,在政府数据资源的公开工作中更具有中立立场,因此档案部门应承担起审查和把握政府数据开放与共享范围的重任。
数据粒度指的是数据细化和综合的程度,数据的细化程度越高,数据粒度越小。我国档案馆积累了大量的政府数据,但“重馆轻用”“重证据轻知识”的思想一直存在,档案馆倾向于采取粗颗粒度的方式进行管理。对档案数据资源进行细颗粒化的开发,是档案工作参与政府大数据治理乃至大数据战略的前提。
其一,档案馆保存着大量有极高价值的政府数据,对这些信息进行挖掘和利用有助于政府进行科学决策。档案部门在整合政府大数据的基础上,应对馆藏数据进行语义级细颗粒化开发,从以往的全宗级、案卷级和文件级管理转向语词级的管理,以此实现政府大数据治理中的知识挖掘和档案数据资产的增值。其二,档案部门应积极主动树立新思维、应用新技术。文本挖掘、本体建构、语义关联、知识图谱、可视化等技术进入档案领域,为提高档案数据资源开发水平带来了契机。以语义关联技术为例,语义关联的链接性可以实现数据资源的有效整合,也可以对不同类型的数据资源进行深层次关联挖掘和展示。综合运用这些技术,可以使数据最大限度地发挥效用,如欧洲文化遗产CLARIN项目将欧洲的大学、图书馆和其他公共机构的档案信息进行整合,包括文字、音像、工艺品等,通过添加注释和标记并通过永久标识符得以长期保存,任何有需要的公民或公共机构都可以访问所有数据集、建造属于自己的虚拟馆藏,对数据进行探索和增值[5]。
政府大数据治理的核心任务之一是利用大数据提升政府科学决策水平,而档案部门具备为政府决策提供支持的先天优势。2014年,时任国家档案局局长杨冬权在全国档案局长馆长会议上指出:“要充分发挥档案为中央决策服务的作用,要有先行思维提前介入管理者决策。”[6]当前,档案部门在国家智库建设中扮演的主要还是提供资料的辅助性角色,致使档案数据资源的开发和利用受到一定制约。档案部门参与政府大数据治理的路径之一就是将档案馆打造成重要的智库,发挥档案馆咨政建言的作用。
为此,档案部门应发挥两方面作用:其一是为政府部门的各项政策制定建言献策。档案部门的工作人员要培养参与社会治理的意识,一方面要熟知馆藏资源内容,并在对馆藏资源细颗粒化开发的基础上,掌握馆藏资源中蕴含的信息和知识;另一方面要放眼社会治理,聚焦社会治理中的各项问题,并与馆藏资源相对接,把丰富的知识和信息运用到服务公共事务中去,为政策制定提供建议或报告。其二是加强档案部门与社会公众的互动。公共档案馆是社会服务的窗口,应该将档案馆打造成政府部门与公众沟通的桥梁,通过档案部门广泛收集民意,并从中探索和总结出社会公共事务中民众关心的、亟待解决的问题,档案部门从自身的资源建设与服务供给方面给出局部问题的解决方案,并向政府职能部门提出建议与对策。
政府大数据治理是一项复杂的系统工程,需要多方通力合作才能取得最佳效果。档案部门在参与政府大数据治理过程中,也应该摒弃以往“以我为主”的旧观念,营造各方协同参与的生态系统,实现数据治理效果的最大化。
其一是寻求专业可靠的服务外包供应商。随着技术的变革和社会分工的逐步细化,单纯依靠档案部门自身力量,难以进一步提升档案数据管理与资源开发利用的成效。在政府大数据治理的背景下,业务外包不应局限于数字化扫描等初级业务,更应将系统开发、数据迁移、长期保存与数据云服务、数据挖掘等技术含量较高的业务纳入外包服务范围,寻求有资质和经验的承包商进行合作。其二是发动社会公众广泛参与,鼓励大众参与数字档案资源的收集、开发等工作。众包模式在西方国家已经有广泛的实践,以美国的“市民档案员”[7]项目为典型,美国国家档案馆吸纳公众参与馆藏档案的贴标签、转录内容编辑等多项内容中,目前“市民档案员”已经成为美国国家档案馆的特色项目之一[8]。档案部门可以鼓励市民积极参与政府数据的开发利用中去,激发政府数据的更大价值。通过公民的参与形成政府与公民良性互动的局面,有利于政府与公民之间增进了解、加强沟通。
综上,档案部门的参与是政府大数据治理的重要一环,档案部门作为数据资源与基础设施的提供者、数据开放和共享的参与者、政策制定的协助者、公民与政府互动的协调者,能够帮助提升政府大数据治理能力、创新政府大数据治理方式等。但无论从理论研究还是实践发展上来看,目前档案部门参与政府大数据治理的水平和能力还有待提高。档案部门需从顶层设计、技术与管理标准规范建设、人才培养等多方面着力,加强自身数据管理能力,并积极寻求与政府各职能部门的合作,开创参与政府大数据治理的新局面。