周文泓李新功加小双
(1.四川大学公共管理学院,四川成都,610064;2.中国人民大学信息资源管理学院,北京,100872)
政务微博归档保存与开发利用现状及展望
周文泓1李新功2加小双2
(1.四川大学公共管理学院,四川成都,610064;2.中国人民大学信息资源管理学院,北京,100872)
政务微博的归档保存与开发利用是文件、档案乃至信息领域拓展空间的重要议题。文章采用文本分析与案例研究的方法梳理了政务微博归档保存与开发利用的相关研究与实践,将社交媒体政务类信息归档方式分为分布式、集中式和助力式。基于对研究与实践中存在的缺乏顶层设计、概念框架和实践不足等问题,文章从政务微博归档、保存和开发利用提出更多研究构想,并提出在捕获、归档保存与开发利用整体平台方面的落地构想。
政务微博 社交媒体 归档 保存 开发利用
数字文件管理与融合于各领域的互联网密不可分,互联网越来越开放、互动、动态、异构化的环境也从技术、人文与管理层面重塑了数字文件形成与保存的环境。微博作为在中国影响力最大的社交媒体之一,是集合党政机构、社会组织、群体以及个人以信息开展社会活动的重要阵地。即时发布党政各类活动的微博,其文件属性与归档必要性显著,是探究互联网时代数字文件管理不可缺失的研究对象。
政务微博需要归档与长期保存的根本原因是其显著的文件属性与归档必要性,这些信息往往是对社会首发的党政机构及人员的业务活动文件,更有党政机构与社会公众互动的丰富记录,是对社会治理的全程见证,是建构兼具政治、经济、文化等意义的数字记忆的重要组成部分,它们的归档、保存与利用刻不容缓。
然而,无论是基于国内政务微博的理论设想或是国外的经验总结,当前中国已有的研究还未能以可落地项目的方式来展开实证以发现管理过程中的问题并相应提出解决方案。因此,有必要从研究层面进行梳理,总结目前微博归档保存与开发利用相关研究的进度,亦从实践层面发掘问题,为微博归档保存与开发利用提出研究与实践设想。
政务微博的归档研究在国内几成空白,尤其是体系化的研究包括工作背景、归档目标、政务微博归档的概念、归档内容涉及范围、文件所有权、文件的可靠性与可获取性、文件公开规定、归档主体的权责、方法论的阐释、归档工具与技术的选择、工作流程的具体指导、工作的监管与审计、风险控制等方面均需要在广度和深度上拓展。
就目前的研究来看,微博归档保存与开发利用的相关研究也包括社交媒体、Web 2.0等互联网应用中的文件与档案管理,包括归档必要性,管理的挑战、方法和构想的模式等。这些研究在从业务价值、证据价值、信息价值肯定政务微博档案化保存的必要性的同时,列举出档案化保存面临信息量大、互动性、超媒体、即时性造成的档案化保存困难,缺乏与平台运营商的合作以及无存档机制等不利影响因素,针对这些问题简略提出重视微博档案的管理、加强与平台服务商合作、建立政务微博档案保存机制的策略。
加拿大图书档案馆推出的系列研究文章认为Web 2.0环境中信息是流动的,且处于复杂的网络与系统中。信息是虚拟、不固定和持续变化的,其价值是多元的。如果要获取、保存和提供信息资产,理论就需要被重新审视。例如,证据功能虽然不会消失,但是在转移至Web 2.0环境中时会呈现不同特点。Web 2.0环境中的文档管理需遵循三大原则:从模拟世界中走出,进入数字世界,重新考虑对象与实践;深思熟虑,完整思考出全面覆盖技术、内容、社会文化的方案;立足于动态环境,构建出不同于以往线性模型的授权模型。
英国与美国由于法律明确规定,在规定范围内的政府机构、企业等需要依据法律的要求捕获、归档与保存Web 2.0应用所形成的信息,因而形成主体与档案机构具备一定的研究与实践经验。当前他们已有一定的途径、工具与方法对这些信息实现档案化管理如捕获、归档等。主要方法为:档案机构等记忆机构与发布平台合作;使用和升级已有的网络归档工具获取信息;借用发布平台的API。但这些方法都在保护原始性与真实性或抓取背景信息数量及利用等方面存在不足。它的实践也说明,面对海量的多主体来源的信息,社会归档可能是一种途径,即单独的记忆机构难以做到完全收集与保存这些信息,需要社会从个人到组织的共同合作。
美国的法律环境要求管理这些信息以保证其真实性与可靠性,保护其作为证据的价值,以便在法律事务中可以被承认、认证与发现。因而需要:理解社交媒体所形成的信息类型并决定哪些信息需监控与收集;确认在必要的时候应从何处获取相关信息;确认相关社交媒体的安全程度;基于投资回报的理念选择合适的收集或监控工具。
美国联邦政府及各州政府在Web 2.0环境中信息的档案化管理在很大程度上都有政策的支持与实践上的进展。NARA、亚利桑那州图书馆、档案馆与公共文件部门等对业务机构如何归档与管理Web 2.0中社交媒体、社交网络等形成的信息发布了相应的政策,阐明了Web 2.0环境中信息归档的必要性。另外还有梳理管理挑战以及相应解决方法的文件,较有代表性的是NARA的《社交媒体文档管理指南》。
总的来说,各国不论是从理论研究还是制度构建上都在关注微博等社交媒体信息归档保存和开发利用的必要性、目标与实现路径,尤其关注政府机构所形成的信息,但是在顶层设计、行动计划与实施指南上都缺乏足够清晰的构想和流程设计。
当前,社交媒体政务类信息的归档在多国都有实践,从具体的实现过程来看,各有差异,主要表现为三种形式:
3.1 分布式——美国
美国联邦政府对社交媒体的归档有着分布式的特征,NARA在归档联邦机构社交媒体信息的过程中主要是业务指导与政策规制的角色,发布了《社交媒体文件管理指南》,对捕获、保管期限等做了相应规定。实施社交媒体归档的则是信息的形成者,即美国联邦各机构依据美国的法律、NARA的政策以及自身内部的制度与方法各自捕获其信息,再依据NARA的规定在需要时移交NARA。部分规定如表1所示。
3.2 集中式——英国
相比于美国,英国国家档案馆则是采用集中式的模式进行统一归档,对象是英国核心政府机构的账户。它已经开发出了捕获社交媒体内容和提供合适利用的自动化工具,涵盖范围主要是政府机构,而不包括非政府主体形成的信息,收集的社交媒体为Twitter与YouTube。该两年期项目在试行阶段已捕获了英国核心政府机构在线发布的几千份原始视频和超过65000条的Twitter信息,英国国家档案馆预期每年收集一次新的视频内容。社交媒体归档遵循网络归档的原则,在保管过程中保证开放数字文件的可获取,保护背景信息,保障信息的再利用。
2014年5月8日英国国家档案馆发布消息,正式将同互联网记忆联盟协作收集的社交媒体档案库公开,主要为Twitter和YouTube上的信息。截至2015年,Twitter档案库已经完成并公开的有:内阁办公室、英国政府、国防部等51个政府机构的Twitter信息;2012年奥运会与残奥会7类Twitter信息;其他的1项Twitter信息。YouTube视频档案库完成并公开的有:38类政府机构的视频库;2个2012奥运会与残奥会的视频库。英国国家档案馆的社交媒体收集确保了所收集的账户即便在原始账户消失的情况下,所形成的内容依然可用。
表1 美国部分联邦机构的社交媒体政策与归档相关规定
3.3 助力式——InternetArchive
社会上盈利或非盈利的非官方机构同样参与或协助收集网络信息。由美国计算机工程师、互联网企业家与互联网档案员Brewster Kahle于1996年赞助启动的Internet Archive是典型代表,作为非营利项目,它从社会捐助、基金、合作者等多方获得每年约1000万美元的赞助。一方面,它帮助留存社会信息资源与文化遗产,至2016年InternetArchive已为网络保存了4450亿的网页,总量达到23PB, Twitter、 Facebook 与YouTube是2015年网页抓取量最高的15个网站之三。另一方面,Internet Archive也协助社会组织、机构、群体与个人归档保存所需网络信息满足个性化需求,开发了应用颇为广泛的工具archive-it(2006年开发)。它所使用的wayback machine也是广受关注和使用的实现归档网页长期可用的工具。
无论是实践还是研究,总的来说在理论研究上尚无深入探讨在政务微博为代表的互联网应用中文件与档案管理论如何转型的理论与方法论,在实践上也缺乏全面的顶层设计和概念框架,缺少深入的功能与流程设计。由此,基于对当前政务微博归档保存和开发利用研究与实践现状的审视,未来应当从如下方面进行理论研究与实践的深入探索:
4.1 研究构想
从研究层面来看,主要包括三个方面。
首先,政务微博归档。主要涉及四个方面。第一,归档的范围,即要捕获哪些信息,这可细化为捕获哪些主体(即微博账户)的信息,标准是什么,是否包括微博下的评论?第二,捕获微博的方式是什么,是采用与形成者合作的方式,或与微博平台达成接收协议,还是自主抓取,捕获的频率又如何确定?第三,捕获微博的工具如何选择,是自主开发、寻找第三方支持或其他的方法?第四,归档也是信息有序化的过程,那么政务微博如何完成有序化地初步整合,是依据账户、主体还是更多维地整理?
其次,政务微博长期保存。以政务微博为代表探讨网络环境中数字文件的长期可信保存,从管理、技术等层面落实,保证海量的政务微博真实、完整、可用以及安全。第一,解析在政务微博所处的环境中,对可信长期保存的挑战有哪些,尤其是在管理、司法、技术与社会层面。第二,明晰数字文件管理所要求的真实性、可靠性、完整性、可信性等本质属性在政务微博所代表的网络环境中是否有变化,如何界定?第三,确认从宏观、中观到微观层面,要实现怎样的管理才能保证归档政务微博真实、可靠、完整、可信并且可用,即针对每一项本质属性,管理都应细化为怎样的需求、制度和可执行的动作?
最后,政务微博的开发利用。将归档的政务微博视作宝贵的信息资产与资源,多维度探索,将其开发为满足国家、社会与公众的信息资源产品与服务的各种可能性,以信息为动力源推进社会的发展。一方面,探索能将归档保存的政务微博开发成什么样的产品与服务,例如供政府决策的信息产品,助力社会治理的工具或是满足文化需求的数字记忆资源等。另一方面,如何开发与利用以形成所期望的产品与服务,有哪些管理与技术上的要求,例如,如何保证归档的微博可检索等。
4.2 政务微博归档保存与开发利用的落地构想
政务微博是政务社交媒体的一种,所以政务社交媒体的归档保存与开发利用涉及捕获收集、整理移交、鉴定处理、检索利用到内容开发全流程,其中技术难点在于捕获收集,另外还需构建全过程的平台架构。因而,本文从以下来两方面进行构想。
一方面,是政务微博信息的捕获,包括:利用简单或直接的技术手动或半自动捕获微博内容,例如直接利用网页的保存或下载功能手动捕获网页内容、利用截图工具直接抓取网页;利用网络爬虫自动捕获微博内容,通过它可快速地画出一个网站地图;利用政务微博平台提供的API进行包括网页、内容及链接的捕获收集,除API捕获方法外,还可以利用备份工具,直接备份网站。
另一方面,为政务微博归档保存与开发利用构建总体的平台架构。整个平台需要有如下特征:
(1)归档管理和开发利用并重的设计
在电子文件管理系统(ERMS)的基础上,引入“数据仓库”技术,围绕“数据仓库”,对海量电子文件和电子档案数据做深度挖掘,支持商务智能、统计分析、舆情报表展现、文本挖掘等。并以此为中心,面向知识管理、知识利用、决策支持,不断拓展延伸电子文件和档案内容信息的开发利用范围。
(2)海量数据的处理能力和数据挖掘技术的运用
随着Web2.0及社交媒体的发展,可要求各个微博平台都向档案系统归档数据,归档系统与各个微博平台形成了一对多的关系,加上对电子文件的统一管理和全程管理,因而需要引入“数据仓库”技术,基于数据仓库技术构建MBAS和ERMS,这有别于传统的信息系统的设计方法,我们使用“数据仓库”技术,就是为了有针对性地处理“海量数据”,并在“海量数据”上做数据挖掘。有了数据仓库作为基础的技术保障,将使得档案管理系统在数据处理能力上有质的提升。
(3)面向前端控制与全程管理
前端控制是指,归档面对不同的微博平台,不同平台有不同的系统结构、部署方式和访问权限,需要用各种方法、技术手段向微博平台中嵌入文件与档案管理的要求。全程管理在其中体现在归档管理向“两端”延伸,一个是后端,即朝利用方向的知识管理、知识门户、决策支持等;一个是前端,即向微博平台渗透,形成对微博内容形成、办理、传输、保存、利用、销毁等的“全过程管理”,确保对微博内容的“全程控制”。
总言之,政务微博归档保存与开发利用还有长远的路途要探索,为文件、档案、信息等学科提供了极大的研究与实践空间。这样的研究与实践工作有助于为党政机构、社会与人民保存宝贵的政府信息资源,防止信息资产流失。以此探讨互联网背景下的数字文件管理问题,通过探索与实施捕获、归档、鉴定、分类、开发与利用以及长期保存,保障政务微博归档后成为可用与可信的高质量信息资源,亦是学科提升的契机。
[1]黄新荣,吴建华.政务微博档案化保存初探[J].档案与建设,2012(4):4-6.
[2]Burger Karine.Re-examining the Foundations of Information Management in a Web 2.0 World[EB/OL].[2016-03-09]http://wwwcollectionscanadagcca/digital-initiatives/012018-3402-ehtml.
[3]Sharon Henhoeffer.Web 2.0 and Recordkeeping:Context and Principles[EB/OL].[2016-03-09]http://www. collectionscanada.gc.ca/digital-initiatives/012018-3401-e.html.
[4][5]Helen Hockx-Yu.Archiving Social Media in the Context of Non-print Legal Deposit[EB/OL].2014-07-30[2016-03-09]http://library.ifla.org/999/.
[6]LaurenA.Allen,Wylie MC.Managing and collecting social media for e-discovery[J].Information Management Journal,2013(3):22-27.
[7]NationalArchives and RecordsAdministration National Records Management Program.Areport on Federal Web 2.0 use and record value[EB/OL].[2016-09-09]http://www.archives. gov/records-mgmt/resources/Web2.0-use.pdf.
[8]Josh Gerstein.Feds stalled plan to vet visa applicants through social media[EB/OL].[2016-03-09]
http://www.politico.com/blogs/under-the-radar/2015/12/fedsconsidered-vetting-visa-applicants-on-social-media-216899.
[9]Kalev Leetaru.How Much Of The Internet Does The Wayback Machine ReallyArchive?[EB/OL].[2016-09-09]http:// www.forbes.com/sites/kalevleetaru/2015/11/16/how-much-of-theinternet-does-the-wayback-machine-really-archive/# 2715e4857a0b4edc16de88d4.
周文泓,四川大学公共管理学院专职师资博士后,主要研究方向为社交媒体与电子文件管理。
李新功,女,中国人民大学信息资源管理学院博士研究生,主要研究方向为数字档案馆。
加小双,女,中国人民大学信息资源管理学院博士研究生,主要研究方向为国家档案资源建设。
Status Quo and Expectation of Archiving,Preservation, Exploration and Access of Government Microblog
Zhou Wenhong1,Li Xingong2,Jia Xiaoshuang2
(1.School of Public Administration of Sichuan University,Chengdu,Sichuan,610064;
2.School of Information Resource Management of Renmin University,Beijing,100872)
Archiving,preservation,exploration and access of government microblog are significant topics for records,archives and even information fields.It’s necessary to conclude how it’s going on in research and practice,and then propose its future direction.The paper investigates into research status quo and classifies practice into central,decentralized,and facilitated model.According to problems such as lack of top design,conceptual framework and practice,the paper proposes more research questions and how to capture government microblog and build whole platform for archiving, preservation,exploration and access of government microblog.
Government Microblog;Social Media;Archiving;Preservation;Exploration and Ac⁃cess
G272.2