肖秋会+詹欣然
摘 要:政务微博已经成为政府服务的重要平台,政务微博的高价值性及动态性使其归档管理变得日益紧迫。探讨我国已有的电子文件管理标准对政务微博信息归档管理的适用性,分析了政务微博的归档流程,着重分析了归档过程中的信息采集、信息著录和信息存储这三个环节。
关键词:社交媒体;政务微博;归档范围;归档流程;API
Abstract: At present, government microblogging has become an important platform for social information dissemination and serving citizens, and the high value and dynamic nature of government microblogging make the relevant archiving work become increasingly urgent. This paper discusses the applicability of electronic document management standards to the management of government microblogging information archiving,and analyzes the archiving process of government micro-blog. The paper pays more attention to the analysis of the information collection, information description and information storage during the archiving process.
Key word: Social media; Government microblogging; Filing Range ;Archiving process; API
政府机关借助政务微博进行信息发布及提供服务已经越来越普遍,政务微博信息是机关单位开展职能活动的原始记录,具有重要的凭证价值和参考价值,需要归档保存。本文着重对政务微博信息的归档范围和归档流程进行了分析。
1我国电子文件归档标准对政务微博信息归档管理的适用性分析
1.1管理对象的一致性。2002年我国颁布的国家标准《电子文件归档与管理规范》(GB/T18894-2002)明确指出“电子文件指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件[1]”。政务微博信息是政府机关借微博这种广播式的社交网络平台发布与其职能活动相关的数字信息,形成于互联网,以数字形式传播及存储,与其他类型的电子文件在生成环境、管理内容、自身特征都存在共同点,可见,从本质属性看,政务微博属于一类特殊的电子文件。
1.2信息媒介的相似性。政務微博信息与一般电子文件的表现媒体相似,两者都依靠相似的媒体进行信息的输入和输出,如都需要借助显示器、打印机等输出媒体输出信息。另外,两者的传输媒体也较为相似,均依靠电缆和光缆这类物理介质进行传输。
1.3信息类型的差异性。相比于一般的电子文件,政务微博的信息类型更加多样,包含文本、数字、图片、视频、音频、超链接、二维码等类型,《电子文件归档与管理规范》(GB/T18894-2002)规定了文字、图片、视频及多媒体电子文件及音频型电子文件的通用格式,但缺乏对超链接、二维码等新型电子文件格式的规范要求,且超链接、二维码等新型电子文件本身包含一定的组织结构,不宜采用普通电子文件的通用格式。
可见,《电子文件归档与管理规范》(GB/T18894-2002)可为政务微博信息的归档流程提供一定的参考,但在归档范围、归档文件的类型及格式等方面不能完全适用。此外,《中国档案机读目录格式》(GB/T20163-2006)可为政务微博机读目录格式制定提供参考[2]。《基于XML的电子文件封装规范》(DA/T48-2009)可为政务微博信息的元数据构建提供参考,提供政务微博信息的初步封装结构模型[3]。但是我国还没有专门的国家级别的电子文件捕获、迁移标准[4],因此政务微博信息的归档方式、归档范围、存储结构等还有待进一步规范。
2政务微博信息的归档范围
国外较早注意到社交媒体信息归档保存的重要性,并已开始了相关项目建设,如英国国家档案馆建成了在线社交媒体档案库,美国国家档案与文件署(NARA)发布了150多种工具用于捕获社交媒体内容,澳大利亚开展了中央政府机构的网络档案项目。这些项目的归档范围存在较大差异,具体见表1。英国国家档案馆的政务社交媒体归档范围仅涉及Twitter和Youtube两个平台,而澳大利亚和美国归档平台包含政府机关使用的一切社交媒体,且重点保存能够反映机构职能的非冗余信息。
img src="http://img1.qikan.com.cn/qkimages/dagl/dagl201801/dagl20180116-2-l.jpg" alt="" />
表1 英、美、澳政务社交媒体信息归档范围表
如表1所示,反映机关职能活动的社交媒体信息都纳入了归档范围,笔者认为,政府机构发布的与职能相关的原创性内容必须归档,转发或转载的内容,微博下的评论、回复、博文内的链接内容等可以选择归档。综合考虑版权、用户隐私等问题,可将我国政务微博的归档范围确定为:①发布者为党政机关的宣传部门或同职能机构;②发布内容与机构职能相关;③原始政务博文的评论数、转发数可作为元数据内容进行归档;④转发的及评论内容如果不涉及政务活动则无需归档;⑤电子文件元数据标准中要求归档的其他元数据信息需与博文一同打包归档。endprint
3政务微博信息的归档流程
根据《电子文件归档与管理规范》(GB/T18894-2002)的规定,电子文件的归档流程分为两个阶段:第一阶段在OA系统中,电子文件形成时就进行鉴定,将文件分为应归档和不归档的两类,不归档的只需进行文件流转,应归档的文件在文件流转阶段需要采集归档元数据,根据元数据将文件分类并进行格式转换,实现预归档。第二阶段,将文件及元数据导入档案管理系统并进行数字签名,确定分类、赋予档号、补充著录信息后,完成数字签名并进行信息封装,通过电子档案的真实性、完整性、可靠性、可用性检测后即可归档。参照电子文件的归档流程,笔者绘制了政务微博信息归档流程图,见图1。
图1 政务微博信息归档流程图
如图1所示,政务微博形成后,经历过一段时间的被公布、被转发、被评论等信息传播活动后,经过价值判断,不归档的信息直接被过滤,而应归档的政务微博及元数据信息可通过API等工具实现格式转换后导入至档案管理系统进行管理。导入政务微博信息时需要进行数字签名以保障真实性。接着系统按照元数据进行分类、确定档号并进行信息著录,完成以上整理环节后再进行数字签名,检测完信息的真实性、可靠性、完整性、可用性后即可进行信息保存[5]。
政务微博与其他电子文件在归档流程方面的差异性主要体现在:政务微博信息归档不需要分为两个阶段,没有“预归档”过程。原因在于,电子文件广泛生成于公文管理系统或业务系统中,这为电子文件归档的前端控制提供了可行性,而政务微博形成于非管理型平台,因此一般不能在原生平台进行元数据抽取或者格式转换等“预归档”活动。为了进一步探究政务微博信息的归档和采集,笔者选取了政务微博信息采集、信息著录、信息存储这三个较为重要的环节进行分析。
3.1信息采集。
3.1.1采集方式。笔者根据归档主体的不同,将政务微博信息采集方式简单划分为主动和被动两种方式。主动方式即为各个政务机构的微博管理者或者是微博公司将需要归档保存的政务微博定期主动地递交给负责保存的机构,这与目前我国的电子文件归档保存方式类似,荷兰和芬兰的项目都采用了这种信息生成方主动提交信息的方法。
被动方式即为由负责保存的机构(如档案馆等)进行相关政务微博信息的采集工作,又可分为自动采集和人工采集两种方式。许多国家采取了人工采集方式,既有利于提高工作效率、避免归档内容交叉,又有利于监管流程,如英国国家档案馆的政务社交媒体归档项目。但是这种方式的不足在于,庞大的信息总量和多样的信息类型使得保存机构负担过重。笔者建议我国可综合采用这两种方式,属于市级及以下的政务微博账号发布的相关信息可采取主动的方式采集,以减轻归档保存机构的负担,省级的政务微博账号采用被动方式采集,以保证归档信息的真实可靠、低冗余性。
3.1.2采集工具。政务微博中包含许多数据类型,例如图片、文字、视频、超链接、二维码等多种形式,因此政务信息归档部门需综合运用多种工具来采集多类型的信息。根据外国已经开展的社交媒体归档保存项目可知,目前的采集工具可大致分为以下三种:一是API工具,此类工具可调用微博的程序接口,自动抽取、保存相应的政务微博信息,但是此工具的运行需要微博服务提供商的协助。目前美国国家档案与文件管理署采用的社交媒体采集工具中就包括这类工具,如Hearsay social。二是爬虫工具,网络爬虫可获取微博网站拓扑结构和相应的信息,并部署网页信息自动采集器,以便对网页政务微博资源进行全量或增量采集,但是无法建立基于账户的全文索引。三是备份工具,即向社交媒体服务提供商直接索要信息内容,以CSV格式从社交媒体平台导出,打印并以PDF格式存檔。但美国的实践证明此类方法无法整合元数据,不能保证政务社交媒体文件的原始性与真实性,NARA于2013年颁布的《政务社交媒体文件管理简章》中明确禁止使用此类方法归档[6]。
可见,在以上三种工具中,比较适合政务微博信息采集的是API工具。使用API工具采集政务微博信息,可保障归档信息基本的语义和结构。由于API工具可获取每一条博文信息的原始数据及相联系的元数据,这样就确保了捕获的每一条信息文件具备了基本语义[7]。根据不同的次级标引项与项内内容,将每一个社交媒体文件划分为不同的卷宗,从而确保社交媒体文件具备一定的内外部结构。
3.2信息著录。为了方便用户能够快速找到所需的政务信息资源,需要进行信息著录。考虑到采集到的政务微博信息的动态、虚拟性,我们不能再沿用传统的方式。信息的元数据是描述博文的背景、内容、结构及其整个管理过程的数据,因此为了保障信息的真实、完整性,可以将元数据作为著录信息。根据《电子文件元数据基本集》(征求意见稿)和《信息与文献文件管理过程文件元数据》(GB/T 26163.1-2010),政务微博元数据主要包括6个类型,分别是政务微博实体的元数据、政务微博管理机构人员实体的元数据、业务实体的元数据、管理过程的元数据、操作权限实体的元数据、实体相互关系的元数据[8]。
元数据标准和格式多种多样,如 MARC、DC、EAD、MODS等,其中常用的网络资源描述元数据标准是都柏林核心元数据集(DC),DC规定的15个中心元素几乎全面地概括了一个博文的主要特征。我国政务微博归档保存部门可优化DC元数据标准,例如去掉“出版者”这个元素以更符合微博特征,以XML格式对采集到的微博信息进行著录。
3.3信息存储。微博平台的动态、虚拟性,导致博文信息采集工具与博文信息可选择的存储格式密切相关。目前的存储格式主要分为四种,一是使用备份工具,向社交媒体服务提供商直接索要信息内容,以CSV格式从社交媒体平台导出,打印并存档;二是使用网页快照工具,直接对网页进行备份以实现存储,但是这种方式无法实现信息的长久保存,部分信息也会丢失[9];三是使用爬虫工具,以基于JavaScript语言的JSNO格式进行存储,目前JSNO格式是非规范的标签形式,认可度较低;四是利用API工具,以XML格式存储在系统中[10]。前两种方式均无法对超链接等类型的信息资源存储,稳定性和长期性都欠佳,第三种有待考察,而XML是一种提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据格式,有利于实现博文信息资源的全面保存和便利的信息检索。
综上所述,本文根据我国已有的电子文件归档管理标准,结合美、英、澳三国的实践,从利用的角度出发,以职能为中心划定了我国政务微博信息的归档范围,限定了需采集的政务微博账号类型,将博文、部分评论及相关元数据列入归档的内容。此外,本文分析了政务微博信息的归档流程,包含:收集、分类、著录、数字签名、鉴定、归档保存诸环节,在此基础上,进一步探讨了微博信息的采集工具、著录方式及存储格式,对于我国政务微博信息的采集与归档具有一定的参考价值。
参考文献:
[1]GB/T18894-2002,电子文件归档与管理规范[S].
[2]GB/T20163-2006, 中国档案机读目录格式[S].
[3]DA/T48-2009, 基于XML的电子文件封装规范[S].
[4]冯丽伟. 电子文件全程管理标准体系建设研究[J].档案学研究, 2014(3):71-74.
[5]宋香蕾.政务微博档案化模式研究[J].档案学研究,2017,01:51-56.
[6] NARA. Guidance on managing social media record[EB/OL].http://www.archives.gov
/records -mgmt/bul letins/2014/2014-02.html.
[7]郭俊卿,黄新荣.国外社交媒体文件的开发利用研究[J].档案,2017,04:47-53.
[8] GB/T 26163.1-2010,信息与文献文件管理过程文件元数据[S].
[9]王宁,曲春梅.美英澳政务社交媒体文件归档的经验及启示[J].北京档案,2017,04:41-44.
[10]王焕.国外政务社交媒体文件归档研究[J].档案学研究, 2015(6):99-105.
(作者单位:武汉大学信息管理学院 来稿日期:2017-09-08)endprint