张 雪 周 毅/苏州大学社会学院
信息时代,社交媒体的影响力日益增加,2020年社交媒体用户超过38亿[1]。社交媒体作为发布权威信息以及与公众交流的重要平台,其内容在构建社会记忆、留存历史凭证、提供决策支持方面发挥重要作用[2]。2019年1月1日实施的《机关档案管理规定》指出机关档案包括业务数据、公务电子邮件、网页信息和社交媒体档案,肯定了社交媒体信息的归档价值并赋予社交媒体档案一级门类代码,为该类档案管理实践提供指导。
社交媒体的动态内容、庞大数据集和富媒体增加了归档难度,Archive Social、Archive It等归档工具应运而生,为机构组织提供专业的归档服务。学界对这类工具的研究分为三种:第一种是针对后续利用和管理痛点对归档工具的功能进行考察评估[3];第二种是针对档案归档不同阶段的社交媒体归档工具进行分析和比较[4][5];第三种是基于不同社交媒体平台特性进行归档工具的研发和功能探讨[6][7]。从总体上看,现有研究多是在归档的某个环节上进行社交媒体归档的功能设计,以及实现从捕获—保存—利用的社交媒体全流程归档工具的功能设计。因此,本文在解析国外主流社交媒体归档工具的实践与应用进展基础上,从全流程上探讨社交媒体归档工具设计的原则和功能要求,以期为我国社交媒体文件归档软件的开发提供指导。
目前在实践中使用的社交媒体归档工具主要有以下几种:由存档主体自行开发的网络存档工具;使用技术公司、国际网络存档组织开发的开源工具;将不同开源工具组合使用以实现自身网络存档目标等。这些工具在社交媒体档案的捕获、保存和利用等不同阶段发挥着不同作用。
不同捕获工具在捕获方式、捕获内容、捕获格式、捕获数量、内容安全保护、操作难度上各有不同。归档工具对于内容的捕获包括调用API接口、网页快照、网页爬行三种方式,捕获的内容以HTML网页、图像、音视频文件为主,分为多格式内容捕获和单格式内容捕获;部分工具仅支持静态内容的捕获。对于图片、音视频等动态内容,需溯源社交媒体平台获取其数据,若存档主体对其动态内容进行删除、更改等操作,这些内容面临丢失的风险,因此单格式内容的捕获往往同其他开源工具组合使用。大部分工具都支持WARC格式和ARC格式,部分工具提供定期检测和更新存档内容功能。相比Httrack等工具需用户手动输入指令监测并更新,Archive Social能够自动检测隐藏和删除的内容,并实时记录。在捕获内容的数量方面,部分工具受社交媒体平台自身和浏览器的服务限制,捕获内容数量和速率受到限制。如TAGS允许消费者账户每日捕获20000条记录,政府和教育机构用户的上限更高。捕获准确性受检索方式和内容权限影响,如Heritrix爬行未经授权访问网页时可能会破坏爬行结果,导致文件删除、损坏、替换。TAGS采取关键词检索方式获取记录,检索结果查全率低。在操作难度方面,部分工具需要用户掌握IT专业知识,操作难度高。Web Curator Tool、Archive Social由图书馆和存档服务公司自行开发,降低了对用户的技术要求,其工具界面设置简易、操作便捷,并且功能设计模块化,允许用户根据其需求调用不同组件组成业务模块,供不同功能使用。
社交媒体归档工具的保存功能涉及归档内容安全管控和保存期限两方面,其中归档内容的安全管控包括时间戳认证、权限访问和备份。社交媒体记录存档应当保障内容完整且未经修改。大部分工具在生成数据记录时附带生成时间戳,这一时间戳格式符合官方认证的时间戳标准,保证记录的存在性和完整性。可访问性方面分为两种,一种是用户通过身份验证后对所有内容进行访问和更改等操作;另一种用户的操作权限依用户等级而定。就后者而言,操作权限通常分为三种:安全管理员权限、只读管理员权限和社交媒体账户所有者权限,其中安全管理员可以访问所有存档内容并进行更改、删除等操作;只读管理员仅可访问存档内容;社交媒体账户所有者只能对自身账户内容进行相关操作。部分工具考虑到安全风险会导致数据丢失,对数据库进行定期快照备份,并将这些文件旋转到二级存储环境,帮助用户在风险发生后快速重建。在保存期限方面,部分工具设置了灵活的保留规则,如Mirror Web和Archive Social允许用户设置记录的保留规则,并且当用户注销账号时仍然在一定期限内为用户保留记录。
社交媒体归档工具利用功能侧重于记录的查找和导出,部分工具提供了基于记录的分析功能。归档工具提供关键字、日期、网络、用户名、内容类型、全文检索或标签等多种检索途径,可在组织的所有社交媒体上进行搜索。过滤器可以快速细化结果,查找范围包括已删除的存档记录。不同检索方式的查全率和查准率也不同,如SFM等工具支持关键词检索,检索结果仅显示推文中包含了检索词的记录,查全率低;Mirror Web对所有数字资产进行完全索引,提高了检索的速度和准确性。在格式输出方面,各工具将归档记录以PDF、HTML和Excel多种格式导出,用户按需执行导出,并生成具有突出显示的搜索结果和详细导出描述的演示文稿[8]。
除了检索、格式导出等基本功能,部分工具还有偿提供高级功能,如元数据分析、可视化、舆情监测控制等。Archive Social等工具提供存档记录的元数据,并根据元数据分析生成高级抓取报告,其中包括MIME类型的完整细分。TAGS安装了Nodexl和Gephi插件,通过标签和记录分析能够找到最具影响力的用户。数据可视化方面,Web Curator Tool提供Heat Map功能,显示一段时间内的预定收获。TAGS安装了谷歌地图插件,能够显示twitter贡献者地图。为总结各类不同归档工具的功能差异,在此我们对国外主要社交媒体归档工具的功能特点通过表1方式进行比较。
基于上文对国外社交媒体归档工具功能及其基本特点的分析,可以看出社交媒体归档工具的功能始终围绕社交媒体记录内容恒久且可读、证据效力保全、检索提取便利展开。本文结合上述实践案例,总结出了社交媒体归档工具设计的基本原则。
2.1 真实性。真实性指归档文件的内容和形成过程记录真实完整。社交媒体文件逐渐成为电子证据的主要组成部分,但其证据效力仍然受到质疑,真实性是归档的社交媒体文件行政有效性和法律证据性的基础。电子文件成为电子证据需要具备两个条件:一是内容真实,二是形成过程可靠[9]。对于社交媒体文件来说,首先保障社交媒体文件记录完整性,即社交媒体记录内容、背景和结构信息真实,在记录生成、保管、迁移过程中保持原有的信息固化形式,确保内容完整。其次保障社交媒体文件记录真实性。社交媒体记录的形成过程被认可,归档记录传输、保管等一系列数据变更操作可验证和回溯,保证归档内容未被篡改。
2.2 有效性。有效性指信息使用的有效性,即保存的记录能够被永久地读取[10]。存储格式的公开化和标准化是保障社交媒体归档文件持久生命力的必要条件,社交媒体归档文件应依据公开的格式标准进行存储和记录,公开的标准能够保障文件的长期可访问性,减少归档机构由于自身制定的规则不符合规范导致电子文件不可访问的可能性。
2.3 通用性。通用性指社交媒体文件在保存的过程中,文件存储格式被相关行业的认同度和现有软件的支持力度,即该格式能否得到商业使用者和开发资源者的广泛支持。目前国内提出《网络资源归档格式标准》《文献管理长期保存的电子文档文件格式第一部分:PDF1.4(PDF/A—1)的使用》等文件,规范电子文件长期保存格式。社交媒体归档工具应该充分了解权威机构和行业规范,选取行业内认可度高的格式标准作为归档文件捕获、描述和存储的标准格式,并在用户使用时将这类格式设置为默认推荐格式。除了归档文件的信息内容格式需符合国家标准化组织(ISO)标准和行业规范,归档记录的归档内容格式、数字签名和时间戳等底层数据格式也应该符合相关权威标准。
2.4 灵活性。灵活原则指社交媒体归档工具为用户服务时,考虑到用户需求不同,为用户提供灵活的处理和保留原则。社交媒体文件归档时,由于归档文件重要性不同,其保留期限会有所变化。社交媒体归档工具在设计时应尽可能考虑用户需求,为用户提供选择范围,允许用户根据自身需求灵活处理和保留归档文件。
表1:国外社交媒体归档工具功能分析简表
2.5 便利性。便利性原则指社交媒体降低工具使用难度,提高用户使用效率和用户体验。社交媒体归档工具界面应尽量做到页面简洁、功能设计直观,可以提供相关功能使用说明或者界面导航功能;在页面上插入文字、图片等多样化元素,丰富页面内容;在页面返回等地方设置醒目引导标识,引导用户快速熟悉内部功能。此外,在归档文件利用方面,该工具应支持多途径、智能化的检索功能,如提供自定义标签、归档时间、归档主题、用户等多个途径检索相关归档文件,提高用户的检索效率。
本文参照上文有关国外社交媒体归档工具的应用进展、功能特点和设计原则,结合数字档案信息的完整性、可用性以及证据性的目标[11],从以下方面对社会媒体归档工具的功能需求进行表达和设计。
通过归档范围和深度链接设置帮助机构用户自定义归档范围。在归档范围层面,社交媒体页面不仅包含机构账户发布内容,也包含其他账户评论、回复与私信等互动内容。不同机构由于需求不同,所需归档范围也不同,盲目地将所有页面内容捕获归档会增加存储空间和内容管理的压力,造成资源浪费。社交媒体捕获工具应提供多种归档范围供机构用户选择,将最常用的归档范围设置为默认范围,当用户没有设置归档范围类型时,系统默认按照标准格式进行捕获。以Archive Social为例,该工具严格按照用户指定的社交媒体账户和页面范围捕获内容,以社交媒体账户为单位进行捕获,不仅可以捕获目标账户中评论、回复和私信等完整的社交媒体活动信息,还可以追溯该账户建立之初的信息[12]。
深度链接包括同一站点的内部深度链接和外部深度链接两种类型。由于深度链接的作用不同,一些深度链接作为补充内容,帮助用户更加明确直观地了解发布内容,也有一些链接用于广告营销[13]。因此社交媒体归档软件在设计功能时,应允许用户根据链接的有效性和重要性选择是否归档。此外,在归档时应考虑深度链接的可用性。Web Preserver.com以PNF和HTML静态页面格式呈现捕获内容,子页面信息和超链接内容无法查看,给用户访问利用深度链接内容带来不便。因此社交媒体归档工具应该以正确格式捕获链接,同时提取该链接网页快照,保证归档后的深度链接能够通过内部跳转实现访问和利用,如果该链接网页由于删除等原因无法跳转,用户可通过网页快照浏览其内容。
社交媒体归档工具应丰富其信息捕获渠道,支持多个主流社交平台,帮助用户全面搜集关联账户内容。社交媒体归档工具应考虑两个问题:一是社交媒体记录场景多样。社交媒体已成为政府、企业和个人线上活动的主要场所[14]。为了提高宣传和互动效果,用户在多个社交媒体平台上发布内容,而这就为信息收集归档工作带来困难。因此,应该根据用户要求,既能够对单个平台信息内容进行捕获,又能够即时且持续地捕获关联同一账户的多个社交媒体平台信息内容,解决由多平台发布信息导致信息捕获不全面、不同平台信息获取规则不同等问题,实现同一组织机构账号不同平台信息内容的全面收集。二是多账号持有者的社交媒体组合。传统社交媒体信息归档需要获取管理者登录信息和信息访问权限才能进行信息的捕获归档,但一些组织机构的社交媒体组合分布在多个部门或者由单人管理,这为归档内容的真实性、私密性和安全性带来隐患。社交媒体归档工具可以通过快速关联相关账户捕获信息解决这一问题,无需获取登录和访问权限,实现低成本且高效的集中社会媒体存档。
社交媒体归档工具应注重社交媒体信息捕获效率,高效捕捉动态的社交媒体信息,这主要体现在信息捕捉持续性、即时性和准确性三个方面。首先,社交媒体信息存在于组织网络之外,具有高度动态性,信息内容的产生和删除具有不确定性。社交媒体归档工具应提供连续存档解决方案,24小时自动捕捉并保存新的社交媒体记录,降低丢失已删除记录的风险。其次,社交媒体信息内容更新速度快,社交媒体归档工具应持续跟踪关联账户更新内容,即时捕捉更新监测信息内容。最后,在注重信息搜集速度的同时,也要保障捕获信息质量。持续对目标账户的社交媒体历史进行重复验证,以确保即使网络停机或社交媒体平台设置更改能准确、完整地捕获社交媒体账户信息。
社交媒体归档工具应注重归档格式可持续性。格式可持续性是数字档案资源长期保存的目标之一,直接关系到档案资源的真实性、完整性和可靠性[15]。因此,在归档信息捕获、保存、输出三个环节都需要考虑格式问题。捕获阶段支持多种记录格式的信息捕捉。社交媒体网络的数据传播格式包括结构化数据和非结构化数据,应准确捕捉社交媒体记录使用的各种数据格式,并直观地显示结果记录。保存阶段,真实且完整地记录文件格式。捕捉归档社交媒体记录时,不仅对记录拍摄HTML快照,同时记录社交媒体记录的底层数据,以便后期利用时还原档案。
利用阶段,提供可用格式记录的定位和生成功能。社交媒体记录格式多样,根据用户的使用要求提供不同输出格式选项,让用户能以各种静态格式导出记录。此外,数字签名、本机格式、图像等底层数据内容也应允许用户根据自身需要选择性地输出。
社交媒体归档工具必须保全归档记录的证据效力。社交媒体信息作为社会记忆,有利于在未来重现过去的文化规范、对话、趋势和事件[16]。只有当社交媒体归档记录的证据效力得到保障,该记录在司法鉴定审查时才可以被法律接受。因此,主要从三个方面入手:一是保证社交媒体文件的原始性。捕获社交媒体文件时,应以原生格式捕获并保留数据,保证社交媒体文件与生成时状态一致,内容完整且没有被篡改。二是社交媒体文件的完整性。捕捉社交媒体记录时,不仅需要拍摄HTML快照,还应提供记录的底层数据格式,内容包括记录内容、结构、背景信息和记录机构长期保存行为与活动的详细记录。如Archive Social允许用户按时间顺序查看之前所有的编辑行为,确保用户拥有可以合法提交的认证记录[17]。三是社交媒体文件的真实性。社交媒体记录不能使用网页编辑器、图像处理软件或其他手段伪造。社交媒体归档工具应对归档中的每个记录应用一个可信时间戳,处理数据格式时,时间戳被打包进社交媒体记录的底层数据。可信时间戳作为数字签名证明归档记录在历史上特定时间存在,并且没有被编辑或以任何方式伪造,从而确保捕获社交媒体记录具有真实性。
社交媒体归档工具应注重归档数据的价值挖掘。社交媒体已成为社会情绪的主要宣泄场地[18],数据背后体现了用户的热门关注内容、评论者情绪趋势、参与度、平台使用情况等内容,因此社交媒体归档工具的功能不应局限于记录的捕获和归档,而是应当提供归档数据的分析功能以挖掘归档记录的价值。使用捕获的数据记录帮助组织执行其社交媒体政策并快速回应问题,分析数据中背后的评论者情绪趋势、参与度、平台使用情况等内容,将定制的监控和警报功能与可视化报告相结合,增强机构对整个社会媒体组合的控制、响应能力和洞察力。如Archive Social重视挖掘归档数据深度价值,该软件有偿提供管理和分析(Archive Social's Risk Management And Analytics)套件,该套件允许用户利用预填充字典自定义设置关键字警报,RMA持续监控某一社交媒体组合,并在发现特定的单词、短语或模式时发出警告,从而减少风险。此外该套件将档案中捕获的数据转为动态报告,清楚地展示社交媒体活动的影响,帮助机构寻找潜在合作者。
社交媒体归档工具提供高级检索和标签功能,实现归档记录再利用。从档案的生命周期来看,归档记录的再利用是社交媒体归档的最终目的。在数量庞大、格式多样的社交文件记录中快速且准确地定位所需记录,需要复杂搜索引擎和社会化标签系统的支持。高级检索功能允许用户按照内容类型、日期范围、网络、关键字、参与者或者标签进行搜索,过滤器帮助用户快速优化检索结果,提高用户检索效率。标签标注功能实现归档内容的组织和过滤。用户制定分类标准,并提交Tag标签,检索系统根据用户自定义标签来决定归档信息内容组织方式,帮助用户自由组织归档[19]。此外,社会化标签功能还能够帮助组织机构过滤用户。Tweet Archivist为每个活动提供哈希主题标签,当用户发布活动相关推文就会自动携带活动主题标签,通过分析所有携带主题标签的用户的影响指数,寻找最有影响力和发言权的用户寻求合作[20]。
个性化处理保留功能可为用户提供更多选择空间。首先,在信息捕获环节,用户根据需求自行设置捕获记录内容、频次、日期,捕获内容可以是某个标签、用户、复杂查询、布尔逻辑搜索、术语等,并根据用户的设置提取记录。其次,部分社交媒体文件由于文件类型、内容的不同在保留和处理时需要特别考虑,应允许用户根据需要定制的处置规则,这些规则包括保留规则名称、归档文件描述、保留时间范围设定、文件所有者设定等内容,且设置记录在系统后台可以查看。最后,用户能够设置黑名单和白名单权限,快速、安全地进行数据迁移,搜索重放内容,查看报告和通知。