文·海啸
数据是以定性或定量的方式来描述事物的符号记录,是通过观察或实验得来的对现实世界中的地方、事件、对象或概念的描述和反映[1]。而档案数据处理技术的对象主要是电子档案和元数据,档案部门的档案数据包括存量档案数据和增量档案数据,存量档案数据主要来自现存的电子档案和档案数字化成果,增量档案数据的来源一方面是各业务系统产生的各种电子文件,另一方面是档案部门在日常业务中产生的各种数据。档案部门在馆藏建设和各种管理活动中形成了大量数据,因此加强档案的数据管理至关重要[2]。此外,档案的数据管理已经逐渐成为档案工作的一个重要发展方向,一方面随着大数据时代的到来,在社会各行各业中产生了海量的数据,如何管理存储这些数据已经成为了一个重要的问题。档案部门随着档案数字化工作的不断推进,也保存了内容丰富、种类多样的档案数据资源,因此从档案工作本身来说需要加强档案数据管理。另一方面随着社会公众档案意识的增强以及档案开放利用法规的不断完善,强调档案数据的开放获取和利用已经成为一个重要的时代潮流,社会对档案的利用需求越来越多,因此需要加强档案的数据管理来为用户提供高质量的可共享的档案数据。
英国数据档案馆成立于1967年,在英国社会科学研究委员会的资助下于埃塞克斯大学成立,最初旨在收集高质量的科学研究数据进行分析和利用。后来经济和社会研究理事会(ESRC)继续为数据存档提供资助与支持,是英国数据基础设施的重要组成部分。2005年成为英国国家档案馆的指定数据存放地点,允许管理社会经济类的公共记录,成为世界上最顶级的国家数据档案馆。英国数据档案馆提供获取、利用英国社会和经济数据的管理和服务,是英国数据服务的牵头机构,该机构提供统一访问英国最大的社会、经济和人口数据集的服务,并为政策相关研究提供支持和为发展数据使用技能提供指导和培训。该档案馆通过与英国各地的主要数据机构紧密合作,已成为公认的国际数据管理、保存和获取中心。英国数据档案馆以及在此基础上建立的数据服务中心由于发展较早,并且由于对数据管理的重视,已经在数据档案管理方面积累了丰富的经验,而我国在档案数据管理方面的工作总体而言比较滞后,因此需要对国外的先进经验进行合理的借鉴。
在基于快速兴起的数据密集型科学研究的第四范式时期,数据收集和获取工作更加注重数据源的权威性与时效性,数据获取更加主动、快速,对数据的可获得性、准确性、新颖性有了更高的要求[3]。在数据收集和获取期间,要保证数据记录能够反映真实发生的情况、观察或者事件,数据收集的内容要丰富多样,数据收集和获取形式要更加主动快捷。英国数据档案馆在档案数据的收集和获取方式上主要有以下三个方面的特点:一是收集的内容和形式比较丰富多样。英国数据档案馆是国际公认的获取、管理和提供社会科学和人文数据的专业中心。英国数据档案馆收集的数据反映了影响公民从出生到教育、就业、公民的社会交往直至老年的所有生活和经历的问题,这些问题既涉及国内也涉及国际,涉及每一个大陆。而且英国数据档案馆也整合了埃塞克斯的定性数据部门和专业的历史数据服务中心,大大扩展了它以调查为主的收藏,开始囊括非数值型、文本型、图片和混合方法的数据集。二是数据收集方法多样。对于首次提供数据的主体,可以向数据档案馆发送收集到的数据的简短说明,从而提供主体的数据,数据档案馆根据自身的收集开发政策评估数据。对于经常提供数据的主体,如对于大型社会调查或政府数据系列的存储人,由数据档案馆的处理团队进行策展,数据档案馆准备资料,对收到的资料进行核对,以及提供指引保障资料的方法。对于可以共享的数据拥有人,特别是ESRC资助持有者,可以将他们的研究数据存储到英国数据服务的再共享数据存储库中。三是在数据获取的形式上也主要采取合作的形式,英国数据服务与英国一些最重要的社会和经济数据源的所有者和生产者密切合作,以确保这些数据源能够及时提供给用户。如与世界银行、国际货币基金组织、英国商业、能源和工业战略部进行合作,而且英国数据档案馆还扩展到了面向数据的合作项目,如包括末日审判项目和农村地区数据库。
良好的档案数据组织与管理对于保证数据的可靠性、完整性、有效性,促进档案数据的共享和利用有着重要的意义。英国数据档案馆保存了大量的社会和经济数据,可以用于未来的科学和教育目的,因此良好的数据管理组织和管理实践对于促进数据的开放共享有着重要的意义。在英国数据档案馆的数据组织方面,主要是建立数据词典和编撰主题词表来实现的,英国数据档案馆在数据处理阶段为每一个存档过的SPSS格式的数据文件建立了数据词典,在每一个SPSS文件中嵌入数据层级的元数据:变量标签、变量值和缺失的变量代码。而且英国数据档案馆也编撰了主题词表—人文与社会科学电子主题词表(HASSET),用来对它们的数据集进行索引,HASSET中的主题覆盖广泛,反映了英国数据档案馆馆藏主要集中在社会科学领域[4]。在档案数据的管理方面,英国数据档案馆主要是进行数据校验,即对数据进行编辑、清理、验证、交叉校验和确认。在英国数据档案馆,当研究数据准备建立专属的数据集进行存档的时候,将会进行各种各样的质量控制检验。检验包括:根据文档检查个案和变量的数量;检查超出范围值和不合理编码的分类变量;检查数据和文档是否违反机密性规则,并确保文档是数字格式。并且根据预期的未来使用及数据和文档的条件,对于每个即将入库的数据,在四个数据处理标准(A*、A、B、C)之中挑选一个标准进行处理,这样可以对收集上来的数据进行分层次的处理,有效的保证了数据的有效性,同时也有利于数据的科学性。
数据本身的开放性、关联性会引发数据安全问题,在透明政府、开放治理理念推动下实施的政府数据开放共享和个人隐私保护存在价值和利益冲突[5]。而维护个人数据的安全是英国数据档案馆的重要工作,比起不包含个人信息的数据,更需要谨慎的对待包含了个人信息的数据,1998年英国颁布的《数据保护法案》更加凸显出了对数据安全工作的重视。英国数据档案馆开展维护个人数据安全的工作主要有以下三个方面:一是注重存储安全,英国数据档案馆对摄取披露的安全数据有严格的程序,所有用于课题研究的数字化文件必须加密,并保存在位于网络存储设备上的指定驱动器中的一个标记为“RESRICTED”的目录中,且在整个处理阶段必须保留他们,所有包含受限调查数据的数字化处理文件还必须在文件名中包含“RESRICTED”文字,方便对它们进行识别。二是注重制度安全,英国数据档案馆的所有工作人员都签署了一份保密协议,特别是对那些被数据生产者或该档案馆认定为可在一定程度上开放的数据,包括涉及个人数据或个人信息的内容,该档案馆有责任确保为其提供必要的安全保护。三是注重访问安全,英国数据档案馆所拥有的大部分数据资源都不属于公共领域,这些数据仅限于注册用户已特定的目的进行使用。英国数据档案馆要求利用者可根据研究目的使用数据,但不得发布数据,严格控制数据访问,与此同时,英国数据档案馆也采取了一些其他的措施来保证数据的安全,如访问数据时需要取得数据拥有者的专门授权、为保密数据设置一定的限制期、对数据提供安全访问及允许对机密数据进行远程分析,但不得下载或带走数据。英国数据档案馆从存储、制度、访问等方面来加强档案数据的安全工作,将会有效减少档案数据遗漏、丢失、泄密的风险,促进档案数据的安全保存。
档案数据服务是在数据密集生产的背景下,对散在于档案中的数据进行人工或智能发现、关联、聚合、重用等一系列管理,使用户能够直接用来解决问题的服务,它能提升已有知识、数据的使用效率,促进新知识的产生和传播[6]。开展档案数据服务是英国数据档案馆的重要工作环节之一,通过积极的开展档案的数据服务,能够在更大程度上促进档案数据资源的共享。英国数据档案馆开展档案数据服务主要表现在以下几个方面:英国数据档案馆首先是提供的数据服务对象和范围非常广泛,英国数据档案馆能够满足来自所有部门的研究人员、学生、教师、数据用户和数据所有者当前和未来的数字数据需求,英国数据档案馆在全球拥有超过2.3万注册用户,它使研究人员和决策者能够从其拥有7000多个数据集的可信存储库中提取知识和见解,以支持有利于社会的基于证据的决策。其次,档案数据查询也很方便快捷,以英国数据服务的发现目录为例,用户能通过主题、数据类型、数据生产者和数据收集的日期来进行检索和浏览,而且当数据目录被搜索引擎如谷歌收录后,谷歌搜索也能可靠的定位数据集,用户一旦确定找到合适的数据集,通过简单的注册过程就可以索取数据。最后,英国数据档案馆也为利用者提供了数据分析技能的指导,帮助利用者能够更好地开展研究工作,如编制如何使用特定数据集、主题分类、方法和软件(包括操作或重用数据)的指南,研究教学案例、展示如何使用数据,开展全年的网络研讨会和面对面的培训服务。总而言之,英国数据档案馆以用户为中心,通过开展档案数据检索和指导服务,档案数据服务的对象和范围越来越广泛,极大地满足了社会对档案数据资源的需求。
我国开展档案收集工作的主体主要是国家和地方综合性档案馆,并且主要以收集到的公文档案和历史档案为主,对于一些经济民生、教育科研种类的档案数据资源涉及的较少。而且收集方式和途径单一,以纸质档案归档和被动归档为主,档案部门在档案收集的工作上主动性不足,往往会滞后于时代的发展。在大数据时代,需要管理海量的数据,这些数据往往具有动态性强、更新快、高时效性的特点,因此开展档案数据管理工作需要与时俱进。首先档案部门应不断扩大档案收集的范围和类型,多收集一些反映社会真实运行情况的经济类、教育科研类、民生类的档案数据资源。不仅收集文本型数据集,还要扩大一些多媒体数据集的收集,使档案馆的馆藏结构更加合理,更好地满足社会的档案信息需求。其次,档案部门也应不断创新档案收集工作的方式,明确收集对象的范围,加强与社会上各种数据生产者和数据管理者的合作,相互分工协调。与这些数据机构合作一方面可以扩充档案馆的数据资源,丰富档案馆数据资源的种类,另一方面档案部门也可以借鉴这些数据机构先进的管理经验、技术、方法,更好的把握数据资源的特点,提高档案部门的数据管理水平。
实现数据有效管理的关键是数据组织,数据组织是数据管理的基础,其水平决定了数据管理的水平[7]。首先我国档案部门进行档案数据管理的基础性标准是《档案著录规则》,这个标准规定了档案著录项的字段名、字段内容、字段类型和字段长度,促进了档案数据格式的规范化。但是这个标准在大数据时代进行档案数据的管理是远远不够的,还需要规范和统一当前档案著录项数据格式和交换格式。《中国档案机读目录格式》很好地规范了档案数据的组织和设计,以《中国档案机读目录格式 》作为数据标准化准绳,按此规定要求组织和设计档案数据的框架结构,对不规范的数据进行规范处理,逐步将档案数据转换成符合《中国档案机读目录格式》标准的数据,即一条档案数据记录应包括记录头标、记录目次区、数据字段区(变长)和数据结束符等组织部分,也就是说一条完整的档案数据除了自身的数据内容外,还应有数据的辅助说明内容,这种结构的档案数据具有数据的自我说明能力。其次,档案部门还应加强对档案数据的质量控制,因为在大数据时代会有大量的数据形成和传递到档案部门手中,因此档案部门需要加强档案数据的质量控制。档案部门可以通过自动化和手动操作的方式加强档案数据的质量控制,如可以通过双重数据输入、统计分析、校对转录、同行评议的方式来保证档案数据的质量。总而言之,只有加强档案数据的组织和质量控制工作,档案数据才能更加有序和真实。
公民的个人信息,也可称为个人数据、私人信息等,主要是指任何与已确定的或可确定的个人相关的信息[8]。根据《中国网民权益保护调查报告( 2016)》,54% 的中国网民认为个人信息泄露严重[9]。档案数据工程的建设必然会促进大范围的档案数据资源的共享,只有在保证档案数据个人信息安全的前提下进行档案数据管理工作,才能更好的实现档案数据共享和利用服务的目的。而且随着《网络安全法》等法律法规的颁布,国家和社会对于在各种活动中保护个人信息安全的重要性有了充分的认识。而我国档案部门对个人信息的保护性认识略显不足,为此,档案部门应该加强在档案数据管理和利用工作中对包含有个人信息的档案数据的保护。首先应该完善档案数据保密制度,档案部门应该加强保护个人信息安全的教育,与员工签署保密协议,明确相关责任,在档案数据利用的过程中建立知情同意制度。其次,保护个人信息在档案数据存储中的安全,档案部门可以建立专门的包含有个人信息的档案数据资源库,对包含有个人信息的档案数据实行加密处理。而且档案部门也可以建立匿名识别系统,匿名识别系统可以将个人信息和数据文件关联在一起,有效减少了个人信息泄密的风险。最后,档案部门在档案数据访问的过程中也要加强权限控制,合理分配档案数据资源所有者、管理者、利用者之间的权限,如利用者访问数据时需要取得数据拥有者的专门授权,档案数据资源所有者只有权访问拥有自己信息的档案数据源而无权访问他人的数据,档案数据资源的管理者只有在获得利用者的访问请求后才能查看数据。总之,只有建立一个完善的个人信息安全保护体系,档案数据资源才能更好地发挥自己的作用。
促进档案数据资源的共享和开展档案数据服务是进行档案数据管理的重要目的。目前中国政府数据积累少,只能发布极其有限的文本数据和统计数据,数据可用性不足和开放程度不高阻碍了数据的进一步共享利用[10]。因此作为档案数据资源管理的主体,档案部门要承担起数据开放利用的责任,主动开展数据服务,最大程度的地满足社会和公众的数据资源需求。首先档案部门可以建立大数据服务中心,统筹管理本区域的档案数据资源,为利用者提供一站式档案数据服务。其次,档案部门应该主动开展档案数据服务的宣传指导工作,编制数据指导服务指南,帮助利用者了解档案馆保存了哪些种类的档案数据资源和查询检索档案数据的流程方法。最后,要不断完善检索条件,提高检索效果,使用户能够通过主题、数据类型、形成者等条件快捷的查询到自己所需要的档案数据资源,而不是以往的通过档号、分类号等过为专业化的词汇来查找。
总之,在大数据时代,社会各个活动主体产生了大量的有价值的档案数据,因此对数据的管理就显得尤为重要。英国数据档案馆的工作实践为我们提供了良好的借鉴,档案部门只有不断提高自身的档案数据管理和服务水平,完善档案数据的收集、管理、服务程序和方法,才能更好地发挥自身的角色和作用。