摘 要 英国萨里大学牵头、数个国家档案馆参与的ARCHANGEL项目旨在利用分布式账本技术(区块链)设计、开发和应用一个确保数字档案长期完整性的服务原型。项目研究内容主要包括构建区块链、构建档案完整性验证架构、开发原型系统、探索用户需求与公众态度。ARCHANGEL项目实现的功能包括打造档案的数字指纹、打造档案区块链平台、保障档案长期真实性、打造可信数字档案馆。ARCHANGEL给予我们的启示是档案机构可以利用区块链构建可信平台,达到去中心化的存证管理,并改变以往纯粹的档案管理为多方协作互动、相互制约的共同治理。
关键词 数字档案馆 区块链 分布式账本 存证 哈希值 可信 完整性 ARCHANGEL
中图分类号 G270.7/G271 文献标识码 A 收稿日期 2019-09-28
★作者简介:赵屹,国防大学政治学院教授,管理学博士,研究方向为档案信息化、档案法规标准。
Abstract The ARCHANGEL project, led by the University of Surrey in UK and involving several national archives, aims to design, develop and apply a service prototype that ensures the long-term integrity of digital archives using distributed ledger technology (blockchain). The research content of the project mainly includes building blockchain, establishing archives integrity verification framework, developing prototype system, and exploring user needs and public attitude. The functions implemented by the ARCHANGEL project include creating digital fingerprints for archives, building a platform for archives blockchain, ensuring long-term authenticity of archives, and creating trusted digital archives. The enlightenment that ARCHANGEL gives us is that archival organizations can use blockchain to build a trusted platform, achieve decentralized storage and certificate management, and change the past pure archives management into shared management with multi-party collaborative interaction and mutual restriction.
Keyword digital archives; blockchain; DLT; storage and certificate; Hash value; trusted; integrity; ARCHANGEL
2017年,國外报道了一种被称为“深度伪造”的视频换脸人工智能技术。2019年8月,在我国社交媒体上也有类似换脸软件成为爆款。任何人只需提供一张人脸照片,就可以将选定视频的人物面部替换掉,生成新的视频。该技术引发关于信息安全、肖像权以及伦理问题的广泛探讨。公众对数字文件再次产生信任危机。
针对深度伪造,英国萨里大学(University of Surrey)联合英国国家档案馆(The National Archives,简称TNA)、开放数据研究所(Open Data Institute,简称ODI)等机构,于2017年6月30日开始开展一项名为ARCHANGEL的研究,以图提供一种解决方案。该项目旨在利用分布式账本技术(Distributed Ledger Technology,简称DLT)设计、开发和应用一个确保数字档案长期完整性(Integrity)的服务原型,目的“不是检测何为伪造,而是证明何为真实”[1]。
一、ARCHANGEL项目的技术背景
ARCHANGEL项目的技术基础是分布式账本技术DLT。DLT是一种在网络参与者之间共享、复制和同步的数据库。它记录参与者之间的交易,例如资产或数据交换。账本不需要受到所有参与者信任的第三方控制即可顺畅、安全地操作和运行。参与者根据共识机制制约和协商账本中记录的更新。每个参与者都有一个账本的拷贝,都可以通过公私钥以及签名同时维护账本,其账本与别人的账本是同步的。每条记录都有一个时间戳和唯一的密码签名,使得账本成为网络中所有交易的可审计历史记录[2]。通过网络可以持续地对参与者创建、存储和传播的信息进行检测跟踪和完整审计。在未授权的情况下改变信息及其历史并非完全不可能,但是相当困难。因此,DLT使得通过网络存储和传送的信息具有高度的可信赖性,参与者可以相信信息不会被篡改,并且可以控制对信息的访问。
有一个技术与DLT紧密相关,即区块链。区块链是一种由数据区块按时间顺序链接形成的链式数据结构。它是网络中多方参与维护的一个以密码学方式保证安全可信的去中心化共享账本(Decentralized shared ledger)。区块链是去中心的,即记账工作不是由某一单独的核心组织完成,而是由区块链网络中每一个参与节点完成。节点间采用竞争方式,每个人都有可能参与记账,改变数据库。竞争方式就是系统会自动选出在一段时间内记录最快、最准确的节点,将其设定为记账者。它记完账,把所记录的账本传送给每一个参与节点。每个参与节点都备份一份完整的账本。
当前的哈希运算都是在字节层面对数字文件的二进制值做运算。它对于二进制的更改相当敏感,若有一个字节不同,则哈希运算会产生完全不同的哈希值。ARCHANGEL研究者认为这不适用于档案。以视频档案为例,同一段视频如果从AVI格式转为MOV或MPEG-4,它们内容完全相同,但二进制结构并不相同,哈希值也完全不同。ARCHANGEL尝试研发的专用哈希算法是“一种内容感知的哈希算法”[16]。
ARCHANGEL研究者开发了一种对视频中包含的内容敏感的深度神经网络。它是一种人工智能结构,基于定制的机器学习方法抽取不同格式档案的内容特征信息用于开发专用哈希算法。对视频档案等特定档案使用该算法进行哈希运算,即使档案格式变了(即档案的二进制代码完全改变),只要内容未变,则运算后的哈希值依然不变。专用哈希算法是ARCHANGEL项目的一个核心内容和成功与否的关键。ARCHANGEL力争使其原型化。
(3)初始档案哈希值存入区块链。存入区块链的信息共有四个部分:一是数字档案的文件名或全局唯一标识符(global unique identifier,简称GUID)。二是内容哈希值和表示内容哈希过程的唯一标识符。三是专用哈希算法的哈希值。如果数字档案的哈希运算采用的是专用哈希算法,则需要将该算法的二进制代码进行标准哈希运算,得到该算法的哈希值一同存储在区块链上。四是补充元数据。例如档案管理员的注释、发布日期、版本信息等,主要用于关联到该数字档案。ARCHANGEL采用智能合约技术搜索相关元数据。上述四个部分组成一个新数据块附加到区块链末尾。
在区块链中并不保存数字档案原文。一是保密,避免泄露档案内容信息。哈希算法是不可逆的单向算法,即不能从哈希值推断出数字档案或其内容。二是区块链不适合存储大量数据,数字档案尤其是视频档案宜存储在离线链接中。
(4)初始档案转换为存储档案。档案馆对数字档案进行安全存储和保存。在这个过程中会始终面临一个挑战,即有可能需要转换数字档案的格式。初始档案经转换后变成档案馆的存储档案,这种转换可能会有多次。这使得内容感知的哈希算法变得更加重要。
在数字档案的存储过程中还可能涉及内容更改问题,这在档案管理尤其是科技档案管理中是正常情况。如果在存档多年后更改了档案内容,则需要将数字档案更改版本的新哈希值上载至区块链,并适当增加更改原因和执行者的元数据详细说明。
(5)得到存储档案哈希值。一段时间乃至若干年后,当需要利用和验证数字档案时,从档案馆读出存储档案,对其执行与进馆时相同的哈希运算,得到存储档案的哈希值。
(6)对比两个哈希值完成内容完整性验证。从区块链中检索出初始档案的哈希值,将其与存储档案的哈希值进行对比。如果两个哈希值完全相同,则说明所存数字档案内容完整,是可信的数字档案;如果两个哈希值有一位或一位以上的数值不相等,则说明所存数字档案内容完整性遭到破坏。
对比验证是开放的,只要利用者可以查看档案原文,就可以借助区块链验证其内容完整性。如果哈希运算使用的是专用哈希算法,则利用者还必须向AMIs请求该算法的代码或网络模型等实例才能进行验证[17]。
(7)审计追踪。审计追踪的内容在图1中并没有体现。采用区块链技术的一大优势就是所存信息可追溯。通过区块链平台,除了验证数字档案中未经授权的改动外,对于任何授权的改动,都有一条透明、可审计的踪迹。当两个哈希值对比出现不等同的结果时,档案馆可以检索和追溯在区块链中存储的哈希值来明确造成内容不完整的原因,是技术故障还是人为篡改。
3.开发原型系统。ARCHANGEL基于档案完整性验证架构在以太坊公共测试网(Rinkeby)上实现了原型桌面系统。系统基于以太坊(Ethereum)的原因在于,它是当前较为成熟并在全球应用较广泛的DLT平台,既可以存储数据,又可以执行智能合约。
ARCHANGEL原型系统利用Solidity语言开发实现。该语言运行在以太坊虚拟机上,是用于编写智能合约的面向对象的高级编程语言。
如前所述,系统使用TNA开发的DROID识别数字档案格式。此外,DROID还能识别创建时间长短、文件大小、上次更改的时间。ARCHANGEL设定其过程是通过基于云的服务执行的。该云服务通过DROID和内容提取来接受数字档案上载和运行。
图3[18]是ARCHANGEL原型系统搜索功能的屏幕截图。利用者可以搜索数字档案的GUID、元数据或哈希值,以验证其完整性。
ARCHANGEL原型系统目前正处在测试与反馈阶段,正在通过英国、爱沙尼亚、挪威、澳大利亚、美国的国家政府档案网络进行试验。
4.探索用户需求与公众态度。ARCHANGEL的研究非常开放,項目组一直致力于尽可能公开地工作,例如通过开放许可发布原型系统的所有代码,在研究过程中与档案工作者和各界相关者广泛交流,目的是全面而深入地探索档案管理员和最终用户的用户需求与公众的态度。这是ARCHANGEL的研究内容之一。
ARCHANGEL项目研究者认为,在过去传统档案管理过程中,信任在很大程度上源于档案机构的声誉和地位。而未来,随着原生数字档案增多,信任也要由技术来维系,尤其是分布式账本技术[19]。类似于法庭上对DNA证据的接受,哈希值最终可能会被作为内容证据接受。但是要建立这样的信任水平,需要强大的、公众参与的、可访问的区块链。公众必须了解为什么在DLT解决方案中哈希值可以作为完整性的保证[20]。
目前,在英国境内的AMIs还没有数字档案验证的先例或判例法。关于ARCHANGEL技术平台在社会中的作用有巨大的研究潜力。其研究的发展不仅与法律有关,而且与档案实践本身的发展密切相关。
三、ARCHANGEL项目实现的数字档案馆功能
1.打造档案的数字指纹。ARCHANGEL项目研究者认为,他们通过标准哈希运算和专用哈希运算生成的是“国家历史的数字指纹”[21]。他们使用人工智能和区块链为真实视频等档案创建和注册防篡改的数字指纹。指纹可用作参考点去验证在线发布的视频或在电视上广播的视频的有效性[22]。将这些数字指纹存储在区块链中,实质上存储的是“证据的证据”[23]。
2.打造档案区块链平台。ARCHANGEL打造了一种档案区块链平台,它是由包括若干国家档案馆在内的众多组织维护的防篡改数据库,使档案馆能够证明其档案完整性和出处。该档案区块链平台由不同学科、不同国家/地区的多个AMI组成,实施“许可记账”,从而相互加强彼此数字档案完整性。该区块链是公众可读的,利用者可以随时对档案馆的档案进行公开验证。
3.保障档案长期真实性。ARCHANGEL通过打造档案区块链平台确保数字档案在十年乃至一个世纪的时间跨度中的完整性,即ARCHANGEL所打造的是档案的长期完整性。其“完整性”“不是齐全完整的意思,而是信息未被損害或破坏的特性,是真实性概念的核心”[24]。所以,ARCHANGEL的目标是保障档案与记忆机构的数字档案长期持续保存并可验证内容的真实性。由于区块链信息可追溯,数字档案自移交进档案馆后的全程真实性变化皆可追溯。
4.打造可信数字档案馆。ARCHANGEL保障档案长期真实性。真实性是社会公众对档案馆信任的基础。传统档案管理中的信任建立在档案机构声誉、地位的基础之上。ARCHANGEL应用区块链使得保存在档案馆中的公共档案可信、不变和可审计,将信任转变到技术基础上。技术也许永远无法完全取代其他形式的信任,但区块链这样的技术能够增强传统信任的基础。ARCHANGEL基于区块链存证打造可信数字档案馆。
四、ARCHANGEL项目的启示
1.可信平台。区块链被称为“一场信任革命”,它改变了整个社会的信用体系。ARCHANGEL项目打造可信数字档案馆,力图构建区块链平台解决数字档案的信任问题。数字档案的信任问题是由技术引发的,最终有可能通过技术去解决。ARCHANGEL项目是一项社会技术可行性研究项目。技术机构、档案机构与终端用户共同创建和评估一种新型的可信的区块链平台。通过原型试验明确在可信任的分布式技术环境下如何开展档案实践,维护档案内容的真实性,探索服务的可持续模式以及公众的态度,从而建成开放利用的、可信的公共数字档案馆。
2.去中心化。在传统的档案管理中,档案馆(室)是中心的、权威的机构,维系着档案的真实与完整。社会公众对档案的信任很大程度上源于对档案机构的信任。数字档案出现后采取的数字签名、可信时间戳等防篡改技术,在档案机构之外又附加了CA(Certificate Authority)认证机构、联合信任时间戳服务中心(Time Stamp Authority,简称TSA)等机构,通过各种权威机构共同维系档案的真实与完整。对档案的信任始终是一种围绕一个或几个机构为中心的信任。ARCHANGEL用区块链实现的是一种去中心化的信任模式,建立起基于技术的信任。ARCHANGEL仍然需要大量的机构参与,但其信任逻辑“在主体上不再局限于中心化的保管机构,而是通过多个非利益相关方之间的制约和协同来构建信任体系”[25]。
3.共同治理。区块链的本质是一个去中心化的分布式账本系统。在去中心化的结构体系中,系统的各个参与方地位平等。共识机制是区块链技术的核心。ARCHANGEL通过共识机制确立“许可记账”。在ARCHANGEL打造的档案区块链平台中,基于以太坊执行智能合约。智能合约经其脚本代码预置业务规则,表明业务逻辑,并实现合约的自动执行。在这样的背景下,采用区块链存证及验证数字档案的真实性,是对档案管理的根本改变,将以往纯粹的管理变成了网络环境中的协作互动、相互制约与共同治理。“区块链为档案馆提供了一种强调彼此信任的方式,从而引入了一种全新的档案馆集体防御形式”,在这种共同治理中,“档案馆与国内外其他遗产组织之间互动的能力和意愿是其成功的关键”[26]。
五、ARCHANGEL项目的未来发展
ARCHANGEL指明了可信数字档案馆发展的一种方向,但其目前处在原型系统开发和测试阶段,离真正的实用还有一段距离。其未来还准备研究和解决一系列问题。例如:智能合约使用问题,目前智能合约只用于写入区块链的关口,未来还要探索在搜索或验证中的使用[27];全面可信问题,目前所验证的档案完整性只是“档案信任概念中的一个方面,除此之外还包括内容准确性、来源可靠性等多个方面”[28];技术的长寿问题,DLT是一项相对较新的技术,虽正在发展但远未成熟[29];……每一个问题的解决都将是ARCHANGEL向可信数字档案馆迈出的坚实一步。
参考文献
[1][16][22]Ben Dickson. Can anything protect us from deepfakes?[EB/OL].(2019-06-19)[2019-09-21]. https://www.pcmag.com/commentary/369058/can-anything-protect-us-from-deepfakes.
[2]Abb.账本与分布式账本[EB/OL].(2018-11-16)[2019-09-21]. https://www.sohu.com/a/275904172_100180075.
[3][8][13][21][23][29]Mark Bell, Alex Green, John Sheridan, et al. Underscoring archival authenticity with blockchain technology [J/OL].[2019-09-21].https://insights.uksg.org/articles/10.1629/uksg.470/.
[4][7]ARCHANGEL. ARCHANGEL is a go! [EB/OL].[2019-09-21].http://www.archangel.ac.uk/about/2017/06/30/archangel-go.html.
[5][9][12][14][17][18][20][26][27]J. Collomosse, T. Bui, A. Brown, et al. ARCHANGEL: Trusted Archives of Digital Public Documents[J/OL].[2019-09-21].http://arxiv.org/pdf/1804.08342.pdf.
[6][19]Jared Robert Keller. Challenges in using blockchains to build trust in digital archiving [EB/OL].(2018-10-18)[2019-09-21]. https://theodi.org/article/challenges-in-using-blockchain-to-build-trust-in-digital-archiving/.
[10]Matthew Beedham.區块链vs分布式账本技术:别再混淆了,这两个不一样[EB/OL].(2018-07-31)[2019-09-26]. https://baijiahao.baidu.com/s?id=1607469482037417723.
[11]鸿杰.“分布式账本”何以重塑传统记账模式?[EB/OL].(2018-12-11)[2019-09-26]. https://www.jianshu.com/p/990082f8b99e.
[15]Jared Robert Keller. Blockchains potential role in the future of archiving[EB/OL].(2018-04-19)[2019-09-22]. https://theodi.org/article/blockchains-potential-role-in-the-future-of-archiving/.
[24]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(6).
[25]杨茜茜.基于区块链技术的电子档案信任管理模式探析——英国ARCHANGEL项目的启示[J].档案学研究,2019(3).
[28]Darra L.Hofman. Executive Summary: Blockchain Technology and Archives[EB/OL].[2018-09-26].https://ischoolblogs.sjsu.edu/blockchains/wp-content/uploads/2018/07/Hofman-National-Blockchain-Forum-Executive-Summary.docx.