黄新平
(清华大学公共管理学院 北京 100084)
近年来,我国政府信息公开工作进展迅速,越来越多的政务公文、政策法规、规划计划、工作动态、统计信息等政务信息资源通过政府门户网站发布,这些资源作为政府行政过程的真实记录和凭证,具有重要的查考价值,是当前数字资源长期保存的重要内容。对于政府网站信息资源的长期保存,选用合适的技术策略是关键。区块链作为一种去中介化的数据库,能够实现对大规模数据的长期保存,它依托分布式账本不可更改、公开验证的特点,为数据的安全与共享管理提供了新途径[1]。文章创新性地将区块链技术应用于政府网站信息资源的长期保存,提出基于区块链的政府网站信息资源安全保存方案,针对现阶段政府网站信息保存面临的信息碎片化、安全风险高等问题,从安全性和效率两个方面着手,充分发挥区块链的技术和管理优势,高效率、低成本地获取与组织散存在各级政府网站上有保存价值的信息资源,使其在整个生命周期内以安全可靠、真实可信的形式永久保存。
2008年Satoshi Nakamoto发表的比特币白皮书中,首次提出区块链的概念[2]。作为分布式、去信任的基础架构,区块链提供了一种基于分布式账本实现信任的技术方案。它融合了现代密码学、点对点(P2P)网络架构、共识机制等要素,可以实现数据验证、交换、存储等功能。从数据角度看,区块链不仅体现为数据的分布式存储,也表现为数据的分布式记录和表达,并由系统参与者共同维护。区块链中的每一个节点都有完整的数据备份,任何数据一旦保存就不可修改,存储的信息越多,更改账本中的信息需要耗费的代价越大,系统的安全系数也越高。
从本质上看,区块链是按照时间序列对数据区块进行组合,形成链状的数据存储账本。作为全新的分布式计算模式,区块链包括多个区块和链状结构,可对大规模数据资源进行存储,同时借助加密技术保障数据存储、传输安全,借助智能合约实现自动化数据评价、处理与管理。每一个区块由区块头和区块体两部分构成,其中区块头涵盖时间戳、哈希值等内容,区块体涵盖了哈希树,记录了该区块中所有存储信息的密钥阵列,具体如图1所示[3]。区块链的工作原理并不复杂,其实就是通过去中心化、去信任的方式,由网络上的所有节点对分布式账本进行共同维护,并由所有节点共同验证记录数据的真实性。
图1 区块链的基本结构
区块链属于跨学科的复合型技术,是集成多项研究成果的综合系统。区块链以打通信息孤岛的方式,消除不同系统之间的壁垒,提高了信息服务与价值传递效率,保障了个人隐私安全。越来越多的基于区块链的实践项目落地,体现了其巨大的应用价值。如今区块链引起了不同国家、不同行业的相关讨论,被普遍认为是降低运作成本、提高管理效率的有效途径,并被广泛应用于智能制造、金融服务、信息管理、社会公益等众多领域[4]。尽管目前部分学者对区块链持质疑态度,认为其是一种概念炒作,但不可否认的是,区块链特有的信息记录、传输方式,是继互联网、大数据之后的又一颠覆式发明,能够解决传统信息技术无法解决的问题,必将掀起全球范围内的技术与产业革新,在“技术—经济—社会”生态系统的良性发展方面发挥更大的作用。
政府网站是政务信息公开与服务的重要窗口,其发布的政务信息资源具有动态性、增长性、交互性、技术依赖性等特点,这些特点致使当前政府网站信息资源保存面临存储效率低、可信度差、安全风险高等问题。利用区块链技术建立政府网站信息资源保存体系,能够实现海量政务信息资源的动态安全存储及长期存取,进而推动“互联网+政务”的优化与完善。
政府网站承载的信息资源体量大、维度多、类型复杂,在线政务服务对信息资源的存储、分析、共享要求高,并且涉及隐私保护、权限管理等问题。要实现海量政务信息的有效利用,就必须精准获取各类信息资源。区块链基于点对点网络的通信方式,可以提高信息传输的准确率。而准确的信息传输是信息精准获取的重要保障。传统的政府网站信息资源管理,很难对海量异构数据进行筛选、评价与综合分析,这就导致大量信息时滞,无法保障精准传输。区块链以P2P传输的方式,能够将所有信息公开呈现给用户,所有用户都可以随时随地对发布的信息进行评论、转发,也可以实现不同系统、部门之间的信息共享,从而以去中介化的特点,扩大政务信息资源的利用与传播范围[5]。
区块链是多个区块相互连接形成的数据链,根据生成的先后顺序,不同的区块生成时都会加盖对应的时间戳,这是该区块存在性的证明,能够鉴定存储信息的所有权归属和真实性,实现存档数据的溯源,从而保障要保存的信息资源不被伪造、篡改。此外时间戳的开放、透明特性,使得每个数据区块都处于全网监控之下,任何数据的篡改都需要耗费巨大的成本[6]。政府网站信息资源涉及社会生活方方面面的内容,在开放、交互的网络环境下,信息动态增长、分享与转载导致其更新频繁,且重复、无序内容较多,以至于很难辨别信息的源头与真实性。而区块链能够自动对采集的每个网页信息加盖时间戳,并将每一条信息的转发、修改记录存储于数据链中,这就方便用户以溯源的方式,找到完整、真实的原创内容。
区块链每一个区块的前端,都包含有前一个区块的引用结构,前后区块相接形成动态分布的整体数据链,能够将政府网站发布的信息资源内容及其元数据,融合成为一个完整的数据实体,保障数据存储的完整性。同时作为去中介化的数据库,区块链由网络中多个节点共同参与记录、计算和有效性验证,能够降低信息资源流失的风险,提高政府网站信息保存的安全防护水平。分布式的数据存储方式,让每个节点的账本数据都相同,这就意味着对单个节点的篡改并无意义,单个节点的数据错误不会给整体数据带来影响[7]。这种分布式数据库,可以让所有的节点共同维护存储信息,克服中心化网络的不足,避免由于恶意攻击导致整个系统瘫痪,确保政府网站信息资源保存的完整性、安全性。
在开放的网络环境下,归档保存的政府网站信息资源不可避免会受到外界干扰,如黑客攻击、病毒入侵等。区块链以分布式账本的方式,将经过验证的信息添加至区块中,并永久存储起来,不可逆,不可更改。同时它以黑客难以破解的非对称加密方式,对每一条存储信息进行单独加密,让其拥有独特的属性,唯有掌握私钥的所有者才能解密。而信息所有者也可以加密既有信息,唯有掌握公钥的存档主体才能验证查阅。这样用户能够在终端设备上运行节点,以加密的方式将信息存储于网络节点,不同节点之间互联互通,形成一个分布云,降低了保存信息被恶意攻击的可能性。同时区块链也能够通过风险识别与评价,选择与优化组合各种风险防控技术,制定合理的风险防控方案,保障整个保存系统的有序开展[8]。
政府部门通过部署本地区块链节点,能够实现业务数据与分布式账本的同步,在不依赖第三方的情况下提高数据传输的准确性,以及网站信息资源的存取效率。为了充分利用区块链实现智能管控,文章基于信息生命周期理论,设计了如图2所示的政府网站信息资源安全保存流程,旨在形成权威可信、长期保存、智慧共享的政务信息区块链网络。
图2 基于区块链的政府网站信息资源安全保存流程
对政府网站信息进行采集,是实现信息资源安全保存的首要环节。信息采集包括两个方面,一是对政府网站发布的信息进行采集,保障采集的完整性,并实时感应监测线上数据动态。二是对通信系统、终端设备相关的数据进行采集,包括传感设备产生的信息、智能手机等终端数据、用户浏览痕迹和行为数据等。为避免政府网站的数据被人为篡改,尤其是具备系统管理权限的用户伪造、删改数据,保障元数据的真实、可靠性,区块链依托P2P通信技术,实现对不同网络节点的组织,通过传感设备采集异构数据。与常见的中心化服务网络不同,区块链以网络节点的方式,采集政府网站的数据,并以公钥作为标识,向当值数据记录节点提交上传请求。然后以验证公钥的方式确认该节点是否具备上传权限,并对上传请求进行回复。节点会借助私钥对上传数据进行签名,并用当值数据记录节点的公钥,对上传数据进行加密,最后将加密的采集信息存储于分布式数据库中[9]。
对于采集的海量异构政府网站信息资源,需要进行清洗、分类、格式转换等操作。首先,按照统一的标准,将采集的政府网站信息资源分为多媒体数据、轻量级数据两类。对视频、音频等多媒体数据进行压缩处理,减少存储空间,避免信息冗余。然后,对链下数据进行清洗、筛选等预处理,与链上数据进行对比校正,识别所采集数据的完整性、真实性与有效性。对于分布式节点残留的历史数据,还需要做好数据转化校正工作,以满足区块链共识机制[10]。最后,针对不同的目标用户群体,分别建立面向社会公众的公共链、面向政府部门的联盟链、面向涉密用户的私有链,并做好相应的数据分链录入工作,通过设立不同链之间可靠的数据交互与共享机制,解决政府网站信息资源保存涉及的安全性、完整性、逻辑孤岛等问题,以统一的数据表达方式,保障政府网站信息资源的规范化存储。
区块链采用分布式账本技术,将所有内网的计算机终端作为存储节点,在读取政府网站信息资源及其元数据后,根据内容计算得到相应的摘要哈希值,在分类标注后将其分布存储于不同的区块中,分散各节点对数据的调用需求,缩短调用数据的时间。一旦数据被写入区块链,每个节点都会产生相应的区块链账本,在不通过第三方的情况下,任何节点都可以对保存的政府网站信息进行溯源,保障存储数据的真实性[11]。同时为实现政府网站信息资源的安全存储和再利用,政府各部门之间有必要打通信息壁垒,以联盟链实现政府网站信息资源的统一存储,借助哈希函数、时间戳等技术保障存储数据可溯源,确保大规模数据保存的安全性。对于涉密信息,需要借助哈希加密技术进行数据脱敏,并制定不同部门的私有链读写权限,以非对称加密方式保障数据不可篡改,从而实现政府网站信息资源的分布式安全保存。
智能合约概念最早在1994年由学者尼克·萨博提出,最初被定义为一套以数字形式定义的承诺,它作为一种嵌入式程序,可以内置在区块链数据中[12]。在政府网站信息资源归档保存后,可借助智能合约编写可执行代码,创建不同归档信息资源对应的数据身份与保护合约,并设计对应的规则和触发条件,主要包括数据身份管理合约、数据信息合约、数据检索合约、数据管理合约等。其中数据身份管理合约可以对所有保存信息的身份标识进行记录;数据信息合约用于记录与保存对象相关的哈希值、创建时间、IPFS地址等;基于数据检索合约,可将不同数据的相互关系存储于Hash表上,方便用户分类别检索;依据数据管理合约,提供数据的检索、发布等函数接口,实现对存档信息的鉴定、保护、管理与共享[13]。智能合约的灵活应用,可以实现归档政府网站信息资源的自动化、精细化管理,自动审核涉密信息使用权限,自动解密涉密文件,这样可极大减少人工操作的失误,保障归档信息服务的安全性与稳定性。
文章利用区块链去中介化的思想,采用B/S体系架构,对政府网站信息资源进行分布式采集与管理,将存储设备分散于多个服务节点上,构建如图3所示的政府网站信息资源安全保存技术框架,包括区块链层、智能合约层、逻辑层、应用层四部分,以达成政府网站信息资源安全保存与管控的目标。
图3 基于区块链的政府网站信息资源安全保存技术框架
区块链层是建立在TCP通信协议之上的分布式系统,包含数据区块、时间戳、数据加密、链式结构等内容[14]。该层用于对采集获取的海量政府网站资源进行实时的动态存储与分布式安全管理。其中数据区块对采集的政府网站信息资源进行数据清洗与处理,使获取的数据能够通过交易信息验证,确保整个区块链网络的安全运行,并能根据信息采集的实时动态需求产生新的区块。时间戳在用于描述政府网站信息资源内容的元数据中增加了“时间”属性,使得采集与保存的信息可追溯,从而确保信息的原始性与真实性。数据加密综合采用多重签名技术与Merkle树等方法,对存储的政府网站信息资源进行加密验证与内容鉴定,保障信息的准确性与完整性。链式结构则采用数据冗余分片技术,将数据区块中的政府网站信息资源分为多个信息片段,并经过时间戳与数据加密处理后,将其分布式存储于不同的节点中,实现对海量政府网站信息资源的链式安全存储。
智能合约层用于封装政府网站信息资源保存系统的各类脚本代码、算法以及由此生成的程序化合约,主要涉及合约部署、合约测试、合约接口、共识算法、激励机制等[15]。如果说区块链层作为整个技术框架的底层承担数据获取、数据表示与数据存储功能的话,智能合约层则是建立在区块链层之上的程序化规则和算法,是实现整个保存系统去中心化和操作数据的基础。该层可以根据系统的功能需求灵活编程,遵照规范的合约部署,自由编写实现政府网站信息资源安全保存所需的各类智能合约。经过合约测试后,利用合约接口技术形成可编程控制的程序代码,用于操作区块链层中的数据,并基于共识算法实现区块链层中链式结构中不同节点之间数据的同步处理。同时为了提高合约运行的效率,可以将激励机制加入智能合约编写模板中,以此避免人为干预的影响,从而降低政府网站信息资源保存的管理成本。
逻辑层为整个技术框架的构建提供重要的业务逻辑支撑,该层可以借助元数据管理、保存策略管理、安全管理、系统管理等业务逻辑对应用程序进行有效控制,并利用API接口与应用中间件技术实现相关应用程序的整合及新应用程序的构建,从而达到扩展系统应用服务功能的目的。同时还可以应用数据访问组件等,利用其提供的业务逻辑,为政府网站信息资源安全保存系统的应用程序提供来自区块链层的数据服务及智能合约层的规则和算法,实现应用层中政府网站信息资源采集、管理、存储、利用等功能的数据存取与合约应用。此外,该层通过建立政府网站信息资源安全保存系统构建涉及的数据规范、数据采集、数据分析、数据共享、业务管理、技术应用、安全运维、系统集成等标准,为政府网站信息资源安全保存技术框架的创新应用提供保障。
应用层主要面向政府部门、企事业单位和社会公众,以防伪服务接口和可视化界面的形式为其提供归档政府网站信息资源的在线浏览查询、数据可视化分析、信息凭证、历史查询等多元化服务。用户可以利用终端设备通过网络访问该层提供的各种服务,即当用户提出服务请求后,应用层对接收的用户请求信息进行处理,然后提交至逻辑层进行深度分析,在智能合约层的操控下,将用户所需的数据从区块链层中读取后反馈给用户,完成相应服务。同时,为了避免外界对各种服务应用程序的攻击,该层还提供可扩展的安全验证服务接口,并基于智能合约层中的程序化合约,提供相应的用户身份验证服务,对应用层可能出现的流量攻击、未授权访问等进行拦截,确保用户对区块链层中的数据能够安全访问。
数据安全是政府网站信息资源采集与保存要解决的一个核心问题,要确保政府网站信息资源的完整性、真实性与可靠性,实现归档政府网站信息资源的安全流通与共享,有必要发挥区块链技术在安全评估、数据加密、可信性认证、信息安全传输等方面的优势,为政府网站信息资源的安全保存提供保障。
一方面,要做好政府网站信息资源全生命周期的安全测评工作,通过全方位评估区块链技术框架的安全性,对不同的应用场景进行安全测试,发现政府网站运行环境、基础设施、网络协议等存在的漏洞,制定有针对性的防控与补救措施,切实保障政府网站信息资源采集、管理、存储、利用等整个生命周期内的安全管控;另一方面,要在区块链网络运行过程中定期做好安全评估工作,若发现资源采集与保存过程中存在不安全的因素,如设置了不合理的权限、开放了涉密资源等,就需要从协议、硬件、软件等多个维度,给予更加安全的配置,关闭不必要的接口,备份私钥文件,对智能合约外部接口相关参数进行合理设置,以降低政府网站信息资源安全保存过程中面临恶意攻击的可能性。
首先应用区块链的链式存储策略实现对采集的海量政府网站信息资源进行分布式存储,并在不同的节点上整合处理各类资源,经过科学分类标注后,针对不同类型的资源进行不同的加密配置,提出不同的数据加密方案。在此基础上,发挥区块链可以实现信息安全加密认证的作用,并依据逻辑原则设计区块链的记账加密算法,综合利用数据隔离(数据分级和访问控制等)、密文存储(数据加密、密钥管理、密文检索)、数据可用性保护(多副本、数据复制、容灾备份)以及数据完整性验证等方法和技术来实现对政府网站信息资源的多重加密存储,确保在其整个生命周期内真实、可靠、完整、长期可读[16]。
在应用安全管理层面上,用户通过身份认证后,可获得访问和使用归档政府网站信息资源的权限。即实现对用户的身份和权限进行管理是应用安全管理的目的,为实现该目的,可以从身份管理、权限管理、策略管理和内容管理这些方面来部署安全管理措施。譬如,基于区块链的自信任与分布式存储机制[17],借助区块链链式节点之间的PBFT、POW等共识协议,在确保链上的授权节点符合标准的审计认证机制的基础上,将某个用户的身份与权限等可信性认证变为多个用户之间的共识认证,从而在不需要第三方介入的情况下,完成用户认证授权,并将认证结果分布式存储于多个节点上,确保用户认证授权的动态性与可持续性。
传统的基于数据库的政府网站信息资源保存系统在实现资源共享方面多存在安全性低的问题。而利用区块链技术构建相应的系统,能够依托其链式结构,在共识机制驱动下建立点对点的信任,通过分布式存储安全验证,形成有序可信的、去中心化的分布式数据库[18],这样不仅方便不同节点之间的信息传输与共享,而且大大提高了信息共享的安全性。同时,还可以利用联盟链的方式,通过制定统一的数据交互共享合约,以达成网络共识,基于智能合约的不可篡改、可追溯、安全加密等技术特征,促进存储信息在不同数据区块之间的安全流通,从而实现海量归档政府网站信息资源的安全共享。
区块链作为新兴的IT技术,应用日益广泛,它为政府网站信息资源的安全保存提供了新思路、新方法与新途径。区块链的点对点传输、去中介化、数据可追溯、智能合约等技术优势,可以确保政府网站信息资源在其整个生命周期内真实、可靠、完整、长期可读,有效解决当前政府网站信息资源长期保存面临的信息碎片化、安全风险高等问题。文章创新性地将区块链技术应用于政府网站信息资源长期保存,提出了基于区块链的政府网站信息资源安全保存技术框架及相应的保障策略,研究成果对建设新型政府网站信息资源长期保存系统具有很好的参考价值。