吴功才/杭州职业技术学院信息工程学院
关键字:档案管理;数字化;区块链;数据安全
据教育部官网2019年教育统计数据显示,全国共有普通高等院校2688所,初高中学校7.7万所,小学16.6万所,共计在校生人数为2.428亿人[1]。档案是学生学籍和成绩的证明,学生一人一档,档案数量巨大,数据安全性要求高。2017年,国家档案局正式将“区块链技术在电子档案管理中的应用”列入科技项目选题指南[2]。2019年10月24日,习近平总书记在中央政治局第十八次集体学习时强调,“要把区块链作为核心技术自主创新重要突破口,加快推动区块链技术和产业创新发展”[3]。近年来,如何有效的将区块链技术融入到档案管理工作中去成为了研究热点。本文研究的就是如何使用当前大热的区块链技术来安全、快速、有效的管理学生信息档案。
最初,学生的档案都是使用纸质来记录和保存的,纸质档案具有管理效率低下、不易保存、不易调转的缺点。从20世纪90年代开始,美国最早开始了对档案馆的数字化研究[4]。20世纪90年代末,我国国家档案局提出了建设数字档案馆的设想,致力于将纸质档案、音频、视频等材料数字化,实现档案的快速查询,永久存储和数据共享[5]。学生档案的数字化便于存储照片、音频、视频等多媒体档案,也便于档案管理信息系统的开发、应用以及档案数据在互联网的在线预览、调转和分享,极大的提高了学生档案管理工作的效率。
但是,数字化档案数据容易被不留痕的篡改,给不法分子或者心术不正的档案管理工作人员留有较大的作案空间。重庆某职业学院原某领导借向主管单位移送个人档案之机,篡改、伪造个人档案资料32处。数字化档案数据容易受到的网络黑客的窃取,而且网络黑客可能来之世界各地,令人防不胜防。档案数据聚集的数字化档案管理中心一旦遇到系统、存储介质等软硬件的故障或者电力供应故障,可能会造成难以预料的档案数据丢失、破损。传统的档案认证方式繁琐导致用户体验度极差,档案信息过度分享,导致隐私泄露问题严重[6]。数字化档案诸多的缺陷,都给区块链技术在档案管理中的应用提供了巨大研究动力和应用空间。
区块链是一种利用链式数据结构来识别、传播和记载数据信息,利用分布式结点共识机制来更新数据的一种对等网络基础架构。区块链网络融合了分布式数据存储、非对称加密技术、共识算法、智能合约等多项技术,实现了去中心化管理、数据不可篡改、数据变更必留痕、数据必唯一等特性。
相较于其他的数据信息,学生档案数据特征明显:学生档案数据量庞大、档案数据变更频繁、档案调转频繁、不能随意篡改、档案数据的保密性要求高。下面对学生档案管理的需求、常规档案管理系统(MIS)技术性能及区块链技术性能从多个角度做一个对比,具体如表1。
表1:区块链技术适用性分析表
传统的常规档案管理信息系统(MIS)重在档案信息的存储、查询、业务管理等基本功能,而对档案数据的篡改可追溯性、数据的保密性、档案调转的安全性和保密性等就显得无能为力。从上表可以看出,区块链技术可以满足学生档案数据管理的大容量、分布式存储、变更可追溯、冗余性好、数据完整性、唯一性和保密性等多方面的需求,是一种匹配度极高的技术解决方案。区块链数据虽然说是不能篡改的,但是可以通过添加新区块来达到更改数据的效果。区块链可以通过本文后续提到的零知识证明、安全多方计算等方式来确保区块数据的保密性。2018 年R3 和CryptoBLK 共建联盟链Voltron 项目,将原本纸质信用文档的信用验证程序从5—10 天减少到不到24 小时。相信区块链技术在学生数字化档案管理的应用也将极大的提升学生档案的管理效率。
第一,数字签名技术确保“你的档案能够安全的调转到目的地”。基于区块链技术的档案管理平台对学生档案进行调转等操作时,会对档案数据进行数字签名,数字签名技术能够保证待调转的档案数据的保密性和完整性。数字签名技术主要应用了哈希算法和非对称加密算法。哈希算法可以将任意长度的源消息压缩到某一固定长度的消息摘要。哈希算法具有输入敏感性(如果输入的源信息被轻微修改,输出的消息摘要就会有很明显的变化)和不可逆性(给定任意的消息摘要,在有限时间内很难逆推出源消息)。非对称加密算法使用了公钥和私钥两个不同的密码,顾名为“非对称”,用私钥加密的数据可以用公钥解密,反之亦然。私钥须由拥有者私密保存,而公钥则可以对外公开。假如:中学A 要将一份学生档案调转到大学B,首先对学生档案(DOC)进行哈希运算生成信息摘要(IA),之后大学B 通过查看IA有否更改就可以验证DOC 的数据是否完整;通过使用大学B 的公钥对学生档案(DOC)和加密摘要(PIA)进行加密,保证档案数据的完整性和保密性,具体流程如图1。
图1:数字签名及档案安全调转流程图
第二,哈希算法+时间戳验证“你的档案是正版的”。哈希算法是密码学里的一个重要算法,也是区块链的核心技术。形象的说,哈希算法可以将学生的档案数据装在一个盒里,然后在贴上一个封条,这样一旦有人打开盒子修改数据了马上就会被发现,从而保证了档案数据的完整性,即“这个档案数据就是原来的数据!”。区块链中的每个区块一经创建都会被加上一个时间戳,并和区块数据一起作哈希运算(保证时间戳不被修改),从而申明一个事实“我是最原始正版档案,我不是复制品!”。哈希算法+时间戳完美确保了学生档案数据的原始性和唯一性。
第三,智能合约制定“档案的操作规范”。在中心化的档案信息管理系统(MIS)中,数据操作的安全性、完整性和保密性在很大程度上取决于档案管理员的职业水准和职业操守。一旦档案管理员出于某种目的误操作、泄露了档案数据将会造成难易预计的损失。智能合约就是为了避免在区块链中出现上述情形而设计的。智能合约是可以在区块链上自动执行的特殊程序,其特点是程序代码以及数据均存储于链上,因此拥有防篡改性强、去中心化程度高等特点[7]。智能合约可以是一个区块档案数据读取操作的约定、一个用户权限等级验证的约定、一个档案调转操作的约定等。总之,对区块档案数据的规范操作都可以在区块链设计之初事先定义成智能合约,而智能合约之外的操作请求是不会得到许可的,智能合约准确、严格的规范了档案数据的操作流程。
第四,分布式账本+共识算法避免“管理员说了算”的中心化操作风险。在学生档案区块网络中,区块链分布式账本的内容即为学生的档案数据。分布账本技术就是将区块数据复制出多个副本,并分发到网络的不同节点中存储,这样一个副本的数据被篡改了可以快速的被检测发现。共识算法是区块链中的一种防止分布式服务资源被滥用、拒绝服务攻击的机制。区块链通过共识算法(而不是指定某个节点、某个管理员账号)来确定某次操作(例如:生成新档案数据区块的操作或档案数据调转操作,其实就是一个智能合约的操作)具体由哪一个节点实施,并且可以断定某个节点是否是实施了恶意操作的节点,从而较好的防范了中心节点的恶意操作!分布式账本+共识算法很好的杜绝了类似于中心数据库档案数据易被恶意篡改、管理员操作权限过大等“管理员说了算”现象的发生。
区块链系统根据应用场景和用户需求的不同,技术应用的类型一般分为公有链、联盟链、私有链[8]。联盟链是在节点规模、交易速度、中心化程度介于公有链和私有链之间的一种区块链形式。联盟链是国内采取较多的一种形式,其建立通常是为了服务某一特定领域或达成某一特定目的[9]。本文建议采用联盟链的方式组建学生档案区块链网络,具体的区块网络架构下图2。联盟链中的每个节点就是不同院校的区块网络专用服务器(Block-chain Server,简称BCS)。学校原先的档案信息管理系统(MIS 系统)服务器提供档案信息的采集、审核服务,同时也作为区块网络的代理服务器(Block-chain Proxy Server,简称BCPS)。BCPS 可以通过向BCS 提交“档案操作智能合约”,实现对区块网络中档案数据的规范操作。
图2:学生档案区块网络的架构图
区块网络的学生档案数据安全主要体现在档案数据的完整性、唯一性、保密性三个方面。区块链最原始的设计是确保数据的完整性和唯一性,其哈希算法和时间戳技术对数据提供了很好的完整性 和唯一性保护,但并没有在数据的保密性方面有太多的考虑。学生档案区块网络的数据在档案调转操作过程中是受到非对称加密算法的保密性保护的,但是区块网络的数据通常是在非加密的状态下被分布式存储的,所以具有一定的数据保密性安全隐患。当然我们可以通过增加对称或非对称密码算法对链上数据进行加密实现数据的加密存储,但是加密后的区块数据也对后续数据交易或操作中的共识算法和智能合约的实施造成一定的障碍,这也是阻碍区块链技术在档案数据、征信数据等私密数据应用领域广泛应用的重要因素。
所幸的是,目前出现了一些新的、可行的区块数据保密方式:零知识证明、环签名、安全多方计算和同态加密。零知识证明能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。环签名可以在隐藏交易发送人的前提下,实现区块链上的数据交易。零知识证明和环签名可以在确保学生档案数据所有权信息私密性的前提下,实现共识算法的安全实施。安全多方计算是解决一组互不信任的参与方之间保护隐私的协同计算问题的良好途径。采用安全多方计算技术来设计和实现智能合约的安全执行被认为是最具潜力的解决方案之一[10]。同态加密提供了一种对加密数据进行处理的功能。安全多方计算和同态加密可以在保证学生档案数据私密性的前提下,安全的实施智能合约的相关操作。