钱秀芳
摘要:档案具有历史记录性,有重要的凭证价值,档案的数字化为长期保存和开发利用提供了解决方案,但是在传统的中心化档案管理模式下,电子档案的真实性、安全性问题不容忽视。文章分析总结区块链技术在保证档案的真实性、降低档案归档成本和防篡改等方面的优势,探究基于区块链技术的高校档案管理模式,以期对区块链技术全面应用于档案部门有所帮助。
关键词:高校档案管理;中心化;区块链;防篡改
档案是人们在各种社会活动中直接形成的数据记录,能够还原真实的历史,具备重要的保存与参考价值,并且拥有法律效力[1],因此保证档案的完整性和真实性十分重要。目前我国档案的保存形式主要是以纸质档案和电子档案相结合的形式存在,随着信息技术的不断发展,为解决纸质档案不易保存、管理低效等问题,档案数字化应运而生。
一、我国的档案数字化进程
20世纪90年代末,国家档案局提出了构建数字档案馆的规划,指出实现各类档案的数字化,以期达到档案的长期存储、高效共享和快捷查询等目标[2][3]。在2000年12月通过的《全国档案事业发展“十五”计划》中提出要加快现有档案的数字化进程。2014年国家档案局《数字档案室建设指南》中明确提出了数字档案室的建设原则及内容[4]。2017年南京市建邺区建成全国首家集中式示范数字档案室[5]。如今数字档案的相关规范标准已日趋完善,大数据、云计算、物联网等新技术正逐步应用到数字档案馆的建设中。在推进档案数字化的进程中也出现了许多新问题,如王卓在2019年提出大数据时代数字档案信息的安全风险以及防范策略[6],档案界给予了高度关注。
二、高校档案数字化带来的问题
档案数字化改变了高校档案工作的局面,极大地提高了工作效率,档案的宣传、编研、开发等工作成果初步展现。同时,数字档案的真实性、安全性等问题时有显现。
1.数字档案高度易变
档案形成过程包括诸多环节,需要多部门人员共同配合,数字档案在收集、存储、传输和处理等过程中存在不确定性。以高校科研档案为例,档案涉及教师个人科研信息提交、学院科研管理人员审核、学校科技部门各科室(项目科、成果科等)的管理人员审核和确认以及相应档案管理人员的归档,因此过程中很容易出现数据误差、丢失或损坏的问题。
2.数字档案易被篡改
现有的数字档案保护方案大多是通过数字水印和数字签名等技术实现,这些保护技术防篡改能力弱,而且在档案遭到篡改或破坏后一般难以恢复。
现有模式下,保障数字档案的真实性和原始性前提是出于对档案馆人员和各类档案收集人员的绝对信任,一旦出现中心系统数据库遭入侵,或管理员被胁迫或收买,档案数据的真实性将荡然无存[7]。以高校人事档案为例,重庆安全技术职业学院原党委副书记、院长杜晓阳借向主管单位移送个人档案之机,篡改、伪造个人档案资料32处。
3.數字档案存储成本高
档案馆为了保证档案的可靠性,需要存储多个档案数据的副本,因此存储性能会有所降低。另外,由于部分档案涉及的部门较多,档案信息的存储存在大量相同信息,导致大量的数据冗余。还要考虑数据存储的电脑出现设备老化、系统缺陷、网络攻击等情况。为了保证档案存储性能,需要购买高性能和大容量存储设备,这样就大大增加了档案存储的运行和维护成本。
三、档案管理去中心化
档案管理不仅具有很强的专业性,而且还具有保密性强的特点,这就要求档案人员必须具备高度的责任感,才能保证档案的安全和完整[8]。目前我国档案管理都是遵从中心化原则,档案数据的真实性完全建立在对档案管理人员和中心数据库完全信任的基础上。
高校档案目前都是由单一机构来管理和维护的,而高校档案数据并不是由档案管理人员产生的,其涉及学校里面的每一个人。档案数据的收集又需要多个部门协作完成,因此在填写、收集数据的过程中很容易出错,档案数据库中的数据并不能保证完全真实可信。档案管理员并不能独立验证档案系统中信息的真实性,如果档案数据被恶意篡改,用户和档案管理机构很难察觉。这些不能保证真实的档案就不具备还原真实历史的作用以及保存与参考价值。
传统中心化的数据库因无法解决多方互信问题,使得每个参与方都需要独立维护一套保存自己业务数据的数据库,这些数据库实际上是一座座信息孤岛[9]。以学生档案为例,学生的党员发展信息由学校组织部保存,学生成绩档案由教务部门保存,学生日常信息由学工部门管理,而学生的科研档案由学校科研部门管理。另外,中心化架构存在着天然的不平等性,因此档案管理的去中心化是必然趋势。
四、区块链技术方兴未艾
区块链(blockchain)是一种去中心化、不可篡改、可追溯、多方节点共同维护的分布式数据库,每笔交易需要全网大多数节点达成共识后,才能存储到区块链中[10],能够很好地解决中心化管理中数字档案产生的问题。区块链包含五层核心架构,如图1所示。
在高校区块链档案系统中的角色按功能可分为两类,分别为参与节点(档案数据产生人员)和维护节点(档案数据验证人员)。参与节点包括学生、教师等,该类节点进行信息交互,用户在客户端节点发起数据修改、增加请求,并广播到网络。维护节点就是档案数据真实性验证人员,该类节点用于验证用户请求,并最终把档案数据上传到区块链中,是区块链档案系统中的核心角色[11]。以高校二级学院为例,具体角色分类如图2所示。以教师科研档案为例,由于国家重点实验室开放课题并不是由直属部门直接统一申报和下达,因此这类项目成果就需要教师个人去申请添加,然后由维护节点中的科研管理人员去审核真实性,最后由节点投票决定是否上传到区块链中。
五、区块链在高校档案管理中的应用探讨
1.档案数据真实性高
如前所述,中心化管理模式下,档案不是由档案管理员形成,产生档案的个人又无权录入或随时查看自己的档案信息,因此档案的真实性和完整性很难验证。以高校教师的个人科研档案为例,在传统管理模式下教师在填写数据时,只会选择性地填写学校和个人认为比较重要的科研数据,过程中还可能存在着填写错误的情况。比如教师个人在填写自己某年发表的论文情况时,把某篇CSSCI扩展论文填写成CSSCI源刊,如果审核人员不专业、不认真,该教师的个人档案里就会保存错误的信息。
区块链技术应用于高校档案管理后,高校教师可以方便快捷地查看个人档案,一旦发现档案中的错误可以向区块链中的节点申请修改。修改的信息需要经过大多数节点投票通过后才能写入区块链,写入的档案信息上会有时间戳,申请修改档案的人都会经过实名认证,修改前后的档案信息都会被保存,因此修改的档案可以被追溯。由于区块链技术是采用分布式数据存储管理和P2P网络,写入区块的档案信息会在区块链中的每个节点存储相同的档案信息,这样可以达到去除档案管理中心化的目的。这种分布式档案存储模式可以避免因某个节点受到攻击,影响整个档案数据的真实性。区块链中的共识算法又增加了系统信息的可信性,同时保证了所有节点间的数据信息一致性。正是由于区块链的去中心化、不可伪造、全程留痕、可以追溯的特点,能够保证档案的真实可靠[12]。
2.档案数据安全性高
区块链的数据结构如表1所示。哈希算法是一个函数,将任意长度的数据输入都会被映射为固定长度的字符串。同时,它也是一个单向函数,由输入信息可以轻易地算出哈希值,却无法由哈希值逆向推出原数据信息[13]。
一个优秀的哈希算法具备正向快速、输入敏感、逆向困难、强抗碰撞等特征。以高校档案管理为例,正向快速指是当输入档案数据时能够快速地产生哈希值;当档案数据中某一个字符输入错误,得到的哈希值会和正确输入数据所生成的哈希值有极大的不同;逆向困难指根据哈希值很难在短时间内算出输入信息;强抗碰撞指输入不同的档案数据不可能产生相同的哈希值。
每个区块头包含了上一个区块数据的哈希值,这些哈希层层嵌套,最终将所有区块串联起来形成区块链。区块链里包含了自该链诞生以来所有的档案记录,因此,要篡改一份档案,意味着它之后的所有区块的父区块哈希全部要篡改一遍,这几乎是一个不可能完成的任务。因此区块链档案数据被泄露,泄露的也只是档案的哈希值,数据获得者无法获得具体的档案信息。
在基于區块链技术的分布式档案存储方式中,所有参与节点都可以保存一份相同的档案数据,新加入的参与方可以下载完全一致的档案并验证档案的正确性[14]。这种方式降低了传统集中档案存储中档案人员的多副本数据维护成本,同时参与方也可以通过访问本地档案数据来提高访问效率。在区块链系统中,档案录入采用数字签名和加密算法处理,从而提高了档案系统中数据的安全性。区块链中的数字签名是通过非对称加密来实现的,用户将私钥保存在自己手中,将自己的公钥分发到网络节点上。用户使用私钥生成签名,其余节点可使用公钥验证签名的正确性。相反,如果没有私钥,用户无法伪造签名[15][16]。通过数字签名来保证档案的实名写入,不可伪造。区块之间通过哈希值串联的数据关联方式和基于共识算法确认区块数据的写入机制,能够保证区块链上的数据不能被篡改[17]。“防篡改”并不等于不允许编辑区块链系统上记录的内容,只是整个编辑的过程被以类似“日志”的形式完整记录了下来,这个“日志”是不能被修改的。通过在智能合约上存储档案的修改记录和历史档案,可以实现对修改操作人和历史档案的追溯,从而保证了档案的安全性。
3.档案数据形成成本低
传统的档案收集需要冗长的归档审查、确认、档案数据信息核对,而基于区块链技术的高校档案管理可以大大简化流程。以高校学生档案为例,涉及学生成绩档案方面,只要学生本人、任课教师、班主任、辅导员、教学院长和教务处在各自节点投票确认,学生成绩便可归档(写入区块链中)。档案被存储在多方共同维护的多个节点上,节点按照严格的规则和共识进行维护与添加,从而实现了多方间的档案信息共享和监督,避免了烦琐的人工对账,提高了业务处理效率,降低了人力成本[18]。
高校均采用教育网,因此高校区块链网络环境是安全可信的,所以共识算法可以采用结合可信执行环境(Trusted Execution Environment,TEE)的软硬件结合的共识算法。另外,采用可信执行环境的共识算法可以与现有档案管理系统并存,因此节约了资源成本。
*本文系江苏省高校社科基金一般项目“大数据环境下高校图书馆数字资源的知识发现及个性化知识服务研究”(项目编号:2017SJB1748)阶段性研究成果。
注释与参考文献
[1][2][4][7]谭海波,周桐,赵赫,赵哲,王卫东,张中贤,盛念祖,李晓风.基于区块链的档案数据保护与共享方法[J].软件学报,2019(9):2620-2635.
[3]史志伟.循序渐进稳步进取——谈山东数字档案馆(室)建设[J].山东档案,2013(3):10-11.
[5]沈梦滢.镇江市档案局圆满完成2017年度省级数字档案馆(室)创建工作[J].档案与建设, 2018(1):95.
[6]王卓.大数据时代数字档案信息安全风险分析及防范策略[J].中国档案, 2019(9):74-75.
[8]韦卫.加强档案管理建设,促进学校持续发展——浅谈新形势下技师学院档案管理现状及规范化、信息化建设[J].档案学研究,2017(S2):117-123.
[9]Morkunas VJ,Paschen J,Boon E. How blockchain technologies impact your business model[J]. Business Horizons 2019,62(3):295-306.
[10][14]邵奇峰,张召,朱燕超,周傲英.企业级区块链技术综述[J].软件学报,2019(9):2571-2592.
[11][15]蔡晓晴,邓尧,张亮,史久琛,陈全,郑文立,刘志强,龙宇,王堃,李超,过敏意.区块链原理及其核心技术[J].计算机学报,2019(115):1-51.
[12]张倩.数字档案在线利用避伪防护技术应用研究[J].档案与建设,2007(11):21-24.
[13]王秀利,江晓舟,李洋.应用区块链的数据访问控制与共享模型[J].软件学报,2019(6):1661-1669.
[16]袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学报,2016(4): 481-494.
[17]于戈,聂铁铮,李晓华,张岩峰,申德荣,鲍玉斌.区块链系统中的分布式数据管理技术——挑战与展望[J].计算机学报,2019(116):1-28.
[18]邵奇峰,金澈清,张召,钱卫宁,周傲英.区块链技术:架构及进展[J].计算机学报,2018(5):3-22.