肖瑞珠,李磊,王孟,姜勇,郭敬鹏,朱皞罡
目的 脑血管病是我国主要的慢性非传染性疾病之一,其诊疗服务形成海量的医疗数据,数据的安全应用与管理是亟待解决的问题,基于区块链的数字身份技术具有去中心化、多方共识、公开透明、防篡改和可溯源等特征,给脑血管病的数据管理与应用提供了优化的工具。本研究旨在探索基于区块链数字身份在脑血管病医疗数据临床研究中的应用架构。
方法 采用区块链技术,通过发行者、控制者、解析者、证明者和个人身份数据账户等角色,实现脑血管病医疗数字身份进行去中心化。研究选取了200个测试用户,对建立的模式进行基于数据交换和医疗影像数据的测试。
结果 基于数据交换的测试中,对于单用户,职责目录的保存并返回保存页面平均响应时间为1.261 s,职责目录查看的平均响应时间为0.08 s,提交数据目录并返回页面的平均响应时间为1.269 s。基于区块链及数字身份的医疗影像数据交换系统在测试期间运行稳定,在网络中断再通后能自动恢复对外提供服务。基于医疗影像数据场景中,写入通量为9090次/秒,平均响应时间为14.98 s,平均每秒遍历9012条数据。可靠性检查结果较好,容错能力达到1/3节点。
结论 基于区块链的数字身份能够保障数据安全、促进数据共享流通,在脑血管病的诊疗和管理领域有较好的应用前景。
脑血管病是严重威胁我国居民健康的慢性非传染性疾病之一,2019年我国约有2800万存活的脑血管病患者,脑血管病的年门诊人次和住院人次分别达1.2亿和448万,产生了包括疾病诊疗、检验和影像等方面的海量数据信息[1-2]。这些医护人员在医疗机构诊疗活动时所形成的脑血管病患者医疗健康相关数据信息,在患者知情同意后,由医院医护人员及相关职能科室采集、制作与存管。临床医疗数据经系统治理后可用于评估医疗与医院管理水平,同时成为开展临床真实世界研究的重要数据来源,是国家基础性战略资源——健康医疗大数据的重要组成部分。如何配置在临床医疗数据生产过程的不同角色,构建医疗数据并应用于临床研究,已经成为健康医疗大数据应用的关键环节之一。科学系统地解决医疗数据知情、生产、管理、使用以及获益分配等医疗与临床研究过程中的关键要素,及其所对应的患者、医师、医疗与科研管理部门和临床研究者的身份标识,是促进临床医疗数据高效、可溯源、公平与安全应用的关键[3]。
区块链技术目前已逐步用于多中心医疗机构数据的互联互通,具有去中心化、多方共识、公开透明、防篡改和可溯源等特征[4]。将区块链技术与数字身份结合能够实现医疗相关用户信息隐私保护,为数字身份安全转型与发展提供了可能性。数字身份是一组可验证的属性和证书的新型数字化身份标识,用于证明网络中个人、机构、电子设备、应用程序等代理实体,它克服了传统数字身份技术存在隐私泄露、使用效率低、便携性差等问题,已在工业、互联网、电力、金融等领域逐步开始应用。
本研究拟利用区块链数字身份认证的数据可确权、文件可追踪、隐私可保护等优势,以脑血管病医疗数据应用于临床研究为模板,探索区块链数字身份在脑血管病医疗数据临床研究中的应用架构和可行性。
1.1 医疗数字身份系统构架、角色划分及属性
1.1.1 医疗数字身份的系统构架 将医疗数据生产、管理与使用等过程利用数字身份进行角色划分,将数字身份的生命周期进行充分解耦,使各个功能角色之间相对独立,最小化交互界面,建立数据生产与使用流程的协同规范。各个角色根据监管、性能、安全等需求,分别设计了各自的架构,并且实现为独立的系统与服务,支持横向扩展,以降低系统性风险和建设与维护成本。系统技术架构见图1。
图1 医疗数字身份系统技术架构
1.1.2 医疗数字身份的角色划分 医疗数字身份技术架构兼顾中心化与去中心化的优势,通过角色划分实现上层监管中心化以及下层应用去中心化,共由5个角色组成(图2)。
图2 医疗数字身份系统整体设计方案示意
发行者:发行者代表身份管理的最高权限,实现与国家网上身份认证基础设施和医疗数字身份应用支撑系统的交互,与控制者通过载体进行认证的交互以及与个人身份数据账户系统进行数据同步。
控制者:控制者是医疗数字身份的控制主体,多数情况下为用户本人及其数字身份载体。为简化系统复杂度,医疗数字身份在用户端采用无密钥设计,与发行者间的交互依靠生物特征或秘密证明。控制者负责管理与发行者间交互的秘密以及数字身份使用的知情、授权。后台采用中心化设计,前端为个人应用客户端。
解析者:解析者是医疗数字身份验证与应用的交互主体,负责解析应用端医疗数字身份需求(产生验证查询),向发行者返回身份验证需求或向证明者返回医疗数字身份属性证明的解析,是医疗数字身份对应用服务的界面,承载了医疗数字身份应用多样性与扩展性的职责,对性能要求较高。
证明者:证明者是医疗数字身份数据证明的方案,采用基于密码学的数据源证明、数据目录索引、算法路由和安全计算环境等技术,实现可信的匿名数据源证明,构建覆盖医疗各系统的数据协同网络,实现异地、异主、异构数据的可信、安全协同与共享。
个人身份数据账户:以块数据为基础数据平台,负责块数据与外部异构数据的接入、汇集、融合、治理、同步,形成个人身份证明数据资源池。采用中心化、分布式、区块链等技术对数据进行整合,提供标签化数据目录,将数据项与个人身份数据账户索引进行关联(身份归档),并对相关块数据进行身份标识,提升块数据精准服务能力。
1.1.3 医疗数字身份的属性 医疗数字身份包含2部分:静态编码与动态属性。静态编码包括国家公安机关发放的法定网络身份(cyber trusted identity,CTID)、医疗系统身份码以及身份发放时间、数字签名等与物理身份相关的编码与数据,共364字节。动态属性为应用定制部分,应用可通过医疗数字身份提供的属性验证语言,在个人知情授权下由数据源机构提供实时证明。
1.2 基于区块链数字身份的脑血管病模型和构架 利用区块链数字身份及相关技术,提出一种去中心化的脑血管病科研管理系统,应用于脑血管病医疗数据的临床研究管理,构建脑血管病医疗数据保密、管理、使用、共享、分配的实施方案。该场景中主要研究主体有4类:①脑血管病患者。患者签署知情同意后授权使用个人数字身份账户,并通过标记数据,确定患者数据来源及接诊意识。②医务工作者。医务工作者是医疗数据的生产者,在患者数字标签上标注医师身份信息,通过医师的数字身份确定数据来源,用于后续数据采集、分析与共享等临床医疗与科研管理过程。③医院医务、信息、科研处和伦理等部门的管理者。管理者通过医师和患者的数字身份管理临床医疗数据,清理后形成的临床研究的科研数据,确保数据可确权、文件可追踪、隐私可保护。④临床研究者。研究者负责临床研究问题的提出与临床科研数据的分析和使用。
当临床研究者向医院相关部门的管理者发起数据应用申请时,医院科研管理部门向数据标注医师申请授权。经患者、医师双授权的数据才能分配给临床研究人员进行使用。医院和科研人员需要根据医师提供数据的数量和质量确定医师在科研过程中的成果分配排序与比例。整体平台部署在云平台上,各模块内部通讯采用电子认证下的加密信道,同时为各角色配置公私钥,对请求与回传信息进行签名。面向个人用户、数字空间应用、异构数据源、管理用户4类服务对象,分别提供个人身份管理服务、应用支撑服务、数据证明服务以及平台配置与总控服务。
以计算“住院期间脑梗死患者血管评价率”为例(图3),此计算首先需要写成符合规范的“智能合约”,合约中要明确:①医师、患者是否授权;②计算所涉及的数据路径(如图3中,A=过程指标:住院期间脑梗死患者血管评价,住院期间完善颈部血管评价的例数,B=过程指标:住院期间脑梗死患者血管评价,患者住院期间完善颅内血管评价的例数);③计算公式,图3中的C=(A∪B)/脑梗死患者数,其中C即住院期间脑梗死患者血管评价率;④合约返回值,即C。
图3 基于区块链数字身份的脑血管病应用模型和构架
合约编写完成后,将执行合约,此时需要向个人数字身份账户调用数据,个人数字身份账户中会建立数据对象,数据对象包括数据路径(与应用的合约达成约定)及获取数据的应用程序编程接口(application programming interface,API),合约所需要的数据会通过调用API从不同数据源获取。
在经过个人数字身份账户进行数据调用时,数字身份管理系统结合区块链系统将会永久记录数据的权益、数据的使用流程等信息,完成数据权益归属、数据使用追溯等功能。
数据在患者就诊时产生,经过医师的标记、整理、归纳等将数据存入院内数据库,供应用方使用。
2.1 基于数据交换的测试结果 本研究从雄安新区区块链系统选择200名相关注册人员进行系统的效率和可靠性测试。
2.1.1 系统架构 该系统采用B/S架构,数据平台端服务器、智能合约服务器、Switch-Node服务器和交换节点服务器均采用CentOS 7.4操作系统,中间件采用Tomcat 8.0,数据库采用MySQL 5.7、Redis 4.0;测试客户端采用Windows 10版操作系统,浏览器采用Chrome 76.0,网络带宽为100 Mbps。
2.1.2 性能效率 用户注册数字身份,单用户性能测试结果如下(其中平均响应时间均为事务的平均响应时间):职责目录的保存并返回保存页面,平均响应时间为1.261 s;职责目录查看,平均响应时间为0.08 s;提交数据目录并返回页面,平均响应时间为1.269 s;8500条数据的数据目录查询,平均响应时间为0.104 s;数据目录查看,平均响应时间为0.088 s;提交数据库目录并返回数据库列表,平均响应时间为1.037 s;库目录查看,平均响应时间为0.582 s;提交表目录返回库表目录列表页,平均响应时间为0.790 s;8500条数据的表目录查询,平均响应时间为0.120 s;表目录查看,平均响应时间为0.087 s;远程源数据库对已上链的库表字段修改,操作结果同步到系统中时延为7.942 s;远程源数据库对已上链的库表字段删除,操作结果同步到系统中时延为7.942 s;远程源数据库中对已上链的库表字段进新增,操作结果同步到系统中时延为3.97 s;使用可视化方式创建不带算法的数据合约,平均响应时间为0.572 s;使用本地上传方式创建不带算法的数据合约,平均响应时间为0.230 s。
2.1.3 可靠性 系统在测试期间运行稳定。在断网情况下,系统可提示网络连接异常,恢复网络后可自动恢复对外提供服务。各业务系统对用户的操作顺序、输入的数据进行正确性检查,能以醒目方式提示错误信息。
2.2 基于医疗影像数据的测试
2.2.1 系统架构 被测系统采用B/S架构,服务端按3个医疗区域进行了划分,医疗区域1包含3台影像存储服务器,1台影像分析服务器,1台多专家标注服务器,1台虚拟宿主服务器,3台节点服务器;医疗区域2包括1台影像存储服务器,1台虚拟宿主服务器,3台节点服务器;医疗区域3包括1台影像存储服务器,1台虚拟宿主服务器,3台节点服务器。各影像存储服务器使用CentOS 7操作系统,安装了Hadoop 2.7.7及MySQL 5.7.25以实现数据的分布式存储,虚拟宿主服务器使用Proxmox VE 5操作系统;节点服务器均为虚拟机,使用Ubuntu 18.04 LTS操作系统,安装了Golang 1.10、Docker 19.03、dcm4che 5。测试机采用Ubuntu 18.04 LTS操作系统,使用Firefox 69.0.2浏览器通过局域网访问被测系统。
2.2.2 性能效率 测试数据归档与数字身份账户中,向被测系统写入5000条数据后确认建块,平均时延为0.55 s,写入通量为9090次/秒。在135 000条数据中进行查询,平均响应时间为14.98 s,平均每秒遍历9012条数据。分别为63 959个医疗影像进行特征抽取,平均时延为19 ms。进行18次单个医疗影像抽取特征向量,平均时延19 ms,对单个数据索引后进行查询,查询平均时延为4 ms。
2.2.3 可靠性 在部署了6个节点的系统中,将2个任意节点退出,系统可以正常运行,节点恢复连接后,可以自动同步数据,满足部署6个节点的区块链系统,容错能力达到1/3节点。
目前,国际上主要数字身份的设计是依托于电子化载体,以提高传统身份验证的安全性与便捷性。而基于互联网应用的数字身份由于得不到法定身份的支持,设计上只能假设身份服务的不可信,不得不采取高成本的用户级别去中心化的方案。同时,在数字空间中,身份与数据体系的融合在现有技术框架下,面临信任成本高、流通成本高以及无法规模化服务的问题。本研究中医疗数字身份兼顾了法定身份和互联网应用的双重需求,以中心化与去中心化结合的创新架构,融合身份与数据体系,在身份互信、数据互通、应用互联上提出创新技术体系与解决方案。
目前,区块链技术的应用已经广泛延伸至智能制造、数字金融、物联网等多个领域,去中心化、非对称加密、共识机制和智能合约机制使区块链技术在医疗数据安全储存和共享等方面得到全面的发展和应用[5-6]。首先,在医疗数据领域,传统医疗数据受到时空限制,难以迅速、大规模传播和共享,可能延误对患者的诊疗,传统数据的传输方式也易造成数据泄露[7]。区块链技术可实现对数据隐私的保护,提高数据的传输效率,保障数据的安全。其次,在医药和医疗器械领域,传统物流溯源受到系统服务器、数据库等中心化单元的限制,数据易篡改且难溯源。区块链技术通过为物品添加不可篡改的验证标签保证供应链安全,从而减少假药和劣质器械方面的漏洞,方便相关监管部门全程跟踪监测,从而保障医疗领域的健康秩序[8-9]。再次,在医学研究方面,传统医学研究中数据量大、数据共享和流动较大,区块链技术可将医学领域多中心的患者数据整合归纳,保障数据安全,降低医学研究的成本,促进医学成果的转化。最后,在数字身份认证方面,区块链通过信息交互完成目标身份确认,其去中心化特点可以使多个组织共同协作,为实现跨层级、跨部门的医疗领域身份认证和数据互联互通提供了可能[10]。
数字身份经历了集中式数字身份模型、联邦式数字身份模型和区块链数字身份模型3个发展阶段。集中式数字身份模型是传统数字身份模式,模型中每家医院均有独立的注册和认证系统,数字身份签发人和证明人均是独立的医院。这种模式能够解决单一领域的身份认证问题,但是这种数字身份证明过度依赖身份签发者,且不支持数字身份跨医院互认。联邦式数字身份模型中,区域中心医院利用其业内优势建立单点登录的认证系统,同时支持嵌入第三方医院系统,为第三方医院提供代理认证服务,例如区域内医联体。联邦式数字身份模型的签发人和证明人也是同一机构,但其还作为身份代理为第三方机构的凭证持有人和服务者提供代理身份认证服务。该模式解决了传统集中式数字身份模型身份系统建立过多、对用户不友好等问题,但不能解决身份跨机构互认问题,难以实现服务协同。新型的区块链数字身份模型利用其去中心化特性,解决了身份所有权、安全性及身份跨域互联互信的问题。在这个模式中,身份签发人和证明人分属不同机构,区块链技术保证流程信息一致不可篡改,实现身份跨机构互认和服务协同。医疗数字身份在实现技术与实现功能上有以下亮点:①零信任验证。医疗数字身份可以在零信任的环境中进行验证与应用交互,有效地降低了信任成本。与传统应用方式收集大量用户个人信息不同,医疗数字身份为上层应用提供可定制化的个人身份与身份属性(如年龄、居住区域等)匿名验证服务,在不透漏个人数据的前提下向应用提供必要的身份与属性证明。同时向应用提供匿名个人标识,以数字身份贯穿互联网应用。②零拷贝账户。医疗数字身份个人身份数据账户采用“零拷贝”技术,可有效降低数据流通成本。对个人身份证明数据源的接入与使用实现了在不做数据物理迁移的前提下,对计算进行路由并对数据源进行密码学证明,实现个人数据使用的“零拷贝”,为安全隐私前提下的身份服务提供新的个人身份数据账户体系结构。③零账户应用。医疗数字身份为互联网应用提供根账户服务,实现应用规模化接入。医疗数字身份为每个互联网应用分发个人的唯一匿名标识以及相应的身份与身份属性验证,协助应用建立与根账户对应的内部账户体系,同时在个人用户端实现应用的“无账户登录”,为更广泛的个人数据体系建设提供奠定基础。
基于区块链的数字身份在脑血管病医疗数据科研管理中的应用具有以下优势。首先是能够保障患者和医师的隐私。既往医疗数据存在信息泄露和滥用的风险,基于区块链的数字身份能够将患者和医师的隐私数据转化为去身份化和碎片化的个人标记,从而避免数据泄露,保障隐私安全。隐私数据的使用在通过患者知情且授权的情况下合理、合规使用。其次可以提高脑血管病医疗质量,同时能够保障医师在科研活动中的权益。医护人员及医疗机构的身份认证能够影响医疗质量水平,基于区块链的数字身份技术,能够保证结构化的电子病案系统的真实性,能够溯源防止篡改,从而有效地记录并监管医师的诊疗行为,认定服务责任主体。同时,由于每一条患者数据均进行了医师身份标注,患者数据被使用时,需要患者、医师双授权,从而防止数据滥用。最后,可以服务于医院管理者,优化医院科研管理流程。基于区块链的数字身份能够应用于科研绩效管理和数据共享等方面,促进信息互通共享。目前在科研绩效和数据共享方面,更依赖于研究中心或区域中心的认定。基于区块链的数字身份去中心化、不可篡改的特性使多中心研究中科研绩效认定和数据共享有更加明确的依据,在保障数据安全的情况下,使大数据使用更加开放、流通、公平,因而能充分提高科研人员积极性。
数字身份由身份标识、身份属性和身份交互构成。身份标识由字符构成唯一身份代码;身份属性是与身份标识关联的一组断言,如住院信息、病案信息等;身份交互是分布式通信协议,通过区块链智能合约统一行动规则达成共识[6]。目前基于区块链的数字身份技术在金融、政务、民生等领域已经取得良好效果,但是该技术还未深入应用到脑血管病等医疗相关领域,急需出台相关政策规定并制定行业标准,加强技术研发和产品验证推广,以充分发掘基于区块链的数字身份技术在保障医疗数据安全、促进数据共享流通中的应用价值。