朱胜明,朱甜甜,毛江华,巢艳萍,舒子馨
(南京中医药大学 人工智能与信息技术学院,江苏 南京 210023)
随着医疗卫生事业的快速发展,以医院信息系统为基础而建立的医院大数据中心逐步开放,将已有的医疗数据资源给相关组织或者个人经互联网远程共享使用。在建立医院大数据中心的基础上,部分医院通过尝试大数据平台和云计算、移动互联网和物联网等热门技术的融合,探索新的信息管理模式,并且面向互联网和物联网开放部分医疗数据的访问和应用。
根据国家深化医疗体制改革和发展国民健康服务体制的相关政策文件来看,国务院和国家卫生纪委大力提倡与推动开放医疗健康数据的共享,但是医疗大数据的共享应用却面临信息安全的挑战。鉴于行业的特殊性,医疗数据的安全是具有高度敏感性的,其牵涉患者隐私与医院业务流程等一系列的机密,可能包括医保号码、药物清单和体检报告等。如果发生医疗数据泄漏问题,会对社会造成极大的负面影响,阻碍医疗体制改革的步伐。
近十年来,我国先后出台了一系列的安全信息管理制度和措施,例如:信息安全保护条例、实行信息安全等级保护制度、等级保护专项监督检查等。在合法合规的总体要求下,信息安全已经明显提升到医院信息系统建设的核心地位[1]。医疗大数据汇聚面临的主要问题是安全问题,因此,针对大数据汇聚安全机制的研究是一项巨大的挑战,对以后医疗事业的发展具有重要意义。
作为处理大量数据时出现的固有问题的新兴领域,大数据提供了重用和从信息中提取价值的新方法,并挑战包括捕获、数据管理、搜索、分析、查询、共享、存储、可视化、传输、信息隐私等在内的一系列问题。大数据的基本特征是速度、多样性和容量。在中医药领域,大数据主要包含疾病治疗患者、药方信息以及包含舌苔、面相等在内的图片信息,对于不同的信息显然应该采用不同的存储机制。
中医药类的文本信息包含大量的重复冗余数据,在传输过程中需要考兼顾重复数据的检测压缩。近年来,存储数据的内存需求大量增加,因此,很多研究人员专注于避免相似和重复的数据存储,来减少存储空间需求。在存储系统中,检测和消除冗余数据的主要问题是处理开销。所以,本团队在存储系统中引入了增量压缩,以从类似的数据块中删除冗余数据[2]。考虑一个包含两个数据块A1和A2(以A1为基本块)的示例。delta压缩只计算和存储数据块之间的差值。用来确定A2和A1之间的关系,主要挑战是如何以更少的开销更准确地检测相似的候选对象。据此,DARE提出了一种基于最小开销的数据约简方法——邻接相似度检测,通过验证相邻数据块来识别数据的相似度。在发现数据相似度后,利用超特征技术提高相似度检测的效率。当然,该方法产生的数据碎片会导致一些问题,因此,还有一种聚合加密[3]的方式可以更好地解决问题,但是本项目仍然采用delta压缩进行相应的文本加密压缩处理。
在大数据环境下,如果需要满足合理的执行性能,并在一定程度上增加数据安全性,本团队认为,一个比较好的方案是采用与公钥加密相反的对称加密方式。使用AES作为基本的密码构建块,称为块密码,特别是AES,都可以在不同的模式下工作。当然,简单的结构使该模式容易受到某些类型的攻击,例如,阻止重播或码本攻击等。为此,可以使用密码块链接(CBC),明文块是根据前面的密文块进行加密的,即Ci由Pi与Ci-1异或加密得到。如果没有对前置块解密,就无法对之后的块解密,当然,对于某些应用程序,限制到某个块的大小可能并不合适。
分组密码也可以在密码反馈(CFB)模式下运行,以满足对任意大小数据的加密要求。CFB使用一个队列,根据需要将块密码应用到该队列上。一开始,队列是随机且加密的数据;随后,从队列左侧检索加密的数据,并使用明文数据进行验证。产生的密文位一方面存储或传输,另一方面从右侧输入到队列中。队列再次加密,系统为下一个明文位做好准备。有关分组密码模式及其优缺点的详细信息,可以在Peter[4]的研究中获得更详细的信息。
在数据访问方面,系统采用基于信任关系的证书验证方式。信任是任何组织交易的重要特征。在Internet中,当各方和数百万用户之间没有直接联系,交换信息就有必要采取安全措施,以便在交换数据、货物和服务之前对组织的合作者、客户和供应商进行验证。
公钥基础设施(PKI)使用称为CAs的TTPs提供所需信任[5]。这些数字签名的数据结构称为PKCs,以确保特定的公钥属于某个用户。因此,证书及其密钥提供了关于其组织合作伙伴的连接信息。在信任证书的内容之前,证书的接收方必须确认其签名和有效性。如果检测由同一CA颁发通信方的证书,则可以轻松确认另一方证书的签名。即使如此,要确认由另一个核证机关发出的证书的签署,PKI当局之间也必须有一定的信任关系。
PKI是一个由人员、流程、策略、协议、硬件和软件组成的框架,用于生成、管理、存储、部署和撤销公钥证书。公开密匙基础建设的组件包括一个或多个核证机关及一个证书储存库等系统组件。PKI将数字证书、公钥密码学和认证机构集成到整个组织范围的网络安全架构中。一个典型的PKI组织包括向个人用户和服务器颁发数字证书,终端用户注册软件,证书目录集成,管理、更新和撤销证书以及相关服务和支持的工具。基础设施的主要组成部分包括[6]:核证机关,公开密匙基础建设的基本组成部分,以发出和撤销数码证书;注册机构,验证颁发的证书和最终用户身份的请求。
本文分析了中医药数据存储与访问的现状,提出在大数据环境下相应存储与访问的策略,阐述了该系统具体采用的技术策略与算法方案。在数据加密压缩存储方面,对不同类型的数据做不同的分析与处理,使得加密效率与效果得到提升;在数据访问方面,运用更新后的Openca库与Openssl库,使得数据访问的安全性得到进一步提升。总体而言,本研究为今后中医药大数据汇聚提供了一定的参考作用。