袁骏毅 尤丽珏 潘常青
1(上海市胸科医院(上海交通大学附属胸科医院) 上海 200030) 2(上海交通大学医学院附属瑞金医院卢湾分院 上海 200020)
医疗影像是循证医学证据链的关键环节,对临床医生的诊断和手术方案起到了重要的影响[1]。医生需要高效地调阅到检查影像,确保患者得到及时有效的治疗。随着医学技术的创新和医技检查的增多,影像数据日益呈现快速的增长趋势,影像的读取性能成为医院信息管理者面临的难点问题[2]。医院通常在存储上投入了较大的成本,然而很多架构规划偏重于满足容量的要求,使用效果未达到最佳[3]。近年来,分布式技术广泛应用于海量数据的任务处理,Essa等[4]指出:采用智能负载分配的分布式存储有助于实现大容量数据的安全管理和高效利用。
上海市胸科医院是一家学科特色鲜明、以心肺手术为主的三级甲等专科医院,2019年放射科、超声科等医技检查41.2万人次,随着院内原有影像归档和通信系统(Picture Archiving and Communication Systems,PACS)中影像的不断累积,调阅速度日趋缓慢。因此,医院实施基于分布式存储的PACS项目,以满足影像调阅的性能需求。本文通过实施前后的数据对比,验证分布式存储的应用效果,为利用信息技术手段优化临床工作提供借鉴参考。
PACS的主要作用是采集、传输和处理医技检查所产生的医学影像,实现全院的数字化存储和共享[5]。PACS实时采集设备的影像数据,在医技工作站上进行相应处理,剔除部分无用的序列,标记关键帧,归类存储到信息机房。医学影像采用符合国际标准ISO12052的影像通信格式(Digital Imaging and Communications in Medicine,DICOM)。医技科室的医生在检查报告系统(Radiology Information System,RIS)书写检查结论时,以及临床医生在电子病历系统(Electronic Medical Record,EMR)中查看检查报告时,均需要从PACS里调阅相关影像资料[6]。PACS体现了医院无纸化胶片的应用水平,其运转效率直接影响到临床诊断和后续治疗措施,是保障医疗质量的基础[7]。
医院PACS始建于2006年,其文件容量至2015年仅有63.77 TB,至2019年底已达到245.83 TB,呈井喷式增长,如图1和图2所示。PACS作为大容量数据对象的信息系统,在性能上承担着较大的压力,调阅成为临床使用者不满意的矛盾聚焦点,主要体现如下:① 随着精密设备如264排CT的投入使用,以往单个患者的影像大小约250 MB,现已增长到近800 MB,每次调阅从以前的10~20秒上升到40~60秒,临床感受度非常差,时有投诉;② 专科医院专注于有限的病种,检查报告的质量要求较高,书写检查结论时需对比本次及历年的影像,由于总容量已超越单台存储的上限,历年图像存在于近线存储设备中,应用软件寻址效率受到架构制约[8];③ 医院网络为万兆主干、千兆到桌面,重点科室如放射科的PC采用全闪存硬盘,网络和PC的调整手段已非常有限。因此,信息中心面临着较大的压力,应用新技术和成熟稳妥的方式提升PACS性能的需求相当迫切。
图1 2009年—2019年影像文件容量
图2 2009年—2019年影像文件数量
围绕着快速访问和大容量存储的目标,PACS分为集中式和分布式两种存储模式[9]。集中式存储以阵列叠加和外部软件寻址为特征,可靠性较高但横向扩展不易;分布式存储是面向多节点的新兴存储技术,依赖于分布式文件系统,数据分散在网络互连的多台独立设备[10],每台设备作为一个节点,多个节点构成通信和传输的网络,集合成为整体从而对外提供存储服务。分布式文件系统将数据管理任务均衡地分布到每个存储节点上,达到各司其职和彼此协同的目的。分布式技术提升了存储的模块化横向扩展能力,具有高并发访问和大规模扩容能力,同时有效降低了升级维护硬件的成本,已成为存储领域的应用发展方向[11]。集中式和分布式对比见表1。
表1 集中式和分布式存储技术对比
续表1
此前,国内一般采用进口的存储分布式文件系统,主要有Ceph、Hdfs等,两者均为成熟的开源代码,具有较好的可维护性和可扩展性,属于强容错能力的企业级对象存储生态环境,研发人员进行调优及外围功能的扩展[12]。然而,此方式也存在一些局限:① 适合高吞吐量的大文件存储,对于数量较大的小文件的读取优势并不明显,高并发和随机读取的应用场景较为受限。② 国外的开源代码具有成本低廉性,但是不可避免存在较高的黑客攻击概率[13]。健康数据作为国家基础性战略资源,生物样本更是信息安全的重点关注内容,若存在安全漏洞,将产生较大的数据泄密风险。因此,近些年部分科研机构和存储厂商,自主研发国产化专用代码的分布式文件系统,以便更安全、可靠地保护医疗行业的数据。
由于PACS存储容量较大,若一次性更换原有集中式存储,则总成本(Total Cost of Ownership,TCO)十分昂贵,项目推进必须考虑投入产出比。IT项目的价值体现在无形资产的隐性回报,通过提高工作效率和降低劳动成本反映,需要从有效性等方面进行综合考量[14]。本文使用广泛应用的动态投入产出模型,即面临TCO投入的线性规划方案,存在着受扰动的非线性影响(考虑原有未到报废期资产的保值),数学模型的目标函数如下:
S(x)=saAi+sbBi+scCi
(1)
式中:S(x)为产出量;Ai为新增资产的单项投入;Bi为原有资产的单项价值;Ci为消耗后用于扩大再生产的投资;sa、sb、sc分别为单位周期的原有资产、新增资产和剩余资产的价值产出系数;i代表不同的检查类型,i=1,2,…,n。
为简单而不失同质化,假定:①S(x)形成的产能满足PACS需求;② IT项目投入并不直接导致再生产,即Ci=0;③ 不同检查的存储占比不同,权重值总和等于1。通常2至6个月内影像调阅频率较高,术后随访等后期调阅相对较少。因此,本文使用新投资Ai的命中率来表示整体有效度,函数表达式为:
(2)
式中:Mi代表周期内新投资的使用数;Ni代表原有投资的使用数;λi代表不同检查类型的权重。
命中率越大代表了投资的有效性越高,根据最佳投入产出模型的统计结果[15],当接近0.92时,性价比达到较优状态。
图3 2006年—2019年PACS数据分布权重
以1个月的检查调阅情况为基准,将2019年12月的17.71万次调阅数据导入计算集,迭代分析命中率,结果如图4所示。根据评估计算结果显示,S(x)的首次投资最佳期为10个月,参考2019年的数据量,约为50 TB。
图4 投入评估的迭代计算
基于项目投资建设评估,在保留原有350 TB集中式存储的基础上,医院于2020年3月投入使用50 TB的碧海分布式存储,放置在安全隔离区(Demilitarized Zone,DMZ)。该存储的文件系统并不基于开源软件,由上海交通大学背景的团队自主研发,具有完全的独立知识产权,可在线扩展到1 024个节点。PACS整体架构如图5所示。影像的上传下载采用文件传输协议(File Transfer Protocol,FTP),在部分场景支持优化定制的开发工具包(Software Development Kit,SDK)。检查仪器采集的影像数据,以FTP方式上传至分布式存储。检查报告工作站和临床医生工作站调阅时,先从DMZ的RIS、EMR数据库读取患者资料、检查结论等结构化数据项,然后发出影像下载请求。DICOM网关内置统一的影像寻址排序规则,先至分布式存储下载,若找不到再被分配至集中式存储下载。面向互联网业务的微信掌上医院等移动应用通过网闸、防火墙设备,以SDK接口获取并实时生成云胶片。管理后台设有定时任务,当分布式存储使用量即将到达上限时,计划任务会自动将影像以多线程流媒体方式转储到集中式存储。
图5 PACS系统的分布式存储架构
选取2020年1月原有集中式存储的影像交互情况作为对照组,2020年3月应用分布式存储架构的影像交互情况作为观察组。提取DICOM网关记录的客户端请求日志,交互速度=请求完成时间-请求开始时间。纳入及排除标准:① 纳入调用IP为医生工作站的记录;② 排除返回状态为失败的错误记录;③ 排除请求起始间隔大于600 s的异常记录。两组样本在交互例数、文件个数、文件容量、网络基础等方面的差异均无统计学意义,具有可比性,如表2所示。
表2 样本数据统计
主要观测两方面指标:平均上传时间(UP)和平均下载时间(DN),下标1、2分别表示对照组和观察组。使用SPSS 23.0 软件进行统计分析,分步式存储应用后的效果见表3。
表3 应用后效果对比
由数据分析可以得出:① 上传速度无显著差异(P值大于0.05),表明分布式存储并不会导致归档加速或延迟;② 下载速度有着显著差异,分布式存储有着明显的优势,单次下载包含的文件多且容量大的CT、MR、PET最为显著(P值小于0.001),提升速度106%至179%之间,包含文件不多但文件容量较大的DR、DSA则较为显著(P值小于0.05),提升20%左右;③ 对于文件个数和容量均不大的彩超,无论是上传还是下载,分布式与集中式存储的差异并不明显(P值大于0.05)。需要指出的是,由于检查影像归档为后台自动进程的异步上传,使用者并不会体验到上传速度的变化,而单次调阅的下载速度,则直接影响到使用者的感受度。由此可见,分布式存储的应用对于临床带来了明显优化的使用效果。
随着医疗仪器精密度的提高和检查覆盖范围的变宽,专科医院普遍面临着PACS影像容量急速增长的现象。分布式存储在多并发情况下的高吞吐特性,可以更好地解决资源利用率低、调阅速度缓慢等问题。本文通过医院PACS存储的建设情况,进行了投入的规划评估,对比了实施前后的影像上传及下载速度;依托于高效稳定的分布式存储,显著加快了临床检查影像的调阅速度,提高了医生的工作效率。在后续工作中,医院将逐步增加分布式存储容量,以满足日益增多的电子胶片调阅需求。随着互联网医院的建设,新兴信息技术和医疗业务应用的充分融合,已成为医院信息化重点发展的方向。