大数据环境下肿瘤放疗的数据解析

2018-03-21 01:31,,,,
中华医学图书情报杂志 2018年3期
关键词:解析剂量数据库

,,, ,

放射治疗是当今医学界治疗恶性肿瘤的三大主要手段之一。随着计算机数字化技术在医学领域的广泛应用,放疗设备及信息管理自动化程度不断提高,现代放射治疗技术正朝着精确定位、精确计划、精确治疗方向发展[1]。传统医疗服务模式更趋于数字化,数据已成为推动临床治疗及科研活动创新不可或缺的资料。自2015年起,美国国家卫生研究院、美国放射肿瘤学会、美国国家癌症研究所和美国医学物理学家协会召开的学术年会,都在持续关注放射肿瘤学在大数据时代的发展与机遇。国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》中提出推动健康医疗大数据资源共享开放,鼓励各类医疗卫生机构推进健康医疗大数据采集、存储,加强应用支撑和运维技术保障,打通数据资源共享通道。国内外的发展战略和研究目标,体现了各个层面对放疗大数据基础建设工作的重视,高效、合理地将各类数据进行有效整合,实现数据的高度集成,是大数据应用建立的关键,而数据解析则是实现数据整合的重要方法和手段。

1 放疗数据解析需求

在放射治疗过程中,数据主要通过3种途径产生:一是通过医院信息系统,如医院信息管理系统(HIS)、电子健康记录(HER)、个人健康记录(PHR)等产生的常规数据;二是通过放射治疗计划管理系统(Radiotherapy Treatment Planning System,TPS),如Eclipse,Pinnacle,GammaPod等计划系统产生的治疗计划数据;三是通过影像学检查设备,如磁共振成像设备(MRI,CT,PET)等产生、存储于影像归档和通信系统(PACS)中的影像数据。患者的信息数据除了包括性别、年龄、病症等常规信息之外,还包括放射影像、治疗计划、治疗方法、治疗规程、放射剂量、治疗方剂等非常规数据。数据形式多样,结构化、半结构化和非结构化数据同时存在,从而构成了大量的多源异构数据[2]。一方面,大量患者诊断治疗数据的产生,为临床医生的临床治疗以及科研工作的开展提供了有利的数据积累;另一方面,由于放疗临床数据的复杂性以及医院内部各种系统的多样性,加之各类厂商对自己治疗计划系统和设备的技术保护,不可避免地造成数据的多源性、异构性,势必会造成各类数据一定程度上的相互孤立,导致临床医生及研究人员难以全面地掌握和分析数据,对科研及临床治疗方法的进一步研究带来阻碍,也会造成临床数据分析的片面性[3]。

针对肿瘤放疗数据建设中的此类问题,数据解析工作就显得尤为重要。所谓数据解析,就是针对目标数据的结构特征,结合适当的分析方法,对数据进行详细研究并提取有效信息的过程。借助数据解析方法,可实现分散的临床数据整体化,实现不同系统、不同类型事实数据之间的快速转换及整合,有助于放疗临床试验数据的高效管理,以及临床科研及临床数据挖掘等活动的开展。

2 放疗数据结构

国际上通用的医学领域数字传输标准是DICOM(Digital Imaging and Communications in Medicine)标准,在放疗领域的数字存储传输标准是DICOM RT(Radiotherapy Objects)标准。作为DICOM标准的扩展,该标准定义了放疗领域的相关概念、流程和应用场景。DICOM RT 定义的信息对象主要包括RT Image(放疗影像)、RT Dose(放疗剂量)、RT Structure Set(放疗结构集合)、RT Plan(放疗计划)和RT Treatment Record(放疗治疗记录)5部分[4]。DICOM RT数据结构层次模型见图1。

图1 DICOM RT数据结构层次

RT Image是放疗图像以及图像相关的数据信息集合,包括CT/MRI/PET产生的图像以及数字重建图像、模拟机图像、射野图像等;RT Dose主要用于传输治疗计划系统所计算的剂量数据集合,剂量的分布可以通过二维、三维的网格、等剂量线、剂量体积直方图(DVH)等表示;RT Structure Set定义一个特殊区域的数据结构集,每个区域结构可以和一个或多个图像对象相联系,包括一些感兴趣区域(ROI、VOI)的定义、感兴趣点的选择(如剂量参考点)等[5];RT Plan是手工生成的计划报告、治疗计划系统及其他方式产生的计划报告数据集,包括外照射治疗、近距离治疗计划、分形、耐受性表、体位关系、控制点概念等;RT Treatment Record是实际放疗过程中得到的记录数据集,包括记录信息的概要、所有治疗参数的记录、剂量计算、剂量测量记录等。

3 放疗数据解析过程

DICOM RT数据是在实际的放射治疗过程中生成的。TPS产生和涉及的数据信息量最为丰富全面,涵盖病人信息、图像信息、计划治疗信息等。因此进行TPS系统的数据解析,是解决肿瘤放疗数据整合问题的有效途径。目前较为常见的数据解析方案是直接对DICOM文件进行操作,如利用C语言结合医学图像处理开源库(DCMTK)实现直接读取DICOM文件,获取相应的数据信息,或者通过MATLAB编写代码对DICOM文件进行预处理,再结合C语言联合开发直接对DICOM文件进行数据操作,实现文件的分类。两者的共同点都是对DICOM文件进行数据操作,仅适用于对原始DICOM数据的读取和处理。现实情况是多数治疗计划数据是由各厂商提供的TPS系统产生,基于数据和技术保护的考虑,各厂商会采用自定义的数据封装格式将原始数据进行打包传输,而这种经过封装的数据大多是封闭的,难以直接应用,给数据的二次利用带来了很大的困难。以上两种方案均无法对TPS系统生成的数据文件进行直接处理,也无法实现TPS数据文件的传输、拆包、解析、存储入库等操作。针对此类数据处理的难点,笔者利用数据解析方法针对文件的结构特点设定解析规则[6],采用C++语言编写了TPS数据文件转换软件。该软件可对TPS数据进行底层处理,把封装的数据还原成原始数据,可用于二次解析的结构化数据,实现了TPS数据的自动化解析,解析后的数据存储在目标数据库中。图2是TPS数据解析后的部分数据包,包含了病人治疗计划的部分数据信息。

图2 TPS数据文档

在此数据集中可以看出,PlanCreateDate,PlanCreator,Stage ID等为根节点;PatientInfo,TreatmentInfo,PlanInfo则为Stage ID的子节点;PatientID,PatientName等则为PatientInfo子节点中的具体数据。此类数据文件可采用xml数据解析方法,针对数据文档的树形结构,结合根、叶节点的特征编写解析遍历规则,即先扫描数据集的层结构,依次读取根节点信息,当遇到子节点后,继续扫描是否存在叶节点,如果不存在则将子结点信息存储到当前的根节点下,如果存在则将叶节点信息存储在当前的子节点中,读取当前节点信息完成后,继续扫描下一个节点的内容,逐层获得数据集中的数据,并按对应关系进行存储[7]。通过以上方式,可获得TPS涉及治疗计划信息的完整的数据字段信息,包括患者信息、设备名称、DOSE边界、放射剂量等。通过以上数据解析过程,可以得到TPS系统中的VOI、DVH等描述文件[8]、DICOM RT的原始图像文件、Contour数据文件等。DICOM RT标准与DICOM标准[9]都采用E.R基本信息模型对实体进行抽象描述,使用信息对象定义的形式建立放射治疗数据模型,并用服务类的方式实现对放射治疗信息对象的操作。VOI、DVH等数据描述文件,常常对应着大量浮点数据,不利于信息的检索和存档,因此需要通过数据的标准化建设[10]、数据降维等处理手段,构建相应的数据库及表。数据库设计过程中,由于DICOM RT标准中的图像是针对信息对象定义[11],信息的存储或不同设备间的信息交换都是以IOD实例[12]来进行,所以数据库的设计尽量保持IOD的完整性,应体现IOD之间的关系[13],可以按照患者、研究、系列和图像4个层次进行检索和管理,保持数据的完整性。因此,数据库的逻辑结构应与DICOM标准信息模型保持一致,易于体现各数据之间的联系。采用关系型数据库MySQL进行设计,尽量与DICOM RT标准保持对应,遵循统一的逻辑结构、信息对象关系、元素属性、属性值的表达方式等。对于原始的DICOM文件以及TPS系统生成的DVH文件,可采取扫描文件路径的形式,对文件名称及路径进行遍历,将文件的完整路径按照一定的逻辑结构对应地存储在数据库中。

4 结语

数据解析在当今大数据时代发挥着日益重要的作用。以肿瘤放疗数据电子化、高效化管理为目标,将数据解析应用于肿瘤放疗大数据建设中,可有效解决多系统肿瘤放疗数据集成化管理的难题。将医学信息分析理论方法与软件工程思维相结合,利用计算机编程和数据库技术,设计开发数据解析软件,符合医学大数据建设的发展趋势,为诊断、影像、治疗等多类医学数据资源的高效集成提供了一定的解决思路,对加快肿瘤放疗大数据的建设进程以及开展深层次临床数据挖掘等起到了积极的促进作用[14-15]。

猜你喜欢
解析剂量数据库
·更正·
三角函数解析式中ω的几种求法
不同浓度营养液对生菜管道水培的影响
90Sr-90Y敷贴治疗的EBT3胶片剂量验证方法
睡梦解析仪
电竞初解析
数据库
对称巧用解析妙解
数据库
数据库