申海洋,彭祥炜,王兴,李广欣,黎功,袁克虹
1.北京清华长庚医院放疗科,北京 102200;2.清华大学深圳国际研究生院,广东深圳 518000
据2018年GLOBOCAN 数据显示,全球新发肝癌病例约79 万例,死亡率居各类恶性肿瘤第2 位[1]。我国是肝癌大国,原发性肝癌是我国第4位常见恶性肿瘤[2],发病人数占全球的55%[3]。2017年,在我国因病早逝的人群中因患肝癌去世的人群排名第5位,死亡率高达30/10 万人[4],严重威胁着人们的健康。手术切除是治疗早期原发性肝癌的首选方法[5],在精准肝切除理念的指导下,以肝脏的解剖结构和功能分段为基础,借助数字外科技术平台,通过精确的定量分析和手术规划,以达到彻底清除病灶、最大限度地保留残余肝脏的结构完整和功能代偿、降低手术创伤的目的。精准肝切除的发展极大地提高了肝癌的治疗有效率。然而,我国肝癌患者的手术切除率仅为20%~30%,多数患者发现时已达中晚期[6],错过手术治疗时间,只能选择非手术治疗。原发性肝癌对放射治疗敏感,其敏感性与低分化鳞癌相当[7]。美国国立综合癌症网络2018年肝胆肿瘤临床实践指南指出,对于肝癌,任何位置的肿瘤都可以采用放疗手段进行局部治疗,并强烈推荐使用图像引导下的放射治疗[8]。
随着科技的发展,放疗技术不断进步,医生可以使用三维适形及调强放射治疗等新型放疗技术向靶区输送高辐射剂量药剂,且不会影响肝部的整体功能,使肝癌的放疗日趋精准[9]。尽管如此,放疗仍然是一种“有损伤性”的治疗方式,其产生的损伤与受照射组织的体积、剂量有关。一般来说,肝脏受照射的体积越大,其最大的耐受剂量越小,越容易发生放射性肝损伤[10]。现有放射治疗未考虑肝脏的解剖分段与肿瘤靶区的空间位置关系,并非真正意义上实现精准放疗,容易对不同肝段进行高剂量辐射转送,无法对肝段进行功能性保护,从而增加肝脏功能损伤,造成不良预后[11]。
借鉴精准肝切除的理念,依托人工智能系统,将肿瘤靶区与肝分段解剖及脉管系统的位置关系纳入放疗计划设计、优化中考量,最大限度地降低放疗对其他肝段的影响,确保剩余肝脏结构完整和功能代偿[12-14],将在一定程度上降低放疗对正常肝脏组织的损害,进而提高放疗在肝癌中的治疗效果[15]。在构建人工智能系统的过程中,数据是必需的关键基础设施,在很大程度上决定人工智能系统的性能、公平性、稳健性、安全性和可扩展性[16]。基于此,本研究提出一种基于肝分段和肝癌轮廓融合的放疗靶区数据库建立方法,进而为肝脏正常组织精准勾画以及精准放疗的发展提供数据支撑。
放疗是以图像信息为基础的治疗方式,肝癌的放疗一般需要经过医生看诊、计算机断层扫描(CT)模拟定位、磁共振成像(MRI)、靶区勾画、计划设计、验证及治疗实施7个步骤。定位阶段获取病灶的图像信息,同时明确放疗实施部位并标记。计划阶段则主要参考患者CT图像对病灶进行靶区勾画,经过周密的计算和规划制定放疗处方,尽可能保护危及器官。当前,在靶区勾画和计划阶段主要以平面图像为基准进行,缺乏病灶与肝段的位置关系,使实现基于精准肝切除理念的放疗成为难点。因此,为实现真正意义上的精准化肝癌放疗,必须将具有肝分段与靶区勾画的图像进行融合,创建融合图像数据库。在融合图像数据库的指导下,放疗计划设计和实施可以精确到肝段内,尽可能保护剩余肝脏的完整解剖结构,使得肝癌放疗更加精准。
此外,当前已有不少机构研发放疗自动靶区勾画的软件,但目前尚缺乏统一的结果检验标准,尤其针对某一器官组织,从而为自动勾画软件的推广增加了很多难度。融合图像数据库为软件的测试标准提供了一种参考,可以用来测试现有肝部放疗自动靶区勾画软件,验证其勾画质量及勾画效果,使实现放疗靶区勾画的自动化成为可能[17]。因此,非常有必要构建肝分段及靶区勾画融合的数据库推动智慧化放疗和精准放疗的发展。
本数据库参照人工智能医疗器械数据集质量相关的基础标准,综合参考医疗器械、信息技术、卫生数据管理、临床数据管理等相关领域的数据质量要求与评价方式,根据人工智能医疗器械技术特点而进行数据库的建设[18]。
为了确保既能作为人工智能数据库训练的使用,同时也能作为未来的行业验证标准和规范的数据库,本数据库参照多种相关的规范,主要包括YY/T 0287-2017《医疗器械质量管理体系用于法规的要求》、YY/T 0316-2016《医疗器械风险管理对医疗器械的应用》、国家食品药品监督管理总局《深度学习辅助决策医疗器械软件审评要点(2019年第7 号)》、GB/T 36344-2018《信息技术数据质量评价指标》、GB/T 34960.5-2018《信息技术:服务治理第5部分:数据治理规范》、GB/T 25000.12-2017《系统与软件工程:系统与软件质量要求和评价(SQuaRE)第12 部分:数据质量模型》等[19]。
医学影像数据库是利用数据库系统将医学影像数据信息以汇聚形式展现,根据数据结构对影像数据或数据集进行组织、存储和管理。标准数据库建立在良好的数据基础上,要求数据具有真实性、准确性、完整性及可塑性。数据库的建立是一个全生命周期的管理过程,需经过数据采集、数据预处理、数据标注及数据集构建等过程,同时在全过程中保证持续的数据质量管理。图1给出了整个数据库入库及使用的流程图。
数据采集过程依赖临床机构实际的病例数据。入选病例图像为肝癌患者的腹部CT 影像资料,作为原始图像,在医学影像系统筛选肝癌患者的上述图像,将数据批量导出。导出时对原始图像数据进行脱敏处理,隐去所有涉及患者隐私的个人信息,确保数据的采集过程符合伦理要求,最终将所采集的图像数据汇聚形成初始数据储存库留待处理[20]。在之后的流程中,将会分别对同一张原始图像做带有肝脏放疗靶区勾画和分区分段轮廓标注工作,最后将两者图像融合,实现精准肝切除理念下放疗优化。
数据预处理过程是保证数据库准确性的基础,在这一过程中需对数据进行清洗筛选,删减质量较差、诊断存疑及诊断不符的图像,留存清晰、典型的高质量图像,进而形成基础数据库。
2.3.1 肝癌放疗靶区勾画在患者的腹部CT 图像上完成肝癌的放疗靶区标注,标注内容包括肝癌病灶的大体靶区(GTV)、临床靶区(CTV)、计划靶区(PTV)和危及器官等,标注工作由具有5年以上工作经验且经统一培训的放疗科医师完成。标注规则以肝癌放射治疗指南为基础,由放疗领域专家制定。随后,在最大限度保护危及器官的前提下,由物理师进行放疗计划设计,再由医师进行最终审核,确保无误后方可纳入数据库形成靶区勾画标注数据库。
2.3.2 肝脏分区分段标注在肝脏三维重建图像上根据肝脏血管胆管树的走形进行肝脏分区分段的标注。标注规则以肝脏解剖学为基础,由肝脏外科领域专家制定,标注过程在肝脏外科医生的指导下进行,核对无误后形成肝脏解剖分区分段轮廓数据库。在标注过程中,每1 例图像均由两位医师标注,并通过双重审核保证标注结果的质量。
在轮廓融合阶段,通过算法将相互匹配的放疗靶区勾画图像(图2)与肝脏解剖分段图像进行轮廓融合,使得肝脏的分区分段及放疗计划靶区在一个图像中同时存在(图3),得到原发性肝癌轮廓融合图像(图4),进而实现精准肝切除理念下的肝脏放疗优化。
2.5.1 数据集的划分运用以上方法建立原发性肝癌轮廓融合图像标准数据库后,可以为肝癌图像处理任务提供有效的支撑数据集。例如做靶向肝分割任务时,可以将数据库按照3:1:1 的比例划分为训练集、验证集、测试集。为了保证数据集划分的科学性和准确性,3 个数据集中的病人性别、年龄、GTV、CTV、PTV、肝脏体积等数据统计均值尽可能保持一致。训练集用于最初的算法训练与制定,让模型拟合数据样本;验证集用于验证当前模型的泛化能力,并对模型优化更新;测试集用于评估最终模型的泛化能力,进而满足算法模型的解释性、准确性及鲁棒性要求[21]。
除了上述划分数据集的方法外,还可以用交叉验证法使用数据集完成医学图像处理相关任务。交叉验证法的做法是将肝癌数据集划为均等但不相交的K份,每一份数据集中病人性别、年龄、GTV、CTV、PTV、肝脏体积等数据统计均值尽可能保持均等。之后将K-1份数据集作为训练集,将另外一份数据集作为测试集,将算法执行K次[22]。
2.5.2 数据集的使用本文构建的肝癌数据库可以用于基于深度学习的肝分割训练和测试任务[17]。Unet是著名的医学图像分割网络,运用本文数据集可以训练Unet 网络以得到精准肝分割模型。具体流程是:向网络输入肝癌图像,Unet 网络会将图像编码(降采样)、图像解码(升采样),最后将图像像素级融合以输出分割结果,可以计算每一次分割结果与原图MASK 的Dice 系数作为损失函数,之后反向传播逐步优化模型[23]。训练结束后,可以用测试集评估该模型的最终泛化能力,评价指标可以用Dice 系数或者分割结果与原图MASK 的交并比(IOU)。在肝癌图像输入到网络前,可以使用拉普拉斯算子(Laplace)将图像滤波,以增强图像的边缘信息,这样可以提高训练网络模型对肝癌图像的分割精度[24]。如图5所示,展示使用Unet深度学习分割网络和拉普拉斯算子进行的靶点分割实际效果。
标准数据库的建立除要求对数据进行精确处理外,还需要完善的管理支撑体系保障数据库的正常运行[25]。数据管理支撑体系包括数据质量系统、数据运维系统及数据安全系统。
数据的数量和质量是决定人工智能应用效果的基础,对人工智能产品性能起着决定作用,因此数据库建立过程中对数据的质量有严格要求。数据质量系统即运用系统方式对数据的质量进行严格控制,以保证数据库的标准性。标准数据库建立后,需要依赖数据运维系统进行日常的运行及维护,以确保数据库的正常运转[26]。此外,信息安全是网络时代越来越受重视的领域,标准数据库中蕴藏着海量的信息,因此需依托一套完善的数据安全系统来保障数据的安全性。经过上述流程,本文所构建的肝癌放疗靶区CT影像数据库概况见表1。
表1 肝癌放疗靶区CT影像数据库建立概况Table 1 Brief introduction of CT image database of radiotherapy target areas in patients with liver cancer
本文基于精准肝切除理念提出一种肝癌放疗靶区数据库的建立方法,通过图像融合技术使肝癌的放射治疗精确到肝段,最大限度地减少放疗对肝脏正常组织的影响,进而提高患者预后。该数据库已实现框架的建立,后续会逐步更新更多的肝癌数据。该肝癌数据库可以用于基于深度学习的肝分割训练和测试任务,进而得到可以准确进行肝分割的算法模型以实现肝部精准放疗。
本文所提出的数据库建立方法在实际运行中仍存在一些难点,如在标定规则的认可度方面,不同的医院和专家之间可能存在个性化的差异,因此如何提高标注规则的认可度,使其得到公认是实际操作过程中应该重点关注的环节。另外,在医生来源方面,不同医生的准确性存在差异,因此在标注结果的一致性上需要进行质量控制,如通过对一个图像进行双标注,提高准确性和一致性。而对于数据库的标准性,需要经过多次自我测试和第三方测试进行调试和优化,以提高数据库的普适性。待数据库可以保证准确性、一致性、普适性后会公开,可为肝癌数据研究提供资源。我国的数据库建设尚处于滞后状态,无论是从社会资源投入方面还是数据共享方面,较发达国家均存在较大差距。因此,需集中力量加快数据库的建设、统一标准、提高质量,为精准放疗的发展提供有力的支持。