杨会 张兴娜 姜秋竹 原成英 屈重霄 刘云霄 王晨 李明 李荣山 周晓霜
030600 太原,山西医科大学(杨会,张兴娜,姜秋竹);030012 太原,山西医科大学附属人民医院/山西省人民医院肾内科(原成英,李荣山,周晓霜),病理科(屈重霄,刘云霄);030001 太原,山西医科大学第二医院病理科(王晨);030024 太原,太原理工大学(李明)
中国属于发展中国家,存在医疗资源分布不均衡的问题,大城市医院与基层医院医疗信息不对等,与门可罗雀的基层医院相比,省会城市医院长期“人潮涌动”,医务人员经常保持高负荷的劳动状态。山西省是肾脏病的高发区域,据本课题组前期的流行病学调查结果,山西省的慢性肾脏病发病率为13.8%,远高于全国10.8%的水平[1]。肾脏病的诊断高度依赖肾穿刺活检术,肾脏病理是肾脏病学中不可或缺的部分,但目前我国肾脏病理科医师严重短缺,山西省可以独立进行肾脏病理阅读、诊断的医院不足5家,专业的肾脏病理学医师不足10人。人工智能在医疗实践中的应用是医学研究的热点,目前已应用于影像学、病理学和皮肤癌的图像分析,其分析速度快,准确度可与临床医学专家媲美[2]。因此,本课题组决定开发肾小球人工智能识别系统,在该项目中我们将整张肾小球病理载玻片进行全信息、全方位快速扫描,得到数字化的肾组织病理切片图像,然后以人工智能(artificial intelligence,AI)技术和Faster R-CNN算法为核心[3-4],开发出能够自动对肾组织病理切片图像中肾小球进行识别的软件系统。该软件能够迅速识别肾小球并且精确计数,并且可以从肾组织病理切片中提取出缺血硬化的肾小球,达到帮助肾脏病理专业医师提高诊断效率的目的,现报道如下。
收集2008年9月至2018年9月在山西省人民医院和山西医科大学第二医院行肾穿刺活检术患者的肾脏病理切片,要求患者的临床数据完整、病史明确。纳入患者的原发病包括IgA肾病、膜性肾病、糖尿病肾病、高血压肾损害、狼疮肾炎、过敏性紫癜性肾炎。
1.肾脏病理切片扫描 选取患者PASM染色的肾脏病理切片,切片完整、均匀,切片厚度为3~4 μm。使用宁波江丰生物信息技术有限公司的病理扫描仪进行数字化扫描,病理切片图像含有百万数量级的显微结构,每张切片的大小约50 G,每位患者的病理切片可产生1 T的数据,该数据通过远程病理系统传输到云端并进行储存。
2.肾脏病理图像数据集的制作 本文中使用了肾脏病理图像YPMH数据集。该数据集中包含10年间3 251例肾病患者肾活检病理切片的四种染色:六胺银(PASM)染色、过碘酸雪夫反应(PAS/糖原反应)、苏木精伊红(HE)染色和MASSON染色,共计13 065张病理切片。首先,对数据进行清洗,将损坏的、灰尘污染的不清晰切片进行剔除,得到四种染色样本全部完整可用的患者数量为2 870例,即11 480张图像。由于PASM染色肾小球基底膜和肾小管基底膜呈现出黑色,系膜基质呈黑细丝状,细胞核呈红色,背景和红细胞呈黄色,能够较好地显示肾小球基底膜、细胞核和红细胞的分布及病变情况,从肾组织病理切片图像中获取肾小球特征数据相对容易,可以较好地将肾小球从肾小管间质等肾脏病理图像背景结构中区别出来。因此,在本项目中,主要使用了数据集中的PASM染色的肾组织病理图像制作训练和测试集,训练和测试从肾组织病理图像中识别肾小球的模型。
将2 870例PASM染色病理图像用于制作数据集。采集到的图像为KFB格式,平均每张图像的大小为25 000像素点×35 000像素点,包含8~9亿像素点,且KFB为私有数据格式,不能直接用于神经网络的训练。因此,在制作数据集的过程中,将所有原图像数据转换为通用格式并裁剪或压缩,得到2 870张适合于网络读取学习的大小和格式。将所有样本随机划分为包括2 296张图像(80%)的训练集和包括174张图像(20%)的测试集。使用Python语言和openslide工具包,读取由原图无损转换为svs格式的数据,每张图像都在400倍(×400)下直接进行重叠裁剪,使每张肾组织病理切片图像被裁剪为多个局部,成为适合神经网络读取和学习的大小。
由于数据中肾小球大小、形态不一,且相对于神经网络学习所需的庞大数据量以及肾小球复杂的特征集而言,所制作数据集的规模仍然较小。因此,在训练网络之前,使用仿射变换进行数据增强。将每张图像旋转90°、180°、270°,并将原图和旋转后的图像都进行翻转。使数据集扩大8倍。所有训练样本图片都标注出相对完整、能够用于病灶观察的肾小球,并将标签命名为“glo”,过于不完整的肾小球和已经坏死无法观察病变特征的肾小球不予以标注。
3.AI的训练与测试 完成上述数据预处理步骤后,得到的图像可用于训练AI,本实验AI使用Faster R-CNN网络学习。本实验使用LabelImg对图像进行标注,生成XML文件保存标注信息,遵循Pascal VOC格式。本实验采用Anaconda 3.0管理器,使用Python 3.5版本语言和Pycharm工具,基于TensorFlow框架实现Faster R-CNN算法。AI使用Faster R-CNN训练模型,训练40 000次,在所有样本图像上的平均训练和测试时间约为2 s/iteration。采用mAP来度量每个模型的性能,评价AI识别肾小球的准确率。
4.肾脏病理医师识别测试 将174张病理切片分别给2名工作2年左右的病理科医师和1名10年以上工作经历的肾脏病理科医师阅读,收集识别出肾小球的平均时间和准确率。
通过训练集训练基于Faster R-CNN卷积神经网络开发的AI得到模型,从肾组织病理切片中提取出肾小球(包含正常的肾小球及缺血硬化性肾小球),训练过程中的精度及损失变化见表1,在测试集上测试AI模型得到结果如图1。AI模型在测试集上的性能为:mAP=94.37%,整张玻片图像处理时间约为1 s,平均识别一个肾小球的时间(0.05±0.04)s(数据由太原理工大学大数据库学院提供)。病理科初级医师(工作2年左右)和高级医师(10年以上工作经历)识别一个肾小球的时间为(22.32±2.32)s和(11.50±1.42)s,识别时间均慢于AI(均P<0.05)(图2)。初级医师和高级医师识别肾小球的精确度分别为(82.18±4.92)%和(93.29±7.64)%,AI为(99.93±1.30)%,AI识别肾小球的精确度优于初级医师和高级医师(均P<0.05)。(图3)
表1 AI训练过程中精度及损失变化(%)
图1 AI进行测试后得到的图像结果
随着我国医疗条件的改善,病理学检查和诊断的需求量不断增加,三甲医院病理医师必须每天高强度阅片,不单耗费大量精力,还会因为工作疲劳导致工作能力暂时降低,造成不能完成任务或诊断效能降低。在本项目中将174张病理切片给工作2年左右的病理科医师和10年以上工作经历的病理科医师阅读,计算识别出肾小球的平均时间和准确率,在此过程中随着工作时间的延长,肾脏病理科医师阅读并且识别出一个肾小球的平均时间和准确率不断下降。目前,病理医师每天高强度阅片的工作状态已经持续许久,至今未能有效解决。可见基于深度学习的AI病理诊断系统有望能改善这一状况。病理图像是基于深度学习的人工智能的绝佳应用场景。借助计算机辅助诊断技术进行信息处理成为一项理想的选择,AI辅助诊断系统的构建能够提供一些肉眼无法观察到的病理切片的特异性属性,从而降低由于医师的主观因素(如临床经验不足或工作疲劳)导致的误诊或漏。
图2 AI与不同年资医师的识别肾小球时间比较
图3 AI与不同年资医师的识别肾小球准确率比较
组织切片数字化是病理AI技术发展的前提。近年来数字化病理技术和计算机图像处理技术得到长足发展,数字切片扫描仪和计算机在医疗领域广泛应用,解决了基于计算机图像处理的病理诊断系统的工程问题,也为基于计算机图像处理的病理诊断系统带来了更广阔的发展空间[5]。在本项目中,我们将整张肾脏病理切片进行全信息、全方位快速扫描,使物质化的玻璃载玻片变成数字化的病理切片,研究结果已表明AI识别肾小球的时间和精确度优于初级医师和高级医师(P<0.05),AI计算肾小球个数与识别缺血硬化性肾小球的速度和效率明显高于参与这项研究的病理科医师,达到帮助肾脏病理专业医师提高诊断效率目的。
现阶段,常用的算法大多要求有具体位置标注信息的医疗图像,传统医疗图像库只保存图像信息和诊断结果,不能直接用于深度学习算法。因此,在我们平台软件的工作中,根据实验具体进展情况,不断调整数据处理方式,并调整网络参数训练目标检测模型,最后使用相同的性能评价方法来评价每个模型,找到最佳的数据集合和切割肾小球的模型[6],积极推动了机器学习算法和AI方法在此领域的发展,开发出基于大数据及AI的肾脏病理诊断技术,成功将AI与医疗诊断完美结合。本项目结合病理图像数据集、网络结构及其参数、算法损失函数核心数据库,利用先进的生物信息学及AI分析技术,通过建立最佳数据集合和识别肾小球的目标检测模型,运用Faster R-CNN算法进行运算,然后应用深度学习、复杂网络等方法进行综合分析[7],最终自动输出肾脏病理诊断结果,致力于肾脏病理图像的自动识别,后期将逐步实现肾脏病理远程会诊,完善肾脏疾病生物样本库,实现肾脏病大数据处理及随访业务,并拓展肾脏病精准治疗和科学研究等项目。
相较于传统的手动设计特征提取肾小球方法而言,本项目使用深度学习算法来训练AI学习肾组织病理切片图像中肾小球的特征,能够从具有异质性的肾脏病理切片图像中识别出形态各异的肾小球,并且这种识别工作可以一次性在大批量数据上提取可能包含肾小球的候选区域,解决了以往肾小球提取工作不能大批量进行和只能提取具有固定特征的肾小球的问题[8]。相较于过去手动分割出肾脏病理图像中的肾小球和非肾小球片段,并从分类角度研究肾小球的工作,本文从目标检测的角度,基于Faster R-CNN识别肾脏病理图像中的肾小球,为后续实现自动从肾脏病理图像中分割肾小球奠定基础,节省手动切割过程中的时间和开销,也为后续病变特征识别工作带来一定帮助。
本项目以肾脏病理图片数据为基础,开展肾脏病理重要病变识别的深度学习算法、病灶识别和病变判断的深度学习算法、肾脏病理AI阅片辅助诊断算法的临床测试,并且进行远程阅片中心的软件设计与开发、远程阅片中心硬件设计与搭建、与基层医院之间网络连接、肾脏病理AI阅片辅助诊断平台和影像大数据资源平台的搭建,在肾脏病理智能医疗方面开展全方位的研究和产业化应用。在全力推进分级诊疗背景下,通过搭建区域医疗卫生信息化平台,可有效提升基层医疗卫生服务水平,实现医联体之间的互联互通,减少人民群众医疗负担,促进三级诊疗、区域化医疗的顺利推动。
在接下的工作中,可以把本文中检测到的候选区域的参数简单变换,转换成切割原图所需的数据格式,批量对原图上的肾小球进行切割,从原图中提取出单独的肾小球,进行后续对肾小球内部病变特征的识别工作,这也是本项目的最终目标。