赵侠 贺轲
人工智能(artificial intelligence,AI)技术延伸至医学领域,给近代医学的发展进步提供了强有力的动力,AI通过将临床医学相关诊疗共识、指南等信息纳入计算机系统协助解决了临床医生诸多临床问题[1]。现阶段,“实体医疗”和“深度学习”是AI的主要应用领域,前者主要包括参与医疗服务的机器人、医疗设备和物理对象,后者主要是一种基于经验的数学算法,可医疗影像工作中展示出人意料的表现。病理学和影像学图片是临床医师诊断病情的重要依据,亦是人工智能的绝佳应用场景[2]。近年来,计算机辅助检测(computer-aided detection,CAD)在影像学图片的识别中表现出较高临床价值,可通过影像学、医学图像处理技术以及其他可能的生理、生化手段并结合计算机分析计算,以此高特异性和敏感性的识别图像的异常,从而为医师的诊断提供信息参考,以降低假阴性率、误诊率、漏诊率和提高病变检出率[3]。但现阶段国内对于智能医师助理的关键技术和应用仍缺乏系统报道。基于此背景,本次研究以胸部平片为对象,拟搭建胸部X线平片智能医生助理诊断生成系统,现将结果进行如下报道。
对本院2018年 1 月—2020 年 1 月所有胸部X线检查图像及其对于报告进行收集,本次研究数据集中总纳入图像及其对于中文报告1 100份,报告涵盖:肋骨骨折、纵隔占位、心脏病、食管裂孔疝、胸腔积液、气胸、肺部肿块和肺部感染等。所有报告均由本院两名副主任及以上医师进行双盲审片。以符合审核标准的图像及其报告建立数据集,并以GDSGRYY123为数据集名称,并按10%、10%和80%的比例将数据集进行分类,其中80%用于训练、剩下各10%分别用于测试和验证。
1.2.1 网络的主体框架 视觉信息编码器采用了一个121层深度联系的DenseNet以从X线图像中提取相关信息,编码器包括4个部分,每部分均由多个卷积层组成,而4个部分之间均由过渡层连接。DenseNet增强特征增值,激励特征再利用,同时降低了梯度消失的问题,这有利于将该网络向更小的数据集中推广应用。DenseNet的最终结果将输入长短期记忆网络(long short-term memory network,LSTM),由模块对特定的X线图像所代表的结果进行生成对应的描述。采用的注意机制为柔性的,即将图像不同部分的线性组合作为网络的注意区域。源于DenseNet的输出结果,模块在计算过程中会生成一套注意权重,将注意权重与对应向量相乘,可获得一个可以对图像进行解释的附有权重信息的数据表示,而这些权重又将再次进入下一次的循环来对下一条词句进行预测。开头和结尾分别以两种特殊的标记来进行标记,以<unknown>来对频率小于3的词语进行标记。
1.2.2 训练步骤 本次试验的预训练数据集采用了ChestX-ray8数据集,ChestX-ray8数据集包含了14种疾病的标记和共计11万张X线图像,将原始X线图调整为了256×256的大小来对报告生成模块进行训练,LSTM的植入值设置为256,其隐藏单元设置参数为512,并采用了Adam优化器进行全局优化,亦通过设置相关标准来对原始报告和程序生成的报告进行了质控比较,方案为:首选在本院影像科挑选2名具有丰富阅片经验的医生来对最终形成报告进行质量评估,报告选择为随机于原始数据集中随机选取100份由本院影像科医生给出报告(专家组)和由训练完成的系统给出报告(模型组)100份。其中2名具有丰富阅片经验的医生与专家组医生互为不同的人。
参考Iacobas等[4]的方法,采用CIDEr对图像进行评价,并由评价结果对系统所出报告和医师人工给出报告的一致性进行评价。
本次图像报告均采用5级评分制,既1~5分,得分越高代表报告越能准确描述实际病情。具体评分依据为:1分报告对主要异常情况描述丢失或不准确;2分报告含有但未能准确的描述主要异常情况;3分报告能准确描述主要异常情况,但对动脉钙化、心影变化、胸腔外科术后、纤维条索影和陈旧性病变等胸内次要异常描述丢失;4分报告能准确描述主要异常情况,但对体外异物或脊柱侧凸等胸外次要异常的描述丢失;5分报告能准确描述所有异常情况。根据报告评分进行诊断价值分析。
应用SPSS 19.0软件处理数据。计量资料用(±s)表示,两组间比较用t检验;计数资料以率(%)表示,组间比较用χ2检验。P<0.05为差异有统计学意义。采用受试者工作曲线(ROC)根据报告评分进行诊断效能分析。
本次评分结果中,5分报告模型组有79份,专家组有83份,组间比较差异无统计学意义(P>0.05);4分报告模型组有10份,专家组有6份,组间比较差异无统计学意义(P>0.05);3分报告模型组有6份,专家组有5份,组间比较差异无统计学意义(P>0.05);2分报告模型组有0份,专家组有3份,组间比较差异无统计学意义(P>0.05);1分报告模型组有5份,专家组有3份,组间比较差异无统计学意义(P>0.05),两组生成报告评分平均分值比较差异无统计学意义(P>0.05),见表1。
表1 两组生成报告评分结果对比
专家组报告的灵敏度和特异度分别为90.57%和89.36%,AUC 值为 0.889,95%CI(0.810 ~ 0.943),模型组报告的灵敏度和特异度分别为88.68%和87.23%,AUC值为0.852,95%CI(0.767 ~ 0.915)。见表2 和图1。
表2 专家组和模型组诊断价值比较
图1 专家组和模型组ROC曲线
医疗数据中有90%来自于医学影像,眼底镜图像、病理图像、CT图像、X线图像等图像作为辅助检查的重要手段,已在临床疾病的诊断中得到了广泛的应用,为临床医师的诊断提供了重要的信息参考[5-6]。随着影像成像设备和技术的长足发展,更小的异常、解剖结构的可视化和获取更高分辨率图像逐渐成为可能,然而增加每位受试者的平均图像数量是获取更高分辨率图像的重要前提,这预示着未来影像科将面临更复杂和更庞大的图像解读工作,而现阶段临床影像数据的处理仍主要依靠影像科医生进行,而图像的日趋复杂、病变细微和疲劳势必会影响影像科医师的工作效率,加之需处理的影像数据日趋递增而医生增长速度不足恐将难以应对临床实际需求[7-9]。人工智能(artificial intelligence)是一门涵盖数学和计算机科学的综合科学,其目的是为了扩展、延伸和模拟人的智能技术、方法、理论和应用系统,操作自动化,可有效减少人力成本,并提高效率。而近来随着AI和医学交叉学科的发展基于AI的智能医生助理在各种影像任务的治疗反应中和风险评估、检测、诊断中的价值逐渐受到临床医生的关注[10-11]。
人工智能的算法种类众多,主要包括抗生成网络[12]、随机森林[13]、支持向量机[14]和人工神经网络[15]等。本次模型的开发采用了结合注意力机制和结合注意力机制的递归神经网络,该模型可依据患者临床胸部X线报告自动生成诊断报告,以作为辅助诊断依据为临床医生的临床诊断判别提供参考。在模型训练过程中,模型输出报告在5分区间内的占比达到79.00%,这与本院经验丰富的影像科医生83.00%的水平基本一致,且在实践过程中发现本次系统尚具备优化空间,届时可更好地为临床医生的诊断提供信息支持。Schena等[16]开发的人工智能工具确定了因IgAN易患ESKD的个体,并预测了事件发生时间的终点。Sa等[17]回顾了人工智能在放射学的应用现状,发现深度学习人工智能技术可为影像科的发展带来巨大帮助。而模型组AUC为0.852,特异度达到87.23%,这与上述研究结果基本类似,表明模型组可为临床医师的诊断提供富有价值的影像学报告。考虑原因可能为模型具有下述优势:(1)随着影像学的发展,更高清晰度的影像检查结果势必会增加阅片工作量,而更加复杂的影像结果呈现,亦对会影像学医师的判断增加诸多干扰,而模型当输入足够的训练数据集后,模型可获取较高的特异度和灵敏度,这有利于为影像科医师提供更佳的信息参考,以便降低因个人经验或情绪、疲劳等客观因素带来的误差,从而有效提升报告的可信性和科学性,亦为临床医生的判断和治疗方案的制定提供了更佳的信息参考;(2)基层医院由于医生的技术水平有限,而大医院重复劳动强度大、诊疗中信息负载高是现阶段我国医疗资源分布极度不平衡的现实问题,而模型可自动生成与人类专家水平相似的图像报告,从而可以为基础医院医生提供更佳的信息支持和同时减轻大医院影像科医生的重复劳动;(3)模型具有较优质的扩展性,模型可通过对院内每日生产的影像学报告进行学习,从而进一步提升模型诊断的灵敏度和特异性。
综上所述,通过开发智能医生助理可有效减轻影像科医生工作量,可提供接近于人类专家水平的影像报告,从而为临床医师的临床鉴别诊断和后续的方案制定提供更加科学、系统的信息支持,值得临床推广应用。但由于数据样本量的限制未能馈入更大样本的数据集以训练模型,故在今后的工作中仍需继续对模型进行进一步扩展和完善。