马帅, 吴静云, 刘义, 姜健, 李作峰, 施雅慧, 李俊博, 魏娟, 王霄英
·影像信息学专题·
自然语言处理对泌尿系结石CT特征的提取:与人工诊断结果的对照研究
马帅, 吴静云, 刘义, 姜健, 李作峰, 施雅慧, 李俊博, 魏娟, 王霄英
目的:研究自然语言处理(NLP)对泌尿系结石CT特征的提取效果。方法:回顾性分析379例泌尿系结石(392个)行手术治疗患者的CT报告,以人工和NLP方法分别进行结石相关图像特征的分析。NLP分析过程:结合人工校正,进行文本信息的提取和加工,通过机器学习制定原则,得到关键特征,交叉验证这些关键特征与不同手术方式的相关性。专家分析过程:三位医师分析CT图像,人工确定需提取的关键特征,分析各种特征与手术方式的相关性。结果:NLP分析所得关键特征为“结石”、“炎症”和“输尿管形态”相关信息,其预测手术方式的符合率为0.456,ROC下面积为0.608。专家分析所得关键特征中,“结石上下位置”、“肾周索条影”、“输尿管壁增厚”和“结石大小”这4个征象与手术方式的选择有相关性(r=0.192、-0.318、-0.285和-0.359,P<0.05)。结论:NLP提取的泌尿系结石的关键CT特征与专家评估的结果类似,其对手术方式的预测效能得到初步肯定。
自然语言处理; 泌尿系结石; 数据挖掘; 影像信息学
自然语言处理(natural language processing,NLP)技术作为医学影像信息学在临床应用中的重要工具[1],其价值受到学术界广泛关注。通过计算机智能挖掘影像报告自由文本中的特定信息、提取疾病诊断相关征象,NLP可学习诊断模式及规则,并为临床提供决策支持[2]。系统训练和验证是NLP构建过程中的重要环节,对保证系统运行稳定性和结论可靠性具有重要意义。
泌尿系结石手术治疗方式多样,CT报告中结石征象对于治疗决策的制订有重要价值,临床医师常综合分析CT征象和其它临床信息来选择手术方式。既往CT影像研究的关注点多为结石成分分析[3]、特殊结石的影像表现[4]等,但患者手术治疗前更需综合评估其影像表现,以帮助临床医师制订手术计划。本研究拟通过NLP技术来分析CT报告中泌尿系结石的征象,评估各征象与手术方式的相关性,并以专家人工分析为参照标准来验证NLP的诊断结果,旨在初步探讨NLP对结石术式选择的预测效能。
1.研究对象
回顾性分析2014年1月-2016年9月在我院住
表1 不同手术组结石CT定量特征的比较
院并接受手术治疗的泌尿系结石患者的病例资料,共搜集连续379例患者(392个结石)的数据,对其CT报告及临床病历文本资料分别进行拆分归档,完成NLP分析和人工分析。本组患者接受的手术方式有4种:经皮肾镜碎石术(percutaneous nephrolithotripsy,PNL),输尿镜碎石术(ureteroscopic lithotripsy,URL),输尿管软镜碎石术(retrograde intrarenal surgery,RIRS),多种手术方式联合使用。以上4组纳入研究的结石特征数分别为140、180、39和33个,共计392个。
2.NLP分析方法
首先,按CT报告、出院小结对文本资料进行拆分预处理,录入Excel表格构建数据挖掘的训练数据集。既而,构建基于连续n个相邻词语组成的小片段(ngram)的决策树来分析上述预处理文本,识别每份自由文本特定部分(如影像表现和诊断结论等)来创建词袋并统计相关词频,以此构建特征向量。对频数相同且互为包含关系的小片段,结合专家建议仅保留具有最长字节者,由此筛选具有完整语义的属性,完成特征提取和特征加工环节。最后,系统通过机器学习推导并制定原则,判断目标概念是否可推导出相应手术方式,实现CT报告中结石征象与手术方式的相关性分析。
3.专家人工分析方法
由三位有经验的影像诊断医师,经过文献复习及协商,确定对CT报告的文本材料进行信息提取[5-8],主要包括:结石左右位置、结石上下位置、结石大小、CT值、梗阻积水程度、输尿管扩张、输尿管壁增厚、肾盂扩张、输尿管周索条、肾周索条和肾脏增大等,对其中部分项目进行编码以便于统计计数或等级资料(如梗阻积水程度按四级标记:0=无、1=轻度、2=中度、3=重度)。前两次信息采集均由两位医师配合,采取一人阅读另一人记录的方式,并记录诊断用时和误读数,分析两次人工分析结果的一致性。第三次由另一位高年资医师针对前两者记录的不一致项目重新阅读,将其判断结果作为最终结论,完成与临床手术方式的相关性分析,以此作为专家标准来验证NLP预测手术方式的效能。
4.统计学分析
使用SPSS 18.0软件,对计量资料采用均值±标准差表示,所有数据均采用Shapiro-Wilkins检验来验证其是否服从正态分布。人工分析报告中两位阅片者的一致性分析采用Kappa检验,Kappa值<0.42为一致性差,0.4≤Kappa值<0.75为一致性良好,Kappa值≥0.75为一致性非常好。采用Spearman相关分析评估结石征象的关键信息在各手术方式间的差异,并得出相关系数。采用非参数Kruskal-Wallis H检验比较各组计量资料的差异,若差异有统计学意义,则采用非参数秩和检验(Mann-Whitney U)进行两两比较。P<0.05为差异有统计学意义。
对379例患者的392个结石特征进行专家分析。NLP处理时,因部分数据信息不完整被删除,故NLP最终处理了371个结石的特征。
1.NLP评估结果
利用分词技术,构建词袋向量,对每一份医疗文档构建词袋词频,并构建特征向量。将患者的手术方式进行分类。利用决策树方法,来观察临床医师可能的决策过程。
本研究中NLP提取出“结石”、“炎症”、“输尿管形态”的文字描述与手术方式的选择有较强的相关性。十字交叉验证结果显示,NLP分类诊断符合率为0.456,ROC下面积为0.608。
2.专家评估结果
根据文献[5-8]建议及本单位专家共识,对每个结石的CT特征提取11类关键信息,合计应提取4312项,缺失1303项,最后3009项纳入分析。两位医师统计分析病例的特征信息分别用时302和350min。复核后,两位医师提取的信息错误分别为13项和17项(主要为CT值误读、结石上下位置分类错误等),两位阅片者间的一致性差(Kappa=0.062,P=0.001)。
四种手术方式组中结石定量特征的测量结果见表1。各组间结石CT值的差异无统计学意义(H=7.186,P=0.066)。而结石直径的差异有统计学意义(H=101.042,P<0.001);进一步两两比较,仅RIRS组与联合手术组之间结石直径的差异无统计学意义(Z=-0.540,P=0.589),其它各组间结石直径的差异均有统计学意义(P<0.05):PNL组、RIRS组和联合手术组中结石直径均大于URL组,差异有统计学意义(P=0.000~0.025)。
Spearman相关系数分析结果见表2。“结石上下位置”、“输尿管壁增厚”、“肾周索条”及“结石大小(最大径)”与手术方式具有弱相关关系(r=0.192、-0.285、-0.318和-0.359,P<0.05),但“肾周索条”这一征象的数据存在较大缺失(缺失率为89.5%)。其它征象与手术方式均无明确相关性(r=-0.003~-0.092)。此外在各手术分组中,部分具有弱相关性的CT征象,其阳性征象的频数分布也具有一定规律(表3)。总体观察,纳入研究的阳性征象占有效案例的比值分别为:结石上下位置386/392、肾周索条影37/41、输尿管壁增厚196/229。具体而言,PNL组、RIRS组及联合手术组中,结石多发于肾脏(分别占62.3%、71.1%、53.2%),且均以肾盂为主(分别占53.6%、39.5%、31.3%);URL组中以多发输尿管结石为主(占80.4%),且以输尿管上段和下段最为常见(分别占30.9%、32.6%),肾结石仅占11.2%。肾周索条和输尿管管壁增厚的描述均以URL组最为多见(分别占48.6%和50.0%),RIRS组出现频率最低(分别为2.7%、8.7%)。
表2 结石CT特征与手术方式的相关性
注:*有统计学意义的弱相关关系(P<0.05)。
表3 与手术方式有弱相关的CT征象描述比较 (例)
注:括号内为百分数(%)。
3.NLP与人工分析结果的比较
两种分析方法均提示结石CT特征中,与手术方式相关性较强的为“结石(大小、位置)”、“炎症(输尿管壁增厚、肾周索条)”和“输尿管形态”。NLP结果与人工统计的关键征象基本类似,但具体描述略有不同,NLP结果较为概括,而人工分析结果则具体到结石大小和上下位置、输尿管壁和肾周索条的描述。
泌尿系结石是常见病、多发病,发病部位可位于肾脏、输尿管、膀胱及尿道任何部位,以肾脏和输尿管最为多见。CT检查对确诊泌尿系结石及术前指导制定治疗方案具有重要作用,可精确提示结石大小、数量、形态及发生部位,并能显示集合系统积水扩张、炎性反应等继发征象[5-8]。目前结石的治疗方式多样,泌尿外科医师往往结合临床多种信息对最终治疗方案采取主观的多因素分析。本研究通过NLP提取出了CT报告中与手术相关性较强的结石特征,以期了解临床医生可能的决策过程,并以专家分析结果验证了其效能。
NLP技术在影像医学领域的潜在价值正得到越来越多的关注,有望改变传统影像医学工作模式并对其它临床领域产生推动作用。虽然各类NLP资源的临床应用目的和实际操作流程有一定区别,但文本特征提取与加工、系统训练和验证等关键流程的原理是基本类似的。NLP构建过程中的训练验证通常有两种方式:参考集验证或交叉验证[9-10]。前者数据通常来自该领域专家判读并标注某种疾病后形成的具有一定规模的数据集样本,而这种标注大部分是以二元形式存在(如特定征象有无等),但也可以自由文本形式出现(如规范的报告语句、特定概念或定量数值描述)。后者的数据集常被分割为若干等份子集,其中一份作为测试数据,剩余部分为训练数据,子集轮流替换完成迭代验证再求均值,作为对相关算法准确性的估计。本研究中NLP构建过程中所用的“十折交叉验证”即为此类验证方法的典型代表,而人工提取关键征象并做相关性分析则可视为前者的具体运用。
在本研究中NLP分析结果与专家分析结果相近,其关键词均涉及“结石”、“炎症”以及“输尿管形态”,虽然未涉及到具体的形态、位置以及周边炎性表现描述,但其分析效能也可得到肯定。本研究NLP提取的手术相关特征,不仅得到本组专家人工结果的验证,也与既往类似人工研究的结果相似,在临床手术治疗结石的决策环节,结石大小和位置都为术式选择的重要依据[5-8]。
近年来国外有研究者对NLP处理和人工分析的效能进行了对比,验证了其敏感度和特异度均在90%左右[9-11],并且性能不因医学试验目的、软件资源等因素的不同而表现出显著差异,其运行表现出良好的稳定性。此外,与人工统计相比,NLP不仅可以快速、精准地完成数据挖掘等任务,还可随着验证参考集的更新、机器学习算法及验证算法的不断改进而不断表现出更高的效能,有良好的可扩展性[12]。
然而,NLP在临床医学工作中尤其是医学影像领域的应用仍需改进,其构建过程尚不明晰[1-2]。在目标数据集选择、数据预处理、特殊数据挖掘匹配、模式的解释和评估等流程中,均可因能因IT操作者对医学领域先验知识理解程度、数据挖掘算法选择以及训练验证数据集的不同而使分析结果发生一定变化。在本组NLP的初步探索中,也有类似的局限性。首先,在临床工作中真实数据与“理想”数据存在一定差距[13],当出现缺失少量信息或前后信息不完全一致的情况时,在人工分析过程中,这些有瑕疵的数据可被专家根据经验进行识别和纠正,从而可被纳入研究中;但NLP对此类瑕疵数据的识别仍有困难,故本组NLP研究的病例少于人工研究的数量(371 vs 392),但通常不影响最终结果的一致性[14]。其次,NLP分析的关键词中“炎症”并非标准的影像学征象术语,这可能与NLP系统在机器学习过程中操作者设计的算法规则有一定关联。第三,虽然专家人工分析结果可视为NLP效能评价的参考标准,但因本研究无法明确选出合适的阳性指标或正常值上限,因此并不适合做诊断试验评价,无法量化NLP评价的敏感度和特异度等评价指标。
因此,针对本组研究问题的NLP仍可进一步改进。本组CT报告中,部分征象的缺失数量过多造成结果可能出现一定偏差,这与既往使用文本式报告、内容完整性不能保障有关,未来可以使用结构式报告的数据来进行NLP研究[15-16],在数据质量明显提高的情况下,NLP的效能有可能进一步提高。其次,本研究仅对CT报告的文本进行了分析,如能导入医院信息系统(hospital information system,HIS)中全部医疗数据,在增加临床信息的基础上,有可能会对NLP的效能进一步改进。最后,本研究回顾性分析了CT征象与手术的相关性,试图以“相关关系”来预测手术方式的选择,以期了解临床医师的决策思路。现阶段此种研究方案的设计有一定的科学性,也与当前大多数同类型研究使用的方法相同。但NLP的最终用途应是辅助决策,故将来应在优质数据、优效NLP的基础上开展前瞻性研究,才能真正验证以NLP辅助决策选择手术方法的实际效能。随着NLP技术的完善,未来有望在影像诊断结构式报告书写过程中,系统后台同时提取患者其他相关临床信息,结合医师录入(或系统自动提取)的图像特征,在出具诊断报告的同时,为临床决策提供可行的指导建议。
综上所述,NLP可提取泌尿系结石的关键CT特征,预测手术方式的结果与专家评估结果类似,其预测效能得到初步肯定。NLP对辅助制订临床决策具有潜在的应用价值,值得进一步研究。
[1] Cai T,Giannopoulos AA,Yu S,et al.Natural language processing technologies in radiology research and clinical applications[J].Radiographics,2016,36(1):176-191.
[2] Pons E,Braun LM,Hunink MG,et al.Natural language processing in radiology:a systematic review[J].Radiology,2016,279(2):329-343.
[3] 范兵,王霄英,邱建星,等.能谱CT有效原子序数对泌尿系结石成分的诊断价值[J].实用放射学杂志,2012,28(9):1400-1403.
[4] 侯振洲,董凤群,王霄英,等.三聚氰胺致泌尿系统结石的CT表现[J].中华放射学杂志,2009,43(4):390-393.
[5] Kambadakone AR,Eisner BH,Catalano OA,et al.New and evolving concepts in the imaging and management of urolithiasis:urologists' perspective[J].RadioGraphics,2010,30(3):603-623.
[6] Eisner BH,McQuaid JW,Hyams E,et al.Nephrolithiasis:what surgeons need to know[J].AJR,2011,196(6):1274-1278.
[7] Cheng PM,Moin P,Dunn MD,et al.What the radiologist needs to know about urolithiasis:Part 1:pathogenesis,types,assessment,and variant anatomy[J].AJR,2012,198(6):540-547.
[8] Cheng PM,Moin P,Dunn MD,et al.What the radiologist needs to know about urolithiasis:Part 2:CT findings,reporting,and treatment[J].AJR,2012,198(6):548-554.
[9] Do BH,Wu AS,Maley J,et al.Automatic retrieval of bone fracture knowledge using natural language processing[J].J Digit Imaging,2013,26(4):709-713.
[10] Sevenster M,Bozeman J,Cowhy A,et al.Automatically pairing measured findings across narrative abdomen CT reports[D].AMIA Annu Symp Proc,2013:1262-1271.PMCID:PMC3900143.
[11] Sevenster M,van Ommering R,Qian Y.Automatically correlating clinical findings and body locations in radiology reports using MedLEE[J].J Digit Imaging,2012,25(2):240-249.
[12] Sevenster M,Buurman J,Liu P,et al.Natural language processing techniques for extracting and categorizing finding measurements in narrative radiology reports[J].Appl Clin Inform,2015,6(3):600-110.
[13] Duszak R Jr,Nossal M,Schofield L,et al.Physician documentation deficiencies in abdominal ultrasound reports:frequency,characteristics,and financial impact[J].J Am Coll Radiol,2012,9(6):403-408.
[14] Lakhani P,Kim W,Langlotz CP.Automated extraction of critical test values and communications from unstructured radiology reports:an analysis of 9.3 million reports from 1990 to 2011[J].Radiology,2012,265(3):809-818.
[15] 秦岫波,王蕊,高歌,等.前列腺多参数MRI报告进展:基于第2版前列腺影像报告和数据系统的结构式报告的构建[J].肿瘤影像学,2016,25(2):111-116.
[16] 王可,刘庆,郭小超,等.肝癌影像报告进展:基于LI-RADS的结构式报告[J].肝癌电子杂志,2016,3(1):26-31.
Natural language processing techniques for extracting CT features of urinary calculi:a comparative study with expert diagnostic results
MA Shuai,WU Jing-yun,LIU Yi,et al.
Department of Radiology,Peking University First Hospital,Beijing 100034,China
Objective:To study the value of natural language processing techniques (NLP) for extracting CT characteristics of urinary calculi.Methods:CT reports of 379 consecutive patients with urinary calculi (n=392) proved by surgery were retrospectively analyzed.CT characteristics of urinary calculi were extracted using NLP method and experts manual delineation.Analytical process of NLP:combined with manual correction,text information was extracted and processed using NLP technique;through machine learning,principles were deduced and established,and then the key features of calculi were determined and their prediction efficacy for surgical methods were judged by cross-validations.Analytical process of experts:CT features were extracted by three radiologists and their correlation with different surgical options was analyzed.Results:The key features extracted by NLP were:calculus,inflammation and morphology of ureter,with the prediction value of 0.456,area under ROC curve of 0.608.The key features extracted by experts were calculus position,perinephric stranding,ureter wall thickening and calculus size with correlation of surgical methods (r=0.192,-0.381,-0.285,and -0.359,respectively;P<0.05).Conclusion:The key CT features of calculi relating to surgical approach determined by NLP are similar to those determined by experts with affirmative predictive value for surgical approach.
Natural language processing; Urinary calculus; Data mining; Medical imaging informatics
100034 北京,北京大学第一医院医学影像科(马帅、吴静云、刘义、姜健、王霄英);200233 上海,飞利浦中国研究院(李作峰、施雅慧、李俊博、魏娟)
马帅(1987-),男,山东庆云人,博士研究生,主要从事影像诊断研究工作。
王霄英,E-mail:cjr.wangxiaoying@vip.163.com
R814.42; R693.4
A
1000-0313(2016)12-1151-04
10.13609/j.cnki.1000-0313.2016.12.010
2016-10-20
2016-11-05)