高永晴 周 祥 刘东旭 徐 宵 董子唯 贺 佳,2△
【提 要】 目的 通过使用双因素混合效应方差分析的ORH(obuchowski-rockette-hillis,ORH)方法,评价人工智能辅助临床诊断试验多阅片者的诊断结果。方法 选择400例疑似肋骨骨折患者的CT图像,其中经专家(金标准)确诊骨折188例,未骨折212例。分别采用两种不同方式阅片:一是3位低年资医生单独进行阅片;二是先使用人工智能(artificial intelligence,AI)辅助检测软件标记疑似骨折区域后,再由3位低年资医生阅片,简称AI+医生阅片。最后对其灵敏度和特异度进行分析。结果 将单独医生阅片和AI+医生阅片的结果分别与金标准阅片结果进行一致性比较:AI+医生阅片检出骨折灵敏度优于单独医生阅片,AI+医生阅片检出骨折特异度非劣效于单独医生阅片。利用ORH方法分别估计并比较两种阅片方式:AI+医生阅片与单独医生阅片检出骨折灵敏度差值的95%置信区间为0.303(0.273,0.334);特异度差值及置信区间为-0.014(-0.076,0.048)。结论 对于多阅片者的肋骨骨折阅片诊断试验,可以使用ORH方法对其进行评价,本文的“AI+医生阅片”方法可以有效地提高低年资医生对肋骨骨折诊断的准确度。
人工智能(artificial intelligence,AI)可以用于医学影像辅助诊断[1],通过帮助医生定位病灶、分析病情[2],可以提高诊断的准确度[3-4]。评价人工智能辅助检测软件的诊断试验,常用统计指标是灵敏度和特异度[5]。由于不同放射科医生之间阅历、知识水平和操作能力存在差别,而患者之间的疾病表现、正常结构也存在差异[6],这些差异影响医生给出准确的阅片结果,最终影响对辅助诊断软件有效性的评价。为此,通常推荐采用多阅片者研究设计,即多名阅片医生都以两种阅片方式(AI联合医生阅片和单独医生阅片)阅读每份患者的影像数据,控制阅片的难度和两种阅片方式所涉及的其他混杂因素[7]。本文针对骨折辅助检测软件,临床试验采用3位低年资医生对全部病例重复阅片,使用双因素混合效应方差分析模型的ORH(obuchowski-rockette-hillis)方法,评估阅片医生对其诊断的准确度。
选择2019年6月至2019年9月来自两家某三甲医院因胸部外伤行急诊CT扫描的400例患者的CT图像,经过放射科专家阅片(金标准)诊断为有肋骨骨折188例,无肋骨骨折212例。研究的人工智能产品为骨折辅助检测软件,对于肋骨骨折CT检查的患者,CT扫描后的图像自动发送到AI服务器进行处理,AI返回的结果自动接入结构化报告中,医生阅片时可在报告看到AI结果,做出诊断。具体操作由3位影像放射科专家(工作经验>10年)对肋骨骨折CT图像进行评价,取大于等于2位放射科专家一致的阅片结果作为“金标准”结果。再选择3位低年资医生(工作经验<10年)以两种阅片方式阅全部病例:一种为单独医生阅片,另一种为骨折辅助检测软件联合医生阅片(即AI+医生联合阅片),两种阅片方式的顺序随机,中间设置1个月洗脱期。诊断试验的数据如表1和表2。
表1 灵敏度分析数据(骨折患者)
表2 特异度分析数据(非骨折患者)
ORH方法可以用于分析多阅片者多病例研究设计ROC疗效指标[8-10],也可用于分析灵敏度、特异度[11]。本研究主要使用ORH方法分析灵敏度和特异度。
θij=μ+τi+Rj+(τR)ij+ij
(1)
(2)
当已知Cov2和Cov3时,用于阅片方式效果的零假设(H0:τi=0;i=1,…,t)的实际使用的检验统计量是:
(3)
其中MS(T)是阅片方式的均方:
(4)
用MS(T*R)表示阅片方式与阅片者交互作用的均方,即
(5)
(6)
现用θi表示阅片方式i的预期阅片者性能指标,给出θi估计的(1-α)100%的置信区间;
(7)
(8)
df2=
(9)
为了比较不同阅片方式的准确度,给出θ2-θ1估计的(1-α)100%的置信区间;
(10)
(11)
k=1时给出的是协方差矩阵的无偏估计∑c|r=Sc|r/Nc。
上述ORH方法可以使用Octave 6.1.0软件的iMRMC_Binary程序实现,该软件由美国食品与药品管理局(FDA)的Chen和Wunderlich编写。
本研究共纳入400例来自不同受试者的影像资料,总的阅片结果见表3。在564例骨折的CT影像数据中,单独医生共检出骨折342例;AI+医生检出骨折513例:在636例未骨折的CT影像数据中,单独医生的阅片结果为未骨折585例;AI+医生的阅片结果为未骨折576例。
表3 肋骨骨折检出性能分析
使用ORH方法对单独医生组阅片和AI+医生组阅片两种诊断方式进行分析,结果见表4。
表4 对肋骨骨折CT的两种不同诊断方式的诊断试验分析结果
本研究结果显示,两种诊断方法的准确度明显不同,其中AI+医生组阅片诊断肋骨骨折的灵敏度和特异度分别为0.910和0.906,而单独医生阅片分别为0.606和0.920。两者灵敏度的差值为0.303(95%CI:0.273,0.334),特异度的差值为-0.014(95%CI:-0.076,0.048),说明AI+医生组阅片的灵敏度优效于单独医生阅片,AI+医生组阅片的特异度非劣效于单独医生阅片(优效界值为0,非劣效界值为-0.1)。同时,也可以看到3个不同的阅片者之间具有一定的差异。
使用ORH方法的主要目的是在有多阅片者相关结构的诊断试验中,可以有效地对标准进行过估计,从而可以对诊断试验的准确度进行正确的估计。ORH模型属于两因素方差分析模型,已有的研究表明,通过改进ORH方法中的自由度估计,ORH方法在某些情况下等效于三因素混合效应方差分析模型[9-10],有研究也证实了这一观点。ORH模型包含固定的阅片方式效应和随机的阅片者效应和阅片者与阅片方式的交互效应,通过方差分析模型误差相关性,可以将患者视为随机因素[12],利用这一模型还可以对关注的指标进行假设检验。