邓明,王良,李亮,胡道予,冯朝燕,蔡杰,闵祥德
华中科技大学同济医学院附属同济医院放射科,武汉 430030
医学影像统计方法是对影像资料进行统计设计、资料收集及整理,同时对其统计描述和解释的方法。作为高影响因子(impact factor,IF)期刊文章的必要组成部分,统计学在医学影像领域被广泛应用,同时所含的部分影像统计方法在临床其他学科中也占有重要地位;目前,已有相关综述概括总结了国外期刊文章常用的影像学统计方法,针对国内影像医师追求发表高IF文章的形势,笔者着重分析美国Radiology、American Journal of Roentgenology (AJR)与国内核心期刊放射学实践、磁共振成像等常使用的资料分析方法,并对其在影像学中应用的统计设计和资料分析方面进行归纳总结,同时也为高质量文章的写作提供科学的依据和参考。
近年来随着影像技术的发展,能谱CT和MR功能成像(functional magnetic resonance imaging,fMRI)技术在临床科研中优势明显。尽管传统影像技术如CT、MRI平扫在影像诊断中一直起着支持作用,但在准确的数据分析和精确的统计结果评价体系中仍显不足[1]。目前,分子影像诊断也得到迅速发展,影像医学模式也发生巨大转变,影像诊断已从单纯的形态解剖转向与功能代谢相结合发展[2],即多参数MR成像(multi-parametric MRI,Mp-MRI)如:动态增强[3]MR扫描(dynamic contrast enhanced MR imaging,DCE-MRI),扩散加权成像(diffusion weighted imaging,DWI),扩散张量成像(diffusion tensor imaging, DTI)、MR波谱成像(magnetic resonance spectroscopy,MRS), 与此同时也产生大量的临床数据,如fast-ADC、slow-AD C、standard-ADC、FA值[4]、波谱比率以及多层螺旋CT扫描数据分析[5]等。针对影像学这一特征,影像数据分析和统计方法的应用有效地指导研究者系统 地进行设计课题、完整记录和规范地整理实验数据以及科学地统计分析数据。实践证明,科学的影像学数据分析方法及合适选择统计方法不仅解决实际工作中的问题,同时也是国外高IF期刊文章最基本的要求,这一基本要求也激发了国内研究者对影像统计学的学习热情。
目前,很多研究人员对影像资料分析方法的学习和理解存在一定困难,尤其初学者对繁杂的概念、复杂的计算公式、数据资料性质判断以及如何选择合适统计学方法等问题难以深刻理解。针对这些问题,王良等[1]建议采用以下模式:判断资料类型、根据研究目的选择分析方法、其他适宜方法。
临床研究中产生的各种不同原始资料,而不同数据资料类型采用的统计分析方法也不同。定量资料常用的方法有t检验、方差分析、非参数检验、线性相关与回归分析等。定性资料可用的方法有χ2检验、对数线性模型、logistic回归等,影像医师可根据不同需要选用不同统计方法。值得一提的是有些资料类型确定后,统计方法的选用对其有序性有相应要求;而多种方法联合应用或者使用部分少见的分析方法时还需要在选定统计方法后,利用统计软件(如SAS、SPSS)对应的不同命令进行初步分析试验。
2.2.1 差异性研究
差异性分析是指评价比较组间均数、频数、比率等的差异。根据研究需要可选用的方法有χ2检验、t检验、方差分析、非参数检验等。
临床上研究两组、多组样本比率或构成比之间的差别关系时最常用χ2检验,也是针对计数资料进行假设检验的一种常用的统计学方法,而对两组定量资料分析常用t检验和秩和检验,多组资料分析则常用方差分析;Fisher精确概率法主要适用于总体样本频数小于40或四格表中最小格子T值<1。虽然Fisher精确检验不属于χ2检验,但仍可以作为有效的补充,而也有人认为在统计软件普遍易得的当下,Fisher精确概率法也同样适用于大样本四格表的资料。如彭泽华等[6]在探讨冠状窦-左心房肌连接的双源CT冠状动脉成像(DSCTCA)形态特征时针对冠状窦-左心房肌连接的类型在两组类别变量采用联表的χ2检验,结果差异无统计学意义(χ2=0.115,P=0.944)。Teefey等[7]在研究超声表现及白细胞计数预测急性胆囊炎坏疽变化关系时使用Fisher精确分析。
t检验适用于两组定量资料分析且资料满足方差齐性和正态性两个基本条件;同样t检验适用于完全随机设计的单因素两水平的资料,在选用t检验时应注意对资料进行相应的变量变换,若资料不能满足基本条件则选用适合分析偏态分布的非参数检验(如:秩和检验)进行分析。如Wang等[8]在研究不同侵袭性的前列腺癌组织和正常前列腺组织以及外周带前列腺癌Gleason评分与肿瘤信号对比时采用t检验。Kung等[9]在研究化脓性髋关节炎的临床和放射学预测指标时也使用t检验分析。
秩和检验包括基本秩和检验(Wilcoxon等级检验、Mann-Whitney U-检验)和高级秩和检验(Kruskal-Wallis、Friedman tests、Kolmogorov-Smirnov拟合检验)。当研究资料为两方差齐且呈正态分布的总体,而总体分布类型未知或者不满足参数检验的条件时,采用t检验对样本进行比较;但若无需比较总体参数只比较总体位置的分布是否相同且总体资料分布类型未知时需要采用非参数的Wilcoxon秩和检验进行比较。针对两组或多组样本的定性资料使用秩和检验比较时,需要混合两样本数据、编秩(从小到大)、计量T值、查表或计算求得P值。如Saindane等[10]在对“空蝶鞍”的临床意义判定因素研究中针对颅内压增高和偶然发现空蝶鞍患者两组资料对比时采用Wilcoxon秩和检验。Filippi等[11]在研究DTI测量儿童Ι型神经纤维瘤病胼胝体派生指标时运用Wilcoxon秩和检验。
事实上在影像资料分析中经常见到多重组间比较的情况,方差分析(analysis of variance,ANOVA)就是用来推断两个或者多个总体之间是否有差别的检验,又称F检验。多重组间比较不能单纯选用两样本均数比较的t检验,但是可以根据资料类型选用ANOVA检验。若来自两个随机样本资料呈正态分布且方差齐性同的定量资料,应采用两因素(处理、配伍)方差分析(two-wayANOVA)或配对t检验。通过F检验可以比较可能由某因素所至的变异或随机误差,同时可了解该因素对测定结果有无影响。当不满足方差分析和t检验条件时,可对数据进行变换或采用随机区组设计资料的Friedman M检验。Obdeijn等[12]在研究乳腺术前MRI能减少术中切缘和乳腺保守术后再次手术,使用ANOVA分析两组资料,结果对照组(29.3%)相比术前MRI病例组(15.8%)有效减少切缘和再次手术(P<0.01)。
2.2.2 相关性分析
相关性分析是指对两个或多个存在一定的联系或者概率的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析不等同因果性,也不是简单的个性化相比,其涵盖的范围和领域较为广泛。统计学意义中的相关性分析包含相关性系数的计算,其过程为:每个变量转化为标准单位后,乘积的平均数即为相关系数。相关性分析可以用直观地用散点图表示两个或者多个变量的离散,当其紧密地靠近于一条直线时,即变量间存在很强的相关性。相关分析常用的方法有Pearson相关性分析、Spearman等级相关分析和卡方检验。
临床中对两个或者多个均为定量变量的资料,且变量均呈正态分布时可选用Pearson相关分析,但多数情况下Pearson相关分析适用于两组资料的相关性分析。判断两变量之间线性关系的密切程度主要用Pearson积差相关系数,其范围为-1~+1。若相关系数的绝对值越接近1,即两变量间相关性越密切;反之,相关系数的绝对值越接近0,其相关性越差。
实际上在高质量期刊论文中使用Spearman等级相关分析的研究也很常见,其通过相关系数进行变量间线性关系分析来判定两个变量间相关性的密切程度。而密切程度的量化指标则通过计算样本相关系数r,根据实际计算r绝对值所属范围来推断两个来自总体变量的线性相关程度,从而推断总体的相关性。根据实际分析需要,将相关关系密切程度分为6等:当IrI=0时,说明两变量完全不相关:当0 2.2.3 影响性分析 由于事物之间的联系是多种多样的,而某一结局可能受到来自其他多个方面的影响,此时为分析某一结局发生的影响因素可采用的资料分析方法有线性回归(一元或多元)、logistic回归、Cox比例风险回归模型(生存分析)等。 在影像资料分析中一元线性回归是将影像资料中一个最主要影响因素作为自变量来解释因变量的变化。多元回归定义为某一因变量的变化受多个重要因素的影响,而此时需要用两个或多个影响因素作为自变量来解释因变量的变化,且多个自变量与因变量之间是线性关系(多个因变量之间相互独立)。实际研究中多元线性回归模型在影像资料分析应用较为广泛。Langkammer等[15]在磁敏感系数绘图在多发性硬化中应用研究中使用多元线性分析,结果显示各种影响因素中年龄是预测磁化率影响最强的因素。 Logistic回归是研究二分类和多分类观察结果与某些影响因素自己建关系的一种多变化分析方法,其经常需要分析疾病与各影像指标之间的定量关系,同时又需要排除一些混杂因素影响。Logistic回归在统计学上属于概率型非线性回归,其分析思路与线性回归大致相同,能有效解决过高或过低水平因素以及分析因素少而样本量大等问题。相比多元线性回归,Logistic回归在处理分类反应数据方面更为常用,且适用于结局为定性影像资料。如Lee等[16]研究高分辨率CT在发现小蜂窝样特发性间质肺炎纤维化的连续变化和预后应用中使用logistic回归分析,结果表明高分辨率CT在网状和磨玻璃状范围内评价普通肺炎与非特异性纤维化肺炎之间差别明显(P<0.01)。 在临床实际工作中常常需要分析生存时间与影像资料之间的关系,Kaplan-Meier法就是常用的一种分析方法,其又称乘积极限法,对大小样本资料分析均适用。实践中习惯上以时间为横轴、生存率为纵轴回执的阶梯状图称为Kaplan-Meier生存曲线(survival curve),也称K-M曲线。Cox比例风险回归模型是另一种生存分析方法,包括参数与半参数模型两类,其主要是进行多因素生存分析的一种方法,同时可分析众多变量对生存时间和生存结局的影响。Saad等[17]在经颈静脉肝内门体静脉分流术在肝移植受者的技术分析和临床评估研究中比较成功施行肝移植与非移植病人开展门体分流术(transjugular intrahepatic portosystemic shunt,TIPS)后的临床疗效评估,使用了Kaplan-Meier法,结果显示6~12个月、12~24个月、24个月以上,移植成活率分别为43%、32%和22%。生存期大于1年的晚期肝脏疾病模型存活评分低于17分、等于17分或大于17分的存活率分别为54%和8%(P< 0.05)。 ROC(receiver operating characteristic)曲线是欧美影像学期刊中应用较为常见的统计学方法,国内期刊应用相对较少。ROC曲线根据一系列不同的分界值以真阳性率(灵敏性)为纵坐标,假阳性率(特异性)为横坐标绘制的曲线。ROC曲线分析结合灵敏度(sensitivity)和特异度(specificity)广泛应用于医学诊断,也应用于影像诊断及人群筛查。ROC曲线根据曲线下面积(area under the ROC curve,AUC )的大小对诊断试验作定量分析。理论上,AUC值在0~1间。根据实际情况将诊断分为不符合诊断(AUC<0.5)、无诊断价值(AUC=0.5)、低准确性(0.5 Kappa检验主要用于评价不同资料间一致性程度,常用Kappa值评价一致程度。Kappa系数适用于两项和多项无序分类变量资料。在影像学试验中常需要判断多名医师测量同一研究对象或者同一医师多次测量同一对象的一致性,Kappa一致性检验便是最佳选择。Kappa检验还可通过计算Kappa值对两种非金标准的诊断方法进行诊断结果一致性分析。一般而言,评价Kappa一致性需要计算Kappa系数,但在研究考察新的诊断试验方法是否优于金标准,或者检验是否与金标准一致时,还需要计算特异度、灵敏度、阳性预测值和阴性预测值等指标。目前公认的Kappa系数分为六个区段即一致性极差(Kappa值<0),一致性微弱(Kappa值0~0.2),一致性弱(Kappa值0.21~0.40),中度一致Kappa值(0.41~0.60),高度一致(Kappa值0.61~0.80),一致性极强(Kappa值0.81~1.00)。 Levene方差齐性检验也称Levene检验(Levene’s test)。其可使用数据与算术平均数的绝对差对原始数据进行转换,也可以使用数据与中位数和调整均数(trimmed mean)的绝对差,这就使得Levene检验的用途更加广泛。Levene检验主要用于检验两个或两个以上随机样本且属相互独立样本间的方差齐性。Levene检验对资料要求相对较低,普通影像分析资料既可以属于正态分布的资料,也可以用于非正态分布的资料,而在多总体方差进行齐性检验时,分析的资料可不具有正态性。 综上所述,影像学资料分析方法众多,如何选择合适恰当的方法得出准确的统计学结果始终是每个影像学研究人员所面临的重要难题,而本文就资料分析入手结合实际应用,虽然举例分析不够深入,但不失为有效的参考,而实际的影像学资料差异性较大,因此综合理解和应用相应统计方法还需要读者回归原文。本文的目的仅期待指引读者多方面分析影像资料。实践中,影像资料在作全面的统计学处理时,一般统计软件都会输出各种结果,此时仍需从中选择科研需要的部分,并作出“统计学结论”。同样值得重视的是统计结果的输出并非数据分析的完成,而统计学上得出的显著性差异也只能作为适当的参考,最终还需要结合实际给出合理专业的结论。 [References] [1]Wang L, Li L, He GJ, et al.To publish in American/European journals of radiology:experience&skill.Chin J Magn Reson Imaging, 2013,4(1): 59-63.王良, 李亮, 贺光军, 等.在美欧影像学期刊发表论文的一点体会和基本套路.磁共振成像, 2013, 4(1): 59-63. [2]Chen W, Wang L, Zhu W, et al.Multicontrast single-slab 3D MRI to detect cerebral metastasis.AJR Am J Roentgenol, 2012, 198(1): 27-32. [3]Tsili AC, Argyropoulou MI, Astrakas LG, et al.Dynamic contrastenhanced subtraction MRI for characterizing intratesticular mass lesions.AJR Am J Roentgenol, 2013, 200(3): 578-585. [4]Chen ZY, Zhu LJ, Lou X, et al.Study of optic nerve in patients with neuromyelitis optica using diffusion tensor imaging.Chin J Radiol,2012, 46(11): 966-970.陈志晔, 朱立君, 娄昕, 等.视神经脊髓炎患者视神经扩散张量成像研究.中华放射学杂志, 2012, 46(11): 966-970. [5]Zhu L,Liu YH, Lei ZQ, et al.The inf l uence of iterative reconstruction in image space (IRIS) on image quality of craniaI CT in children.Radiol Practice, 2012, 27(9): 1014-1016.朱乐, 刘永华, 雷子乔, 等.IRIS算法对儿童头颅CT图像质量的影响.放射学实践, 2012, 27(9): 1014-1016. [6]Peng ZH, Kong WF, Pu H, et al.Imaging findings of coronary sinus with left atrium muscle connections on dual-source CT coronary angiography.Chin J Radiol, 2012, 46(10): 890-895.彭泽华, 孔维芳, 蒲红, 等.冠状窦及其与左心房肌连接的双源CT冠状动脉成像表现.中华放射学杂志, 2012, 46(10): 890-895. [7]Teefey SA, Dahiya N, Middleton WD, et al.Acute cholecystitis: do sonographic findings and WBC count predict gangrenous changes?AJR Am J Roe ntgenol, 2013, 200(2): 363-369. [8]Wang L, Mazaheri Y, Zhang J, et al.Assessment of biologic aggressiveness of prostate cancer: correlation of MR signal intensity with gleason grade after radical prostatectomy.Radiology, 2008,246(1): 168-176. [9]Kung W, Yablon C, Huang ES, et al.Clinical and radiologic predictive factors of septic hip arthritis.AJR Am J Roentgenol, 2012, 199(4):868-872. [10]Saindane AM, Lim PP, Aiken A, et al.Factors determining the clinical significance of an "empty" sella turcica.AJR Am J Roentgenol, 2013,200(5): 1125-1131. [11]Filippi CG, Watts R, Duy LA, et al.Diffusion-tensor imaging derived metrics of the corpus callosum in children with neurofibromatosis type I.AJR Am J Roentgenol, 2013, 200(1): 44-49. [12]Obdeijn IM, Tilanus-Linthorst MM, Spronk S, et al.Preoperative breast MRI can reduce the rate of tumor-positive resection margins and reoperations in patients undergoing breast-conserving surgery.AJR Am J Roentgenol, 2013, 200(2): 304-310. [13]Wang XC, Zhang H, Qin JB, et al.Combined value of susceptibility weighted imaging and dynamic susceptibility-weighted contrastenhanced MR perfusion-weighted imaging in brain astrocytoma grading.Chin J Radiol, 2012, 46(11): 988-992.王效春, 张辉, 秦江波, 等.磁敏感加权成像与动态磁敏感加权对比增强MR灌注加权成像联合应用在脑星形细胞瘤分级中的价值.中华放射学杂志, 2012, 46(11): 988-992. [14]Lederlin M, Laurent F, Portron Y, et al.CT attenuati on of the bronchial wall in patients with asthma: comparison with geometric parameters and correlation with function and histologic characteristics.AJR Am J Roentgenol, 2012, 199(6): 1226-1233. [15]Langkammer C, Liu T, Khalil M, et al.Quantitative su sceptibility mapping in multiple sclerosis.Radiology, 2013, 267(2): 551-559. [16]Lee HY, Lee KS, Jeong YJ, et al.High-resolution CT f indings in fibrotic idiopathic interstitial pneumonias with little honeycombing:serial changes and prognostic implications.AJR Am J Roentgenol,2012, 199(5): 982-989. [17]Saad WE, Darwish WM, Davies MG, et al.Transjugularintrahepatic portosystemic shunts in liver transplant recipients: technical analysis and clinical outcome.AJR Am J Roentgenol, 2013, 200(1): 210-218. [18]Hyodo T, Murakami T, Imai Y, et al.Hypovascular nodu les in patients with chronic liver disease: risk factors for development of hypervascular hepatocellular carcinoma.Radiology, 2013, 266(2):480-490.3 其他适用方法
3.1 ROC曲线
3.2 Kappa检验
3.3 Levene检验