ROC分析方法在病因学研究中的应用*

2014-03-10 07:04季聪华梁建凤刘姗张颖洪雪文
中国卫生统计 2014年5期
关键词:连续型分析方法危险

季聪华梁建凤刘 姗张 颖洪雪文

ROC分析方法在病因学研究中的应用*

季聪华1梁建凤2刘 姗1张 颖1洪雪文1

疾病发生发展过程中的基本医学研究问题包括:致病因素引起疾病的发生,对疾病进行诊断,预防和治疗疾病,疾病转归产生结局等。围绕这一系列过程可以产生很多研究命题,可以运用到很多统计学方法,其中ROC分析方法在诊断试验中应用较多,在其他疾病发生发展环节尚未被充分应用,值得我们进一步深入研究。本文探讨ROC分析方法在病因学研究中的应用。

ROC分析方法的基本原理

ROC分析是一种把灵敏度和特异度结合起来综合评价诊断准确度的方法。其基本思想是把灵敏度和特异度看作一个连续变化的过程,用ROC曲线描述诊断系统的特性,用曲线下面积说明诊断的准确度。同时,根据曲线拐点,可选取理论上最合适的临界值(cut off point),使试验的灵敏度和特异度达到最优[1]。美国生物统计百科全书[2]中关于ROC的定义是:“对于可能或将会存在混淆的两种条件或自然状态,需要试验者、专业诊断学工作者以及预测工作者作出精细判别,或者准确决策的一种定量方法。”

ROC分析方法中作为诊断金标准的一般是两分类变量,而新的诊断系统一般是连续型资料,通过ROC分析的临界值处理可转换为两分类变量,用于做出是与否的诊断。所以ROC分析方法同时又是进行两分类变换、寻找合适分界点的有效方法。在我们的病因学研究、疾病防治研究和预后研究中,有疾病发生(是、否)、疗效(有效、无效)和预后终点事件(死亡、存活)等类似于金标准的两分类变量,也有连续型资料需要转化成两分类变量的情况,所以应用ROC分析方法原理进行分析处理是不错的选择。

ROC分析方法在病因学研究中的应用方法

1.“金标准”的确定

在ROC分析中,两分类的“金标准”是进行评价的关键性指标。病因学研究常采用队列研究或者病例对照研究,所以在病因学研究中的“金标准”实际上就是病因的结局——疾病的发生。在队列研究中,是病例与对照的观察终点——疾病发生与否;在病例对照研究中,是分组依据。

2.研究因素

病因学研究中的研究因素,即可疑的疾病危险因素。危险因素一般是多因素的,有两分类变量,也有连续型变量。对于连续型变量,确定其是否为危险因素,一般采用logistic回归分析。对同一资料的分析,变量采用不同的取值形式,参数的含义、量值及符号都可能发生变化[3]。logistic回归只回答某个连续型变量总体上是不是危险因素,危险程度如何(用RR或OR值表示),但不能回答具体在哪个临界点以上或以下危险性增大。直接采用数值型变量参与计算时,得到的exp(b)表示每增加一个单位的优势比,实际意义不大。将数值型变量划分为分类变量时则容易解释专业意义。连续型变量可以转换成分类变量进行logistic回归分析,但不同的分类依据,所取得的OR值(或RR值)是不一样的,这也给我们分类依据的科学性提出考验。

3.阈值的判断

将数值型变量转化成分类变量的方法,可以是依据平均数或者中位数为界进行划分,也可以按照专业知识大致按某个整数点位进行划分,这些方法都带有粗略的特征。采用ROC分析进行阈值判断的基本原理是连续型变量值与“金标准”进行ROC分析,选取灵敏度+特异度值最大时候的连续型变量值作为危险因素两分类转换的分界点,因采用的“金标准”是疾病发生与否,所以以获得的分界值为分类临界点的两分类数据可以计算到最大的OR(RR)值。

4.logistic回归分析获取OR(RR)值

以阈值为分界点进行连续型资料的二分类转换,然后进行二分类logistic回归分析,获得OR(RR)值及其95%CI。这个计算到的exp(b)值(OR值)是最大的,这个临界点正好说明了是该危险因素的转折点。

模拟案例

1.案例要点

为说明ROC方法对连续型变量进行分类的意义,选择了中医药研究生《中医药统计学》教科书上的一个危险因素分析的例子[4]。为了探索有关危险因素和保护因素,对33例胃癌病人和33例对照者进行病例对照研究,研究的危险因素有多个,其中所考察的危险因素中的年龄为连续型变量。本文主要说明ROC分析法在连续型变量转化成分类变量中的作用,所以只摘取其原始数据中的年龄数据,如表1所示。

表1 胃癌病人与对照病人的年龄情况表

2.ROC分析

以组别(病例=1,对照=0)作为参照系统,年龄作为分析变量进行ROC分析。结果显示,ROC曲线下面积为0.658(0.525~0.790),p=0.027,灵敏度+特异度最大时的cutoff值为60.5岁,cutoff值的灵敏度+特异度=1.303。

3.logistic回归分析

对于连续型变量的logistic回归分析,可以有两种处理方法。一种是直接进行计算,可以回答在不进行分类的情况下,年龄每增加1岁时的比值比;另一种是将连续型资料转换成分类资料,常见的是进行两分类转换,即以某个值(如平均数、中位数等)为界值进行两分类变换。

(1)变量不转换的logistic回归分析结果

进行二分类logistic回归分析,将连续型资料直接作为自变量进行计算,可得OR值为1.068,95%CI为1.005~1.134,P=0.034,显示OR值有统计学意义,年龄因素是胃癌的危险因素,但危险程度很低。

(2)以均数为界值进行二分类转换

经计算,两组66例研究对象年龄的算术均值为57.29岁。对年龄资料以57.29岁为临界点进行二分类转换,大于等于57.29岁=1,小于57.29岁=0。进行二分类logistic回归分析,将转换后的年龄作为自变量进行计算,可得OR值为1.859,95%CI为0.695~4.976,P=0.217,显示OR值没有统计学意义,即以57.29岁为界,尚不能说明年龄的高低是胃癌的危险因素。

(3)二分变量转换后的logistic回归

采用ROC分析结果,对年龄资料以60.5岁为临界点进行二分类转换,大于等于60.5岁=1,小于60.5岁=0。进行二分类logistic回归分析,将转换后的年龄作为自变量进行计算,可得OR值为3.946,95%CI为1.343~11.600,P=0.027,显示OR值有统计学意义,即以60.5岁为界,年龄大于60.5岁是低于60.5岁发生胃癌的危险比是3.946(1.343~11.600),表明年龄大于60.5岁具有较高的患病风险。三种不同处理方式的结果如表2所示。

表2 不同处理方式的logistic回归结果

从表中可以看出,以cut off值为界值的二分类转换方法具有更强的区分能力,能更加精确地发现危险因素。

讨 论

ROC分析方法20世纪50年代起源于统计决策理论,在医学领域中的应用从20世纪80年代开始。最初应用在生理学和神经医学,在医学影像诊断试验研究中应用最广泛,在检验医学和中医药学研究[5]也应用较多,但应用于病因学的研究中尚不多见。实际上根据ROC分析的基本数据特征,以一个二分类变量作为“金标准”,分析另一个连续型变量,不仅在成熟的诊断试验领域,在病因学研究领域,甚至在疾病防治、疾病预后研究等领域,都有类似的数据特征资料,而且也有相同的寻找临界点的需求,所以ROC分析方法在理论上能很好地解决需要分类转换分析时存在的问题。在实践过程中,我们通过本案例也很清楚地看到了ROC分析在解决这类问题时的能力和优势。

ROC分析技术在医学领域的应用较晚,但发展迅速,解决了很多医学研究的难题,但ROC分析的局限性也是很明显的。ROC分析一般只能处理单因素,而病因往往是多因素的,所以ROC分析方法不能作为病因学分析的主要方法,而主要用于连续型变量转换成分类变量临界点的确定。

1.贾振华.ROC曲线在医学诊断中的应用与进展.东南大学学报,2003,22(1):1-4.

2.Armitage P,Colton T.Encyclopedia of biostatistics.New York:John,1998:3738-3744.

3.孙振球主编.医学统计学.第3版.人民卫生出版社,2012,292.

4.史周华,张雪飞主编.中医药统计学.第1版.科学出版社,2009,193-194.

5.季聪华.ROC分析方法在中医辨证诊断量表研制过程中的应用,中华中医药学刊,2013,31(3):550-551.

(责任编辑:刘 壮)

浙江省卫生厅资助课题(项目编号:2011ZQ011)

1.浙江省中医院临床评价分析中心(310006)

2.浙江大学医学院附属儿童医院

猜你喜欢
连续型分析方法危险
基于EMD的MEMS陀螺仪随机漂移分析方法
思维建模在连续型随机变量中的应用
一种角接触球轴承静特性分析方法
中国设立PSSA的可行性及其分析方法
连续型美式分期付款看跌期权
喝水也会有危险
TD-LTE网络覆盖的分析方法研究
拥挤的危险(三)
基于晶圆优先级的连续型Interbay搬运系统性能分析
关于二维连续型随机变量函数分布的推广和运算