张慧敏 陈炳为△ 黄 灏 薛芳静 陈启光 申春悌
【提 要】 目的 以高血压病的肝阳上亢证为例,探讨其四诊信息的效度、等级划分的合理性及重要性。方法 利用R语言ltm包中的等级效应模型对1280例高血压病的肝阳上亢证进行分析,以得到肝阳上亢证的区分度系数与难度系数的估计值。结果 所有指标的区分度参数a均大于0.4,说明这12个条目的效度均较好,能较好反映肝阳上亢证的结构。结论 应用等级反应模型研究证候规范标准是可行的。
项目反应理论( item response theory,IRT)是近二十多年来在西欧和北美各国教育与心理测量领域得以迅速发展和广泛应用的一种新的教育和测量理论,是一种建立潜在变量与显在变量间的对应关系的模型系统[1]。它通过受试者回答的项目,分析受试者在不同潜在能力(潜在特质水平)上不同受试者回答测验项目的反应。IRT模型广泛应用于个性、精神病学、患者报告的临床结局(PRO)和健康相关生活质量(HRQOL)测量中[2]。项目反应理论属于潜在变量模型的一种类型,它也属于统计学的非线性混合模型中的一种[3]。IRT在指导测验编制中的优异性使得其已成为发达国家的主流测量理论[4]。
辨证论治理论和方法是中医的核心组成部分,辨证是根据所采集的四诊信息(望诊、闻诊、问诊、切诊)资料,概括、判断为某种性质的证候。因此,中医的证候不是直接观测的,而是通过四诊信息来反映,将中医学的证候视为统计学中的潜在变量,四诊信息看成显在变量,可利用结构方程模型、潜在类别或项目反应理论对中医证候进行量化研究[5-6]。本文以高血压病的中医肝阳上亢证为例,利用R语言ltm包进行分析,以探讨项目反应理论在中医证候测量中应用的可行性。
等级反应模型(graded response model,GRM)是项目反应理论中的一种模型,其显在变量为等级分类资料。假设测量工具有m条项目,现有n个个体被测量,yij为第j个个体(j=1,2,…,n)第i条项目(i=1,2,…,m)的测量结果,其测量结果为4个类别的等级资料。Samejima于1969年提出了等级反应模型如下[1-2]:
上式中,D为常数项,等于1.702。θj称为能力参数或潜在特质(latent trait)参数,它是潜在变量,代表在第j个个体的能力。如果对于正确与错误的两分类的IRT模型中,则为选项正确的能力。αi第i个项目的区分度参数;bik为第i条项目的难度参数,它是项目鉴别不同受试者潜在变量特质水平(能力) 的一种度量。
在中医四诊信息的采集中,通常采用无、轻、中、重四个等级。能力参数θj是度量中医证候的潜在得分(即病情严重程度),区分度系数可认为是四诊信息鉴别不同病人在证候中严重程度的度量。
在项目反应理论中,特征曲线( item characteristic curve,ICC)反映了潜在能力与项目应答概率间的关系。如对于急躁易怒,分为无、轻、中和重四个等级,共有四条曲线,每一个等级的特征曲线与其临近等级的特征曲线有一个交点,所对应的横坐标称为阈值。因此,四个等级的特征曲线有三个交点,因而横轴上有三个阈值,可以计算出对应于各个阈值的概率。一般来说,能力参数和难度参数都在(-3~3)的范围间。
信息函数(information function,IF)包括项目信息函数(item information function,IIF)与测试信息函数(test information function,TIF)[7]。IF是关于被测量个体能力的函数,IIF及TIF均随被测个体能力(如证候严重程度)不同而变化。IIF的公式如下:
TIF则是所有IIF的总和,其值介于[0,1]。
在项目反应理论中,当信息量越高则估计越准确,可作为能力估计精确度的判断,反映了不同项目的信息贡献。项目信息量的大小由项目参数和被测个体能力决定,项目提供的信息量越大,表明这个项目在评价被测个体能力时越有价值[7]。
资料来自2006年7月至2009年12月在常州、南京、沈阳和珠海四个地区五个三级甲等中医院收集到的高血压病病例共计1280例。对于肝阳上亢症的12个指标:急躁易怒、烦躁、头痛、头胀、面红、目胀、目赤、口苦、小便黄赤、舌红、黄苔与弦脉。通过GRM模型对肝阳上亢症对应四诊信息等级的划分的合理性进行评估。
应用R软件对潜在变量分析并作参数估计,并做出类别反应曲线图。通过模型拟合得到对数似然值为-12156.7,AIC=24409.4,BIC=24656.82。
表1 肝阳上亢证12个指标GRM模型分析
从表1可见12个指标的区分度参数a的值都在0.4以上,说明了其效度是不错的,即这12个指标用来鉴别肝阳上亢证是较好的。
ICC图形中,横坐标为潜在能力标准化得分,纵坐标为不同能力下4个不同分类应答的概率。如对于四诊信息急躁易怒,其4个级别对应描述为“无症状或体征”、“性情偏急,事欲速成,遇事不成易动感情”、“性情急躁,容易发怒”、“性情暴躁,动辄发怒”,4条曲线分别代表不同证候标化得分下选项为4个级别的概率。四个等级特征曲线的交点可以得到横轴上的难度参数阈值分别为:b1=0.175,b2=1.844,b3=4.345。但是第三个阈值4.345很大,即认为急躁易怒在肝阳上亢证的病人出现性情暴躁,动辄发怒的可能性少。对于头痛,从图中可见,四个类别的特征曲线的交点分不开,说明实际工作中头痛这一个指标在肝阳上亢证研究中四个等级的区分性不是很好。特别是舌红、黄苔、弦脉项目在证候潜在得分较大时回答重级的概率还是很低,即这三个条目主要以无、轻、中为主。
根据项目信息函数,得到面红的IIF函数最高,用于评价肝阳上亢症是具有价值的,其次是小便黄赤、舌红等指标。12个指标的项目信息函数在区间(-4,8)的信息量达到全信息的92.8%,能反映大部分的信息量。
等级反应理论是项目反应理论中的一种,我们借助现代测量心理和教育理论中的项目反应理论统计方法可以对中医证候作如下问题的深入研究:(1)项目的效度分析,即对每一个证候与主要四诊信息的内在联系;(2)可以科学地评价四诊信息等级的划分是否合理,研究中表明,在12条四诊信息中,目胀与头痛的等级区分不是很好;(3)在IRT模型中,可以给出所有四诊信息的IIF,从而分析出指标重要性的顺序,从群体意义上提供筛查证候的主要四诊信息指标。(4)从难度系数b3看,除急躁易怒、烦躁出现重的比例高些,其余的指标均较低,特别是弦脉、黄苔与舌红出现症状重的比例较少。
在项目反应理论中主要有三个条件:(1)潜在变量的单维性。事实上,在高血压的中医证候研究中,先利用探索性因子分析与验证性因子分析提取高血压的5个主要证候,肝阳上亢证为其中之一,这满足了单维性的假设。肝阳上亢证的12个四诊信息是根据验证性因子分析获得结果。(2)项目间的局部独立性,即在给定能力的情况下,不同项目间是相互独立的。IRT与潜在类别模型一样,均假定项目间存在独立性。(3)项目特征曲线假设,即假定ICC曲线为logistic曲线或probit曲线。项目反应理论中probit曲线是早期应用较多的,但后期的研究主要是基于logistic曲线进行建模的。项目反应理论分析的软件很多,有专用软件BILOG与MULTILOG、PARSCALE等,在R语言、SAS、MPLUS等软件也有可用于分析的模块。
图1 肝阳上亢证四分类指标GRM模型下类别反应曲线图