基于单维项目反应模型的量表评价研究＊

2017-12-01 07:59白文静何丽云张艳宏刘为民刘保延

世界科学技术-中医药现代化 2017年9期

关键词：信息量亚健康信度

白文静，何丽云＊＊，张艳宏，刘为民，刘保延

（1.中国中医科学院中医临床基础医学研究所北京 100700；2.中国中医科学院北京 100700）

基于单维项目反应模型的量表评价研究＊

白文静1，何丽云1＊＊，张艳宏1，刘为民1，刘保延2

（1.中国中医科学院中医临床基础医学研究所北京 100700；2.中国中医科学院北京 100700）

目的：探索应用单维项目反应模型与经典测验理论相结合的方法，解决量表评价问题。方法：对841例亚健康二手数据实证分析，进行信度、效度以及项目角度的测量学评价。结果：5个领域的克朗巴赫a系数均高于0.6，内部一致性较高；5个领域的量表结构效度较好，CFI为0.96；项目区分度＞0.3，项目对所属领域诊断的灵敏度较高；量表信息量为33.8，对亚健康状态估计精度较高；但仍有部分条目需要进一步修订。结论：单维项目反应模型通过单维性、局部独立性检验，可以用来评价项目的心理学测量性能，对经典测验理论评价结果进行补充。亚健康量表信、效度较高，经IRT校正后的项目可以用于开展计算机自适应测试，进行人机交互“治未病”动态监测。

项目反应理论亚健康治未病区分度信息量

随着疾病谱和“生物-心理-社会”医学模式的转变，以及“个体化医疗”与“叙事医学”等理念的提出，健康管理与疾病治疗成为同等重要，患者主观感受及其测评方法也成为临床疗效评价研究的热点。生存质量相关量表作为测量和评价这类主观指标的重要工具，已广泛应用于国内外临床科研实践。早在80年代初，FDA就将患者生存质量（Quality Of Life，QOL）作为与临床获益金标准“生存期”并列的主要终点指标，用于衡量肿瘤新药的有效性和安全性；《测量患者报告临床结局的行业指南（草案）》（2006年）明确规定，将患者报告结局（Patient Reported Outcome，PRO）纳入反映疾病相关症状或功能状态改善的结局指标体系。国内学者在国外成熟量表的引进及本土化方面开展了深入研究，考虑到生存质量的文化依赖性，更多量表研究者致力于独立开发适合国人的生存质量量表。在中医基础理论指导下，中医药领域量表研究者融入中国传统文化背景知识，编制了大量体现中医特色的健康相关生存质量评定量表。这些量表的研制既符合标准的量表编制流程又蕴含了丰富的中医思想，涉及“形神一体”、“天人合一”、脏腑辨证、阴平阳秘和五态人格体质辨识等，对中医辨证分型和临床疗效判定有一定的指导作用。

尽管不同量表的目的、测量对象、排列方式、应用场合等迥然不同，但其编制与评价的基本原理均源自心理和教育领域的测验理论。随着测验理论的发展，基于平行测验与线性模型弱假设（①测验分数=真分数+误差；②真分数=测验分数的期望；③测验分数的方差=真分数方差与误差方差之和）的经典测验理论（classical test theory，CTT）逐渐被采用条件概率函数刻画潜在特质与项目应答间非线性关系的项目反应理论（Item response theory，IRT）补充替代：后者从项目分析入手，提出了项目参数和信息函数等指标，考评量表的测量学特性，从而克服了前者的笼统误差、项目性能指标的样本依赖性等缺陷[1]，提高了测量精度。然而，现有医学量表的编制与评价多以经典测验理论为基础，运用项目反应理论评价或改进量表的文献报道尚不多见；且应用IRT分析评价量表条目时，常常忽略模型应用条件的强假设检验，未交代模型-数据的拟合效果，根据条目的应答选项简单套用项目反应模型，导致参数估计结果有偏，对样本的潜特质水平估计不准确。

图1 二分类项目的项目特征曲线（a=1，b=0）

表1 常见的项目反应模型

亚健康，是一种介于健康与疾病之间动态的临界状态[2-3]，属于中医“未病”“欲病”阶段[4-5]；通过准确辨识与早期干预[6]，可以起到“未病养生，防病于先”，“欲病救萌、防微杜渐”作用。由于亚健康内容涵盖范围较广，不仅包括机体自适应能力减退引发的功能性改变，还涉及心理、社会等因素，具有鲜明的主观评价特点，因此，测量性能优良的量表成为评价亚健康的主要工具。基于此，本文以《亚健康状态量表》为例，探索将单维项目反应模型与传统的信、效度分析相结合，对量表性能、项目性质及适用情况进行评价，为科学有效测评亚健康提供参考。

1 单维项目反应模型

1.1 单维项目反应模型形式

项目反应理论，从项目角度而非量表整体出发，用“潜在特质”代替经典测验理论“真分数”，用信息函数反映测量误差，构建非线性模型，建立被试对项目的应答与其潜在特质之间的概率函数关系，刻画具有参数不变性的项目/类别特征曲线（如图1），只要模型对数据资料拟合效果好，就可以得到项目参数和被试能力的精确估计。项目反应模型是一套用于拟合项目/类别特征曲线的光滑函数，计算不同水平被试在该项目上不同得分的概率。这些光滑函数也被称为链接函数，目前常用的有2类：累积正态分布函数[7]和logistic函数[8]；从曲线特征来看，涉及到4个参数，即：①曲线中心的位置——拐点或峰值对应的能力值，②曲线中心的斜率，③曲线的上界，④曲线的下界限；结合教育测量学领域知识，分别赋予该条目的难度、区分度、能力为-∞时正确作答概率及能力为+∞时正确作答概率等涵义，通常后两者取值0和1。根据应答选项形式和曲线特征的不同组合，早期项目反应理论研究者开发了一系列单维参数项目反应模型（见表1）。

本文建立等级应答模型（Graded response model,GRM），评价条目的测量特性以及应答等级设置的合理性。模型表达式为（1）式。

其中，α为区分度参数，反映该项目对亚健康状态区分能力的高低；b为阈值参数，反映项目/选项的亚健康状态严重程度，相邻选项间界值，bk取值应单调增加；θ代表潜在特质，即能力参数，反映亚健康各领域潜变量（如，躯体亚健康、情绪亚健康等）水平的高低。k为项目应答等级，共m级。Pijk*为被试 j在项目i选“k等级及以上”的概率；Pijk为被试 j在项目i恰好选k等级的概率。

1.2 模型假设

上述单维参数项目反应模型必须满足以下基本假设：（1）单维性假设。量表/领域仅测量一种潜在特质，即潜在特质空间为单维；（2）局部独立性假设。被试对某一项目的正答概率不依赖于该被试在其他项目作答情况，严格来说，给定潜在特质水平的条件下，不同项目间彼此独立。给定能力θ，被试在J个项目上观测到的应答 X=(x1,x2…,xJ)′,j=1,2,…J。可以用公式（2）表示：

对模型假设和数据-模型拟合效果的统计检验包括：1）项目间残差相关：Q3统计量[9]，项目间存在显著相关时，“局部独立性假设”违背；2）项目角度拟合：Zh统计量和S-χ2统计量[10]，拟合效果不好、差异显著，说明项目与领域所测特质不一致。此外，RMSEA、CFI和TLI等在CFA中用于验证模型拟合效果的检验统计量也可用来识别LD。

1.3 模型参数估计

项目反应模型的待估参数有2类：一是反映项目特征的项目参数，如区分度（斜率）或位置（截距）等参数；一是界定潜在特质分布的能力参数，如能力的均值和协方差矩阵等。

项目参数已知估计能力参数或能力参数已知估计项目参数时，采用的估计方法为最大似然估计。它是项目反应理论参数估计的基础，随后提出的许多参数估计方法都是基于该方法在不同条件下发展得到的，如联合最大似然估计(JMLE)、边际最大似然估计、边际贝叶斯、EM算法、MCMC算法等。最大似然估计的基本思想是，对全体被试的项目应答模式建立似然函数，通过取对数后求导和迭代计算，找到使应答模式出现可能性最大情况下所对应的参数，这些参数的取值即为项目反应模型的最大似然估计。

1.4 项目信息函数

信息函数在项目反应理论中地位十分重要，是筛选适宜项目构建项目库的主要依据。通过项目提供的关于被试潜在特质的（总）信息量，了解该项目在整个潜在特质空间上的测量准确性。项目信息量越大，测量结果越准确可靠。项目信息函数I(θ)，定义为测量误差方差的倒数，即：

当项目反应模型的链接函数为logistic函数形式时，（3）可以推导为：

由（4）可知，信息函数是能力水平的函数，信息量与 θ大小有关。同时，信息函数还受项目特征参数影响，项目特征曲线越陡峭，区分度参数越大，项目特征曲线下限越低，项目方差越小，信息量越大。各项目所提供的信息量不受其他项目影响，各项目信息量独立；这与CTT的测量标准误（信度）不同，后者的信度依赖于测验整体，任一项目的增删都需要重新计算测验整体信度。在指导量表编制或施测时，运用测验信息函数能提高测量有效性，动态开展计算机适应性测评，提高测量效率。

2 应用示例

2.1 数据来源

本文是对2008年我中心开展的“亚健康量表及评价体系研究”调查资料进行的二次数据分析。研究对象为典型亚健康人，采用方便抽样，在空军航空医学研究所亚健康评估中心、中国中医科学院广安门医院、西苑医院的体检中心、北京世纪坛医院体检中心等4家单位同时开展。纳入标准：年龄30～55岁，自愿接受调查，符合亚健康标准[11]。疾病排除标准：患有重大疾病如心脑血管、糖尿病、肿瘤等；患非重大疾病但需药物维持者；不合作者。健康人排除方法：采用专家共识法共同判定，专家来自中医学、预防医学、临床流行病学等领域。最终，发放问卷3 000份，回收问卷2 486份，回收率为82.87%；经专家判定841例受访者为典型亚健康。

调查方式为自填式。研究小组配备了经过严格培训的现场督导员，进行协调及质量控制。初步量表以亚健康的共性表现和脏腑相关的特异性症状为基础，体现中医症状信息；具体内容涉及躯体、能力减退、情绪、睡眠、二便等5领域，共计40个项目组成；题目的应答选项均为Likert 5级评分，从1到5表示亚健康程度逐渐加重。

2.2 统计分析方法

CTT分析，以克朗巴赫α系数评价量表信度，采用结构方程模型考评量表结构效度。

IRT分析，建立等级应答模型（Graded response model,GRM），评价条目的测量特性以及应答等级设置的合理性。

统计分析软件：经典测验理论的信度分析采用SPSS16.0，效度分析采用AMOS22.0；项目反应理论分析采用Multilog7.0和Rltmpackage。

2.3 一般资料分析结果

841例典型亚健康人的人口学分布情况详见表2。

2.4 CTT结果

效度分析。效度是反映量表能否有效测量所要测量的潜在特质的程度，主要包括内容效度、结构效度等。条目-领域相关系数在0.389～0.801范围内，说明量表的内容效度较高（见表3）。验证性因子分析得到5因子的量表结构效度合理（RMSEA=0.054,CFI=0.96）。

信度分析。信度是评价量表可靠性的重要指标。根据研究设计及评价侧重点不同，CTT的信度分析主要包括重测信度、复本信度、内部信度、评分者信度等[12]。本研究采用内部一致性信度和IRT信度分析，对各领域内条目测量内容是否相同进行评价。信度分析（见表4）发现：各领域内部一致性均较高（Cronbach α＞0.6）；其中，“二便”领域最低（0.663）。

表2 人口学资料分析结果（N=841）

表3 量表整体及各领域的内容效度

表4 CTT与IRT的信度分析结果

2.5 IRT分析

2.5.1 单维性检验

采用平行分析（Parallel Analysis,PA）与Hambleton的标准[13]“第一特根与第二特征根之比大于3”，两种方法相结合检验量表各领域是否符合单维性假设。结果显示（图2），除“躯体”和“二便”领域（实际主成分特征根大于模拟数据特征根的个数超过1个）外，其他3个领域均通过了PA关于单维性检验；“躯体”和“二便”领域的第一特征根与第二特征根之比分别为4.77和1.84。因此，可以认为“能力”、“躯体”、“睡眠”、“情绪”4个领域满足单维性条件，“二便”领域尚不符合单维假设。

为开展IRT条目分析，对不满足“单维性”假设的“二便”领域进一步细分。经探索性因子分析，将“二便”领域进一步划分为便秘（“便干”、“排便困难”）、泄泻（“便不成形”、“腹泻”）、淋证（“尿不尽”、“尿频”、“易汗”）3个方面，故后续对IRT分析的量表域体系见图3。

2.5.2 局部独立性检验

经Yens Q3统计量检验，在能力领域2对项目存在LD（C36熬夜精力和E66日常精力、C40工作能力满意和E70日常生活满意）；躯体领域4对项目存在LD（B01疲乏和B24气短，B07眼睛不适与B09视力下降、B25胸闷，B24气短和B25胸闷）；睡眠领域C33夜间醒来与其他3个条目间存在LD；情绪领域2对项目存在LD（D59无法使高兴和D61害怕不幸，D60烦躁易怒和D65信心不足）。上述项目，其所对应的项目参数估计有误，需要进一步修订。

2.5.3 GRM模型参数估计

GRM项目参数估计和信息函数结果如表5所示。区分度系数α在0.53～3.83范围内，取值大于0.3，说明量表区分度高，即各条目都能灵敏地检测所在领域潜变量的变化。阈值参数bi，相邻选项间的阈值。“熬夜后精力充沛”平均难度＜0，大部分样本在该条目作答为“很少有精力”和“根本没精力”，说明该条目适用于对“能力”极好的被试进行测量。各领域条目的难度参数均为升序，说明应答选项顺序可以体现亚健康各领域潜特质程度的加重；但从难度参数估计值的分布范围来看，不是均衡分布在（-3,3）范围，取值极端，说明个别项目即使亚健康状态比总体均值高的人也会选择“很少有”（如B15、C51等）。上述现象与Steven P.Reise等关于IRT在临床测量的综述研究结果相一致。

图2 亚健康5个领域Parallel analysis结果

2.5.4 信息函数估计

亚健康量表总信息量为33.8（大于25[14]），说明量表整体测量准确度较高。各项目信息量最大值见表5，精度过低的项目有8个。这些项目的测量内容或者与所在领域其他条目有差异，或者由于语言表达不合适，对应答者来说过于复杂；需要进一步修订。以领域为单位，考量对亚健康状态连续体的估计精度，除了二便领域方面2的测验信息量较低（平均为2.390）外，其他领域/方面的测验信息量（见图4）的均值都超过3，躯体领域的信息量最高，平均为9.984。

2.5.5 基于IRT的信度

躯体、能力减退、情绪、睡眠等领域IRT边际信度较好（＞0.75），二便领域3个方面的IRT边际信度可接受，方面2最低（详见表4）。

2.5.6 项目的模型拟合检验

经Zh统计量检验，未发现不拟合项目；同时，采用S-χ2检验，识别出项目模型拟合效果较差的有：能力领域，B15、B19、E66和 E70；躯体领域，B02，B07，B09，B23，B24，B25；睡眠领域，C34，C37；情绪领域，无；二便由于项目数过少，无法计算。考虑有些项目存在LD，下一步拟扩大样本量构建多维项目反应模型以期更贴合该项目特征实际。

3 讨论与结论

本研究探索在CTT基础上进行IRT分析的方法，对辨识“未病”的《亚健康状态量表》进行综合评价。

图3 量表域体系（用于IRT）

3.1 亚健康状态量表具有良好的信度和效度

经结构方程模型与探索性因子分析，最终判定的量表结构与预期域体系基本一致。在初始设定的“能力-躯体-睡眠-情绪-二便”5个领域的基础上，进一步将“二便”领域划分为3个方面：便秘、泄泻、淋证。量表整体结构符合中医辨证诊断的整体思维，涵盖了能力下降、躯体不适、睡眠障碍、情志和二便等方面，同时，也符合亚健康在“未病”范畴的定义。内容效度较好，说明项目对所属领域/方面具有较高代表性。由信度结果可知，量表整体信度较好，测量亚健康状态及各领域亚健康的可靠性较高，但“二便”方面2所含条目需要进一步修订和增补。IRT边际信度分析，发现除“二便”领域方面1外，各领域/方面IRT边际信度结果均高于CTT的内部一致性信度，这是因为克朗巴赫a系数是信度系数估计值的下限，故二者结合考虑可以对量表信度进行更为准确地估计。

表5 亚健康量表各项目的区分度、难度和信息量

3.2 采用GRM分析

从IRT项目参数和信息量角度评价《亚健康状态量表》指标，分析更为完善、精确，有助于多角度、分层次开展研究。首先，5领域3方面均符合单维性，但有14个条目违背局部独立性假设，故在GRM模型参数估计有误，需要对条目进一步修订或者构建多维项目反应模型重新估计参数。其次，通过GRM建模分析，可知：条目对所在领域的不同水平被试具有良好的区分能力；最后，从信息量来看，量表整体的估计精度较高；从条目的最大信息量来看，能力减退、情绪、睡眠、二便等领域（方面）的信息量平均大于1，说明测量精度较高；“躯体”领域条目信息量较低；项目信息量过低的条目8个。因此，考虑LD、区分度、信息量等判断有20个项目需要进一步调整，其余20个项目均为测量性质较高的条目，可以用于构建亚健康项目库。此外，由于样本量有限，待估参数较多，故本文未给出模型-资料的全局拟合效果检验（M2）。

图4 亚健康状态量表个领域/方面测验信息函数

综上，单维项目反应模型与经典信度、效度测评相结合，可以更系统、科学考评量表的一致性和有效性；但其应用条件严苛，须满足强假设方可正确估计项目和能力参数。本研究，亚健康量表具有较好的信度和效度；经过校正的优质条目初步形成亚健康条目库，为“治未病”理论的指导下开展亚健康状态的计算机自适应动态测量、实现移动医疗奠定基础。

1 Santor DA,Ramsay JO.Progress in the technology of measurement:ap⁃plications of item response models.Psychological Assessment,1998,10(4):345-359.

2 刘保延,何丽云,谢雁鸣,等,亚健康状态的概念研究.中国中医基础医学杂志,2006,12(11):801-803.

3 王利敏,赵歆,陈家旭,等.亚健康状态综合评价指标体系研究思路探析.中华中医药杂志,2010,25(2):180-183.

4 吴鸿,高水波.浅析中医“治未病”理论及其现实意义.中国中医基础医学杂志,2011,11(9):372.

5 王天芳,孙涛.亚健康与“治未病”的概念、范畴及其相互关系的探讨.中国中西医结合杂志,2009,29(10):929-933.

6 薛晓琳,王天芳,林殷,亚健康中医干预研究中的几个关键环节,北京中医药大学学报(中医临床版),2013(6):1-4.

7 Richardson,M.W.(1936).The relationship between difficulty and the differential validity of atest.Psychometrika,1(2),33-49.

8 Maxwell,A.E.(1959).Maximum likelihood estimates of item parame⁃tersusingthelogistic function.Psychometrika,24,221-227.

9 Wen-Hung Chen,David Thissen.Local dependence indexes for item pairs using item response theory.Journal of Educational and behavioral statistics,1997,22(3):265-289.

10 Taehoon Kang,Troy T.Chen.Performance of the generalized S-χ2 item fit index for polytomous IRTmodels.Journal of Education Measurement.2008,45(4):391-406.

11张艳宏,何丽云,刘保延,亚健康状态的界定思路,辽宁中医杂志,2008,35(6):852-853.

12刘保延.患者报告结局的测量—原理、方法与应用[M].北京:人民卫生出版社,2011年,163-166。

13杨铮,戚艳波,万崇华,等,慢性病患者生命质量测定量表体系共性模块项目反应理论的进一步分析,中国全科医学,2012(8A):2544-2547.

14杨建原,臧运洪,赵守盈,用项目反应理论修订教学效能感量表,教育科学,2012,28(2):46-51.

Evaluation on Scales Based on Unidimensional Item Response Models

Bai Wenjing1,He Liyun1,Zhang Yanhong1,Liu Weimin1,Liu Baoyan2
(1.Instituteof Basic Research in Clinical Medicine,China Academy of Chinese Medical Sciences,Beijing 100700,China;2.China Academy of Chinese Medical Sciences,Beijing 100700,China)

This study was aimed to assess scales with the unidimensional item response models(UIRM)and classical test theory.The reliability and validity of 841 sub-health status samples were analyzed by CTT.Surveying evaluation from the project perspective was also conducted.The results showed that Cronbach’sα coefficients in five areas were all larger than 0.6 with relatively high consistency.The scale structures of five areas were relatively good and the CFI was 0.96.When discriminations of all items were larger than 0.3,the sensitivity of item for its area was high.When the scale test information was 33.8,the accuracy of sub-health status was relatively high.However,there were still some items should be further revised.It was concluded that UIRM can be used to evaluate the psychological measurement performance in the project.It is a supplement to the evaluation result of classical test theory.The reliability and validity of sub-health status scale are relatively high.After IRT correction,it can be used for human-computer interaction techniques“preventive treatment”dynamic monitoring.

Itemresponsetheory,sub-health,preventive treatment,discrimination,information quantity

10.11842/wst.2017.09.010

R203

2017-05-12

修回日期：2017-08-23

＊中国中医科学院第九批自助选题（Z0409）：基于多维IRT的健康状态评估系统构建研究，负责人：白文静。

＊＊通讯作者：何丽云，研究员，主要研究方向：临床评价方法学。

（责任编辑：张娜娜，责任译审：王晶）