项目反应理论的Parscale软件实现*

2018-07-16 10:08:08广州中医药大学基础医学院510006
中国卫生统计 2018年3期
关键词:语句条目阈值

广州中医药大学基础医学院(510006) 

陈新林△ 陈丽霞 郎建英 邓洁敏

项目反应理论(item response theory,IRT)也称条目反应理论,广泛用于教育学、心理学及医学量表测验中。Parscale软件是实现IRT理论的常用软件,由Eiji Muraki 和Darrell Bock等开发,现在由Scientific Software International(SSI)公司拥有(http://www.ssicentral.com/irt/)。Parscale软件可以用于二分类和多分类条目的分析,包括单、二和三参数logistic 模型,Samejima模型(graded response model),Master部分评分模型(partial credit model),广义部分评分模型(generalized partial credit model),多项选择项目分析,多组多分类项目反应模型(multiple-group polytomous item response models)。Parscale软件还可以对量表进行项目功能差异(differential item functioning,DIF)分析。

目前,Parscale软件广泛用于心理量表的评价[1-3],教育学的评价,生存质量量表的研发和分析[6-9]。例如Castro等使用Parscale软件评价Beck抑郁问卷,研究发现Beck抑郁问卷中,患者最严重的条目是减肥、自杀的想法和社会退出[1]。Kopec等使用Parscale软件评价关节炎患者生存质量量表,从218个条目中筛选出不存在DIF的31个条目,构成5个领域。Fukuhara等使用Parscale软件研制视觉功能问卷的简短版,将原来的32个条目简化为11个条目[8]。本文结合多分类条目介绍如何使用Parscale软件。

资  料

分析资料为鼻咽癌患者生存质量量表的生理领域,一共包括9个条目,都是五分类的正向条目,得分越高说明生存质量越大。资料保存为dat格式,命名为NPC.DAT。一共15列,前面3列是ID,中间3列是空格,后面9列是条目得分。使用Samejima模型计算各个条目的参数,并估计患者的能力参数。

分析步骤

1.Parscale语法

本文使用的Parscale软件是4.1版本。打开Parscale软件。点击“File…New”,建立分析的文件,文件命名为Pars.PSL。 Parscale的语法都以“>”开始。在Pars.PSL中输入以下语法:

>FILE DFNAME=′NPC.DAT′,SAVE;

>SAVE PARM=′NPC.PAR′,SCORE=′NPC.SCO′;

>INPUTNIDW=3,NTOTAL=9,NTEST=1,LENGTH=(9),NFMT=1;

(3A1,3X,9A1)

>TEST1TNAME=SCALE1,ITEM=(1(1)9),NBLOCK=1;

>BLOCK1 BNAME=SBLOCK1,NITEMS=9,NCAT=4,CADJUST=0.0;

>CALIBGRADED,LOGISTIC,SCALE=1.7,NQPTS=30,CYCLES=(25,2,2,2,2),NEWTON=5,CRIT=0.005,ITEMFIT=10;

>SCOREEAP,NQPT=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;

2.语法说明

FILES语句,用于读取数据。DFNAME=NPC.DAT表示读取NPC.DAT 的数据,要求数据和语法文件放在同一个文件夹。SAVE表示保存语法。

SAVE语句,用于保存结果。PARM=′NPC.PAR′,表示保存条目参数(包括名字和文件扩展名);SCORE= NPC.SCO,表示保存患者的能力参数(得分)。

INPUT语句,说明分析数据的属性。NIDW表示患者的ID数量;NTOTAL表示分析的总条目数;NTEST表示量表(测试)的数量;LENGTH表示每个量表的条目数;NFMT表示读取原始记录的行数。另外TAKE = n表示选取前面n个测试者进行分析;MGROUP/MRATER说明亚组(或评价者)的数目,用于DIF分析;WEIGHT表示加权。

(3A1,3X,9A1) 语句,是变量格式语句,说明数据的存储格式,前3列是ID,其次3列是属性,最后9列是分析的条目。

TEST1语句,是测试命令语法,用于说明分析的条目数,测试的名字,定义阈值参数和区分度的初始值等。TNAME 表示测试量表的名字;INAME表示条目的列表;NBLOCK表示有相同分类参数(区组)条目的数量。另外,ITEMS表示估计的条目;INTERCEPT、THRESHOLD和SLOPE分别设定条目截距、阈值参数和区分度的初始值,经常采用默认值。

BLOCK1语句,说明每个区组的属性,Parscale软件把具有相同分类数目的条目放在一起估计。BNAME表示区组的名字;NITEMS表示每个区组包含的条目;NCAT表示每个条目的分类数目(条目的分类,本例是四分类);CADJUST对区组参数的均数进行调整。另外,GPARM设定猜测参数,RATER用于提供评价者的方差比例;REPEAT表示BLOCK语法的重复次数;SCORING表示指定计分函数。ORIGINAL表示条目的初始得分,MODIFIED表示对条目重新赋分。例如将1、2得分转化为2、1,使用ORIGINAL=(1,2),MODIFIED=(2,1)。

CALIB语句,说明估计所采用的方法。GRADED/PARTIAL表示采用Samejima模型(GRM)或者Master模型(partial credit model)对参数进行估计;LOGISTIC/NORMAL说明要使用的响应函数;SCALE表示尺度常数,设定为1.7;NQPTS表示积分点的数目;CYCLE完成EM估计的最大次数;NEWTON表示Gauss-Newton迭代的最大次数;CRIT为EM估计和Gauss-Newton迭代的收敛标准;ITEMFIT说明用于计算条目拟合统计的次数。>SCOREEAP,NQPTS=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;

SCORE语句,说明评分过程,用于估计被测试者的得分。EAP/MLE/WML为估计的方法,EAP、ML和WML分别表示Bayes后验估计、最大似然估计和加权最大似然估计方法;NQPT为积分点的数目;SMEAN为测试的平均值;SSD为测试的标准差;NAME为估计文件的名字;PFQ说明移动到临近分类的百分比;DIST说明先验分布类型。

3.运行程序及展示结果

点击菜单栏的Run,包括四个阶段:

(1)0阶段(phase 0),输入数据和准备分析,包括模型说明(model specifications)、校准参数(calibration parameters)、文件任务和规定(file assignments dispositions)。校准参数的结果主要包括:最大EM周期数、最大内部EM周期数、最大类别估计周期、最大条目参数估计周期数、EM周期的收敛标准、斜率的收敛标准、阈值的收敛标准等等。

(2)1阶段(phase 1),输出数据和计算条目统计量。条目汇总统计量(summary item statistics),给出每个条目的总人数、每个选项的人数及比例,见表1;条目参数估计值,给出每个条目的均数和标准差,所有条目的均数(31.922)和标准差(5.416),并计算出经典测量理论下的阈值参数(initial location)和区分度参数(initial slope),见表2。

表1 条目汇总统计量

*:Cumul表示汇总结果。

表2 条目参数估计值

*:本表结果基于经典测量理论。

(3)2阶段(phase 2),估计模型的条目参数。包括给出类别参数(category parameter)及其标准误;每个条目的参数估计值,包括区分度参数(slope)及标准误;阈值参数(location)及标准误,猜测参数(guessing)及标准误,条目拟合统计量的χ2值和P值,见表3。所有条目的猜测参数均为0,条目5的阈值参数最小(-2.376),条目3的阈值参数最大(0.578),所有条目阈值参数的平均数为-1.005,说明拟定的条目对患者而言偏容易。

表3 条目的参数估计值及条目拟合统计量

*:Slope表示区分度,location表示阈值参数,guessing表示猜测参数,SE表示标准误,χ2表示条目拟合统计量。

(4)3阶段(phase 3),估计被测试者的参数,包括每个被测试者的平均分类(mean category)、能力参数(ability)及标准误,见表4。这里的ability是根据IRT理论计算出来的能力参数,跟阈值参数的尺寸一致。

表4 被测试者的参数估计值

(5)显示图形。Parscale软件还提供了很多图形,运行完所有程序后,点击Run…Plot,显示了常见的图形,包括条目特征曲线(item characteristic curve,ICC),条目信息曲线(item information curves),总体信息曲线(total information curves)等。例如图1显示了条目0001的条目特征曲线;图2显示了总体信息曲线。同时显示所有条目的ICC,见图3;估计能力的直方图,见图4。

图1 条目0001的条目特征曲线

图2 总体信息曲线

图3 同时显示所有条目的ICC

图4 估计能力的直方图

小  结

Parscale软件功能强大,可以估计条目参数和被试者的能力参数,并展现多种图形,广泛用于多种模型,包括logistic 模型,Samejima模型,Master模型和广义部分评分模型等。RUMM 2030软件也可以用于分析多个模型[10];而Bilog-MG软件只能分析二分类条目(logistic 模型),不能分析多分类条目[11]。Parscale软件的实现需要编写语句,而RUMM 2030采用点击的操作模式;两种软件各有优缺点,相对而言,Parscale软件的语句容易出错,在一定程度上影响了它的使用。

猜你喜欢
语句条目阈值
重点:语句衔接
小波阈值去噪在深小孔钻削声发射信号处理中的应用
《词诠》互见条目述略
基于自适应阈值和连通域的隧道裂缝提取
精彩语句
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
比值遥感蚀变信息提取及阈值确定(插图)
河北遥感(2017年2期)2017-08-07 14:49:00
室内表面平均氡析出率阈值探讨
如何搞定语句衔接题
语文知识(2014年4期)2014-02-28 21:59:52
对县级二轮修志采用结构体式的思考
黑龙江史志(2010年4期)2010-08-15 00:46:01