多选题数据统计分析方法及SAS实现*

2015-03-09 06:52中国疾病预防控制中心公共卫生监测与信息服务中心102206
中国卫生统计 2015年1期
关键词:多选题卫生统计二分法

中国疾病预防控制中心公共卫生监测与信息服务中心(102206)

夏兰芳 孟郁洁 李迎迎 陈倩倩 于石成 李 月 马家奇△戚晓鹏△

多选题数据统计分析方法及SAS实现*

中国疾病预防控制中心公共卫生监测与信息服务中心(102206)

夏兰芳 孟郁洁 李迎迎 陈倩倩 于石成 李 月 马家奇△戚晓鹏△

多选题数据录入常用的编码方法有二分法编码、分类法编码和原始编码[1]。其中,原始编码是将多选题设为一个变量var,按照调查对象选择顺序连续录入被选中选项的编码;数据中各项之间以“,”分开,如“1,3,5”。原始编码最节约录入时间,但是不便于统计分析,故在对数据进行统计分析之前需将原始编码数据转换为多个1-0单项选择。目前多选题数据的转换多使用SPSS[2-4],应用SAS的较少[1],且只适用于选项数目在1~9个的多选题,当选项≥10个时易出现错误。本文主要介绍多选题数据转换及SAS实现,简单介绍转换完成后的统计分析。

程序设计思想

1.多选题数据转换

在线调查数据中,原始编码是将多选题设为一个变量var,按照调查对象选择顺序连续录入被选中选项的编码,各项之间以“,”分开。原始编码数据向二分法编码数据转换时,为了将二位数与一位数识别开,比如“10”中的1与“1”,可以使用使用连接函数在var每个变量值前后加上分隔符“,”。这样我们就可以采用IFN和INDEXW函数进行原始编码数据向二分法编码数据转换;此过程产生与多选题每个备选项相对应的新变量var1、var2……varn,调查对象选中选项的变量值记为“1”,未选中选项的变量值记为“0”。例如某多选题有12个备选项,调查对象的选择是“2”和“10”,则该多选题变量var的取值为2,10,然后产生与12个备选项相对应的新变量var1、var2……var12;其中,var2和var10均记为“1”,其余变量记为“0”[1]。

2.统计分析

转换完成之后,可对新变量var1、var2……var12逐个进行统计描述和统计推断。

实例及SAS程序

1.实例:您所学的专业为:(1)计算机,(2)生物医学工程,(3)通信工程,(4)医学,(5)护理,(6)经济管理,(7)统计,(8)病媒生物防制,(9)法律,(10)卫生检验,(11)卫生事业管理,(12)其他。

2.数据转换程序步骤:

图1 SAS数据集(部分)

(1)产生宏程序dxt,其参数为数据集data,多选题变量var,多选题起始选项编号a,多选题最后选项编号b。一般地,a<b。本例中a=1,b=12。

(2)建立数据集out,将数据集data内的数据导入。

(3)利用catt函数在多选题var变量值前后各加上分隔符“,”,命名为变量为var1。

(4)设置宏变量i,产生与多选题备选项相对应的新变量vara-varb(本例为var1-var12)。

(5)利用IFN函数和INDEXW函数一次检索变量var的取值是否含有a~b(本例中为1~12),如果有,则将相应选项的变量值记为“1”,否则记为“0”。

(6)调用宏程序dxt,本例中的参数为数据集data=dataset,var=t4x,a=1,b=12。

3.数据转换SAS程序如下:

上述程序运行结果为图2,该转换程序实现了原始编码数据向二分法编码数据的转换,同时区分开了单位数和二位数,比如“1”和“10”。

图2 数据转换SAS程序运行结果(部分)

4.数据统计分析

数据转换完成后可以对每个新变量(以t4x1,即计算机专业为例)描述其“1”(专业为计算机)的分布;并利用卡方检验比较其在不同gender(性别)间的分布,SAS程序如下:

除此之外,转换产生的新变量还可以单独作为自变量参与构建回归模型[5-6]、广义线性模型、广义相加模型[7]等。

讨 论

在设计调查问卷时,根据调查目的合理设置多选题,有助于确保调查信息的准确性和全面性;然而在现实中,由于多选题数据录入和统计分析的复杂性,导致大多数调查者不愿在问卷中设置多选题[1]。本文提供的多选题原始编码数据向二分法编码数据转换的程序有利于减少调查者数据录入和统计分析的难度。

一般的实现多选题原始编码数据向二分法编码数据转换的SAS程序在处理选项为多位数的多选题时,比如选项数为“11”,产生的变量var1和var11均为“1”,出现混乱。因此,将选项数限制为1~9。本文中设计的程序,CATT函数将每个变量值前后均加上分隔符“,”使得变量值每个选项号前后均有“,”;这样,“,1,”和“,10,”是完全不同的,结合IFN函数和INDEXW函数就可以将单位数选项号和二位数选项号完全区分开。因此本程序可弥补一般程序的不足。当选项在1~9时该程序与一般程序等同。

此外,本研究数据转换程序中将宏程序dxt设置了宏参数data,var,a,b,在每次调用程序时只需在程序后的括号内指定参数取值,无需改动原始宏程序。这在精简SAS程序的同时保证了原始宏程序的稳定,减少出错率。

1.王锋,吴秋云,邵继红,等.调查问卷中多选题数据转换的SAS程序设计.中国卫生统计,2012,29(2):291,295.

2.李运明,封宗超,李小凯,等.EpiData和SPSS软件在多选题资料录入和统计分析中的应用.现代预防医学,2010,37(21):4012-4014.

3.林汉生,杨丽,夏苏建,等.多选题答案的编码与SPSS中SUBSTR函数的使用.中国卫生统计,2001,18(6):371-373.

4.林汉生,夏苏建,杨丽,等.再谈SPSS中SUBSTR函数与多选题答案的编码.中国卫生统计,2005,22(1):60.

5.胡跃华,匡翔宇,金承刚,等.复杂抽样Poisson回归分析方法及应用.中国卫生统计,2012,29(5):650-653.

6.李望晨,张利平,孔雨佳,等.我国妇幼死亡率GM(1,1)与线性回归预测模型研究.中国卫生统计,2010,27(4):366-368.

7.李宏田,袁悦,李智文,等.GAM识别非线性相关及其在医学统计建模中的应用.中国卫生统计,2012,29(6):782-785,789.

(责任编辑:郭海强)

国家重大科学研究计划项目(2012CB955504)

△通信作者:马家奇,E-mail:majq@chinacdc.cn;戚晓鹏,E-mail:caroline_ qi@163.com。

猜你喜欢
多选题卫生统计二分法
用“二分法”看七年级学生数学应用题的审题
数学能力月月赛(1)
数学能力月月赛(2)
数学能力月月赛(1)
新医疗背景下卫生统计工作的实践与发展思考
“二分法”求解加速度的分析策略
多选题解题策略
浅谈加强卫生统计工作的作用及措施
估算的妙招——“二分法”
我国卫生统计的深化与改革探讨