集中指数及可信区间的SAS实现*

2013-09-07 09:01西安交通大学医学院公共卫生系卫生统计学教研室710061裴磊磊高文龙

中国卫生统计 2013年3期

西安交通大学医学院公共卫生系卫生统计学教研室(710061) 裴磊磊任琳高文龙颜虹

集中指数及可信区间的SAS实现*

西安交通大学医学院公共卫生系卫生统计学教研室(710061) 裴磊磊任琳高文龙颜虹Δ

目的利用SAS软件实现集中指数及其可信区间的计算。方法以2001年和2005年中国西部地区儿童营养状况的调查数据为例，分别计算两年干预组与对照组的生长迟缓、消瘦和低体重等指标的集中指数及其差值，利用bootstrap再抽样计算集中指数的可信区间。结果根据集中指数计算公式，我们把SAS程序分为6步，最终得到2001年到2005年干预组各营养指标的集中指数差值分别为生长迟缓－0.084，95%可信区间(－0.161，－0.001)，消瘦为－0.094(－0.210，0.036)，低体重为－0.109(－0.200，－0.004)。结论 SAS程序及bootstrap方法具有通用性、实用性和高效性的特点。

bootstrap 集中指数可信区间

△通信作者:颜虹，E-mail:xjtu_yh.paper@yahoo.com.cn

集中指数(concentration index，CI)是评价人群健康不平等程度的一个重要指标，被认为能较准确地表达不同社会经济阶层下健康状况的公平性，而且较适用于国家地区间的比较和时间趋势研究〔1〕。集中指数的点估计可以利用一般统计软件实现，而利用SAS软件实现其区间估计在目前文献中尚无报道，因此本文试图利用SAS软件编程计算集中指数的估计值及其可信区间。

原理与方法

集中曲线是以经济状况排序的人口累计百分比为横轴，以人群健康累计百分比为纵轴的光滑曲线，如果健康水平在不同的社会经济阶层分布均匀，那么集中曲线与对角线重合，集中曲线离对角线越远，健康不公平程度越大。集中指数等于集中曲线与对角线之间的面积与对角线下的面积之比，取值范围是(－1，1)。当集中曲线在对角线下方时，收入较高的人群承受更差的健康状况，规定集中指数为正值;当集中曲线在对角线上方时，收入较低的人群具有更差的健康状况，规定集中指数为负值。

集中指数的一般计算公式为:

h为健康指标，μ是健康指标的均数，ri=i/N为个体按照财富等级从低到高排列的分数秩，其中i=1为财富等级最低的人，而i=N为财富等级最高的人。

表1 2001年中国西部地区3岁以下儿童生长迟缓构成比

经济分层儿童调查人数儿童数构成比(%)儿童数累计构成比(%)生长迟缓人数(构成比%)生长迟缓累计构成比(%)消瘦人数(构成比%)消瘦累计构成比(%)第一阶层 2128 19.87 19.87 616(26.62) 26.62 126(24.14)24.14第二阶层 2138 19.96 39.83 516(22.30) 48.92 109(20.88) 45.02第三阶层 2144 20.02 59.85 468(20.22) 69.14 110(21.07) 66.09第四阶层 2150 20.07 79.92 394(17.03) 86.17 92(17.62) 83.71第五阶层 2151 20.08 100.00 320(13.83) 100.00 85(16.28) 100.00合计107112314 522

如2001年中国西部地区3岁以下儿童调查总数为10711，根据经济收入将他们从低到高分为5个不同的阶层，各个阶层的儿童数构成比和累计构成比分别见表1第3和4列，依据不同阶层儿童生长迟缓率计算出儿童生长迟缓人数，最后得到各阶层儿童生长迟缓数构成比和累计构成比。可以发现经济收入低的组儿童生长迟缓人数所占比例最大，经济收入高的组儿童生长迟缓人数所占比例最小。以经济状况排序的儿童累计构成比为横坐标，以儿童生长迟缓累计构成比为纵坐标，得到如图1所示的集中曲线，结果集中曲线在对角线的上方，说明2001年中国西部地区3岁以下儿童生长迟缓更多地集中在经济收入低的人群中。同理，我们可以得到儿童消瘦在不同阶层的构成比和累计构成比(见表1最后两列)，将儿童生长迟缓与消瘦进行比较发现，生长迟缓在中低收入阶层的比例要大于消瘦的比例(69.14% ＞66.09%)，生长迟缓集中曲线在消瘦的上方，相应的集中指数分别为生长迟缓为－0.116和消瘦为－0.059，说明儿童生长迟缓比消瘦更易出现于贫困阶层，这样较好地反映了不同社会阶层下健康状况的公平性。

图1 儿童营养不良集中指数曲线

实例分析及SAS计算程序

以2001年和2005年中国西部农村3岁以下儿童健康状况的调查数据为例，2001年把儿童分为干预组(2782人)和对照组(7633人)，在2005年分别评估干预组(2754人)和对照组(7162人)儿童健康公平性的变化。我们通过SAS软件编程求出集中指数之间差值及可信区间，观察2001年与2005年集中指数的变化情况。

表2给出数据中各指标编码，其中家庭财富指数是对母亲受教育年限、是否拥有汽车以及清洁饮用水等指标根据主成分分析法求取第一主成分的因子得分〔2〕。本例评价指标为生长迟缓、消瘦和低体重三个指标〔3〕，根据集中指数的计算公式，我们把过程分为六步，具体SAS过程见附录。

表2 儿童营养状况资料变量及其代码

由附录程序得到干预组与对照组在不同年份之间的集中指数差值及其可信区间见表3。

表3 集中指数差值及其95%CI

集中指数及bootstrap可信区间结果显示，经过干预之后，3岁以下儿童生长迟缓、消瘦与低体重的集中指数出现了不同程度的降低，即干预后家庭经济状况较差的儿童具有更高营养不良发生率。但是对照组从2001年到2005年集中指数差值没有统计学差异。

讨论

集中指数作为评价公平性的一个重要指标应用于多个方面，但目前文献中很少涉及运用SAS软件对其进行区间估计，本文根据集中指数计算公式编写SAS程序，并分析了中国西部地区儿童营养不良在不同社会经济阶层的分布状况。研究显示儿童营养不良在家庭经济状况较差的人群中更易出现，同时发现从2001年到2005年儿童营养不良经干预后不平等程度有增大的趋势，但对照组尚无统计学差异，这可能是由于我们的干预项目对不同阶层的家庭作用不同，即家庭经济状况较差的家庭对干预的依从性差，而家庭经济状况好的家庭依从性强，此现象应引起有关部门的重视，在以后的健康干预过程中应加强对经济状况差的家庭的宣教和督促力度，以提高健康干预的效果。

在求集中指数可信区间的过程中使用了Bootstrap再抽样技术，Efron〔4〕提出以原始的样本资料为基础，借助经验分布理论进行有放回的重复抽样，从而估计和推断统计量的分布特征。此方法特别适用于难以用常规方法进行参数估计和假设检验的问题，具有通用性、高效性和实效性的优点，而且随着计算机技术的高速发展，计算量大这一缺陷已被逐渐克服，因此，目前bootstrap已经成为非常常用的统计分析方法。1．Owen O’Donnell，Eddy van Doorslaer，Adam Wagstaff，et al．Analyzing Health Equity Using Household Survey Data．The World Bank Washington，D．C，2008:95-108．

2．Deon Filmer，Lant H．Pritchett．Estimating wealth effects without expenditure data—or tears:an application to educational enrollments in states of india．Demography，2001，38(1):115-132．

3．党少农，颜虹，曾令霞，等．运用人体测量法评估中国西部40个县农村3岁以下儿童的营养状况．中华流行病学杂志，2005，26(3):177-181．

4．Efron B，Tibshirani R．Bootstrap methods for standard errors，confidence intervals，and other measures of statistical accuracy．Statistical Science，1986，1(1):54-77．

附录:

/*第一步:对儿童生长迟缓stunting数据集进行bootstrap再抽样*/

proc surveyselect data=Stunting out=Stuntingboot/*输出数据集为Stuntingboot*/

seed=8888 method=urs/*urs为非限制随机抽样*/

samprate=1 outhits rep=500;/*samprate表示抽样比例为1，rep表示产生500个新数据集*/

run;

/*第二步:bootstrap再抽样后，根据不同年份与干预分组对家庭财富求分数秩*/

proc sort data=Stuntingboot;

by replicate year treat;/*对产生的Stuntingboot数据集按照年份、干预及抽样号进行排序*/

proc rank data=Stuntingboot out=Stuntingranka;/*输出数据集为Stuntingranka*/

by replicate year treat;var wealth;/*根据年份、干预及抽样号分组分别求家庭财富的秩*/

ranks wealthrank;/*家庭财富的秩表示为wealthrank*/

proc means data=Stuntingranka noprint;/*对数据集Stuntingranka进行统计描述*/

by replicate year treat;var wealthrank;

/*根据年份、干预及抽样号分组分别求家庭财富的最大秩wealthrank_max*/

output out=wealthrank_max max=wealthrank_max;

/*家庭财富的最大秩 wealthrank_max，输出数据集wealthrank_max*/

data Stuntingrank;/*建立数据集Stuntingrank*/

merge Stuntingranka wealthrank_max;/*合并数据集Stuntingranka与wealthrank_max*/

by replicate year treat;/*根据年份、干预及抽样号分组*/

wealthrank_frac=wealthrank/wealthrank_max;/*根据年份与干预分组分别求出家庭财富的分数秩*/

/*第三步:求结局变量与分数秩的协方差*/

proc corr data=Stuntingrank COV;

by replicate year treat;/*根据年份、干预及抽样号分组*/

var stunting wealthrank_frac;/*求出家庭财富分数秩与结局变量之间的协方差*/

ods output cov=cov;/*输出数据集cov*/

data cova;set cov;/*建立数据集cova*/

if variable=“wealthrank_frac”;cov=stunting;/* 家庭财富分数秩与stunting之间的协方差表示为cov*/

keep replicate year treat cov;/*数据集cova只保留变量replicate year treat cov*/

/*第四步:求不同年份与干预组的集中指数*/

proc means data=Stuntingboot noprint;

by replicate year treat;/*根据年份、干预及抽样号分组*/

var stunting;output out=mu mean=mu;/*求出各组中stunting的均数mu并保存为数据集mu*/

data mua;set mu;keep replicate year treat mu;/*保留变量replicate year treat mu建立数据集mua*/

data ci;merge cova mua;/*合并协方差数据集cova与数据集mua，建立数据集ci*/

by replicate year treat;/*根据年份、干预及抽样号分组*/

CI=2*COV/mu;/*根据公式求出各组的集中指数*/

if year=1 and treat=1 then group=1;/*2001年干预组命名为组1*/

else if year=1 and treat=2 then group=2;/*2001年对照组命名为组2*/

else if year=2 and treat=1 then group=3;/*2005年干预组命名为组3*/

else if year=2 and treat=2 then group=4;/*2005年对照组命名为组4*/

/*第五步:求在不同年份干预组和对照组集中指数的差值*/

proc sort;by replicate group;/*对数据集ci按照变量replicate与group分组进行排序*/

proc transpose data=ci out=cia prefix=CI;/*对数据集ci转置产生新数据集cia，变量前缀CI*/

by replicate;/*根据抽样号对变量ci分组转置*/

ID group;var ci;/*根据变量group对结果分组*/

data cib;set cia;/*建立数据集cib*/

cid1=ci3-ci1;/*求出干预组2005年与2001年之间的差值*/

cid2=ci4-ci2;/*求出对照组2005年与2001年之间的差值*/

/*第六步:求在不同年份干预组及对照组集中指数差值的可信区间*/

proc univariate data=cib;

var cid1;output out=pmethod1 mean=cid1 pctlpts=2.5 97.5 pctlpre=p pctlname=_lb_ub;/*求出干预组及对照组在不同年份之间的集中指数差值的95%可信区间*/

run;

联合国儿童基金会(UNICEF)(No.YH001)

(责任编辑:郭海强)

集中指数及可信区间的SAS实现*

原理与方法

表1 2001年中国西部地区3岁以下儿童生长迟缓构成比

实例分析及SAS计算程序

讨 论

讨论