刘德平 罗盛 陈丽娟 陈景武
对应分析(Correspondence Analysis),又称相应分析,其基本思想首先由理查森(Richardson)和库德(Kuder)在1933年提出,后来法国统计学家Jean-Paul Benzecri和日本统计学家Hayashi Chikio对该方法进行了发展[1],主要用于分析二维数据阵中行因素和列因素间的关系。目前对应分析已被广泛地应用于自然科学和社会科学的各个领域,取得了可喜的成果[2-6]。
对应分析的基本思想是对数据阵进行适当的变换,使变换后的数据对行与对列是相对应的,从而可以同时对行和对列进行分析,以发现行列因素间的关系[7]。
设有n×m的数据阵X={xij},行列分别表示两个不同因素的n个水平和m个水平。为同时对行和对列进行分析,首先对数据阵进行如下变换:
其中xij是数据表中第 i行第 j列出现的频率,x.j是第j列的累计,xi.是第i行的累计。再对变换后的数据阵Z=(zij)n×m进行R型和Q型因子分析,进行R型因子分析是从矩阵Am×m=Z'Z出发,求其特征根和特征向量;进行Q型因子分析是从矩阵Bn×n=ZZ'出发,求其特征根和特征向量。然后将A的第1因子和第2因子及B的第1因子和第2因子同时绘在同一坐标轴上,则可揭示行因素的不同水平及列因素的不同水平之间的关系,此即对应分析方法的基本思想[8]。
2.1 一般资料 本次调查对象是2010年青州市小学1~6年级在校学生。采用横断面的随机抽样调查方法,对学校按地理分布分为城区、平原丘陵地区、山区三层,以学校为抽样单位,进行分层整群按十分之一比例抽样,对抽取学校的小学生进行调查。共调查12个学校7169人,其中城区2个学校2404人,平原丘陵7个学校2515人,山区3个学校2250人。实查7086人,实查率为98.86%。所有被调查的学生了解本调查的目的,并在知情同意书上签字。
2.2 资料的整理 对原始数据用EXCEL2003双人双份录入、校对,以保证录入数据的正确、完整。表1是12所学校小学生主要眼病患病资料,其中主要眼病是:H10.4慢性结膜炎、H52.1近视(单纯性、病理性)、H53.0弱视、H53.5色觉缺陷、H13.1衣原体性沙眼、H52.0远视、H50.0内斜视、H50.1外斜视、H02.0睑内翻和倒睫、H10.2急性结膜炎、S05眼外伤、H55眼球震颤、H52.3屈光参差、Q12.0先天性白内障、Q10.0先天性上睑下垂。地区用英文字母表示。12所学校分别为城区:团结小学tj、职工子弟小学zg;农村平原:大王小学dw、大尹小学dy、东坝小学db、贯店小学gd、黄楼小学hl、潘刘小学pl、阳河小学yh;农村山区:莲花盆小学lh、邵庄小学sz、五里小学wl。应用SAS 8.0对资料进行对应分析。
对表1进行对应分析发现,前两个特征根λ1、λ2累计贡献率仅仅为54.4%,说明前2个因子只能解释原始资料的54%的信息,此时用前2个因子表示的二维因子载荷图不能充分表达原始资料中眼病与学校两属性变量间的关系。因此考虑用分组对应分析法来分析资料[5]。先对表1进行R型因子分析,将眼病(列因素)分为3组,从而将原始资料分为3个二维数据表(表2、表3、表4)分别进行对应分析。
3.1 特征根及累计贡献率 对表2、表3和表4数据分别进行对应分析,前两个特征根λ1、λ2累计贡献率分别为83.4%、87.9%和100%,解释了原始资料的绝大部分的信息, 因此用2个公因子表示的二维因子负荷图可以表达表2、表3和表4中眼病患病率与地区两属性变量间的关系。
表1 12所小学学校15种主要眼病患病率(%)
表2 12所小学7种主要眼病患病率(%)
表3 5种眼病患病率(%)
表4 3种眼病患病率(%)
3.2 因子载荷 表2、表3和表4资料的行因素(学校)及列因素(眼病)的第一因子负荷(Dim1)和第二因子负荷(Dim2),分别列于表5和表6。
表5 学校(行因素)的因子负荷
表6 眼病(列因素)的因子负荷
将表5、表6行因素及列因素的第1、第2因子负荷分别绘在同一因子图上,得因子载荷图图1、图2和图3。
图1 表2资料因子载荷图
由图1可以看出除了职工小学,连花盆小学外,其他10所小学聚集性非常大。H13.1衣原体性(沙眼)和H50.0内斜视有聚集性,提示它们之间可能有关联性,职工、大尹、邵庄小学是高发区;H10.2急性结膜炎、H50.1外斜视、Q10.0先天性上睑下垂、S05眼外伤有一定的聚集性,提示它们之间可能有关联性,莲花盆小学(农村山区)是高发区;H10.4慢性结膜炎其高发区是五里(农村山区)、团结(城区)、潘刘、大王、贯店、阳河、东坝、黄楼(农村平原区)。
图2 表3资料因子载荷图
图2显示阳河小学(农村平原)与H53.0弱视相关性比较大;五里、莲花盆(农村山区)、大王、大尹、东坝、贯店(农村平原)、职工、团结小学(城区)是H52.1近视(单纯性、病理性)、H53.5色觉缺陷的高发区,另外H52.1近视(单纯性、病理性)、H53.5色觉缺陷可能有关联性。
图3 表4资料因子载荷图
图3显示贯店、东坝、潘刘小学(农村平原)、职工、团结小学(城区)、莲花盆、邵庄小学(农村山区)是H02.0睑内翻和倒睫的高发区。
每所学校的主要高发眼病见表7。
表7 12所小学对应的主要眼病
对应分析主要用于处理二维列联表,用以分析行因素与列因素之间的关系及一些分类问题。分析时主要取前两个因子,且累积贡献率大于75%为宜。当因子累计贡献率较小时,说明两个因子不足以概括出行列因素的最基本的分布特征,不能较好地反映数据阵的主要信息。此时我们可以根据研究目的和资料特点进行“分组”对应分析,即先对原数据资料进行R型因子分析或者R型聚类分析,如本例,先对列因素(眼病)进行R型因子分析,结合统计分析结果和流行病学知识将其分成3个组别,然后每个组别分别与行因素(学校)做对应分析,这样可以解决直接对原始数据表作对应分析时遇到的前2个因子累积贡献率较小的问题,从而表达原始资料的主要信息。本文经过3组对应分析发现,前2个因子的累积贡献率分别提高为83.4%、87.9%和100%,可以基本表达原始资料的信息。
由因子负荷图可以直观地看出12所小学与眼病的对应关系以及不同眼病间的聚集性,从而可以发现不同眼病患病率的高发学校和低发学校及不同种类眼病间的关联性。每所学校的主要高发眼病见表7,针对每所学校的主要眼病,我们可以制定相应的防治眼病措施,降低学校相关眼病的患病率,并为进一步做流行病学病因调查提供科学依据。
[1]何晓群.多元统计分析.中国人民大学出社,2004,195-219.
[2]Alain F.Canonical correspondence analysis of lowland pasture vegetation in the humid tropics of Mexico .Statistics for Biology and Health.2007:561-547.
[3]Mao Duan-qian .Correspondence analysis on images of Jiangxi Province as a tourist destination.Chinese Geographical Science.2005,15(3):275-280.
[4]Ken Reed.The use of correspondence analysis to develop a scale to measure workplace morale from multi-level data.Social Indicators Research.2002,3:339-351.
[5]何先平,周全.对应分析方法在环境污染中的应用[J].宜宾学院学报,2012,12(12):36-38.
[6]黄素琴.对应分析法在保险市场细分中的应用[J].经济研究导刊,2010(23):149-150.
[7]罗盛,陈景武,马峻岭.分组对应分析在流行病学中的应用[J].中国卫生统计,2008,25(3):280-282.
[8]刘德平,罗盛,陈景武.青州市小学生眼病患病情况的对应分析[J].当代医学,2013,19(25):161-163.