郑凤霞,古传运
(四川文理学院 数学与财经学院,四川 达州 635000)
艾滋病是当前人类社会最严重的疾病之一.艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,以提高人体的免疫能力.目前,AIDS疗法有多种,每种疗法对不同的病人产生不同的效果,因此,选择合适的疗法显得非常重要.不少学者曾对艾滋病治疗问题进行了研究,其中郭亚君等在文献[1]中对数据ACTG320,依据病人的初始CD4浓度,将实验数据进行分类,再对每类数据进行三次样条插值,确定各类病人的最佳治疗终止时间.然后对另一组数据193A,依据病人的年龄,将实验数据进行分类,再对每类数据不同疗法进行三次样条插值,比较得到各类病人的最佳治疗方案.本文对数据ACTG320,同时考虑初始CD4和HIV浓度;对数据193A,同时考虑初始CD4浓度和年龄大小,采用聚类分析法将数据进行分类,然后对每类数据采用平滑技术进行趋势分析,使问题的解决更贴近实际.
聚类分析是将研究对象分为相对同质的群组的统计分析技术.[2]从统计学的观点看,聚类分析能够减少研究对象的数目,是简化数据的一种方法.聚类分析的目标是将性质相近的事物归入一类.同一个类中的对象有很大的相似性,而不同类间的对象有很大的相异性.本文采用聚类分析诸方法中最常用的一种方法——系统聚类法——进行分类.
系统聚类法的基本思想是:开始将各个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类.[3]当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理.本文采用系统聚类方法中的最长距离法进行聚类,采用曼氏距离作为其相似性度量.
平滑法是进行趋势分析的一种常用方法.它是利用修匀技术,使序列平滑化,从而显示出变化的规律.常用的数据平滑技术是移动平均法,它的基本思想是用一定时间间隔的平均值作为某一期的估计值.[4]但使用移动平均法进行平滑后的序列会变短.本文所使用的是一种保持原序列长度且方便快捷的平滑处理方法——二项式系数移动平滑法.[5]
二项式系数移动平滑序列由二项式系数组成,如三点二项式系数移动平滑序列的二项式系数如下:
n+1点二项式系数移动平滑序列由如下的二项式系数组成:
设含有n个数据的序列{xk},其三点二项式系数移动平滑序列为{yk},具体步骤如下:
上述操作无法对首尾数据进行平滑,为解决该问题,令y1=x1,yn=xn来进行数据缺失处理.
二项式系数移动平滑法中当前项的权系数最大对保存自身项及附近项特征具有良好的效果,且保持了峰高的位置不发生平移.[6]另外,此法计算快捷,含有n个数据的序列进行三点二项式系数移动平滑,只需要做2n-3次加法和2n-3次除法.如果进行2np+1点二项式系数移动平滑,则只需进行(2n-3)np次加法和(2n-3)np次除法即可.
3.1.1 数据预处理
数据来源于美国艾滋病医疗试验机构ACTG公布的数据 ACTG320,ACTG320是同时服用zidovudine,lamivudine,indinavir这三种药物的300多名病人每隔几周测试的CD4和HIV的浓度.此数据共有356组数据,依据病人的初始CD4和HIV浓度,采用聚类分析法将实验数据进行分类.首先去除20组缺失第一次测验的数据,然后对剩下的336组数据归一化后做聚类分析,聚类后再次去除2组异常数据,有效数据是334组.聚类结果有五类,每类人数如表1.
表1 ACTG320聚类后每类人数
对每一类中的数据不考虑个体差异,只考虑平均水平.第一类病人每隔几周的CD4和HIV均值浓度如表2.
表2 ACTG320第一类病人每隔几周的CD4和HIV均值浓度
3.1.2 模型建立
采用五点二项式系数移动平滑,即设含有n个数据的序列{xk},其五点二项式系数移动平滑序列为{yk},则
3.1.3 结果分析
将筛选和分类后的ACTG320第一类病人数据,以周数为横轴,分别以CD4均值和HIV均值为纵轴做出散点图,然后用五点二项式系数移动平滑技术进行平滑,结果如图1和图2.
图1 ACTG320第一类病人CD4含量随时间变化曲线
图2 ACTG320第一类病人HIV含量随时间变化曲线
对ACTG320第一类病人,图1显示CD4含量随时间先上升后下降.图2显示HIV含量随时间先下降后上升,CD4含量和HIV含量随时间成互补趋势变化.特别的,在第25周左右,CD4含量达到最高,HIV含量达到最低,表明ACTG320第一类病人最佳停药时间大概是在第25周左右.类似可得ACTG320第二类、第三类、第四类、第五类病人的最佳停药时间.
3.2.1 数据预处理
数据来源于美国艾滋病医疗试验机构ACTG公布的另一组数据193A,193A是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度,其中日用药600mg zidovudine或400mg didanosine,这两种药按月轮换使用为第一种疗法;日用药600mg zidovudine加2.25mg zalcitabine为第二种疗法;日用药600mg zidovudine加400 mg didanosine为第三种疗法;日用药600mg zidovudine加400 mg didanosine,再加400mg nevirapine为第四种疗法.另外,此数据信息还包含每个病人的年龄.
此数据共有1313组数据,依据病人的初始CD4和HIV浓度,亦采用聚类分析法将实验数据进行分类.首先去除14组缺失第一次测验的数据,然后对剩下的1299组数据中的时间和年龄四舍五入取整,再归一化后做聚类分析,聚类结果有五类,每类人数如表3.
表3 193A聚类后每类人数
对每一类中的数据不考虑个体差异,只考虑平均水平.仅以CD4为标准,第一类病人第1和第2种疗法每隔几周的CD4均值浓度如表4(限于篇幅,第一类病人第3和第4种疗法每隔几周的CD4均值浓度略).
表4 193A第一类病人第1和第2种疗法每隔几周的CD4均值浓度
3.2.2 模型建立
采用七点二项式系数移动平滑,即设含有n个数据的序列{xk},其七点二项式系数移动平滑序列为{yk},则
3.2.3 结果分析
将筛选和分类后的193A第一类病人数据,以周数为横轴,以CD4均值为纵轴,用七点二项式系数移动平滑技术对193A第一类病人数据的每一种疗法进行平滑,结果如图3.
图3 193A第一类病人四种疗法CD4含量随时间变化曲线
对193A第一类病人的四种疗法,图3显示第一种疗法CD4含量随时间变化比较平稳,第二种和第三种疗法CD4含量随时间变化波动比较明显,第四类疗法CD4含量在开始一段时间有波动性,但之后时间段CD4含量高于其他疗法.因此,对193A第一类病人,第四种疗法效果比较好.类似可得193A第二类、第三类、第四类、第五类病人的最佳治疗方案.
[1]郭亚君,王金然,丁 靖,等.基于三次样条插值的艾滋病治疗模型[J].数学的实践与认识,2010(9):93-98.
[2]吴秋芳,唐 亚.上市公司股票成交额时间序列的模糊聚类分析[J].内江师范学院学报,2011(10):11-14.
[3]方开泰,潘恩沛.聚类分析[M].北京:地质出版社,1982:44.
[4]王 燕.应用时间序列分析[M].北京:中国人民大学出版社,2005:114.
[5]Marchand P,Marmet L.Binomial Smoothing Filter:A Way to Avoid Some pitfalls of Least-squares Polynomial Sdmoothing[J].Review of Scientific Instruments,1983(8):1034-1041.
[6]贾小龙,王谦谦,周宁芳.近50a东北地区降水异常的气候特征分析[J].南京气象学院学报,2003(2):164-171.