邓麟,顾立伟,王锋刚,王经民
(西北农林科技大学,陕西 杨凌 712100)
抗艾滋病药物的评价与预测模型
邓麟,顾立伟,王锋刚,王经民
(西北农林科技大学,陕西 杨凌 712100)
第一问中对CD4数量和HIV浓度随周期变化分别建立线性模型和二次模型,由数据确立中度患者CD 4随时间变化模型为:C(T)=0.0496T+3.0659,HIV随时间变化为:H(T)=0.0044T2-0.2317T+4.2899.确定最佳治疗终止时间为:轻度患者28.90周,中度患者31.97周,重度患者为40.86周,平均最佳终止治疗时间33.91周.第二问中得出疗法4效果最好,疗法3次之,疗法1最差.然后通过建立了回归分析模型,对最优疗法进行预测,得到最佳终止治疗时间为25.53周.第三问在第二问的基础上增加了治疗费用对治疗效果的影响,计算得出:疗法3为最优,疗法1次之,疗法2最差.用疗法3的数据进行作图分析得到疗法3的最佳治疗终止时间为40周.
CD 4;HIT;健康指数;模糊综合评判;评价比
艾滋病是当前人类社会最严重的瘟疫之一,英文简称AIDS,它是由艾滋病毒(英文简称HIV)引起的.这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命.人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD 4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作.
艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力.现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据.ACTG320是同时服用zidovudine(齐多夫定),lam ivudine(拉美夫定)和indinavir(茚地那韦)3种药物的300多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量).将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD 4浓度(这组数据缺HIV浓度,它的测试成本很高).4种疗法的日用药分别为:600mg zidovudine或400mg didanosine(去羟基苷),这两种药按月轮换使用;600mg zidovudine加2.25 mg zalcitabine(扎西他滨);600 mg zidovudine加400 mg didanosine;600 mg zidovudine加400mg didanosine,再加400mg nevirapine(奈韦拉平).请你完成以下问题:
(1)利用所给的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗).
(2)利用所给的数据,评价4种疗法的优劣(仅以CD 4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间.
(3)艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元.如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变.
1由于测试的患者病情程度不同,假设可以分为轻度、中度和重度患者,分类相同的所有患者可以视为一个人来处理;
2假设在病毒产生抗药性之前,CD4细胞数量与用药时间成线性关系;
3服药时间的长短与健康系数的自然对数成反比;
4假设测试的患者均没有因受到其它疾病感染而使H IV和CD 4数量发生很大波动;
5在用药的情况下,如果艾滋病患者体内的HIV浓度增长率大于了CD4数量的增长率时,假设这种药对艾滋病的疗效不理想,没有必要再继续服用下去;
6假设四种疗法的费用只包括药物的费用.
T艾滋病患者开始服药以来的时间(单位:周);
H(T)T周时艾滋病患者体内的HIV病毒浓度;
C(T)T周时艾滋病患者体内的CD4的浓度;
W在采用某一种疗法时各个年龄段在该疗法中的权重分配向量;
R在评价四种疗法过程中仅以CD4数目为标准时的单因素评判矩阵;
A四种疗法的模糊评判矩阵;
i治疗方法,取1,2,3,4;
Pi采用第i种疗法所用药品的周费用(单位:美元,i=1,2,3,4);
δi采用第i种疗法治疗时患者体内的CD4数量随时间的平均变化率;
Mi第i种疗法的性价比(即治疗效果和用这种方法所用药品费用的比值).
此题目要求以数据为基础建立合适的AIDS药物治疗效果的预测和评价模型,但需要对数据筛如测试周期较少而且两个指标CD4细胞数量和HIV病毒浓度测试不同步等.
考虑到测试患者的健康程度具有差异性,即使同步测试的患者(如都从0开始测试)其CD4数量与HIV浓度变化也是不同的.于是可以考虑用一个健康系数把患者分为三类:轻度患者、中度患者和重度患者,从而把数据进行聚类分析.
开始用药时,H IV病毒会被大量杀灭,数目会有一个快速下降过程,而CD 4数量会呈上升趋势.由于微生物会产生突变和抗药性,当HIV对药物完全抗药后就会又大量繁殖,又会呈上升趋势,于是可以假设HIV浓度随时间服从二次曲线规律,而CD 4数量随时间服从线性规律.
当HIV产生抗性后增长的速率(二次曲线的斜率),超过CD 4增长速率(直线斜率)时,药物已经完全失效,此时为最佳的治疗终止时间.
问题二要求对四种疗法的优劣性进行评价,由于数据较复杂且评价指标CD4随着年龄不同和治疗时间长短有着差异性,同时评价指标又仅有CD4一个,考虑用单级模糊综合评判来对四种疗法的优劣性进行评价.复杂数据需要进行分组:按年龄分组,属于以不同年龄段的个体为单位,结果可能会更符合常规;而按周期分组属于不考虑因年龄的不同个体之间存在着差异,以整体的治疗时间为单位对整个用药过程进行分析这样的结果可能会在理论上更准确.通过评价确定出较优的疗法,对其进行预测,这里考虑用回归的方法建立模型进而判断治疗效果.
问题三只是在问题二的基础之上增加了一个费用因素,于是可以设法把该因素和问题二中的某些指标联系起来,产生出新的数据,从而使得费用的加入对第二施加影响,从而建立新的评价及预测模型.
问题一
1)模型的建立
由分析与假设:病毒产生突变和抗药性,使得HIV浓度(H)在服药后先下降后上升,HIV浓度(H)与时间(T)在一定范围内成二次曲线,即
又因为病毒产生抗药性之前,CD4数量(C)与时间(T)成线性关系,于是有
由于开始用药时HIV病毒是受到抑制的,一定时期内其数量会减少,随后产生突变和抗药性使得药物效果降低,HIV浓度及其增长速率不断变大(二次曲线切线斜率),当超过CD4增长速率时是最佳治疗终止时间,即函数(1)的导数大于函数(2)的导数:2a2T+a1≥b1,于是
2)模型的求解
先对给定的300名患者的观察数据用Excel进行处理,求得测试期间各周内患者的平均CD 4细胞数目以及HIV病毒浓度,在同一坐标系内做出二者的关系图(如图1横坐标为时间,纵坐标为CD4细胞数量或HIV浓度).
从图中可以看出CD4与HIV呈现相反的趋势,符合实际,但是由于给定的300多名患者的病情程度不同,而且数据测定的时间以及次数不同,所以不能用平滑或者平移的方法进行预测.由于数据量大且患者的健康程度不一致,要剔除数据中的奇异点选出合理的数据并进行适当的数据压缩.
图1 CD 4数量和HIV浓度随时间的变化曲线
由假设,根据被测试患者的健康程度不同将其分为三个等级:轻度、中度和重度.从而对数据进行聚类,具体步骤如下:
1.数据的初级筛选.去掉测试次数少,且有缺失数据的患者,筛选出科学合理的数据,保留测试具有代表性(HIV和CD 4同步测试且次数较多)的数据,最后选定测试周数为40周且完整的数据.
2.确定分类指标.定义每名患者测试期间的CD4与HIV含量的比值的平均值为健康指数,即
上式J为患者的健康系数,n为测试次数,ci、hi分别为患者在某次测试时的CD 4细胞数目和HIV病毒的浓度.
3.计算得到各患者的健康系数,进行排序和统计.把数据分为三组(表略).
4.数据细处理.统计出测试时间为40周的各类患者在各周内的CD 4细胞数目和HIV病毒的浓度平均值.由假设,同一类患者可以看作一个人来处理.于是就可以把三类患者看作三个人来进行预测和评价.经计算得到轻度和中度患者的各时间段内的指标,考虑到数据的科学性和比较的方便性,同时取两种患者的0、4、8、25、40周的数据作图进行比较和分析(如图2,图3):
图2 轻度患者CD 4和HIV随时间变化
图3 中度患者CD 4和HIV随时间变化
从两种病情不同的患者可以发现在测试期间CD 4数量呈上升趋势,而HIV的浓则是先快速下降,然后缓慢下降最后又开始回升.说明在药物的治疗下CD 4含量不断上升,但是HIV病毒也在不断产生突变和抗药性,使得服用的药物无法发挥作用.因此,随着服药时间的延续,治疗效果就越来越不明显.
又由病毒产生突变和抗药性,使得HIV浓度在服药后先下降后上升,HIV浓度与时间成二次曲线;对中度患者CD4和HIV含量分别对时间进行曲线拟合[1](如图4):
图4 中度患者CD 4和HIV含量曲线拟合
得到的拟和方程分别为:
当HIV浓度增长率大于CD 4的增长率时,说明该药物对艾滋病已经不再有疗效.所以,当HIV浓度增长率等于CD 4的增长率时正是停药的最佳时间.由此得到中等患病者的最佳治疗终止时间满足以下关系:
于是T=31.97周.
接着由基本假设服药时间的长短与健康系数的对数成反比,即T ln(J)=常数,并且结合分类时的统计数据中健康指数(如表1)就可以求出轻度患者和重度患者的最佳停药时间.
表1 统计数据中健康指数
综上计算可知:轻度患者、中度和重度患者的最佳治疗终止时间分别为:28.90周、31.97周和40.86周,平均最佳治疗终止时间为33.91周.
问题二
1)模型的建立:药物效果模糊综合评判模型[2].
这里要评价是四种不同用药的效果,用模糊综合评判法,对各个年龄段的治疗情况整体进行分析.评价模型可以分为以下几个层次:
1.目标层:表示解决问题的目的,即综合评价四种药物的治疗效果.
2.准则层:表示采取某种措施,来实现或论证预定的总目标所涉及的中间环节,在此用各个年龄段的药物治疗效果(xi)作为准则层.
3.指标层:即评价时具体考虑的指标,在此用四类药物(yi)作为指标.
用附表给出的多组观测资料,按照规定统计出各评语的频率,构成R=X×Y=(rij)上的评价关系矩阵,其中rij为因子xi对分类级别yj的频率,其计算公式为:
把年龄段的数据进行进行模糊化,得到权重(w1,w2,w3,w4,w5,w6).最后对其进行综合评价值得到,其实现方法如下:
其中W为权重距阵,R为关系距阵.运算符“◦”与矩阵的乘法类似,区别在于将矩阵乘法中的乘号以取小代之,加号以取大代之.
2)模型的求解(对四种疗法进行评价):
由于采取某一种疗法的人数是通过对1300多名病人随机的分组产生的,且采用每个疗法的人数大致相等.在人数较多的情况下,需要考虑不同个体之间的差异,于是,按照对每一种疗法不同年龄段的个体为单位,进行分组.用V isual Basic[3]程序进行统计分组.按照年龄段分组,提供的数据中最大年龄为74.193,最小年龄为14.9021,极差为59.2909.为了使结果更具有可信性将其分为六组,组距为10.由统计结果看出采取每种疗法的每个年龄段的人数也基本相同,为了确定各龄段在某一种治疗方法中所占的权重,先应对各年龄段按疗法进行归一化处理.
据统计结果看出各个年龄段的权重在各疗法中差异性不大,在保证计算在一定程度上具有说服力的基础上,为了降低解决问题的成本,取每个年龄段在各疗法间权重的均值来作为各年龄段的权重分配向量代入问题二中建立的模型得:
为了能反映艾滋病人在服药过程中体内CD4的数目随时间的变化情况,以Log(CD 4 count+1)在测定时间内的平均变化率(/周)作为单因素评判矩阵.但在这里变化率大多数为负值,意味着在治疗过程中患者体内的CD 4数目反而下降了,出现负值进行归一化处理将使评价结果的合理性大大降低.但发现在结果要求的精度范围内,病人体内的CD 4数目也能在一定程度上反映治疗的效果.于是,在同一年龄组内不考虑个体之间差异的情况下,用某一疗法在相应的年龄组内的病人体内CD4数目的均值来代替前面的变换率建立单因素评判矩阵,然后做模糊变换来求四种疗法的评判矩阵(向量):
其中W为权重距阵(向量),R为关系距阵.运算符“◦”同上.则有:
将评判结果归一化得:
这表明四种疗法中最优的为第四种,其次为第三中,再次为第二种,最差的为第一种.
3)对较优的疗法进行预测:即就是对第四种疗法进行治疗效果的预测,对疗效的预测需要考虑在采取某种疗法的情况下随着时间的推移,艾滋病患者体内的CD 4数量的变化情况.
按照病人采用不同的治疗方法将其分为四个组,即采用治疗方法1-方法4进行治疗的病人数据各为一组.然后在每一组中根据所有病人在用药后进行Log(CD 4 count+1)检测的时间顺序将其再次分组.总共的检测时间为从第0周到第40周,因为大约每隔8周测试一次CD 4浓度,所以以8作为组距,分为五个时间组,即:[0,8],(8,16],(16,24],(24,32],(32,40].
通过计算得出各个时间段内的所有病人所测得的Log(CD 4 count+1)的平均值,将其作为时间组的Log(CD 4 count+1),然后再求出不同的治疗方法在各个时间组的Log(CD 4 count+1)的平均值.
利用各种治疗方法的各个时间组平均数来作图观察比较(如图5-图8):
图5 治疗方法1 CD 4随周期变化图
图6 治疗方法2 CD 4随周期变化图
图7 治疗方法3 CD 4随周期变化图
图8 治疗方法4CD 4随周期变化图
从以上四种药物组合方式的CD 4含量对周期的变化图,可以发现四种药物的效果有明显的不同.治疗方法1比较符合线性规律,但是斜率很小说明其药物效果不好;治疗方法2先时有缓慢的上升然后时急剧地下降,效果也不好;治疗方法3虽然有一定效果,但是波动性比较大;治疗方法4基本符合二次曲线规律,先是快速地上升过程,然后是下降,但是它的CD 4平均水平较高,是较优的治疗方法.
下面用二次曲线进行拟合(见图9).
图9 治疗方法4中CD 4疗效预测图
拟合的方程为:
在CD 4细胞数量达到最高值处,即CD 4增长速率为零(二次曲线的切线斜率)为最佳的治疗终止时间.于是对上述拟和方程求导得到:
令上式为零,得到x=3.192(周期),一个周期为8个周,于是最佳的治疗终止时间为25.53周.
问题三
由于需要考虑治疗费用,于是先对各种治疗方法的平均费用(每周)进行计算.第一种疗法的费用:第一种疗法为两种药物按月轮换使用,因此它的费用为两种药物价格的平均值.由于检测是以周为单位,故也将费用化为周费用.
第二种疗法的费用:第二种疗法为两种药物联合用药,故其费用为两者之和
第三种疗法的费用:第三种疗法同样为两种药物联合用药,故其费用为两者之和.
第四种疗法的费用:第四种疗法为三种药物联合用药,故其费用为三者之和,
然后对该矩阵按照行(即每个年龄段看作一个整体)来进行归一化处理,得到以下的评判矩阵.同样,做模糊变换来求四种疗法的评判矩阵(向量):
进而对该评判矩阵进行归一化处理,得A=(0.2335,0.1632,0.4389,0.1645).
这表明在考虑费用的情况下四种疗法中最优的为第三种,其次为第一种,而第二种和第四种疗法的疗效比较接近,第四种稍优于第二种.
对第三种疗法进行继续治疗效果的预测(见图10):
图10 治疗方法3 CD 4随周期变化图
由已知的治疗方法3 CD4随周期变化图,不难看出CD 4含量式先缓慢上升而后迅速下降到一定水平,然后再次上升(从图中可以看出此时为第4周期),随后一直下降到很低的水平.因此不用曲线拟合直接可以得出最好的治疗终止时间为第4个周期,即就是开始用药后的第32周.
对第一问中的模型利用Excel里面分析工具库[4]中的回归对所建立的回归方程进行F检验[5],检验的结果如下:
(1)以下是对患者CD 4/50与治疗时间的线性回归方程的检验结果(见表2):查表
表2 F检验的结果
得:F0.05=10.13<18.25802,所以建立关于患者CD 4/50与治疗时间的线性回归关系显著.
(2)以下是对患者HIV含量与治疗时间的二次多项式回归方程的检验结果(见表3):
表3 F检验的结果
查表得:F0.05=10.13<15.480478,所以建立的关于患者HIV含量与治疗时间的二次多项式回归方程关系显著.
对于统计的结果和假设的模型比较符合,第二问使用的拟和的方法,直接从拟合曲线即可得道其正确性.第三问由图形观察得出,不必进行检验.
在三个问题中,第一问是把数据通过引入一个健康指数而把CD4细胞数量和HIV浓度很好的连接起来,进行很好地聚类,处理的结果证明了模型的正确性.第二问用模糊综合评判法可以把大量的数据予以简化并且量化,使得复杂的关系变得清晰,不失为一种很好的数据处理方法.第三问通过引入性价比的概念,重新构造矩阵进行评价和预测,从而完善了第二问的不足,也是比较可行的.
在建模中面对大量复杂的数据在一定精度范围内为了分析和评价方便采取的大量简化,大多通过取均值来计算,可能会对计算的科学性有一定影响,如能采用加权平均或更实际的方法,可能效果会更好.另外,如能结合药理分析等方面的知识,将会使建模过程更加丰富,这些都是模型值得改进的方面.在对继续治疗效果的预测方面,若能借鉴灰度GM(1,1),BP神经网络等更高级的建模方法,将会使建模过程变得更加完美
[1]刘来福,曾文艺.数学模型与数据建模[M].北京:北京师范大学出版社,2002.
[2]曹谢东.模糊信息处理及应用M]北京:科学出版社,2003.
[3]李书琴.V isual Basic 6.0程序设计教程[M].西安:西北大学出版社,2004.
[4]邵崇斌.概率论与数理统计[M].北京:中国林业出版社,2003.
[5]张勤,张启能.生物统计学[M].北京:中国农业大学出版社,2002.
The evaluation and prediction model of the effect of AIDS therapy
Deng Lin,Gu Liwei,Wang Fenggang,Wang Jingm in
(Northwest A&F University,Yangling 712100,China)
In first section, we set up linear and quadratic model for density of CD4 and HIV with time.Amount of CD4 of middle sufferer with time satisfy: C(T) = 0:0496T + 3:0659 , Amount of HIV: H(T) = 0.0044T2-0.2317T+4.2899.Stopping therapy best time: early, middle and late sufferer are: 28.8th week, 31.97th week and 40.8th week. Average best stopping time is 33.91th week. In second section, the result show that treatment 4 is best one, after treatment 3; treatment 1 is bad. We set up regress model for treatment 4, and predict best stopping time: 25.53th week. Based on the second section, the third section add the in°uence of cost to effect of treatment. By fuzz judge matrix, show that treatment 3 is the best one, after treatment 1;treatment 2 is bad. Through the graphical analysis, stopping therapy best time for treatment 3 is 40th week.
CD4, HIV, health index, fuzz general evaluation, ratio of effect with cost
O 175.12
A
1008-5513(2012)02-0275-10
2011-05-10.
西北农林科技大学教学改革研究项目(JY 0902109).
邓麟(1986-),博士生,研究方向:基因序列分析.
获奖等级:2006年全国大学生数学建模竞赛全国二等奖.
2010 MSC:34D 05