张宇祯,陶砚蕴,谢诚,薛领,张其银,蒋彬Δ
(1. 苏州大学附属第一医院心血管内科,苏州 215006;2.苏州大学 智能结构与系统研究所,苏州 215131;3.苏州大学附属第一医院药学部,苏州 215006)
许多临床疾病都需要长期口服抗凝药物进行抗凝治疗,否则容易导致包括脑卒中在内的血栓栓塞性疾病,致残、致死率高。然而,目前抗凝治疗的覆盖率和质量令人堪忧,主要原因之一,是服用经典口服抗凝药华法林的患者需要频繁采血监测国际标准化比值(international normalized ratio,INR),导致依从性差。虽然近年一些新型口服抗凝药物相继问世,但是适应人群有限,尚不能替代华法林在口服抗凝药物中的地位。因此,解决好个体化使用华法林的问题,对防治血栓栓塞性疾病具有重要意义。
目前,华法林预测模型以多元线性回归模型为主。较为公认的回归模型是国际华法林药物基因组学联合会(the international warfarin pharmaeogenetics consortium,IWPC)模型[1]。然而,该模型在国人中预测的准确性并不高[2-3]。国内也有一些小组尝试建立更适用于国人的预测模型[4-5]。同样,当这些模型应用于新的数据中时,其准确性往往较测试时大幅度减弱,即模型泛化性弱。华法林的个体剂量差异影响因素多,函数形式复杂,上述基于回归建模方法捉襟见肘,多元线性回归这种方法缺乏对华法林剂量效应复杂特征的考虑。如何提取华法林剂量效应的复杂特征,提高预测模型的趋势相关性、精度与泛化性是预测模型推广至临床应用的关键问题。
随着人工智能的发展,科学家尝试机器学习建模方法应用于华法林个体化剂量预测[6-9],其中人工神经网络和支持向量机华法林剂量预测模型尚存在泛化性弱等缺陷。
提高华法林预测模型的预测精度关键是华法林剂量效应的特征提取和模型泛化性的提升。演化算法是一种自然启发的优化算法,它可以通过人群搜索策略产生不同的候选解决方案[10]。该算法族中的GP是一种基于生物进化原理的复杂函数生成方法。基于GP的函数自动生成可实现华法林剂量预测复杂特征的提取,得到多样的特征函数。ES是一种轻量级的全局启发式搜索算法,可用于求解复杂的非线性最优化问题。本研究的目标是:借助GP的函数生成能力和ES全局搜索能力,提出基于GP和ES的预测建模方法GPES,建立华法林剂量预测模型,改善华法林剂量预测的准确性,推动华法林的个体化治疗。
实验数据来自单中心回顾性临床资料。共纳入247例2010年8月到2017年2月在苏州大学附属第一医院就诊的进行华法林抗凝治疗的汉族患者。入选标准:使用华法林达稳态,即使用华法林≥3个月,在最近连续3次随访过程中(间隔天数≥7 d)剂量不变,且INR均符合抗凝标准。抗凝标准为:无合并其它抗栓药物者:INR目标为2.0~3.0;合并使用阿司匹林和/或氯吡格雷联合抗栓者:INR目标为2.0~2.5。记录患者性别、年龄、身高、体重、抗凝指征、合并用药、疾病状态、华法林代谢与作用相关的基因多态性包括CYP2C9和VKORC1,及华法林稳定维持日均剂量(真实值)。
见图1,GP和ES在训练集上建立10个候选模型,在测试集中进行评估,选取一个总体最优模型用于下一步的模型对比。所有患者的相关资料为建模的数据集。用随机数字法从数据集中随机抽样60例为测试集(n=60),剩余为训练集(n=187)。模型共纳入5个变量,分别为年龄、体重、是否合并使用胺碘酮、CYP2C9和VKORC1。
图1GPES建模与预测流程
Fig1FlowofGPESmodelingandprediction
设x={x1,x2,...xn}是一个回归模型的输入向量。多元线性回归模型的函数表示为(1)式。
y=β0+β1g1(x)+β2g2(x)+Λ+βigi(x)
(1)
其中,{g1(x),g2(x),...gi(x)}表示是华法林剂量效应特征函数,β1,β2, …βi(i≥0)表示回归系数。本研究中,gi(x)通过GP实现的特征函数。GP是任意复杂函数的自动建模器,可生成大量候选函数。GP提取函数是人脑无法企及的复杂形式。ES是一种轻量级全局搜索算法,可实现多个方向的有限步长搜索。图2给出了创建回归模型范例。
Fig2GPESbasedpredictionmodelfunctionandcoefficientdesign
目前华法林剂量效应的特征提取取决于医师经验或统计方法的归纳,而不是直接使用数学模型。本研究借助GP自动建模方法,生成多样的特征函数,通过全监督学习,找到最优适应度评价(预测精度最高)的特征集合,组成候选预测模型。
GP使用树作为函数表达形式,GP的个体中包含多个子树以表达多个特征函数。在进化过程中,轮盘与精英策略用于选择优良个体;交叉和变异在进化过程中通过改变个体的结构和元素来探索搜索空间;交叉算子通过交换父类树的子树来改变个体结构,而且他们个体上的交叉点等概率选择。变异只改变树的节点。图3给出GP进化不同特征函数的例子,可以观察到GP能生成不同结构的特征函数。
ES的问题表达通常定义为一个实数字符串,主要的变异和选择作为搜索算子。这个实数字符串代表的系数被定义为δ={β,σ},其中β表示系数矢量和GP进化函数的随机数,σ是指策略参数矢量。σ与β共同进化的参数变化的突变步长。 “逗号策略”为本研究的选择策略。突变是ES唯一的变化算子。图4给出了ES系数的优化进程。GP和ES中的个体的评价使用相同的适应函数。函数f表示为(2)式。
(2)
其中,Xi表示第i个输入向量,Yi表示训练输出值。y(Xi)指模型输出,n表示训练数据集大小。GP和ES停止的判据是fit<ε,其中,ε可以设定为较小的数值,如0.02;或者是达到最大演化代数。
图3基函数的GP进化
Fig3GPevolvingbasicfunction
图4 模型系数的ES进化
GPES流程描述如下:
(1)随机生成GP的初始种群,种群中个体数量N=150,每个个体包含k个子树;
(2)生成一组N=150的ES实数编码个体,个体的编码长度由k+l+1决定,其中l表示对应GP个体的子树的随机数节点;
(3)运行GP的选择、交叉和变异算子产生后代;
(4)计算个体的适应度;
(5)如果达到最大演化代数或者最小误差时,停止GP;
(6)运行ES的选择和变异产生后代,实现模型回归系数和GP个体子树中的随机数的进化;
(7)输出适应度最好的ES个体和GP特征函数组成预测模型。
典型机器学习算法:(1)支持向量回归(support vector regression,SVR),(2)径向基函数(radical basis function,RBF)神经网络和(3)反向传播(back propagation,BP)神经网络在相同训练集中以各建立10个模型,在测试集中进行验证,选取各自的总体最优模型,用于模型对比。
传统模型:(1)国际公认的预测模型:IWPC模型[1];(2)基于相似人群的线性回归模型:我院Yu等[5]建立的线性回归模型(Yu模型)。
决定系数(R2)评价预测值与真实值的趋势相关性(R2大说明其趋势相关性强);均方误差MSE评价模型拟合与预测精度(MSE小意味着预测精度高);预测值在真实值±20%范围内的比例(20%-p)评估模型的临床可用性(20%-p大说明可用性强);比较上述指标在测试集和训练集上的差值,依次为δR2,δMSE和 δ20%-p来评价模型的泛化性,即模型对新数据的预测能力(差值的绝对值小说明泛化性强)。
见图5,在各模型的测试集中,GPES的MSE(1.68×10-2)和20%-p(53.33%)为最优,且δMSE(0.43×10-2)和 δ20%-p(0.92%)的绝对值最小;R2(69.45%)略微低于SVR(70.36%),优于其它模型;δR2(-10.64%)的绝对值仅大于IWPC(-3.58%),小于其他模型。综合上述指标,GPES模型总体性能最优。
本研究通过R2、MSE、20%-p和上述指标在测试集与训练集上的差值的绝对值这四个方面全面评估模型的趋势相关性、精度、可用性和泛化性。
我们发现,传统模型中,Yu模型在趋势相关性上表现较好,而精度和可用性则最弱,泛化性弱;基于大数据的IWPC回归模型在趋势相关性上较弱,其它指标则较Yu模型优异,但较机器学习模型仍有较大差距,这表明大量的数据集可以改善传统模型,但不足以弥补建模方法本身的缺陷。
机器学习中,BP的全局逼近方法在训练集合上各项指标良好,模型的精度较高,但在测试集合指标上下降较多,说明BP网络出现了过拟合问题, 即该算法虽然在训练集可以很好的拟合数据,但所建立的模型应用于新数据的准确性很低。RBF是一种局部逼近的神经网络,可以以任意精度逼近任意连续函数,在本研究训练集的各指标最好,但各指标从训练集到测试集表现大幅度减弱,表明RBF在小样本建模时过拟合现象显著,泛化性差,需要大量样本才能体现其优势。SVR在测试集的各项指标比BP和RBF更好,SVR的优良性在于对结构性风险的控制,提升了泛化性、且适用于小样本。本研究提出的GPES方法在各项指标上综合表现最优,体现出最佳的趋势相关性、精度、可用性与泛化性。
图5模型评价与对比。左列分别显示了四种机器学习方法所建模型和两种传统模型在训练集和测试集上得到的R2(a),MSE(c)和20%-p(e);右列分别显示了各模型在测试集与训练集所得的R2之差δR2(b),MSE之差δMSE(d)和20%-p之差δ20%-p(f)。
Fig5Modelevaluationandcomparison.TheleftcolumnshowstheR2(a),MSE(c)and20%-p(e)intrainingsetandtestset,respectively,derivedfromthefourmachinelearningmethodsbasedmodelsandtwotraditionalmodels;TherightcolumnshowsthedifferencesbetweenR2,MSEand20%-pintrainingsetandtestsetrespectively,thatisδR2(b),δMSE(d)andδ20%-p(f)ineachmodel.
机器学习较传统建模方法的主要优势如下:(1)传统方法使用线性回归方程建模,对复杂问题的拟合能力有限;机器学习可以突破人类思维的局限,可更好地拟合任何真实的复杂非线性问题;(2)传统模型泛化性差;机器学习方法可自主学习,建立泛化性更强的模型。本研究提出的GPES最大优势在于,它能够建立多样化的候选模型,再通过筛选获得最优模型,这是提高预测模型准确性,避免过拟合的关键点。
本研究选择年龄、体重、CYP2C9基因型、VKORC1基因型和是否合并使用胺碘酮这5个变量进行建模,一是基于现有传统模型变量的参照,二是基于我们前期研究中多种变量组合的建模结果比较,兼顾了模型预测的质量与效率,既能得到准确性高的预测值,又避免了过于繁琐的临床信息采集,临床适用性高。但在真正使用于临床之前,尚待更大样本,尤其是多中心样本的测试,及前瞻性随机对照临床研究的验证。
本研究首次建立了基于GPES的华法林剂量预测模型,提高了华法林预测的趋势相关性、精度、可用性与泛化性;展示了将GPES应用于华法林个体化治疗具有良好的临床应用前景;有望在精准医疗时代,帮助临床医师缩短患者INR达标前调整时间,提高治疗窗内时间,从而提高患者依从性与抗凝质量,减少血栓栓塞性疾病及出血,降低致残及致死率。