李欢 万珊 聂斌
摘 要:中药量效之间呈现多成分、多靶点的非线性关系,偏最小二乘回归是一种线性回归方法,不能充分表达中药量效之间的非线性关系。基于此,文章建立基于样条偏最小二乘的中药量效关系模型,该模型先对自变量进行三次B样条变化,再进行偏最小二乘回归建模。分别在6组UCI数据集、2组中药数据上展开实验,结果表明,基于样条偏最小二乘回归模型能够很好地拟合非线性数据,并且对中药量效关系研究可行有效。
关键词:量效关系;非线性;中医药信息学;偏最小二乘;样条函数
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)07-0131-04
Abstract: There is a nonlinear relationship between the dosage and effect of Traditional Chinese Medicine (TCM) with multi components and multi targets, and Partial Least Squares Regression (PLSR) is a linear regression that does not adequately express the nonlinear relationship between dosage and effect of TCM. Based on this, this paper establishes a dose-effect relationship model for TCM based on spline partial least squares. The model firstly performs three B-spline changes on the independent variables, and then conducts PLSR modeling. Experiments are carried out on 6 sets of UCI datasets and 2 sets of TCM datasets. The results show that the spline PLSR model can fit the nonlinear data well, and it is feasible and effective for the study of the dose-effect relationship of TCM.
Keywords: dose-effect relationship; nonlinear; Chinese Medicine Informatics; PLSR; spline function
0 引 言
中藥量效关系[1]是指药物的剂量在一定范围内变化时,药物对机体产生的效应也会随之变化,量效关系是保障临床用药安全的关键。中药成分的复杂性决定了中药作用于机体具有多成分、多靶点、多药效指标的特点,进而决定了中药量效呈现出多自变量与多因变量的非线性关系。目前,研究中药量效关系主要从临床病症[2,3]、效应物质[4,5]、数据挖掘[6,7]等角度。其中,临床病症存在周期长、伦理学审核严格的问题;效应物质局限于基础研究;常用于数据挖掘的方法只适用于足量样本量的数据,难以适应中药数据的自变量多样本少,且存在多重共线性的分析。
偏最小二乘回归法[8]是集主成分分析、典型相关分析和多元线性回归于一体的多元线性统计分析方法,PLSR适用于具有自变量多、样本量少,且存在多重共线性特点的数据,但其外部提取成分和内部回归都是采用线性的方法,无法满足中药量效之间的非线性关系。朱志鹏等[9]运用稀疏自编码器提取主成分,使PLSR取得了非线性效果,并用于拟合中药量效之间的非线性关系,但模型可解释性不强;曾青霞等[10]将随机森林嵌入到PLSR中,并应用于中药量效关系分析,但随机森林是一种集成算法,需要一定的存储空间。
样条偏最小二乘回归方法[11]能够适应数据间的非线性关系,模型简单易理解。因此,本文建立SPLSR的中药量效关系模型,该模型既适用于自变量多、样本量少的中药数据,又能解决自变量间的多重共线性,并且能够很好地拟合中药量效之间的非线性关系。
1 样条偏最小二乘回归模型
1.1 样条函数
样条函数[11-13]采用光滑对接的分段多项式,是一种按需裁剪、适应任何连续变化的拟合方法。函数思想为:已知函数点[xi, yi] (i=0,1,…,n),在x的取值区间[a,b]内插入(M-1)分点,使其得到一个分划π:a=ζ0<ζ1<…ζM-1<ζM=b,若函数s(x)满足以下两个条件:
2 实验分析
2.1 实验数据说明
首先,为了验证样条偏最小二乘模型能够很好地拟合非线性数据,本文运用6组非线性的UCI数据集[14]进行实验。其次,为了进一步验证基于样条偏最小二乘的中药量效关系模型能够解决自变量间的多重共线性,并且能够很好地拟合中药量效之间的非线性关系,本文采用现代中药制剂教育部重点实验室的麻杏石甘汤止咳和大承气汤2组方药的实验数据进行实验。如表1所示,分别介绍了上述6组UCI数据和2组中药实验数据的自变量数、因变量数、样本数和数据名称的缩写形式。
将上述8组数据集在实验环境为win 10操作系统(64位)、Intel(R)Core(TM)i5-3470 CPU、8 GB的RAM以及Spyder开发平台上展开实验,测定系数R2为模型评价指标,R2越接近于1代表模型的拟合效果越好。将样条偏最小二乘模型与偏最小二乘模型进行比较,验证样条偏最小二乘的有效性。R2的计算公式如下,式中n为数据集的样本总数:
2.2 非线性拟合结果分析
将上述6组UCI数据集,按照7:3的比例划分训练集和测试集,在训练集上,分别建立偏最小二乘模型和样条偏最小二乘模型,调整参数使模型达到最优。将建立好的模型,在测试集上进行测试,得到R2值。如表2所示,为上述2种模型在6组UCI数据集上确定提取成分的个数,如表3所示,为上述2种模型在6组UCI数据集上,得到测试集的R2值,为了更加直观的比较实验结果,将表3的数据绘制对应的折线图,如图1所示。
图1中,横坐标代表6组UCI数据集,纵坐标代表模型的R2值。从图1中可明显看出,在6组数据集上,样条偏最小二乘模型的图形在偏最小二乘的上方,代表样条偏最小二乘模型的R2值最接近于1。结合图1和表3可看出,在WR数据集上,2种模型的R2值都较低,原因是WR数据更适合分类任务。在ccpp数据集上,样条偏最小二乘模型的R2值达到了0.996 2。综上所述,样条偏最小二乘回归模型拟合非线性数据的效果好于偏最小二乘回归模型。
2.3 中药量效关系拟合结果分析
为了验证基于样条偏最小二乘的中药量效关系模型能够解决自变量间的多重共线性,以及能够很好地拟合中药量效之间的非线性关系,本文在MXSGTZK和DCQT这2组中药实验数据上展开实验。MXSGTZK数据集中自变量为麻黄碱、伪麻黄碱、甲基麻黄碱、苦杏仁苷、野黑樱苷的含量,因变量为一天的咳嗽次数,通过建立基于样条偏最小二乘的中药量效关系模型,分析MXSGTZK中每味中药的含量与一天咳嗽次数的关系。DCQT数据集中自變量为大黄、厚朴、枳实、芒硝的含量,因变量为机体中d-乳酸、SOD、丙二醛、内毒素、小肠的周长、胃动素血流量的值,通过建立基于样条偏最小二乘的中药量效关系模型,分析DCQT中每味中药的含量与药效之间的关系。
将MXSGTZK和DCQT2组中药实验数据,按照7:3的比例划分训练集和测试集,分别建立基于偏最小二乘回归的中药量效关系模型和基于样条偏最小二乘的中药量效关系模型,调整参数使模型达到最优,将建立好的上述2种模型,在测试集上进行测试,得到R2值。如表4所示,为上述2种模型在2组中药实验数据集上提取成分的个数。如表5所示,为上述2种模型在2组中药实验数据集上,测试集的R2值,为了更加直观地比较实验结果,将表5的数据绘制对应的折线图,如图2所示。
图2中,横坐标为两种中药实验数据集MXSGTZK和DCQT,纵坐标为R2值。从图2中可看出,在2组数据集上,样条偏最小二乘回归模型比偏最小二乘回归模型更接近于1。从表5中可得出,在MXSGTZK数据集上,样条偏最小二乘回归模型的R2值为0.947 5,偏最小二乘回归模型的R2值只有0.688 9;在DCQT数据集上,样条偏最小二乘回归模型的R2值为0.985 2,非常接近于1,偏最小二乘回归模型的R2值为0.924 7。综上所述,基于样条偏最小二乘回归的中药量效关系模型能够很好地拟合中药量效之间的非线性关系。
3 结 论
本文提出的基于样条偏最小二乘回归的中药量效关系模型,能够充分表达中药量效之间的非线性关系。实验中,首先采用6组UCI数据集构建偏最小二乘回归模型和样条偏最小二乘回归模型,比较上述2种模型的R2值,实验结果表明,样条偏最小二乘回归模型能够更加有效地拟合非线性数据。其次,使用来自现代中药制剂教育部重点实验室的2组中药实验数据,分别建立基于偏最小二乘回归的中药量效关系模型和基于样条偏最小二乘回归的中药量效关系模型,结果表明,基于样条偏最小二乘回归的中药量效关系模型能够有效地拟合中药量效之间的关系。实验过程中发现,首先,由于样条函数采用分段拟合,模型容易过拟合,在训练过程中要注意。其次,模型的拟合效果和提取成分的个数有一定的关系,因此,在使用偏最小二乘回归方法研究中药量效关系时,要注意提取的成分尽可能携带自变量的信息,且与因变量的相关性较大,模型的拟合效果才会更优。
参考文献:
[1] 于同月,宋斌,雷烨,等.仝小林院士从经方量效与应用谈中医经典传承与发展 [J].吉林中医药,2022,42(4):385-388.
[2] 鄢良春,华桦,田韦韦,等.基于模式生物费氏弧菌Hormesis效应的中药非典型剂量-反应关系与定量化表征 [J].中药药理与临床,2022,38(3):2-8.
[3] 兰雨泽,朱向东,白雅黎,等.茯苓的量效关系及其临床应用探讨 [J].吉林中医药,2019,39(6):737-740.
[4] 张名奇,朱林平.桂枝的量效与配伍关系研究 [J].河北中医,2021,43(9):1571-1574.
[5] 熊优,王雅琪,焦姣姣,等.黄芩酒炙过程中化学成分含量变化及其与药效的相关性分析 [J].中国实验方剂学杂志,2018,24(16):1-6.
[6] 刘晨笑,刘子旺,赵永烈.基于数据挖掘探究丹参的现代临床量效关系 [J].云南中医中药杂志,2021,42(9):17-20.
[7] 李欢,聂斌,杜建强,等.融合softmax的偏最小二乘法及中药数据分析研究 [J].计算机应用研究,2019,36(12):3740-3743.
[8] 苏卫星,冉顺义,刘芳,等.基于相关性变量筛选偏最小二乘回归的多维相关时间序列建模方法 [J].信息与控制,2021,50(4):395-402.
[9] 朱志鹏,杜建强,余日跃,等.融入深度学习的偏最小二乘优化方法 [J].计算机应用研究,2017,34(1):87-90.
[10] 曾青霞,杜建强,聂斌,等.融合随机森林的偏最小二乘法及其中医药数据分析 [J].计算机应用研究,2018,35(10):2940-2942+2968.
[11] 孟洁,王惠文,黄海军,等.基于样条变换的PLS回归的非线性结构分析 [J].系统科学与数学,2008(2):243-250.
[12] BORISENKO V V. Construction of Optimal Bézier Splines [J].Fundamentalnaya i Prikladnaya Matematika,2016,21(3):57-72.
[13] BOYD N,HASTIE T,BOYD S,et al. Saturating Splines and Feature Selection [J].The Journal of Machine Learning Research,2016,18(1):7172-7203.
[14] University of California,Irvine. UC Irvine Machine Learning Repository [EB/OL].[2022-08-24].http://archive.ics.uci.edu/ml/index.php.
作者简介:李欢(1995.11—),女,汉族,江西萍乡人,助教,硕士研究生,研究方向:中医药信息学;万珊(1985.08—),女,汉族,江西南昌人,讲师,硕士研究生,研究方向:大学生思想政治教育;聂斌(1972.10—),男,汉族,江西吉安人,教授,博士在读,研究方向:数据挖掘、机器学习、人工智能、中医药信息学。