基于近红外光谱技术和分类与回归树算法建立天舒片崩解时间预测模型

2021-08-24 11:40刘秋安徐芳芳姜欣汝王振中
中草药 2021年16期
关键词:决策树预处理光谱

刘秋安,徐芳芳,张 欣,姜欣汝,徐 冰,吴 云,肖 伟,王振中,

基于近红外光谱技术和分类与回归树算法建立天舒片崩解时间预测模型

刘秋安1,徐芳芳2, 3*,张 欣2, 3,姜欣汝2,徐 冰4,吴 云2, 3,肖 伟2, 3,王振中1, 2, 3*

1. 南京中医药大学,江苏 南京 210023 2. 江苏康缘药业股份有限公司,江苏 连云港 222001 3. 中药制药过程新技术国家重点实验室,江苏 连云港 222001 4. 北京中医药大学,北京 100029

基于近红外光谱(near infrared spectrum,NIRS)技术,建立一种快速预测天舒片崩解时间的方法。采集39个批次共468个样品的NIRS,对比分类和回归树(classification and regression trees,CART)算法与偏最小二乘(partial least-square,PLS)算法2种模型的预测效果,建立天舒片崩解时间预测模型。经基线校正处理后建立的CART模型性能最优。与PLS模型相比该模型将相对校正均方根偏差(relative root mean square error of correction,RRMSEC)由7.43%降低至4.94%,相对预测均方根偏差(relative root mean square error of prediction,RRMSEP)由7.84%降低至7.66%。NIRS技术结合CART算法预测天舒片崩解时间是可行的,为天舒片崩解时间快速无损检测提供了一种新方法。

近红外光谱技术;分类和回归树算法;崩解时间;天舒片;偏最小二乘算法;相对校正均方根偏差;相对预测均方根偏差

天舒片由天麻和川芎2味药组成,具有活血平肝、通络止痛的功效[1]。崩解时间是天舒片质量控制中最重要的指标之一。目前,天舒片崩解时间按照《中国药典》2020年版中方法[1]使用崩解仪进行测定,这种方法具有破坏性、劳动强度大且耗时。因此,亟需建立一种中药片剂崩解时间的快速检测方法,以应用于天舒片生产过程中的质量控制。

近几年,近红外光谱(near infrared spectrum,NIRS)技术作为一种无损的快速分析手段已经被研究应用于中药制药行业中,例如测定活性成分含 量[2-4]、水分[5-7]以及混合均匀性[8-10]等。Donoso等[11]利用偏最小二乘回归(partial least-square,PLS)法分析茶碱片剂崩解时间与近红外光谱的关系,结果表明,崩解时间的增加会导致近红外吸收率的增加。王昀等[12]采用PLS法建立基于NIRS技术的安乃近崩解时间快速分析模型,相关系数高达0.990 1。Zannikos等[13]研究发现片剂的NIRS与溶解度都与水分变化有关,从而建立了NIRS预测卡马西平片溶出度的模型。上述研究表明,NIRS技术可以用来预测片剂崩解时间。

目前,国内对以NIRS技术预测中药片剂崩解时间的研究较少,且大多使用PLS法建立模型,NIRS技术结合分类和回归树(classification and regression trees,CART)算法的应用未见报道。CART算法是决策树的一种实现,本质是一种二分递归分割算法,可以直观的展示相关预测变量的作用和相对重要性,并且可以通过分段建模减弱线性回归中共线性问题对模型效果的影响[14]。本研究尝试应用CART算法建立模型,旨在开发一种基于NIRS技术预测天舒片崩解时间的方法,以便后续为天舒片的先进制药提供技术支撑。

1 仪器与材料

1.1 仪器

ZB-1E型智能崩解仪,天津市天大天发科技有限公司;Antaris II傅立叶变换近红外分析仪,配积分球漫反射检测器,美国Thermo Fisher Scientific公司。

1.2 材料

天舒片素片由江苏康缘药业股份有限公司提供。39批次,每批12个共468个样本,批号分别为200701、200702、200703、200704、200705、200706、200707、200708、200801、200802、200901、200902、200903、200904、200905、200906、200907、200908、200909、200910、201001、201002、201101、201201、201202、201203、201204、201205、201206、201210、201211、201212、201213、201214、201215、201216、201217、201218、201101。

2 方法与结果

2.1 NIRS采集

将天舒片素片置于近红外光谱仪圆形药片固定装置卡槽内。采用近红外光谱仪采集光谱,波数范围为10 000~4000 cm−1,分辨率为8 cm−1,2倍增益,参比背景为空气,每条数据为4次扫描的平均值。按上述方法采集样品NIRS,结果如图1所示。可见,468个样品的NIRS图,吸光度略有差异,但整体趋势相似。

图1 468个样品的NIRS图(n = 4)

2.2 崩解时间测量

采用《中国药典》2020年版四部通则崩解时限检查法,分别测定“2.1”项中采集NIRS后的天舒片素片的崩解时间。取药片1片置于崩解仪玻璃管中,因天舒片素片黏附挡板,故不加挡板,烧杯内盛有(37±1)℃的纯化水,往返频率为每分钟30~32次。39批共468个天舒片样品崩解时间如表1所示,可见,天舒片样品的崩解时间最小为18 min,最大为45 min。

2.3 数据处理

采用UnscrambleX 10.4(Camo software AS,挪威)软件对光谱进行预处理,采用Matlab 2020(美国MathWorks公司)软件进行PLS模型的样本划分、变量筛选及模型构建,采用SPM 8.3(美国Salford Systems公司)进行CART模型的样本划分及模型构建,采用Origin 8.0(美国OriginLab公司)软件绘图。

2.4 定量模型的建立

2.4.1 评价指标的确定及建模方法 本研究分别使用PLS算法与CART算法来建立预测模型。并通过训练集相关系数(correlation coefficient of training set,cal)、验证集相关系数(correlation coefficient of verification set,pre)、校正均方根偏差(root mean square error of correction,RMSEC)、预测均方根偏差(root mean square error of prediction,RMSEP)、相对校正均方根偏差(relative root mean square error of correction,RRMSEC)、相对预测均方根偏差(relative root mean square error of prediction,RRMSEP)、性能偏差比(ratio of performance deviation,RPD)为指标评价模型优劣,优选潜变量数、预处理方法以及变量筛选方法。为Pearson相关系数,其他相关指标计算公式如下。

表1 39批样品崩解时间(n = 12)

RRMSEC=RMSEC/Y(3)

RRMSEP=RMSEP/Y(4)

y为第个样品的实测值,y是训练集中第个样品的预测值,y是验证集中第个样品的预测值,y为训练集样品的平均值,y为验证集样品的平均值,RMSEC、RMSEP、RRMSEC、RRMSEP越小,cal、pre、RPD越大表示模型性能越好

CART算法[15]由以下2步组成:(1)决策树生成:基于训练数据生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

决策树的生成就是递归地构建二叉决策树的过程。在训练数据集所在的输入空间中,递归地将每个区域划分为2个子区域并决定每个子区域上的输出值,构建二叉决策树。

(1)选择最优切分变量与切分点,求解公式(6)。

遍历变量对固定的切分变量扫描切分点,选择使公式(6)达到最小值的对(,)。

(2)用选定的对(,)划分区域并决定相应的输出值。

1(,)={|(j)≤},2(,)={|(j)>} (7)

(3)继续对2个子区域调用步骤(1)(2),直至满足停止条件。

(4)将输入空间划分为个区域1,2,···,R,生成决策树。

CART剪枝算法由2步组成:首先从生成算法产生的决策树0底端开始不断剪枝,直到0的根节点,形成1个子树序列{0,1,···,T};然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。

2.4.2 PLS算法建模

(2)光谱预处理:采用光谱作为化学信息来源时,在进行信息的提取和解析之前,常常需要对光谱数据进行预处理,以消除基线漂移和噪声对光谱带来的干扰。一阶导数(1st)可以消除背景的常数平移;二阶导数(2nd)可以消除线性背景平移;标准正则变换(standard normal variate,SNV)可以校正因样品不均匀造成的散射而引起的误差;多元散射校正(multiplicative scatter correction,MSC)作用与标准正则变换相似;基线校正(baseline)可扣除仪器背景和漂移对光谱信号的影响;S-G平滑(Svaitzky-Golay smoothing)是通过多项式来对窗口内的数据进行多项式最小二乘拟合以消除噪音,提高信噪比;矢量归一化法(normalize)可消除光程变化对样品产生的影响[17]。

本研究对比了以下几种预处理方法:S-G平滑(S-G)、矢量归一化法、SNV、MSC、基线校正、S-G平滑+一阶导数(S-G+1st)、S-G平滑+二阶导数(S-G+2nd)、标准正则变换+一阶导数 (SNV+1st)、多元散射校正+一阶导数(MSC+1st)、基线校正+一阶导数(基线校正+1st)、矢量归一化法+一阶导数(归一化+1st)。

(3)特征变量筛选:组合间隔偏最小二乘法(synergy interval PLS,siPLS)是将光谱等分为多个区间,并通过多个区间的随机组合建立PLS并选出最优组合。本研究考察了将全光谱等分为20、30、40个子区间,并选择2~4个区间的随机组合建立PLS模型,最终筛选最优组合区间为将全光谱分为20个子区间并选择4个随机组合。

移动窗口偏最小二乘法(moving window PLS,mwPLS)是基于移动窗口理念的间隔偏最小二乘模型,对于每个变量,将使用给定大小的窗口来进行PLS建模并选择最佳因子数。本研究考察了窗口宽度(分别考察了全光谱总波数的2%、5%、10%、15%,即31、77、155、233)对模型的影响,最终优选窗口宽度为233时的最佳建模波段。

(4)不同预处理方法对PLS模型的影响:不同预处理方法对PLS模型性能的影响如表2所示。综合比较各预处理方法所得模型的RRMSEC、RRMSEP、RPD可知,采用SNV对光谱进行预处理后建立的PLS模型RRMSEC为7.43%,RRMSEP为7.84%,RPD为2.40,模型性能最好。

(5)不同变量筛选方法对PLS模型的影响:不同变量筛选方法对模型性能的影响如表3所示。综合比较采用各变量筛选方法所得模型的RRMSEC、RRMSEP以及RPD值可知,采用全波长建模的模型RRMSEP最小,RPD最大,模型性能优于其他筛选变量后的模型,故不进行变量筛选,选用全光谱模型。

2.4.3 CART算法建模

表2 不同预处理方法对PLS模型性能的影响

表3 不同变量筛选方法对PLS模型的影响

(1)样本集划分:样本集划分采用软件自带样本划分功能,按照随机种子数随机抽取样本,将468个样本划分为训练集(382个)和验证集(86个),统计结果见表4。

(2)不同预处理方法对CART模型的影响:光谱预处理方法与“2.4.2”项中所用光谱预处理方法相同。结果如表5所示,采用基线校正对光谱进行预处理后建立的CART模型,RRMSEP值最小为7.66%,RRMSEC为4.94%,模型性能最优,验证集预测结果如图2所示。

2.5 PLS算法模型与CART算法模型比较

2种算法的最优模型如表6所示。CART算法所得模型预测误差较小,RRMSEC为4.94%,RRMSEP为7.66%,模型预测精度更准确。

3 讨论

本研究建立了一种基于NIRS技术预测天舒片崩解时间的分析方法,可以高效、快速、无损的预测天舒片崩解时间,将崩解时间测量时间由40 min缩短至5 s左右,并由破坏性检测转变为无损检测,提高了天舒片崩解时间的检测效率。光谱采用基线校正方法进行预处理,CART算法建立模型。结果显示,模型预测误差为2.29 min,实际生产过程中产品崩解时间分布于(29.82±5.87)min,《中国药典》2020年版要求为≤60 min,故本模型预测性能可满足生产过程中产品崩解时间的检测。

表4 CART模型训练集和验证集数据统计结果

表5 不同预处理方法对CART模型性能的影响

图2 天舒片崩解时间的NIRS预测值与实测值相关性分析

随着过程分析技术(process analysis technology,PAT)的发展,各个制药企业都在尝试应用PAT工具来提升产品质量控制水平,提高生产效率。礼来公司开发了一种用于压片机供料靴内的PAT工具,用于实时监测最终混合物的活性药物成分(active pharmaceutical ingredient,API)浓度,该工具可以通过自动触发压片机卸料斜槽而清除不合格的药片,从而保证产品含量[18-19]。

表6 2种算法所得模型效果比较

江苏康缘药业股份有限公司研发了中药生产过程知识信息管理系统[20](process knowledge system,PKS),后续可以将此模型植入到该PKS系统中,实现压片过程中天舒片崩解时间的快速准确预测,实时反馈产品质量信息,及时调整相关工艺参数,尝试进行天舒片压片工段的智能放行,以保证产品质量。

利益冲突 所有作者均声明不存在利益冲突

[1] 中国药典[S]. 二部. 2020: 129, 628.

[2] 何月云, 梁华伦, 苏胄豪, 等. 近红外技术在小柴胡颗粒中黄芩苷快速检测的应用研究 [J]. 今日药学, 2019, 29(7): 461-463.

[3] 高瑞琳, 杨鹏硕, 许刚, 等. 基于系统建模思想的脑心通胶囊中丹酚酸B近红外定量建模 [J]. 光谱学与光谱分析, 2020, 40(11): 3573-3578.

[4] 吕尚, 周海滨, 汪俊, 等. 基于近红外光谱的银杏叶提取液总黄酮醇苷快速检测研究 [J]. 药物分析杂志, 2017, 37(5): 927-933.

[5] 张恩华, 邱选兵, 魏永卜, 等. 基于方波激励的近红外LED中药水分传感器 [J]. 光谱学与光谱分析, 2020, 40(5): 1656-1660.

[6] 时博, 谢惠英, 雷敬卫, 等. 近红外光谱法在知母和黄柏饮片水分分析中的应用 [J]. 中华中医药学刊, 2017, 35(3): 669-672.

[7] 王晴, 徐芳芳, 张欣, 等. 在线近红外光谱监测桂枝茯苓胶囊流化床干燥过程水分的方法研究 [J]. 中草药, 2019, 50(22): 5429-5438.

[8] 刘燎原, 梁志毅, 刘丽萍, 等. 基于近红外光谱技术的砂仁提取物混合工艺研究 [J]. 中国现代中药, 2020, 22(1): 85-88,93.

[9] 万娜, 林环玉, 伍振峰, 等. 基于中药粒子设计结合近红外光谱技术研究清润丸原料粉末的混合均匀性[J]. 中草药, 2020, 51(17): 4425-4432.

[10] 杨婵, 徐冰, 张志强, 等. 基于移动窗F检验法的中药配方颗粒混合均匀度近红外分析研究 [J]. 中国中药杂志, 2016, 41(19): 3557-3562.

[11] Donoso M, Ghaly E S. Prediction of tablets disintegration times using near-infrared diffuse reflectance spectroscopy as a nondestructive method [J]., 2005, 10(2): 211-217.

[12] 王昀, 孟庆华. 近红外光谱法测定药物崩解时限应用研究 [J]. 海峡药学, 2011, 23(12): 69-71.

[13] Zannikos P N, Li W I, Drennen J K,. Spectrophotometric prediction of the dissolution rate of carbamazepine tablets [J]., 1991, 8(8): 974-978.

[14] Loh W Y. Classification and regression trees [J]., 2011, 1(1): 14-23.

[15] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 81.

[16] Galvao R, Araujo M, Jose G,. A method for calibration and validation subset partitioning [J]., 2005, 67(4): 736-740.

[17] 倪力军, 张立国. 基础化学计量学及其应用[M]. 上海: 华东理工大学出版社, 2011: 56-70.

[18] Harms Z D, Shi Z Q, Kulkarni R A,. Characterization of near-infrared and Raman spectroscopy for in-line monitoring of a low-drug load formulation in a continuous manufacturing process [J]., 2019, 91(13): 8045-8053.

[19] Manley L, Hilden J, Valero P,. Tablet compression force as a process analytical technology (PAT): 100% Inspection and control of tablet weight uniformity [J]., 2019, 108(1): 485-493.

[20] 王磊. 热毒宁注射液关键生产工段智能放行技术的研究 [D].杭州: 浙江大学, 2018.

Based on near-infrared spectroscopy technology and classification and regression trees algorithm to establish a prediction model of Tianshu Tablets disintegration

LIU Qiu-an1, XU Fang-fang2, 3, ZHANG Xin2, 3, JIANG Xin-ru2, XU Bing4, WU Yun2, 3, XIAO Wei2, 3, WANG Zhen-zhong1, 2, 3

1. Nanjing University of Chinese Medicine, Nanjing 210023, China 2. Jiangsu Kanion Pharmaceutical Co., Ltd., Lianyungang 222001, China 3. State Key Laboratory of New-tech for Chinese Medicine Pharmaceutical Process, Lianyungang 222001, China 4. Beijing University of Chinese Medicine, Beijing 100029, China

A rapid method was established to predict the disintegration time of Tianshu Tablets (天舒片) based on near infrared spectroscopy (NIRS).The near-infrared spectra of 468 samples from 39 batches were collected, and the disintegration time prediction model of Tianshu tablets was established by comparing the prediction effects of the partial least squares (PLS) and classification and regression tree (CART) models.The performance of the CART model was the best after the spectrum was preprocessed by the baseline correction, relative root mean square error of correction (RRMSEC) value of this model was decreased from 7.43% to 4.94%, relative root mean square error of prediction (RRMSEP) value wasdecreased from 7.84% to 7.66%.It is feasible to predict the disintegration time of Tianshu Tablets with NIR spectroscopy technology and CART algorithm, which provides a new method for rapid and non-destructive testing of the disintegration time of Tianshu tablets.

near infrared spectroscopy; classification and regression tree algorithm; disintegration time; Tianshu Tablets; partial least- square; relative root mean square error of correction; relative root mean square error of prediction

R283.6

A

0253 - 2670(2021)16 - 4837 - 07

10.7501/j.issn.0253-2670.2021.16.008

2021-03-12

国家“重大新药创制”科技重大专项:基于功效成分群的中药口服固体制剂先进制药与信息化技术融合示范应用(2018ZX09201010-004)

刘秋安,硕士研究生。E-mail: lqa82119245@163.com

王振中,研究员,研究方向为中药新药研发。E-mail: kyyywzz@163.com

徐芳芳(1990—),女,博士,研究方向为过程分析技术。E-mail: 879164331@qq.com

[责任编辑 郑礼胜]

猜你喜欢
决策树预处理光谱
基于三维Saab变换的高光谱图像压缩方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于预处理MUSIC算法的分布式阵列DOA估计
基于决策树的出租车乘客出行目的识别
浅谈PLC在预处理生产线自动化改造中的应用
星载近红外高光谱CO2遥感进展
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
基于肺癌CT的决策树模型在肺癌诊断中的应用