张坤峰,王 政,曹君杰,张志强,乔延江,5*,徐 冰*
( 1.北京中医药大学 中药信息学系,北京 102400;2.北京市科委 中药生产过程控制与质量评价北京市重点 实验室,北京 102400;3.教育部中药制药与新药开发关键技术工程研究中心,北京 102400;4.北京康仁堂 药业有限公司,北京 101301;5.中药配方颗粒关键技术国家地方联合工程研究中心,天津 301700)
中药片剂、颗粒剂、胶囊剂、丸剂、散剂等口服固体制剂的成型过程多以粉末为原料,粉末的性质对制剂工艺与成品质量有很大影响[1]。基于粉体学基本理论对中药粉末的性质进行评价和控制,对指导中药制剂工艺设计和生产过程控制具有重要意义。本课题组前期通过物理指纹图谱表征了中药提取物粉末的物理性质[2],并基于物性参数建立了中药原辅料粉末物性数据库iTCM[3],该数据库目前收录了91批辅料和73批中药浸膏粉的性质参数。Dai等[4]基于iTCM数据库建立了粉体压缩行为分类系统,指导直接压片处方设计。
国外药用辅料数据库,如NIPTE-FDA数据库[5],除收录粉末物料的物理性质参数外,还采用近红外(Near-infrared,NIR)、拉曼、中红外光谱等手段表征材料理化和结构信息,以及评价物料批间和批内质量的一致性。其中,近红外光谱属于分子振动光谱,产生于C—H、O—H、N—H、S—H等含氢基团非谐振动的倍频和组合频[6],具有操作简便、分析速度快、不破坏样品、不需要其他化学试剂、易于实现现场(At-line)和在线(On-line)分析的特点。目前,NIR在制药领域应用广泛,如测定粉末混合均匀度、监测物料水分和粒径、监测物料晶型的转变等[7-9]。
本文采用便携式近红外光谱仪对多来源、多批次、代表性中药口服固体制剂原辅料进行快速分析,建立了原辅料近红外光谱数据集,并存储至iTCM数据库,扩展了iTCM数据库物性参数类型。基于NIR光谱数据,探讨物料分类、物性预测的方法和可能性,可为中药原辅料粉末质量控制、制剂处方及工艺设计提供参考。
光谱采集采用便携式近红外光谱仪(NIR-S-G1型,谱钜科技股份有限公司),配备ISC-NIRScan-GUI-VS-WPF软件。该近红外光谱仪采用微电子机械系统(Micro-electro-mechanical systems,MEMS)加工工艺,由微传感器、信号处理及控制电路、通讯接口和电源等部件组成。数据分析采用The Unscrambler 9.7(CAMO公司)、SIMCA 13.0(Umetrics公司)、Matlab2016b(MathWorks公司)软件。
共收集149批粉末样品,包括79批中药浸膏粉和70批药用辅料。79批中药浸膏粉由北京康仁堂药业有限公司提供,药用部位包括根及根茎、果实、种子、地上部分等。70批药用辅料均为购买,供应商和批号等信息可查看iTCM数据库[3],包括填充剂、稀释剂、崩解剂、黏合剂和润滑剂等。
将待测粉末松散填装于直径2.7 cm,高2 cm圆柱形盒内,轻轻振摇使表面平整。手持NIR-S-G1型近红外光谱仪,将扫描窗口贴近粉末样品表面,采用漫反射方式采集光谱。NIR光谱扫描范围为900~1 700 nm,以近红外光谱仪内置背景为参比,扫描次数为32次,可编程增益放大器(PGA Gain)设置为64,光学分辨率为10 nm。在同一个样品表面的不同部位测量3次,取其平均光谱作为该样品的原始光谱。测试后用洗耳球吹扫扫描窗口。在整个实验过程中,环境相对湿度保持在14%~50%,近红外光谱仪的系统温度保持在28.0~40.0 ℃。
采集的近红外光谱数据中除包含样品自身理化性质信息外,还包含了仪器噪声和杂散光等无关信息。标准正态变量(Standard normal variate,SNV)变换和多元散射校正(Multiplicative scatter correction,MSC)可以用来消除颗粒分布不均及颗粒大小不同产生的散射影响。MSC与SNV线性相关,两种方法的处理结果相似[10],但MSC假定光散射与波长及样品的浓度变化无关,故对组分性质变化较宽的样品处理效果较差。样品背景颜色和粉体密度差异等因素常导致NIR光谱出现明显的位移或漂移,可采用求导的方法进行基线校正。NIR光谱分析中常用的基线校正方法有一阶导数(1st derivative)和二阶导数(2nd derivative)。一阶导数可有效消除光谱平移对测量的影响,二阶导数可消除光谱旋转对测量的影响。信号平滑是消除噪声的常用方法,常用的信号平滑方法有移动平均平滑法和Savitzky-Golay(SG)卷积平滑法[11]。本文在对原始NIR光谱数据进一步分析处理前,将尝试采用不同的光谱预处理方法对NIR光谱进行预处理。
iTCM数据库采用Visual Basic语言和SQL Server 2000数据库管理系统。目前数据库中存储了相关物料的18个物理质量属性参数,如表1所示。iTCM数据库在线版本[12]提供检索、查询物料的名称、来源、生产厂家、批号和物性参数等数据。
表1 iTCM数据库中物料的物性参数Table 1 Material properties in iTCM database
按照“1.2”所述方法,采集149批原辅料粉末近红外光谱数据。将采集的NIR光谱数据以及测量时的系统温度、湿度、日期等信息,导入iTCM数据库。70批药用辅料和79批中药浸膏粉的原始近红外光谱分别如图1A和图1B所示。其最大吸收波长为1 317~1 327 nm。在最大吸收波长区域,与中药浸膏粉相比,部分药用辅料的NIR吸光强度偏大,如糊精、玉米淀粉、硬脂酸镁等。原辅料原始近红外光谱图于1 300 ~1 500 nm处出现较强的吸收带,该区间对应O—H的一级倍频和水分子的组合频吸收峰[13]。药用辅料在1 400~1 600 nm存在一个显著的波动区间,中药浸膏粉则在1 000~1 200 nm存在明显的波动区间。
针对本文收集的70批药用辅料,选择其中13批微晶纤维素(Microcrystalline cellulose,MCC)、10批乳糖(Lactose)、8批乙基纤维素(Ethyl cellulose,EC)、6批交联聚维酮(Polyvinylpolypyrrolidone,PVPP)和6批羟丙基甲基纤维素(Hydroxypropyl methylcellulose,HPMC),构成5类化学性质明确且可明显区分的物料。采用主成分分析(Principal component analysis,PCA)方法将70批药用辅料多变量NIR光谱数据降维,在主成分空间内分别研究NIR光谱数据对上述5类物料的区分能力。在对NIR光谱进行PCA前,按照“1.3”方法对光谱进行预处理,并考虑多种预处理方法组合,如SG+1d、SNV+SG+1d等,如表2所示。SG平滑选用7点3 阶数据平滑,由于SNV+SG+1d预处理光谱数据时,最前面和最后面6个波长点的数据为零或绝对值过大,所以将这12个波长点的数据去除。分别经SNV+SG+1d和MSC+SG+1d预处理的近红外光谱图如图2A和图2B所示。为将NIR光谱数据与其他物性参数数据进行对比,按照“1.4”方法,整理70批药用辅料物性参数数据集(70×18),并对其进行PCA分析。
表2 不同PCA模型潜变量空间内5类辅料的类间和类内马氏距离的平均值Table 2 The average values of Mahalanobis distances between and within classes of the five categories of pharmaceutical excipients in the latent variable space of different PCA models
计算上述5类物料中心点之间及各类内样品之间马氏距离的平均值,结果见表2。在计算样品的马氏距离时,选择前3个主成分进行计算。各类内的平均距离越小,各类间的平均距离越大,表明辅料各类之间区分越好。结果显示,经SNV+SG+1d预处理的光谱数据PCA得分图的各类间平均距离最大,各类内平均距离的平均值最小,说明其区分这5类物料的能力最好。
图3A展示了对物性参数进行PCA分析所得前两个主成分的得分图。图3B、图3C和图3D分别为基于原始NIR光谱数据、SNV+SG+1d预处理NIR光谱数据和MSC+SG+1d预处理NIR光谱数据进行PCA分析后,第一和第二主成分的得分图。本文使用2维数据的95%置信椭圆可视化数据的聚集程度,求得PCA前两个主成分得分值矩阵的每列均值及其协方差矩阵的特征值和特征向量,继而求得95%置信椭圆的散点数据,并用平滑的曲线连接[14]。从得分图中各类辅料95%置信椭圆的重叠程度来看,物性参数和原始光谱数据PCA得分图上5类物料的区分较差;图3A得分图可以将乳糖和其他4类物料区分,这与乳糖密度较大有关。而在SNV+SG+1d和MSC+SG+1d预处理的光谱数据PCA得分图中,各类辅料的95%置信椭圆重叠少,仅HPMC和PVPP存在部分重叠,区分较好。结合马氏距离和PCA得分图95%置信椭圆重叠程度的结果可知,SNV+SG+1d预处理光谱数据区分这5类物料的能力最好。与iTCM数据库中的物性参数相比,近红外光谱数据由于同时包含了物料的部分物理性质和化学性质信息[6],所以在潜变量空间内对不同类别的辅料的区分能力较强。同时,光谱数据经预处理去除无关信息和噪声后对这5类辅料的区分能力进一步提高。值得注意的是,当辅料的物理化学性质较为相近时,不同类的辅料会聚集在一起较难区分,以图3C为例(图中用黑色圆圈标注辅料名称),圈1为3批硬脂酸镁,与圈2中的硬脂酸钙较为接近;圈3为2批氢氧化铝,与蓝圈中的PVPP较为接近;圈4为3批交联羧甲基纤维素钠,与圈5内的淀粉类和纤维素类的辅料不能明显区分。
表3 不同光谱数据预处理方法所得PLS模型对物性参数的预测能力比较Table 3 Comparison of the predictive ability of PLS models obtained by different pretreated spectral data for material properties
在粉末直接压片中,片剂质量与处方物料物理性质和压片过程参数密切相关。Dai等[4]建立了基于物料物理性质和压片力预测片剂抗张强度和孔隙率的PLS模型。除苹果酸(批号:A0369948)、磷酸氢钙(批号:A0369948)和款冬花(批号:KD201709-1)外,本文原辅料研究对象与Dai等建模时所用的物料有67批相同。“2.2”和“2.3”的研究结果表明,NIR数据与粉末物料理化性质有关,因此本文进一步将物料NIR光谱数据与其其他物理性质组合,探讨在Dai等[4]建立的PLS模型输入变量中添加NIR数据对直接压片片剂质量预测能力的影响。
可用于直接压片片剂质量预测的PLS模型的输入变量和输出变量如表4所示。其中,作为模型输入的变量(自变量)包括粉末物料的物理性质、NIR光谱数据和压片力;模型输出变量(因变量)为片剂机械性质,即抗张强度(Tensile strength,TS)和固相分数(Solid fraction,SF)。物料物理性质包括18个物性参数和9个压缩参数,NIR数据为经过SNV+SG+1d预处理的数据。
表4 PLS模型的输入变量和输出变量Table 4 Description of input and output variables for the PLS model
表5 不同输入变量的PLS模型评价指标Table 5 Diagnostics of four PLS models with different input variables
图4 变量投影重要性指标(VIP)Fig.4 VIP indexes for independent variables of the PLS model
模型4变量的变量投影重要性指标(Variable importance in projection,VIP)值如图4所示,VIP值大于1的变量有压片力(P),密度类参数(Dc、Dt、SFp),压缩参数(Py、Kb、d、g),内聚力指数Icd,吸湿性%H和SNV+SG+1d预处理光谱数据PCA的PC2和PC5得分值。这与Dai等的研究相似[4]。模型4中输出变量抗张强度(TS)和固相分数(SF)的系数值如图5A和图5B所示,其中变量的系数越大对模型越重要。从图中可以看出,PC5的得分值对片剂抗张强度的影响较大,而PC2的得分值对片剂的固相分数影响较大。
图5 PLS模型抗张强度(TS)(A)和固相分数(SF)(B)值的系数图Fig.5 The coefficient plot of TS values(A) and SF values(B) for PLS
本文采用NIR-S-G1型便携式近红外光谱仪,采集了149批中药口服固体制剂原辅料样品的NIR光谱,丰富了iTCM中药物性数据库的数据类型。基于NIR光谱,可实现已知类型药用辅料的模式识别。通过多变量预测分析,发现NIR光谱对粉末粒径、密度类参数和吸湿性的预测性较好。直接压片片剂质量预测时,将NIR光谱添加至模型输入中,可提高模型的预测性能。上述研究证明,NIR光谱数据是iTCM数据库物性参数数据的有益补充,物性参数与NIR光谱的结合能更全面地表征原辅料的性质。一般来说,原辅料物性参数的分析较为复杂费时,且消耗样品量较多。后期实验将探究用NIR快速测定或代替某些物性参数,降低物性表征所需的工作量和样品量,提高模型应用的可靠性。