李瑞凯,侯凯旋,张丽娜,娄存广,刘秀玲
(1. 河北大学附属医院 信息中心,河北 保定 071002;2. 河北大学 电子信息工程学院,河北省数字医疗工程重点实验室,河北 保定 071002;3. 河北大学 中医学院,河北 保定 071002)
分子是物质中能够独立存在的相对稳定并保持该物质物理化学特性的最小单位,而由于范德华力、分子内的振动与转动、大分子的骨架振动、固体分子内的晶格振动等均位于太赫兹波段,所以太赫兹光谱对于研究分子的特性有重要的意义[1-4]. 中国中草药品种繁多,相似的中草药类型也很丰富,中药饮品质量的监管与辨别显得尤为重要. 传统的眼看、手摸、口尝等鉴别方法缺乏客观性,对鉴定者的主观判断,个人能力依赖较大,通过显微镜辅助的显微鉴定方法和通过化学仪器分析的理化鉴定方法等亦都有一定的缺点. 现代检测技术中的色谱法、光谱法等对中草药成分的鉴定非常有效,指纹峰显著,容易区分. 因此,光谱检测技术有望在中药真伪鉴别及质量品鉴中发挥重要作用[2-4].
太赫兹波是一种位于微波和红外辐射之间的一种电磁辐射(0.1~10 THz, 波长为3 mm到30 μm),其穿透性好,光子能量很低,安全没有破坏性,可以检测到多种物质分子的特征吸收峰,类似于人的指纹,具有唯一性,这一特性使得太赫兹波可以广泛应用于物质检测与成分分析. 太赫兹波段检测得到的分子吸收光谱信噪比较好,并且不同特征峰之间的差别容易辨别,还可以得到各种物质的折射率、频移、吸收幅值等信息,目前太赫兹检测技术在病理检测与成像、物质成分及真伪鉴别、油气分析等多个领域取得了一定的研究进展.
主成分分析(PCA)可以反映物质内部变量之间的关系,在数据挖掘中即使数据维度变低了还能保留数据的主要信息. 本文利用太赫兹光谱技术与主成分分析相结合的方法在0.2~1.5 THz内对3组真伪中药吸收光谱数据进行了分析,实现了较高的鉴别准确度[5-7].
由于中药成分很复杂,包含了各种成分,而有机分子中化学键的震动主要在红外波段,其中有机分子间较弱的相互作用(如氢键)以及大分子的震动都在太赫兹波段范围,这就显示出了太赫兹在中药检测中的优势,并且太赫兹检测快速,准确,灵敏度高,其测得的光谱数据通过PCA处理,可以使得实验结构更具有说服力.
中药材掺伪一直是有待解决的问题,中药掺伪的方法有很多,例如重量掺伪、形似掺伪、成分掺伪等. 猪苓,体质疏松药材代表,通常掺入硫酸盐、氯化钠、糖等增加饮品重量实现重量掺伪. 巴戟天是形似掺伪的代表,易与同属植物羊角藤的根、木兰科植物铁箍散的根混淆. 粉防己,主要成分为粉防己碱、轮环藤酚碱、粉防己诺林碱等,其伪品大多数成分也含有粉防己碱,容易造成成分掺杂. 因为不同产地、不同厂家、不同销售渠道所得到的同一种药材也会有差异性,因此本文3组中药品均购于安国东方药城,由河北大学医学部实验室提供,并根据药品形态、气味、利用显微镜辅助的方法对药材进行鉴定,区分出真伪,其真品和伪品的产地相同,外形相似度很高,如图1所示. 取得样品后首先进行12 h烘干处理,确保3组中药材的干燥度相同,之后通过打粉机分别把每种药材打成粉末状,过75 μm筛. 用天平量出等量的3组中药粉末,通过压片机进行压片处理. 实验中将压力设置为20 MPa,压片1 min后将中药粉压成薄片状,数据见表1. 为避免空气中水分的影响,压片完成后进行分袋装存备用.
a.巴戟天真品;b.巴戟天伪品;c.粉防己真品;d.粉防己伪品;e.猪苓真品;f.猪苓伪品.图1 3组真伪中草药Fig.1 Three groups of genuine and fake Chinese herbal medicines
表1 药材名称及厚度
图2 太赫兹检测系统结构Fig.2 Structure diagram of terahertz detection system
实验选用的是大恒新世纪元科技股份有限公司的CIP-FICO透射式太赫兹时域光谱仪,由主机、锁相放大器和采集存储数据的计算机组成,测量频率为0.1~3.0 THz. 如图2所示,该太赫兹检测装置分为左右2个部分,左侧主要包括光纤飞秒激光器、时间延迟线、延迟线控制器等. 右侧主要为太赫兹产生和探测,以及样品检测区域. 光纤飞秒激光器产生的2束光束分别用于激发和探测太赫兹波,光电导天线产生的太赫兹波通过准直透镜照射到置物架上的被测物品,另一束探测光束作用于探测天线,然后通过延迟平台均匀采样,采样得到的电信号通过锁相放大器进行放大,最后通过计算机中的控制软件得到太赫兹的时域、频域波形及吸收谱[8-9].
由于水汽对太赫兹的吸收特别强,为避免其对待测样品特征吸收峰的干扰,进行实验时需要首先利用压缩机及干燥机(DG2000, 索菲特气体设备有限公司)产生干燥空气吹扫测量腔,并将湿度控制在4%以下. 湿度控制完成后,首先将测量太赫兹波穿过干燥空气后的透射时域信号作为参考信号,随后放入样品并将采集得到样品的透射时域信号利用公式(1)(2)计算得到样品的折射率n(ω)和吸收系数α(ω)[10-12]. 其中d为样品的厚度(单位mm),ω为角频率,φ(ω)为相位差,ρ(ω)为参考信号与样品信号的模的比,c为光速.
(1)
(2)
PCA是一种无监督数据降维的统计学方法,可对大量数据降维,其通过线性变换将原有相关性特征的数据进行特征压缩,得到了既保留原有特征的主要信息又减小了特征个数的新的数据.K-均值聚类(K-means)算法是一种无监督实时聚类算法,是典型的基于目标函数的聚类方法. 本文采用的算法过程如下:
2)用主成分分析处理标准化后的矩阵,取Y的前2列,就可以将52维的特征数据降为2维,并且累计方差贡献率达到90%以上,可以很好地解释原始特征数据.
3)利用K-means对样本降维后的特征数据进行聚类,首先任意选取k个样本作为初始聚类中心 {z1,z2,…,zk},其中每一个样本代表一个聚类中心,其次根据公式(3)计算每一个样本xj与每个均值向量zi的欧式距离,根据最小距离原理对样本xj进行聚类,并根据公式(4)算出新的均值向量,所有ci类样本的均值作为ci类新的聚类中心计算. 最后根据公式(5)计算聚类的最小化平方误差的数值,如果最小化平方误差的数值不再变化,或者前2次的差值小于设置的阈值,则完成聚类,否则继续迭代[13-15].
dij=‖xj-zi‖2,
(3)
(4)
(5)
本实验过程中首先将太赫兹测试过后的光谱数据进行保存,然后通过matlab程序将光谱数据变换得到物质的吸收峰数据,其次将大量的吸收峰数据通过PCA降维处理,最后在配合K-means将降维后的数据进行聚类处理.
实验中将该太赫兹测量系统采样长度设置为20 ps,每组样品重复测量10次. 数据重复性较好,误差很小,选用数据的平均值进行数据分析. 如图3所示,在0~20 ps可得到信噪比较好的3组真伪中药的时域波形,较好地展示了与参比信号(空气)的振幅和相位信息,经过傅里叶变得到的频谱图展示在右下角子图中.
a.巴戟天真品;b.巴戟天伪品;c.粉防己真品;d.粉防己伪品;e.猪苓真品;f.猪苓伪品.图3 3组中药的时域及频域光谱Fig.3 Time and frequency spectrum of three graups of Chinese herbal medicines
由于样品厚度以及吸收、折射率等因素,3组中药材的时域波形相比于参考信号有一定的延迟,并且振幅明显减小. 通过时域图谱可以看到真伪品中药的时域信号幅值不同,其中巴戟天为16.917,巴戟天伪品为20.320;粉防己为15.569,粉防己伪品为22.982;猪苓为19.001,猪苓伪品为18.801. 通过频谱图看到样品振幅的衰减不同,频谱波形产生了变化,表明样品有不同的吸收系数及介电常数. 因为真伪品含量相似,相同的成分会有相同的频率,但是含量的不同,则会体现在吸收强度上的差异,所以对比真伪品吸收强度的变化可以得到相似物质的含量.
即使是同一产地的中药,因其生产厂家、销售渠道的不同,使其吸收系数也会存在差异,地道性鉴别时应考虑这种差异. 为了进一步比较真伪中药,将太赫兹时域光谱系统测得的原始数据进行傅里叶变换并根据式(1)、(2),可以得到3组中药的太赫兹吸收谱,如图4所示.
a.巴戟天真品;b.巴戟天伪品;c.粉防己真品;d.粉防己伪品;e.猪苓真品;f.猪苓伪品.图4 3种中药的太赫兹吸收谱Fig.4 Terahertz absorption map of three groups of Chinese herbal medicines
a.巴戟天真品;b.巴戟天伪品;c.粉防己真品;d.粉防己伪品;e.猪苓真品;f.猪苓伪品.图5 3组中药的折射率图谱Fig.5 Refractive index map of three groups of Chinese herbal medicines
因为1.5 THz后信噪比变差,所以选取了0.2~1.5 THz波段进行研究. 通过吸收图谱可以直观地看到3组样品的吸收系数存在明显差异,并且巴戟天伪品相比于巴戟天真品有较小的吸收峰、粉防己真品相比于粉防己伪品有较小的吸收峰,猪苓真品相比于猪苓伪品有较小的吸收峰. 对于3组中药吸收峰不是特别明显的问题,笔者接下来对3组样品的折射率进行分析,如图5所示. 在0.2~1.5 THz,3组折射率随频率的增加保持基本平稳的变化趋势,其样品的折射率为1.2~2.0 THz,其中巴戟天折射率为1.851,巴戟天伪品折射率为1.613;粉防己折射率为1.807,粉防己伪品折射率为1.367;猪苓折射率为1.335,猪苓伪品折射率为1.767,真伪品的折射率都有明显的区别,说明其所含成分差别较明显.
针对上述3组中药吸收系数可能受地域性原因影响、吸收峰不是太明显的问题,笔者又利用了PCA和K-means算法来进一步提高吸收图谱在真伪中药中的准确度. 在本实验中,对每组中药的真伪品测量10次,将0.2~1.5 THz波段内的吸收系数作为最终的特征识别数据. 为了减少光谱数据冗余,对数据进行标准化和归一化的预处理,消除了量纲,避免了量纲对距离计算的影响,同时也可以加快模型收敛的速度,并且提高了模型精度,然后利用PCA对原始数据降成2维,再利用K-means对降维后的数据进行聚类分析,结果如图6所示. 3组中药对应前2个主成分的方差贡献率分别为94.6%和2.1%,85.6%和9.1%,92.6%和4.2%,把2个主成分的方差贡献率加起来得到累计方差贡献率,达到90以上可以反映足够的物质信息量,并且能很好地提取原始数据的特征,因此由图6说明PCA能很好的将3组真伪中药的差异性在光谱数据中体现出来,并且真伪中药的差异判断率高达100%.
图6 3组中药第一、二主成分得分Fig.6 The first and second principal component scores of three groups of Chinese herbal medicines
通过太赫兹检测系统对3组真伪中药的吸收强度、折射率、吸收峰的位置进行了系统的比较,通过数据分析准确地对3组中药的真伪品进行了区分,并结合主成分分析使真伪中药的区分更加具有科学准确性. 尽管中药材是一种复杂的混合物体系,但因其所含成分不同、各成分含量的比例不同,因而其太赫兹图谱也各有差异,相比于传统的鉴别方法太赫兹检测技术提供了更好的科学性和准确性. 在0.2~1.5 THz波段内,笔者对太赫兹时域谱提取的吸收系数,采用主成分分析提取特征,然后利用K-means进行聚类分析,能够准确地区分中药的真伪品. 本研究对于中药饮片安全的监督具有实际意义,对未来中药指纹图谱的建设也有一定的参考意义.