李 磊
(河北科技工程职业技术大学,河北 邢台 054035)
我国中药材种植面积广泛,种类众多,中药材富含复杂的化学成分决定了其特殊的药性和医疗作用,因此中药材类别配比需要执行严苛的质量标准,以防出现中药相克、药性下降等质量问题。受限于我国目前制药工业水平的发展,在一些地区中药材的类别检测往往依靠人工肉眼检测,存在检测效率低、劳动强度大、误检率高等问题,与日本、韩国等先进的自动化检测工艺相比差距非常明显。由于不同种类中药材其内部结构中的无机元素的化学成分存在差异,可在近红外或中红外光谱的照射作用下,呈现出不同的光谱特征,因此建立基于机器视觉的中药材类别红外光谱检测模型,根据光谱特征差异鉴别不同种类的中药材,该方法对于提高制药业工业自动化水平具有重要意义。
选用高稳定输出的红外灯珠作为机器视觉系统的光源,可产生近红外和中红外,搭配红外相机来捕获不同种类中草药光谱特征,光谱特征图像经图像采集卡转换为数字信号输入计算机进行图像处理。
机器视觉中相机在采集药材红外光谱特征时,会引入背景基线、噪声等干扰信号,导致基线偏离、信噪比下降。因此需要对数据进行去噪处理,将背景基线从高维的、非零变量的复杂数据中滤除,提取有用信号,提高数据的潜在价值[1]。本文使用一种逐步逼近的自适应迭代加权惩罚最小二乘法(airPLS)[2],引入调节曲线平滑度和保真度的参数,从而得到减去背景的光谱。
(1) 惩罚最小二乘法
假设x 为样本向量,z 为基线向量,其长度为m,z 对x 的保真度可用两者之间的总体方差和表示:
向量z 的粗糙度可用其相邻两项差的平方和表示:
保真度和平滑度的平衡可用保真度加上粗糙度的惩罚表示:
其中可以调整参数λ实现保真度和平滑度的平衡,λ越大,基线向量越平滑。
上式对z 求偏导数并令其等于零,得到一个简单的线性系统方程:
其中I 是单位矩阵。引入保真度的权重向量w,并将其在有峰段处置于零,则z 对x 的保真度修正为:
从而线性系统方程变为(w+λD′ D) z=wx。根据该方程得到基线向量:z=(w+λD ′ D)-1wx。
(2)自适应迭代加权
设计自适应权重,并添加控制拟合背景的平滑度的惩罚项,即
中药材红外光谱原始图像如图1 所示,经过airPLS 算法处理后的图像如图2 所示。对比可见处理后的光谱数据,有效地消除了干扰,光谱曲线的细节特征更加突出。
图1 中药材红外光谱原始图像
图2 airPLS 算法处理后的图像
系统聚类分析模型是一种对样本进行分类的方法,属于Q 型聚类。其核心算法为层次系统归类和k-means 均值法。
层次系统归类与计算类与类之间的距离有关,具体步骤如下:
(1)计算n 个样本点两两之间的距离,记为矩阵。本文用两个变量的Pearson 相关系数表现距离,其中:
(2)构造n 个类,每类中只包含一个样本点,且平台高度均为0;
(3)合并距离最近的两类为新类,将两类间距作为聚类图中的平台高度;
(4)计算新类与当前各类的距离,当类个数值为1,执行下一步,否则返回上一步;
(5)画聚类图;
(6)决定类的个数和类。
基于k-means 均值聚类的算法步骤为[3]:
(1)随机选择k 个样本作为聚类初始中心;
(2)计算样本Xi 到k 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类;
(3)针对每个类别aj,重新计算它的聚类中心;
(4)重复(2)(3)操作,直到达到某个中止条件。
利用MATLAB 中的linkage 函数和cluster 函数建立中药材红外光谱数学模型。根据药材样本的中红外光谱数据层次聚类树状图,将样本分为3 类,得到层次聚类树状图如图3 所示,每类中药材的光谱曲线图如图4、5、6 所示。
图3 层次聚类树状图
图4 第一类中红外光谱曲线图
图5 第二类中红外光谱曲线图
图6 第三类中红外光谱曲线图
针对生产线上中药材人工类别检测效率低、劳动强度大、误检率高等问题,建立基于机器视觉的中药材类别红外光谱检测模型。首先通过机器视觉获取红外光谱特征,然后使用自适应迭代加权惩罚最小二乘法去除干扰噪声,最后利用层次系统归类和k-means 均值法实现对不同种类的药材进行检测分类。对于提高制药精度和自动化程度,具有重要工程实用价值。