周 月,孙 霁,杨四刚,陈宏伟,徐 坤
(1.北京邮电大学 信息光子学与光通信国家重点实验室,北京 100876;2.清华大学 电子工程系,北京 100084)
太赫兹时域光谱(THz-TDS)是近年来逐步发展成熟的光谱分析技术,已经逐渐成为前沿多学科交叉领域的重要技术手段之一[1-3]。大多数的有机大分子、蛋白质分子以及生物分子在太赫兹频谱范围内具有丰富的光学信息。位于太赫兹波段范围内的光子能量很低,可以避免生物分子结构遭到电离破坏;另外,太赫兹波对非极性材料具有良好的穿透性,为无损检测创造了有利条件。以上优点为太赫兹时域光谱技术在生物分子的定量定性分析和无损检测领域的研究奠定了基础[4-5]。目前,THz-TDS检测技术已经被广泛地应用于爆炸物检测[6-7]、毒品药品检测[8-9]、生物医学[10-11]、文物保护[12]以及农作物监测[13]等领域。
转基因技术是利用基因工程和分子生物学,通过改变生物的DNA,进而改变生物遗传特性的技术。全球99%的转基因作物由美国、加拿大、阿根廷和中国种值,每年种植转基因作物的种类和数量都持续增长[14]。这些转基因农产品被用来饲养动物或者压榨油料,减低了社会生产成本,满足了人类的生活生产需求。转基因技术在增加农作物产量,提高农作物抗病等作用的同时可能会引起过敏等危害。转基因作物带来的潜在问题,例如对环境的影响、宗教伦理的挑战以及生态安全等尚未明确。因此,针对转基因作物的检测技术的研究具有重要意义,为农产品安全和质量的检测提供重要的技术支持[15]。
基于蛋白质检测的方法被用于大多数的转基因生物检测,但是基于蛋白质检测的方法耗时较长且成本高昂[16]。太赫兹时域光谱检测技术结合机器学习识别方法具有快速、高效以及高准确性的优点,拥有较高的研究价值和应用潜力。2015年,Liu等人基于太赫兹光谱,构建了一个改进的支持向量机算法(Support Vector Machines,SVM),可以有效地鉴定出转基因和非转基因棉花种子,为转基因作物的定性识别提供了一种无损、快速、可靠的方法[17]。2016年,Liu等人利用太赫兹时域光谱成像技术对转基因稻米进行了太赫兹图像的提取。利用随机森林(Random Forest,RF)算法对获得的太赫兹图像进行了分类识别,准确率达到了96.67%[18]。2017年,Lian等人测量了四种转基因玉米和一种非转基因玉米标准品的太赫兹谱,随后利用主成分分析算法(Principal Component Analysis,PCA)对光谱数据进行了降维,然后采用PCA结合支持向量机的方法,成功的识别出所有标准品样本,准确率达到92.08%[19]。
本文以两种转基因油菜种子(Mon88302和GT73)和一种非转基因油菜种子为研究对象。首先提取了三种油菜种子的太赫兹光谱。其次通过计算得到样本的太赫兹吸收谱。最后利用朴素贝叶斯算法(Naive Baiyes,NB)、基于朴素贝叶斯的自适应提升算法(Naive Baiyes-AdaBoost,NB-daboost)和主成分分析结合随机森林算法(PCA-RF)、主成分分析结合支持向量计算法(PCA-SVM)对样本的太赫兹吸收谱进行了分类识别,对分类效果进行了分析研究。
实验系统采用自行搭建的太赫兹时域光谱仪对样品进行太赫兹光谱提取。实验装置原理如图1所示。中心波长为1 560 nm,重复频率为100 MHz,脉冲宽度为100 fs,平均功率为72 mW的飞秒光纤激光器作为太赫兹脉冲产生和探测的激励光源。飞秒光源为线偏振光,因此,半波片和偏振分束器的组合在分束的同时,可以控制探测光和泵浦光的功率分配。反射镜为的反射率大于97%。其中反射镜4和反射镜5成90°放置于电动位移平台上,组成机械延迟线。斩波器为锁相放大器提供参考频率。光纤准直器负责将自由空间传输的飞秒激光耦合进入光电导天线的尾纤当中。太赫兹发射器产生的太赫兹脉冲由两组90°离轴抛物面镜负责进行收集和准直。两组离轴抛物面镜之间的焦点处为待测样品摆放位置。稳压电源为直流偏置+100 V,负责为太赫兹发射器提供直流偏压。太赫兹探测器的输出信号连接锁相放大器,由锁相放大器进行信号处理和储存。最后通过计算机进行数据处理,获得待测样品的太赫兹时域光谱。
图1 实验装置原理
图2是THz-TDS的光谱,其中插图是光谱仪的时域脉冲波形。
图2 THz-TDS光谱和时域波形(插图)
从图2中可以看到,光谱仪有效带宽为2.5 THz,峰值动态范围60 dB。在实际测量过程中,室内温度保持在23℃。样品仓中充入干燥的空气,使仓内的湿度保持在5%以下。减小空气中水汽对测量效果的影响。
实验中的菜籽样品包含3种类别,其中Mon88302和GT73为转基因油菜种子,剩余一种Non-GMO为非转基因油菜种子。转基因GT73和Mon88302以及非转基因Non-GMO油菜种子样本均购买自孟山都公司。由于油菜种子出油率较高,难以直接压片成型。因此实验用对太赫兹吸收很小,且刻圆槽的高密度聚乙烯板作为样品的检测窗口。高密度聚乙烯板厚度0.5 mm,圆槽直径1 mm。将待测样品充分研磨,通过填充压实高密度聚乙烯窗口实现样品的均匀定型。整个制作过程中保持样品的干燥以减小水分对测量结果的干扰。
实验采取透射式THz-TDS对样品的太赫兹光谱进行测量,利用Dorney等人提出的模型最终提取样品的太赫兹吸收谱。在正入射条件下,被测样品对于太赫兹信号的复透射函数可以表示为[20-21]:
(1)
如果仅分析样品材料在弱吸收近似情况下,以及菲涅耳透射系数取实数时,就可以得到样品的折射率和吸收系数近似值,即[21]:
(2)
(3)
通过测量到的太赫兹时域光谱数据以及上述公式,可以计算出样品的折射率和吸收系数。
实验提取的3种油菜种子的太赫兹吸收谱如图3所示。
图3 3种油菜种子的太赫兹吸收曲线
由于油菜种子对太赫兹具有较强的吸收,因此只提取到的太赫兹吸收谱的频谱范围为0.2~1.1 THz。从图3可以看出,3种油菜种子的并没后明显的太赫兹吸收峰。3种油菜种子的太赫兹吸收曲线之间的差异也非常小,肉眼难以进行区分。为了达到自动化及准确的区分各类转基因油菜种子样本的目的,需要将太赫兹时域光谱与机器学习分类算法相结合。
实验中总共成功制备了89份样本,其中两类转基因样本分别为30份,非转基因样本29份。由于样本数量偏小,为了防止识别算法的过拟合,实验中采用10倍交叉验证对样品进行分析。10倍交叉验证中,初始数据集被随机划分为大小基本相同但互不相交的10组数据子集。在训练和测试过程,中每次选出一组作为测试集,其余各组作为训练集,依次类推,共进行10次训练和测试。10倍交叉验证中,分类准确率是10次迭代准确率的平均值,因此采用10倍交叉验证的分类结果具有较低的偏倚和方差。
贝叶斯分类器时在概率框架内进行决策的基本方法之一[22]。在相关概率已知的理想情况下,贝叶斯分类器可以或得最优的识别标记。但是,对于后验概率,贝叶斯分类器的类条件概率很难通过有限的样本估计直接获得。朴素贝叶斯分类算法对已知类别,假设所有的属性相互独立,每个属性独立对分类结果产生影响,从而避免了贝叶斯分类器的局限性[23]。朴素贝叶斯分类器的表达式为:
(4)
式中,x为样本属性;d为属性数目;c为分类标记。
表1是朴素贝叶斯分类方法的转基因样本分类效果。从表1中可以看到,非转基因油菜Non-GMO、转基因GT73油菜和转基因Mon88302油菜的分类准确率分别为80%,97%,77%。各有10%的Non-GMO样本被误分类为GT73和Mon88302;有3%的GT73被误分类为Mon88302;有23%的Mon88302被误分类为非转基因油菜Non-GMO。Naive Baiyes分类方法的平均准确率为84.7%。
表1 朴素贝叶斯算法分类效果
样本Non-GMOGT73Mon88302Non-GMO0.800.100.10GT730.000.970.03Mon883020.230.000.77
Boosting算法也称增强算法,可以用于分类问题和回归问题,由Schapire在1990年首次提出[24]。Boosting是一类通过对多个弱学习器的集成,组合成为强学习器的分类算法。1995年,Freund和Schapire通过改进Boosting算法,提出了自适应提升(Adaptive Boosting,AdaBoost)算法[25]。AdaBoost算法拥有较好的精度,具有很高的实用性。AdaBoost算法的自适应表现在,前一个弱学习器预测错误的样本权重会得到加强,更新权值后,样本再次被用来训练下一轮新的弱学习器。在每轮训练过程中,样本集合用来训练新的弱学习器,产生新的权值,像这样不断地迭代循环,最终逼近预定的错误率。Adaboost算法的学习策略是最小化指数损失函数,当指数损失函数最小时,算法的分类错误率也逼近最小。
表2是基于朴素贝叶斯的Adaboost分类方法的转基因样本分类效果。从表2中可以看到Non-GMO,GT73,Mon88302的分类准确率分别为90%,100%,100%。各有7%和3%的Non-GMO样本被误分类为GT73和Mon88302;GT73和Mon88302样本没有出现分类错误;基于朴素贝叶斯的Adaboost分类方法的平均准确率为96.7%。
表2 基于朴素贝叶斯的Adaboost分类效果
样本Non-GMOGT73Mon88302Non-GMO0.900.070.03GT730.001.000.00Mon883020.000.001.00
PCA算法是一种将高维数据集简化为低维数据集的方法,属于无监督降维。高维数据集通过PCA可以实现有效的降维处理,降维后的数据集可以有效地反映原始数据集的数据特征。
RF是一种综合了集成分类器和随机子空间的算法,是基于决策树的一种算法,通过集成思想将多颗决策树进行集成。决策树是一种树形结构,针对标签问题进行“分类”和“决策”,最终的决策结果就是分类结果。
表3展示了PCA-RF方法中转基因样本分类效果。从中可以看到Non-GMO,GT73,Mon88302样本的预测准确率分别为83%,93%,97%。PCA-RF分类方法的平均准确率为91%。有17%的Non-GMO样本被误分类为GT73;有3%的GT73被误分类为Non-GMO;有3%的GT73被误分类为Mon88302;有3%的Mon88302被误分类为Non-GMO。
表3 PCA-RF分类效果
样本Non-GMOGT73Mon88302Non-GMO0.830.170.00GT730.030.930.03Mon883020.030.000.97
SVM是一种通过非线性映射将原始特征映射到较高维度的算法[26]。SVM在许多实践领域备受关注,如遥感、图像处理等。SVM起源于分类问题,对于给定的训练集D,SVM的思想就是找到一个划分超平面将D中的样本区分开。
表4展示了PCA-SVM方法的转基因样本分类效果。从中可以看到Non-GMO,GT73,Mon88302样本的预测准确率分别为83%,100%,70%。PCA-SVM分类方法的平均准确率为84.3%。有17%的Non-GMO样本被误分类为GT73;有17%的Mon88302被误分类为Non-GMO;有13%的Mon88302被误分类为GT73。
表4 PCA-SVM分类效果
样本Non-GMOGT73Mon88302Non-GMO0.830.170.00GT730.001.000.00Mon883020.170.130.70
表5对4种分类方法的分类效果进行了总结。从表5中可以看到,在转基因油菜种子的太赫兹时域光谱识别中,只使用朴素贝叶斯方法分类的准确率只有84.7%。但是结合Adaboost算法后,分类准确率达到96.7%,是4种算法中最高的分类准确率。结果表明,基于朴素贝叶斯的Adaboost算法更适合与转基因油菜种子的分类识别。
表5 4种分类方法分类效果比较
分类方法平均准确率样品分类准确率Non-GMOGT73Mon88302朴素贝叶斯0.8470.800.970.77基于朴素贝叶斯的Adaboost0.9670.901.001.00PCA-RF0.9100.830.930.97PCA-SVM0.8430.831.000.70
本文通过太赫兹时域光谱系统研究了2种转基因油菜种子和一种非转基因油菜种子的太赫兹时域光谱,分析了其在0.2~1.1 THz频谱范围内的太赫兹吸收谱,通过4种机器学习分类方法,对油菜种子样品进行了检测识别。实验结果表明,3种油菜种子的太赫兹吸收谱没有明显吸收峰,并且差异不大。借助于机器学习算法可以实现对其的准确分类,其中基于朴素贝叶斯的Adaboost分类算法可以达到96.7%的分类准确率。本文的研究为转基因作物快速、准确的检测提供了有益参考。