邹慧琴,刘勇,陶欧,林辉,苏玉贞,林相龙,闫永红
[摘要] 电子鼻广泛应用于诸多领域,在不同领域中电子鼻传感器阵列的构成不同。由于中药气味的复杂性和特殊性,在中药鉴别分析中,需建立阵列优化法、筛选专属最佳阵列。采用法国Alpha MOS 公司的αFOX3000电子鼻对姜科常用10味中药进行气味检测,基于逐步判别分析法和聚类分析结合典型指标筛选法,建立了MOS传感器阵列的优化法。同时针对优化前后的数据,分别采用主成分分析、Fisher判别分析和随机森林算法进行了对比研究。结果表明,优化后的阵列不仅保留了原始阵列的有效信息,而且在一定程度上剔除了冗余信息、提高了识别效率。随机森林分类器计算结果表明:最佳阵列为逐步判别分析筛选的S1,S2,S5,S6,S8,S12组合而成,此阵列优化法有效、可行;为电子鼻在中药鉴别中MOS传感器阵列的优化提供思路与方法参考。
[关键字] 电子鼻;中药材;传感器阵列;随机森林
电子鼻(electronic nose,EN)也称人工嗅觉系统,是模仿人类对气味的识别机制[1],设计研制的一种智能电子仪器,适用于许多系统中测量1种或多种气味物质。一个典型的电子鼻主要由3部分构成:样品处理器,传感器阵列,信号处理系统[2]。而传感器阵列作为电子鼻的检测系统,是最为核心的部分;它由不同气敏元件组成,具有广谱响应性、交叉敏感性等特点。常见的传感器类型有导电聚合物(CP)传感器、石英晶体微平衡(QCM)传感器和金属氧化物(MOS)传感器等。其中,MOS传感器灵敏度高、重复性好、基线漂移可校正等,已成为电子鼻传感器的主流。
从20世纪80年代电子鼻诞生后,学者在很多领域进行了应用研究。也正是由于电子鼻响应时间短、检测速度快、样品预处理简便、测定评估范围广等优点,现已在农业[3]、食品[4]、环境监控[5]和公共安全[6]等领域得到了广泛的应用。然而,不同领域检测的物质种类及分析目标不同,相应最适宜传感器阵列也不同。因此,传感器阵列优化是电子鼻应用于不同领域中需解决的关键技术之一。而在给定区域内,如何选择传感器阵列,以剔除冗余信息,同时保证获取信息的完整性、有效性和可靠性,是传感器阵列优化的首要问题。目前,在传感器阵列优化中常用的方法有方差分析[7]、相关系数分析[8]、变异系数因子载荷分析[9]等,每种方法的针对性和适应性因不同分析目标而异。
本研究探讨了电子鼻传感器阵列的优化方法及其在中药快速鉴别中的应用。采用MOS传感器阵列对姜科常用10味中药进行气味特征的提取,基于逐步判别分析法和聚类分析结合典型指标筛选法,建立了中药鉴别中电子鼻传感器阵列的优化方法。同时采用主成分分析(PCA)、Fisher判别分析(Fisher LDA)和随机森林(RF)算法对优化前后的数据进行了对比分析,确立了中药鉴别中最佳传感器阵列。结果表明优化后的阵列所获取信息不仅保留了原始信息的完整性、有效性和可靠性,还一定程度上剔除了冗余信息、提高了数据处理效率。此阵列优化法有效、可行。
1 材料
αFOX3000气味指纹分析仪,又称电子鼻(法国Alpha MOS公司);10味常用中药饮片干姜、姜黄、高良姜、莪术、郁金、白豆蔻、草豆蔻、草果、益智、砂仁(北京同仁堂股份有限公司市售产品)。经北京中医药大学闫永红教授鉴定,分别来源于姜科植物姜Zingiber officinale Rosc.的干燥根茎、姜黄Curcuma longa L.的干燥根茎、高良姜Alpinia officinarum Hance的干燥根茎、蓬莪术C. phaeocaulis Val.的干燥根茎、广西莪术C. kwangsiensis S. G. Lee et C. F. Liang的干燥块根、白豆蔻Amomm kravanh Pierre ex Gagnep.的干燥成熟果实、草豆蔻Alpinia katsumadai Hayata的干燥近成熟种子、草果Amomum tsaoko Crevost et Lemaire的干燥成熟果实、益智Alpinia oxyphylla Miq.的干燥成熟果实以及阳春砂Amomum villosum Lour.的干燥成熟果实。
αFox3000电子鼻中传感器原始阵列(U)由12根MOS传感器构成,这12根传感器的类型及对不同化学成分的响应灵敏度不同,具体见表1。
2 方法
2.1 样品预处理——气味提取法 将样品粉碎,过2号筛,精确称取0.4 g样品装入10 mL顶空瓶中,压盖密封。每味中药各取10个样本,采用循环交叉排列的方式组成序列,以减小实验的系统误差[10],组成训练集。另每味中药再各取2个样本,组成外部测试集。
电子鼻对样品气味特征采集分为3个流程:孵化平衡、自动进样和信号采集。实验参数设置分别为孵化时间600 s、孵化温度45 ℃;进样量500 μL; 信号采集时间200 s、采集周期1 s。本研究视12根传感器为12个变量、以传感器最大响应值为指标进行数据分析。
2.2 传感器阵列优化——S逐步判别分析法 采用Wilks′Lambda方法进行逐步判别分析,以F作为判别统计量。一个变量是否能进入模型主要取决与协方差分析中F检验的显著性水平和设置的进入、离开模型的F[11]。具体参数设置为:当F≥30时,变量进入模型;当F≤5时,变量移除模型。判别结果见表2。
表2中统计量(F)是该变量的均方与误差均方的比值。该值越大,P越小,因此该值最大的先进入判别函数。当P小于0.05或0.01时,拒绝零假设。显著性检验结果P=0.000,即小于0.001,可以说这6个变量对判别的贡献都很显著。总之,说明该变量在不同组中均值不同是由于组间差异,而不是由随机误差引起的;即该变量在各组中均值差异显著。可以看出S12,S5,S8,S6,S2,S1的统计量(F)都在30以上,这是选择进入判别函数的判据。经过6个步骤后,模型内,外变量无进,无出,逐步判别分析的自变量选择结束。因此,最终确定的传感器优化阵列(U1)的组成为S1,S2,S5,S6,S8,S12。
2.3 传感器阵列优化聚类分析结合典型指标筛选法 对100个分析样本、12个属性进行聚类分析。具体参数设置为聚类方法Further neighbor;变量间相似性测度方法为Pearson Correlation,分类结果见图1。
从图1可以看出初步聚为2类:S1,S7,S8,S9,S10,S11,S12和S2,S3,S4,S5,S6。另外,还可以进一步具体查看,如果聚为3类,各类组成为:S1;S7,S8,S9,S10,S11,S12;S2,S3,S4,S5,S6。4类,5类以此类推,冰柱图的最终分类结果需结合实际情况而定。在本研究中,对12根传感器进行了方差分析,结果显示聚为4组较为合理。A组 S1;B组 S7,S8,S9,S10,S11,S12;C组 S4,S5;D组 S2,S3,S6。
采用Bivariate Correlation相关分析分别对B,C,D组进行典型指标的筛选。参数设置为Correlation Coefficients:Pearson。以B组变量为例,说明筛选过程,分析结果见表3。从表3中读取相关系数,计算各相关指数如下。
R72=(0.9972+0.9952+0.9982+0.9992+0.9962)/5=0.994
R82=(0.9972+0.9972+0.9982+0.9962+0.9962)/5=0.994表3 B组变量相关矩阵(n=100)
Table 3 Correlation matrix of group B variables (n=100)
R92=(0.9952 +0.9972 +0.9962 +0.9942 +0.9942) /5=0.990
R102=(0.9982 +0.9982 +0.9962 +0.9972 +0.9992) /5=0.995
R112=(0.9992 +0.9962 +0.9942 +0.9972 +0.9972) /5=0.993
R122= (0.9962 +0.9962 +0.9942 +0.9992 +0.9972) /5=0.993
比较5个相关指数,S10的相关指数(R102)最大,因此B组代表变量选定为S10。同法计算C组、D组各变量的相关指数。其中,C组的S4和S5的相关系数一致,结合累计相关系数分析中S4与其他11根传感器的累计相关系数最小,选S4代表变量。D组中S3的相关指数最大,选为代表变量。由此,确定的典型指标为S1,S3,S4,S10。
此外,方差分析及累计相关系数分析最优解分别为S10,S12,S4;其中S10,S4都入选为典型指标,而S12未入选。因此,综合分析最终确定的传感器优化阵列(U2)的组成为S1,S3,S4,S10,S12。
3 结果
3.1 主成分分析(PCA) 传感器优化前后的PCA对比见图2,传感器原始阵列对有些中药材可以区分(砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜、郁金),对有些中药材区分性较差(莪术、益智、姜黄)。图2中b,c图显示优化后的传感器阵列PCA分析效果与优化前基本一致。
3.2 Fisher线性判别分析(Fisher LDA) 电子鼻研究中可运用Fisher线性判别分析(Fisher linear discriminant analysis,Fisher LDA)根据已知样本识别未知样本。传感器优化前后的Fisher LDA对比见图3,判别能力稍优于PCA,二者分类结果相近。传感器原始阵列可以较好地区分开砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜以及郁金等7味中药,而莪术、益智及姜黄三者的分布区域重叠较多、无法区分,仍为鉴别难点。图3中显示优化后的传感器阵列Fisher LDA分类效果与优化前差异不大。
3.3 随机森林(RF) 随机森林(Random Forests,RF)是一个包含多个决策树的分类器,其输出类别是由个别树输出类别的众数而定,其中每棵决策树都会完整成长而不会剪枝。它具有准确度高、学习速度快、能容忍内部噪声且不容易出现过拟合等优点,在医学、生物信息、管理学等领域广泛应用[13]。分类系统性能评估采用常用十折交叉验证和外部测试集验证2种方法。本研究基于Weka软件实现随机森林分类器的建立(由Weka论坛免费提供http://www.cs.waikato.ac.nz/ml/weka/ )。
感器优化前后的随机森林分类结果的比较见表4。结果显示优化前的传感器阵列对10味中药材的正判率在80%以上,分类效果较好。而优化后的传感器阵列也可以对10味中药材进行分类,正判率大于85%、最高为96%;判别能力有所改善。
4 讨论
优化前后传感器阵列的PCA,Fisher LDA分析结果表明,优化后的传感器阵列能够代替原始阵列完成对10味中药的鉴别任务:首先保证所获取信息的完整性和可靠性,即没有丢失原始数据中的有效信息;再对比分析阵列优化前后随机森林分类器的正判率,不难发现优化后分类效果有一定程度的提高,说明优化后的阵列在一定程度上剔除了冗余信息、提高数据处理效率。进一步考察,发现逐步判别分析法优化的传感器阵列略胜一筹;综合分析,中药鉴别中最佳阵列由S1,S2,S5,S6,S8,S12传感器组成。此种优化方法有效、可行。
值得进一步探讨的是,本研究中优化前后的传感器阵列对姜科10味药材均无法完全区分开,尤其是莪术、益智和姜黄。虽然此3味药材同其他7味药材可区分性较好,但三者相互之间难以鉴别。究其原因,一可能是此三者难以与其他几种药材在同一判别模型中实现鉴别,建议在将来研究中针对筛 选数据处理方法、建立判别模型等方面作进一步完善;二可能是本研究中所采用的αFOX3000型号电 表4 传感器优化前后的随机森林分类结果的比较子鼻只有12根传感器组成检测器,其传感器针对中药气味的灵敏度、专属性均尚未有相关研究报道,存在此种鉴别难点很有可能是此三者处于它的“嗅觉盲区”,建议在将来的研究中,在多型号电子鼻、多数量传感器的基础上进行传感器的优化与专属性研究。
[参考文献]
[1] Pradeep U K. An electronic nose for detecting hazardous chemicals and explosives [C]. Beijing:Plant growth modeling,simulation,visualization and applications (PMA),2006 International Symposium,2006.
[2] 邹慧琴,刘勇,闫永红,等. 电子鼻技术及应用研究进展[J]. 传感器世界,2011,17(11):6.
[3] Tang Xiaowei,He Hongju,Geng Lihua,et al. Evalution of maturity and flavour of melons using an electronic noses [J]. Agric Sci Tech,2011,12(3):447.
[4] Tudu B,A Jana,A Metla,et al. Electronic nose for black tea quality evaluation by an incremental RBF network [J]. Sensor Actuator BChem,2009 (138):90.
[5] Fang Xiangsheng,Shi Hanchang,He Miao,et al. Application and progress of electronic nose in evironmental monitoring [J]. Evrion Sci Technol,2011,34(10):112.
[6] Yinon J. Field detection and monitoring of explosives [J]. Trend Anal Chem,2002,21(4):292.
[7] 张双岩,余隽,唐祯安,等. 二元混合气体识别中传感器阵列优化方法研究[J]. 仪表技术与传感器,2010(7):80.
[8] 周显青,暴占彪,崔丽静,等. 霉变玉米电子鼻识别及其传感器阵列优化[J]. 河南工业大学学报:自然科学版,2011,32(4):16.
[9] 周海涛,殷勇,于慧春. 劲酒电子鼻鉴别分析中传感器阵列优化方法研究[J]. 传感技术学报,2009,22(2):175.
[10] 赵镭,史波林,汪厚银,等. 电子鼻传感器筛选的组合优化法研究[J]. 食品科学,2009,30(20):367.
[11] 卢纹岱. SPSS统计分析[M]. 4版.北京:电子工业出版社,2003.
[12] 方匡南,吴建彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3): 32.
Optimization method of MOS sensor array for identification of traditional
Chinese medicine based on electronic nose
ZOU Huiqin, LIU Yong, TAO Ou, LIN Hui, SU Yuzhen, LIN Xianglong, YAN Yonghong*
(Beijing University of Chinese Medicine, Beijing 100102, China)
[Abstract] Optimization of sensor array is a significant topic in the application of electronic nose (EN). Stepwise discriminant analysis and cluster analysis combining with screening of typical index were employed to optimize the original array in the classification of 100 samples from 10 kinds of traditional Chinese medicine based on αFOX3000 EN. And the identification ability was evaluated by three algorithm including principle component analysis, Fisher discriminant analysis and random forest. The results showed that the identification ability of EN was improved since not only the effective information was maintained but also the redundant one was eliminated by the optimized array. The optimized method was eventually established, it was accurate and efficient. And the optimized array was built up, that is, S1,S2,S5,S6,S8,S12.
[Key words] electronic nose; traditional Chinese medicine; sensor array; random forest
doi:10.4268/cjcmm20130204
[责任编辑 吕冬梅]