烟草近红外光谱分析网络化及其应用进展

2020-11-06 09:51王家俊杨家红邵学广
分析测试学报 2020年10期
关键词:计量学烟草光谱

王家俊,杨家红,邵学广

(1.云南中烟工业有限责任公司,云南 昆明 650221;2.湖南师范大学 信息科学与工程学院,湖南 长沙 410081;3.南开大学 化学学院,天津 300071)

1 近红外光谱分析网络化沿革

近红外谱区早在1800年由英国物理学家、天文学家Herschel观察发现[1],但1938年后人们才开始近红外光谱的分析探索工作[2],首次实际应用为1960年Norris等[3]通过滤光片近红外结合多元线性回归(MLR)方法测定农产品中水分、蛋白质等含量,并提出了光谱的Norris导数滤波法。20世纪70年代中期,光栅型近红外光谱仪开始应用[4],但由于近红外光谱吸收谱带宽、重叠严重、吸收信号弱、灵敏度低、抗干扰性差等使人们淡漠了其应用。自20世纪70年代初,Wold等[5]提出将化学计量学作为一门学科,此后,随着计算机技术、化学计量学及仪器分析技术的发展与融合,人们重新认识了近红外光谱的价值,近红外光谱分析技术、化学计量学方法开始在农业、食品、饮料、石油、材料、制药和医学等领域得到了广泛研究与应用[6-10]。基于近红外光谱分析技术的优势,加之计算机网络技术的兴起,丹麦较早地实践了“近红外+网络技术”对谷物的品质分析与质量管理。此后,法国、德国和瑞典等国家也相继构建了谷物品质近红外光谱分析网络系统,并成立了相关实验室、网管中心等一些技术运维服务机构,入网仪器主要为FOSS、Perten的近红外光谱仪。1998年,Davies[11]称近红外光谱技术将成为光谱分析中“从沉睡者变为了启明星”的技术,McClure[12]在评述204年(1800~2003年)近红外光谱分析技术的历史发展中认为,近红外光谱技术已经成熟,已成为解决众多领域分析问题的引人注目的工具。

虽然我国近红外光谱分析技术的研究起步较晚,但发展十分迅速,从2006年北京召开的全国第一届近红外光谱学术会议至2018年在昆明召开的全国第七届近红外光谱学术会议暨亚洲第六届近红外光谱学术会议可以看出,无论是近红外光谱仪器研制、化学计量学理论研究及其软件开发、近红外光谱分析网络化研究,还是近红外光谱分析技术在农业、石化、粮食、食品、烟草、纺织和制药等领域的应用,均获得了长足的发展[13-16]。国内近红外光谱分析网络化研究始于2001年中国农业大学严衍禄团队率先研发的“中国农业近红外光谱分析技术及网络系统”;2008年,国家农业信息化工程研究中心联合有关高等院校及科研院所,构建了涵盖我国粮食主要产区的谷物近红外光谱分析网络系统,入网仪器均为FOSS Infratec1241近红外光谱仪,同时设立参比实验室、网管中心等运维部门,该系统结合GPS/GIS(全球卫生定位系统/地理信息系统)技术对我国主要产区的小麦品质分布进行监测,并建立了小麦品种鉴别、产地识别的模型,应用于指导谷物收购[14],该系统的建立为“近红外光谱分析+互联网”模式的拓展应用起到了积极的示范作用。

综上所述,近红外分析技术离不开相关新技术、新方法的融合应用。云技术、网络技术和高速通讯技术的发展,为近红外光谱分析技术网络化搭建崭新的平台提供了可能。

2 烟草近红外光谱分析网络化

2.1 烟草近红外光谱分析网络系统的构建与应用

在国内烟草行业,近红外光谱法的应用研究始于20世纪90年代中后期,研究者应用近红外光谱对烟草中水分和一些主要化学成分进行了定量分析[17-19]。云南红河卷烟厂于2002年建立了生产现场近红外光谱实验室,将其应用于烤烟收购的现场质量控制、后续烟叶仓储醇化质量跟踪分析,以及辅助材料(如卷烟纸)质量控制和卷烟生产过程质量监测等方面[20-26]。近红外光谱分析技术已成为重要的烟草质检质控手段之一。近几年,随着烟草企业的联合重组与整合,对烟叶原料品类多样化提出了更高要求,为解决烟叶原料质量信息的快速交换与共享,掌控不同产地烟叶原料的质量状况,实现原料的统筹优化与合理应用提供技术支持,2015年云南中烟以“互联网+近红外光谱分析”的基本模式构建了以原料研究为导向的烟叶原料近红外分析网络系统,该系统主要由以下3个部分构成:

(1)近红外光谱分析网络实验室:每一个网点的近红外光谱分析网络实验室是整个网络系统的数据“发源地”,依据相应的实验室规范(包含近红外校正模型建立、验证、应用和维护的技术标准等)运行,保障近红外光谱分析数据的可靠性和准确性。实验室是网络系统的“感知层”,其主要功能是实现各厂(复烤公司)的初烤烤烟、复烤片烟和库存片烟等烟叶原料主要化学成分指标的快速检测,并上传数据。

(2)网络平台:基于WebService服务架构,采用Hadoop生态圈/Oracle数据库等技术,集成各网点近红外光谱实验室检测的数据信息及其相应的质量属性数据。该平台是系统的“网络层”,其主要功能是采用Web模式,实现各网点的数据上传下载,以及用户查询和在线统计分析等。

(3)数据挖掘分析技术子系统:针对烟草近红外光谱分析数据的特点,该子系统集成了化学计量学的光谱处理方法、多元定量分析方法和模式识别定性分析方法,其主要功能是对烟叶原料质量属性、化学成分数据进行深入挖掘分析,探索烟叶原料的品质类别、质量变化趋势和规律。该子系统主要面向高级用户。

该系统5年来,基于网络平台,各网点实验室的规范化运行,实现了原料检测数据的交换和共享,为评估烤烟收购质量,合理组配复烤模块单元,提供了即时的数据支持;在产品开发和维护方面,针对性使用烟叶原料,研发新产品配方、优化配伍和维护产品质量稳定发挥了积极的辅助作用,系统功能基本达到了设计预期。然而,为进一步探索分析烟叶原料品质类别、配方模块(单元)相似性、质量变化趋势和规律,在综合利用近红外光谱数据、理化性质数据和一些与质量相关的半结构化非结构化数据时,由于集成的常规性质数据维度有限,满足不了质量表征的需求,加之,在网络平台上面对大量的数据处理分析,传统的化学计量学定性定量建模计算模式难以适应,制约了多变量数据(如光谱)的深入挖掘和挖掘效率。

图1 MSPC与SPC的比较Fig.1 Comparison of MSPC and SPC

2.2 系统存在的不足与解决思路

2.2.1 近红外光谱仪的差异与光谱标准化烟草可视为一种多成分复杂化学体系的天然作物,迄今为止,从烟草中鉴定出来的化学成分多达5 500余种。烟草质量与这些化学成分的相关性尚未研究清楚,通常采用的常规化学成分指标(如烟碱、总氮、总糖、还原糖、钾、氯、灰分和pH值等)因其成分指标有限,在评估烟草整体质量特征时存在不足,普遍认为,烟草在燃吸时的整体质量特征是烟草中这些复杂成分相互协同作用的结果。在近红外光谱定量分析中,烟草近红外光谱包含大量潜在的物质组成信息尚未充分利用,不同质量特征的烟草具有自身的特征近红外光谱,应用适当的化学计量学模式识别方法,如PLS-DA(偏最小二乘判别分析法)、SIMCA(簇类独立软模式分类法)等结合近红外光谱挖掘烟草的整体质量特征归属,对寻求质量特征相似或相近的替代原料,保障规模化产品制造稳定的原料供给有着不可或缺的辅助作用。再如,通过近红外光谱建立多变量统计过程控制(MSPC)类模型,用于监测成品烟丝或中间配方单元的过程质量的稳定性,比单变量(如水分、温度、填充值等)统计过程控制(SPC)具有显著优势,如图1中样品1和3的稳定性异常情况,在变量1和变量2的SPC范围内属正常,但通过MSPC就可被监测出来。

倘若只需测定性质数据入网,不管是何种类型光谱仪,参考相关近红外多元校正定量分析技术标准,只要建立有效的校正模型,保证近红外测定的性质数据与参考方法测定的数据无显著差异或满足用户预期即可。但若想进一步挖掘近红外光谱中的潜在信息(如整体性、模糊性表征不同产地之间的烤烟质量特征归属),光谱数据采集的“标准化”就特别重要。这就要求网络化环境中的近红外光谱仪必须具有优良的光学特性,仪器之间的差异最小,保证对不同产区网点的近红外光谱仪测量的光谱数据进行分析时,仪器的差异不会造成明显影响。但事实上,即使是同一厂家同一型号同一个批次生产的光谱仪也很难实现这一目标。近红外光谱仪之间的差异是进行网络数据共享、挖掘光谱数据信息面临的问题之一。降低或消除不同台(套)仪器测量同一组样品时造成的光谱差异,可通过两种途径来解决,一是“软拷贝”,即借鉴模型转移的化学计量学方法,根据两台仪器测量的光谱之间的差异,建立一个光谱的数学关系,然后通过这个数学关系校正光谱,使两台仪器测量的光谱尽量相似;二是 “硬拷贝”,即通过仪器厂商提升仪器制造水平,降低仪器之间的差异,特别是不同批次生产的仪器之间的差异,使其测量的光谱尽量相似,差异尽量最小,不会对后续直接拷贝应用光谱数据造成明显的影响。作为网络用户来说,后者的解决方案尤为理想。例如,对置于不同生态产区的近红外检测网点,如云南地区生态多样、气候立体,使用红河产区或昭通产区的烤烟样品建立校正模型,相互不适应。这是因为两产地样品的近红外光谱在主成分分析(PCA)的主成分空间中存在异常的聚类,相互转移模型,必须添加当地的代表性样品,删除不必要的异常聚类的异地样品,才能保证模型的适应性,若要兼顾对产地间烤烟的光谱进行定性分析,判断质量的相似性,“硬拷贝”实现光谱数据的一致性比“软拷贝”有优势,且近红外检测网点越多,优势越明显。但“硬拷贝”需仪器生产制造中执行严格统一的标准,在实际执行中存在一定困难。“软拷贝”是针对仪器间的差异建立光谱的校正模型,执行起来相对较容易,这是因为实现“软拷贝”的核心是根据两台仪器光谱之间的差异建立一个光谱的数学关系,即校正模型(称为转移模型)使两台仪器的光谱尽量相似。目前模型转移的化学计量学方法已比较成熟,如PDS(分段直接标准化)、SST(光谱空间转化)以及基于双模型的方法[27-29]等已基本能满足实际应用的需要。当然,“软拷贝”需建立任意两台仪器间的转移模型,当网络系统仪器台数较多时会给实际工作带来不便。

图2 烟草校正样本集的近红外方差光谱示意图Fig.2 NIR variance spectrum of tobacco calibration sample set

近红外光谱应用于烟草或类似烟草的天然产物的定量或定性分析在中低频段(6 000~4 000 cm-1)隐含的信息最多(图2),这些谱段或所包含的波长对建模的贡献最大。因此,较宽的波段或全谱的近红外光谱仪若能通过“硬拷贝”实现光谱数据采集的标准化,是近红外光谱分析网络化的重要基础。

2.2.2 建模效率低与自动优化建模通常,在建立样本数量大于3 000个以上的近红外光谱校正模型时,样本量越大,涉及高维矩阵运算的速度越慢,对计算机性能的要求越高。且在建模过程中,如组织训练集或校正样本集、清洗异常样本、筛选适宜的建模数据等基本为基于“文件夹”来操作完成,对网络环境中大体量的数据资源,因缺乏探索性数据分析的网络计算手段而难以充分利用,导致传统的建模方式和流程效率低、适应性差。利用网络资源进行化学计量学网络计算,研究者进行了各种尝试,早在2009年,为了充分利用网络闲置资源,Sim等[30]从化学信息学角度论述了网格计算,但其可能属于“学院派风格”,难以推广应用于企业,幸运的是现代云计算技术为化学计量学计算研究搭建了高灵活性平台。如何利用诸如Hadoop、Spark等生态圈技术[31],通过分布式计算提升定性、定量建模效率,并结合长期积累的建模经验、知识(包含相关的波长或波段选择、光谱预处理方法及其经验参数设置、模型误差水平控制等)实现自动化建模,这是分析工作者要联合网络计算专家实现近红外光谱分析网络化云计算所需解决的问题。显然,把传统的近红外光谱定量、定性分析涉及的训练集样本或校正集样本的筛选、光谱预处理、建模等化学计量学方法(算法)网络化,开发分布式计算的化学计量学软件系统,共享应用网络软、硬件资源优势,平衡计算负载,实现近红外光谱分析的云计算,可能是一种较好的解决思路。

Hadoop系统中基于Google GFS(Google File System)实现的HDFS(Hadoop Distributed File System)解决了海量数据的存储问题。近几年来,数据密集型计算框架不断出现,从开始离线的MapReduce,到擅长迭代计算的Spark,流数据处理框架Storm,分布式存储数据库HBase等,可以将多个系统部署到统一集群中,共享集群资源并统一调度和使用。整个分布式处理主要包括数据收集子系统(Scribe、Chukwa、Flume)、消息队列管理子系统(RabbitMQ、ZeroMQ、Kafka)、流式数据处理子系统(Storm、Samza、Flink、Spark Streaming)和数据存储子系统(HBase、Redis)4个子系统[32],每个子系统均有不同的开源构架。

Hadoop平台在进行海量数据分析时,响应时间往往达到小时级。Spark数据处理是建立在统一抽象的RDD(Resilient Distributed Dataset)之上,并以基本一致的方式应对各种数据处理场景,包括MapReduce、SQL查询、流计算、机器学习以及图计算等。RDD是一个容错的、并行的数据结构,可以显式地将数据存储到磁盘和内存中,并能控制数据的分区。RDD通过提供包括Map、FlatMap、Filter等算子来完成数据预处理(数据抽取、转换及加载)、特征工程及最终提供数据服务,如数据挖掘中的模型训练、预测等。研究表明,Spark可以比传统Hadoop提高2~8倍的计算性能[33],采用Spark的近红外光谱分析分布式处理构架见图3。

图3 采用Spark的近红外光谱分析分布式处理构架示意图Fig.3 Distributed processing architecture of NIRS analysis by Spark

YARN是一种通用的资源管理系统,基本思想是将资源管理和作业控制分为两个独立进程,有一个全局的资源管理器(RM)负责资源分配和调度,每一个具体应用如PCA、KNN(K最邻近分类法)等有一个特有的Application Master(AM)负责应用程序管理,资源管理器和节点管理器(Node Manager)构成整个数据计算框架。YARN可提供如FairScheduler、Capacity Scheduler等多种直接调度器。基于YARN的近红外分布式处理工作流程见图4。DMLC-Core可实现分析算法处理进程(job)的提交,完全不用考虑集群数据读写、进程管理等问题。Rabit是一种可容错的AllReduce,很好地解决了机器节点的故障问题,可应用于MPI、SGE、YARN等多个平台。例如在采用梯度下降进行线性模型训练,在每一轮训练中,每个节点分别进行梯度计算得到梯度增量Δw,将Δw通过AllReduce树形结构由根节点进行汇总,然后更新w,并将更新的w下发到每个节点上,然后开始下一轮训练。

图4 基于YARN的近红外光谱分析工作流程示意图Fig.4 NIRS analysis workflow based on YARN

PCA是数据处理中广泛应用的降维算法,对于样本矩阵(n×p型,p远小于n),计算PCA的最好方法是先计算出所有统计量(时间复杂度为O(p2n)),再对相关系数矩阵或协方差矩阵(p×p型)进行SVD分解(时间复杂度为O(p3))。以Spark中RowMatrix类型的分布式矩阵为例来说明分布式PCA算法的具体流程(见图5)。首先将从HDFS文件系统读入的数据转换为DenseMatrix类型的矩阵A1,矩阵A1的各个光谱列向量L1,L2,…,Lp链接在一个数组上从而构造成“向量数组”结构,再放入RDD中对每个列向量并行地求解所需表征的列向量均值、方差等统计量,进而对每一个列向量进行标准化处理,这些存在于RDD中的列向量将会被重构成RowMatrix类型的矩阵A2,求矩阵A2的格拉姆矩阵,进而求得矩阵A2的协方差矩阵,再使用ScalaNLP的SVD方法求解特征值、特征向量,最后根据这些统计参数得到分布式光谱矩阵列向量L1,L2,…,Lp的主成分分量。分布式PCA算法[34]不仅可实现带标准化的PCA功能,并且表现出良好的算法性能,适用于大型数据集的PCA运算。

图5 基于Spark的PCA算法流程示意图Fig.5 Workflow of PCA algorithm based on Spark

2.2.3 数据挖掘效率与中心云、边缘云构建云计算服务是一种集中式服务,所有数据均通过网络传输到云计算中心进行处理。资源的高度集中与整合使得云计算具有很高的通用性,然而,面对物联网设备和数据的爆发式增长,基于云计算模型的聚合性服务逐渐显露出其在实时性、网络制约、资源开销和隐私保护上的不足。边缘计算是一种在网络边缘执行计算任务的新型计算模型,相比于云计算模型,能够更加迅速、可靠和节能地响应用户需求。数据在本地处理也可以提升用户隐私保护程度。另外,边缘计算减小了服务对网络的依赖,在离线状态下也能够提供基础业务服务。近红外光谱分析边缘计算部署见图6。

图6 近红外光谱分析边缘计算部署示意图Fig.6 Edge computing for NIRS analysis

在近红外光谱定性、定量建模或后续的各种数据挖掘实际应用中,涉及的资源可以来自“中心云”或“边缘云”。如对各大产区烟草质量进行整体性比照分析、探索各大烟区烟草质量特征、支持原料生产基地系统规划会用到中心云的数据资源;如对某个产区烟草历时性数据作趋势分析、探索烟草质量的稳定性与变化走向、辅助基层植烟区改进或调整生产措施会用到“边缘云”的数据资源。所以,作为云计算的补充构建“边缘云”与边缘计算具有较好的实用性。

3 烟草近红外光谱分析网络化的应用前景

近红外光谱分析技术应用至今,为企业从原辅材料到产品的质量管控带来丰厚经济效益的同时,积累了海量的近红外光谱分析数据和与之相关的质量属性、特征数据(包括结构化、半结构化和非结构化数据),为大数据分析提供了基础性数据;伴随物联网、云计算和边缘计算等技术的兴起,凭借近红外光谱分析自身的技术优势,基于“近红外光谱分析+互联网”模式的近红外光谱网络分析方法将会逐步建立,如何构建近红外光谱网络分析方法,并结合行业领域知识以及长期积累培育的历史数据,挖掘对企业有价值的信息,对原料的规模化精细化生产种植、原辅材料的应用优化选择、产品配方设计和过程质量监测等,将发挥越来越重要的辅助作用,以下几方面是未来值得关注的研究课题:

(1)基于分布式架构的适合于近红外光谱数据、质量属性、质量特征数据(结构化、半结构化和非结构化数据)以及与相关业务数据的大数据云平台的设计开发。其主要目的是从烟草的产地生态环境、等级、品种以及相应的近红外光谱、理化性质(包含烟叶的形态形状图像、化学成分指标等)数据中,分析挖掘与感官质量相关的特征信息,服务于烟叶原料的精细化种植及科学合理应用。烟草大数据云平台兼顾云计算和数据存储的功能,包括基础架构,数据的采集、存取、处理、统计分析,价值信息挖掘,模型预测和结果展示等方面。可面向服务对象的规模、复杂程度部署“中心云”和“边缘云”,有利于集约化网络资源,提升数据的统计分析处理以及数据挖掘的效率。

(2)基于云平台的近红外光谱自动化(智能)建模系统设计与开发。主要目的是将传统的近红外光谱定性、定量分析的化学计量学方法(算法)网络化,开发分布式计算的化学计量学系统,并融合长期积累的建模经验、烟草领域知识,共享网络软、硬件资源优势,实现近红外光谱分析自动化建模,这无论是对近红外光谱定性定量分析的普通用户,还是对近红外光谱数据进行深度挖掘的高级用户,均具有较好的便利性和实用性。

(3)基于云计算、边缘计算的化学计量学模式识别技术的质量属性、特征模式分析的网络搜索引擎设计与开发。其主要目的是利用近红外光谱构建的质量特征类模型,搜索网络共享资源(“中心云”或“边缘云”)中具有相近或相似质量特征的近红外光谱(样本),即在网络共享资源中“淘宝”,寻求在产品制造中烟叶原料的替代应用,保障产品质量的稳定。搜索引擎形式类似“百度”或“Google”,在利用类模型进行搜索时,具有较强的云计算或边缘计算功能。

(4)满足不同应用场景的APP、微信小程序、公众号等互联网+应用的设计与开发。其主要功能和目的是针对不同应用场景或职能部门,利用中心云数据或边缘云数据进行一些简单的在线统计分析计算,并对结果进行可视化展示,如原料生产部门可快速实现对烟叶质量指标的比较,分析烟叶质量的稳定性、质量变化趋势等。

猜你喜欢
计量学烟草光谱
基于三维Saab变换的高光谱图像压缩方法
基于CiteSpace的医药语料库文献计量学分析
高光谱遥感成像技术的发展与展望
针刺治疗失眠症的文献计量学分析
CORESTA 2019年SSPT联席会议关注新烟草、吸烟行为研究和雪茄烟
化学计量学在中药质量控制研究中的应用
烟草依赖的诊断标准
基于科学计量学的公安院校科研与评价
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究