褚小立,陈 瀑,李敬岩,刘 丹,许育鹏
(石油化工科学研究院,北京 100083)
现代近红外光谱(Near infrared spectroscopy,NIRS)分析技术起源于上世纪50年代末期,经过半个多世纪的发展,目前已达到较为成熟的水平,被广泛地用于农业、食品、石化和制药等领域,并在一些领域取得了规模化的应用成效[1]。
在谷物分析方面,目前全球约90%的小麦贸易基于整粒谷物近红外分析仪检测蛋白质含量进行。据统计,加拿大农业采用近红外光谱技术后(主要是对农作物的管理),稻米的产量每公顷提高约0.6吨,小麦的产量提高约1.1吨,小麦蛋白质含量提高约1%[2-3]。
在石化行业,在线近红外光谱已广泛应用于炼油企业。从原油调合、原油加工(原油蒸馏、催化裂化、催化重整和烷基化等)到成品油(汽油、柴油和润滑油)调合的整个生产环节,在线近红外光谱分析技术可为实时控制和优化系统提供原料、中间产物和最终产品物化性质等方面的信息,为装置的平稳操作和优化生产提供准确的分析数据,与优化控制系统结合,为石化企业带来了可观的经济和社会效益。在线近红外光谱分析也成为现代智能化炼厂的标志性技术之一[4]。
在制药领域,以近红外光谱为代表的现代过程分析技术可对制药过程的关键质量参数进行监控,以改进成品的质量并降低药品的制造成本,在欧美的一些大型制药企业得到了广泛推崇,取得了很好的应用效果[5]。
振动光谱基础理论、光谱仪器硬件和化学计量学是现代近红外光谱分析技术的3大支柱。近些年,近红外光谱技术在这3个方面均取得了显著进展。本文结合应用研究情况,就上述3个方面对近红外光谱分析技术的最新进展进行综述,并对未来发展趋势进行了展望。
由于化学键振动的非谐性,近红外光谱包含有丰富的化学键振动信息,但这些谱峰往往吸收较弱且重叠在一起,尽管可以通过传统的导数光谱或二维相关光谱对其归属进行初步解析,但仍很难深入地对其归属和强度进行完整的辨识和利用。近些年,随着分子模拟技术和计算机科学的发展,量子化学计算也被越来越多地用于近红外光谱的模拟计算。在这一基础研究方向上,日本的Ozaki教授和奥地利的Huck教授做了较多的工作[6-7],我国的吴志生教授也开展了相关的研究及应用工作[8]。例如,尽管甲醇分子中的化学键相对较少,但在近红外光谱中却拥有丰富的化学键振动信息,Ozaki 等采用量子化学计算对甲醇的近红外光谱进行模拟,得到了20余个倍频和组合频的吸收峰(图1),与实验得到的光谱有较好的吻合性[9]。采用量子化学计算还可以得到分子间氢键、分子内氢键、溶剂效应等对近红外光谱特征吸收峰频率和强度的影响。更为重要的是,通过量子化学计算可以指导多元定量和定性模型的建立,进一步阐明近红外光谱进行定量和定性的依据,为近红外光谱分析技术提供可靠的方法学基础[10]。
近红外光谱中含有丰富的羟基和氢键信息,近红外测量的对象如食品、谷物、烟草、聚合物、生物组织等都含有水,当加入扰动条件(如温度、压力、溶质等)时,水的近红外光谱会发生明显变化,变化的水光谱可以反映物质结构的改变或水与溶质之间的相互作用,在分子层面上获取丰富的信息。2006年,Tsenkova等在研究不同质量奶制品近红外光谱特征的基础上提出“水光谱组学(Aquaphotomics)”,开辟了一个新的研究领域[11]。水光谱组学通过研究体系中水的光谱信息在温度和溶质(种类和含量)等扰动下产生的变化,了解不同物质及含量对水结构产生的影响,再通过水的结构推断溶质的结构与功能,迄今水光谱组学取得了丰富的研究成果。我国邵学广教授基于温控近红外光谱技术,开展了多项水光谱组学的研究工作,例如采用化学计量学方法通过提取随温度变化的水光谱信息对溶质进行结构和定量分析[12]。臧恒昌教授将水光谱组学用于生物药物生产纯化过程中的水醇体系,提出了一种利用水光谱信息的变化定量分析发酵过程中低含量甲醇的方法[13]。
综上所述,采用量子化学计算、水光谱组学等手段可以从近红外光谱中挖掘出更多、更丰富的物理和化学信息,有望在很大程度上将传统的近红外光谱“黑箱模型”变为“灰色模型”,甚至“白色模型”。
由于近红外光谱区处于紫外可见光谱与中红外光谱之间,因此光谱仪有很多的分光方式,这为近红外光谱仪器的小型化和微型化带来了极大的便利。近红外光谱仪从车载台式(Benchtop)、便携式(Portable)、手持式(Hand-held),发展到袖珍式(Pocket-sized)和微型化(Miniature),用了不到10年的时间。表1给出了一些商品化的便携式、手持式和微型近红外光谱仪器及其性能指标[16]。近些年,一些公司致力于开发微型近红外光谱仪芯片,例如已有公司研制出外观尺寸为18 mm×18 mm,厚度为4 mm,重量小于10 g,范围为1 100~2 500 nm的微型光谱仪,其大小足以集成于智能手机和可穿戴设备中,而且将来的光谱仪会越来越小。杨宗银等[14]用一种带隙渐变的特殊纳米线替代传统光谱仪中的分光和探测元件,并在纳米线上加工出了光探测器阵列,将传统光学器件的尺寸缩小到纳米尺度。
表1 商品化的便携式、手持式和微型近红外光谱仪器及其性能指标Table 1 Commercial portable,hand-held and miniature NIR spectrophotometers and main specifications
(续表1)
近些年,便携式、微型光谱仪器在人们日常生活中的应用研究已初显端倪[15-16],多款概念产品纷纷亮相市场,例如智能洗衣机、红酒智能鉴别扫描仪、脱水监测智能手环、衣料鉴别仪等。近期,三星电子申请专利并在网站上展示了一种具有近红外光谱仪功能的智能手机,如图2所示。该手机的后部摄像系统顶部提供了一系列光源,照射物品后,手机镜头会接收反射信号,生成光谱数据。这种智能手机有望实现生鲜产品新鲜度和味道的测量,还可以探测其营养价值,例如脂肪、蛋白质和碳水化合物含量;也可用于测量皮肤的水油平衡状态、一杯饮料的含糖量,甚至有望直接参与医疗诊断过程。
微型近红外光谱仪芯片与机器人和无人机的结合越来越紧密。例如,目前已有商品化的塑料分选设备将机器人手臂与光谱仪结合用于废塑料种类的快速鉴别,以便更有效地对废塑料进行再利用。近红外光谱微型仪器与机器人的结合甚至可以实现完全无人的智能化分析实验室:从取样到数据的报出完全由机器人操作,并可以全天候工作,显著提高分析效率。
近红外光谱成像仪器的小型化和便携式也得到了快速发展,如表2所示,有近20家制造商研制生产小型化和便携式的近红外光谱成像仪器,但目前还主要集中在短波区域。如表3所示,近红外光谱成像技术在环境、地质、食品、生物医学、医药、考古与文物、公安与法学、反恐技术等领域有着广泛的应用潜力[17]。
表2 商品化的小型和手持式近红外光谱成像仪器及其性能指标Table 2 Some commercially available small,hand-held hyperspectral imagers and their specifications
(续表2)
表3 低成本便携式及手持式光谱成像仪潜在的应用领域Table 3 Possible applications for low-cost portable and handheld spectroscopic imaging
近些年,多谱学仪器的组合和融合是另一个显著的研究热点[18-19]。例如,拉曼光谱仪器与中红外光谱仪器的组合,激光诱导击穿光谱(LIBS)仪器与拉曼光谱仪器的组合,中红外光谱仪器与近红外光谱仪器的组合,还有各种谱学成像仪器的组合等,这样一台小型或微型的仪器便可获取更多、更丰富的物质成分信息。这些融合或组合式的谱学或成像仪器已有商品化的产品。
近红外光谱仪器和成像仪器的微型化无论从成本、性能还是应用场景上都将会带来重要的变革。由于数据存储和计算速度等原因,上述这些光谱仪和光谱成像仪的应用场景将来会得益于5G通讯、深度学习和云平台等技术的发展,成为物联网构建中的关键组成元素和重要节点。
近红外光谱与化学计量学是一对孪生技术,两者在相互促进中不断发展。在近红外光谱分析中用到的化学计量学方法主要有光谱预处理算法、多元定量校正算法、定性模式识别算法和模型传递算法等,其中光谱预处理算法中包含了波长变量的选择算法,另外,在光谱成像中还会用到多维光谱数据解析。
在光谱预处理方法中,外部参数正交化算法(EPO)和广义最小二乘加权算法(GLSW)得到了较为广泛的重视[20-21],这两种算法可在一定程度上消除水分或温度对光谱的影响。光谱波长变量筛选算法一直是研究的热点,以竞争性自适应重加权算法(CARS)为代表的基于模型集群分析的变量选择方法受到最为广泛的关注,梁逸曾教授在该方面做了大量的研究工作[22]。今后,在提高波长变量选择的稳定性、可靠性和可解释性等方面还应更深入地研究,与光谱量子化学计算等基础研究相结合有可能是新的研究方向。
近些年,以卷积神经网络(CNN)为代表的深度学习算法开始用于近红外光谱定量和定性模型的建立[23-25]。如图3所示,与传统机器学习方法相比,卷积神经网络可以通过多个卷积层和池化层逐步提取蕴藏在光谱数据中的微观特征和宏观特征,在一定程度上降低建模前对光谱的预处理和变量选取工作,减少建模的工作量。深度学习算法在光谱分析中的应用研究刚刚开始,还有诸如网络规模、参数的优化选择、过拟合、模型的可解释性等问题仍值得进一步研究。深度学习中的迁移学习(Transfer learning)、域适配(Domain adaptation)和多任务学习(Multi-task learning)等策略有望为模型传递提供新思路,在一定程度上解决定量和定性模型在不同仪器上的通用性问题。
图3 卷积神经网络的结构示意图Fig.3 Architecture of a convolutional neural network
随着各应用领域大型近红外光谱数据库的建立,建模策略将会变得越来越重要。传统的集成(或共识)建模策略和基于局部样本的建模策略将得到进一步发展,在提高模型预测稳定性和准确性方面发挥重要作用[26]。
值得一提的是,尽管不断出现新的有效的化学计量学算法,但与仪器配套的计算软件的功能往往升级不及时,这一问题有望通过云计算服务平台的推广应用得以解决。
目前,流程工业正处于从传统生产模式向精确数字化、智能化现代生产模式转变的时期。信息深度“自感知”、智慧优化“自决策”和精准控制“自执行”是智能工厂的3个关键特征,其中信息深度“自感知”是智能炼厂的基础。原料、中间物料和产品的分子组成和物性分析数据是信息感知的重要组成部分,以近红外光谱为核心之一的现代过程分析技术为化学信息感知提供了非常有效的手段。
例如在石化企业,以汽油管道自动调和技术为例,目前在线近红外光谱分析仪已成为该技术的标配[27]。经过十余年的积累,我国已经建立了较为完善的汽油近红外光谱数据库,能够在10 min之内预测出近10种组分汽油和成品汽油的多个关键物性(研究法辛烷值、抗爆指数、烯烃、芳烃、苯、MTBE含量、蒸气压等),调合优化控制系统则利用各种汽油组分之间的调合效应实时优化,计算出调合组分之间的相对比例,即调合配方,保证调合后的汽油产品满足质量规格要求,并使调合成本和质量过剩降低到最小。这项技术每年可为炼油企业带来上千万元的经济效益。
再例如在饲料生产企业,随着市场竞争的日趋激烈,低成本的原料投入、稳定的产品质量、低的加工消耗成为市场中稳定生存的关键。采用在线近红外光谱分析技术可以实时检测原料、过程产品及成品的品质参数(例如水分、蛋白、粗纤维、含油量、灰分、颜色等),通过优化控制系统根据实时产品质量及目标产品的质量进行生产过程的精细闭环调整,保证成品饲料质量的稳定性,实现产品收率和质量最优化,在规模生产方面为企业带来更多的经济效益。
在线近红外光谱技术在食品、制药和化工等领域的应用大幕在我国刚刚拉开,这是顺应精细化管理和智能化加工的大趋势,将会给流程工业带来变革[28-29]。在今后的很长一段时间内,在线近红外光谱技术在流程工业领域应用稳定向好的基本面不会发生改变。此外,在废塑料、纺织物及果品在线筛选领域,在线近红外光谱技术的应用也将越来越广泛。
在线近红外光谱技术的实施是一项多学科交叉的系统工程[30-31],需要多部门的协同合作,后续的运维也需要专业的团队执行。在在线近红外光谱技术的推广方面,本土定制化的设计、制造、实施和运维具有较强的优势,我国相关企业应利用自身的技术优势,合理组合各种资源,在不同领域打造出多支有实力、有特色的研究和应用团队。
国内外近红外光谱(含光谱成像)应用类的综述文献已有近百篇,其中有谷物、肉类、牛奶、食用油、水果、土壤、木材等大领域的综述文章[1],也有一整条产业链(例如红酒产业链,从葡萄栽培土壤、葡萄生长管理、发酵到成品品质的检测等)的综述文章[32]。近些年的综述文章已逐渐聚焦到更细分的应用对象上,例如橄榄油、咖啡、土豆等,甚至有综述论文引用近百篇文献专门评述近红外光谱用于监测储粮中虫害的应用进展[33],这说明近红外光谱的应用研究已进入了新阶段,逐渐向细分应用领域发展。
近红外的应用研究和实际应用取得了丰硕成果,以我国标准方法为例,目前已制订颁布了几十项涉及近红外光谱分析技术的标准方法(包括国家、行业、团体和地方标准)[34],也有多项标准正在制订中,说明这项技术已经得到了较为广泛的认可,有望在实际应用中加快普及的步伐。
从应用发展方向来看,农业、食品和制药领域近红外光谱的研究依旧是热点,尤其是近红外光谱成像技术的应用研究更为突出[35-37];在林业、再生能源和化工等领域的应用研究也得到了持续关注;在刑侦、生物医学和临床诊断方面的应用研究亦从未停止。但近红外技术在上述领域较大规模的实际应用尚需时日。
从微电子机械系统(MEMS)制造工艺、大数据、深度学习算法、云计算平台、物联网等技术的发展可以看到其对近红外光谱分析技术的推动力量,从工农业生产、服务业和人们日常生活等方面的发展可以看到其对近红外光谱分析技术的需求牵引力量。在这两种力量的作用下,未来一段时期内,近红外光谱技术将会得到加速发展,以近红外光谱为核心的商业产品将在不同业务领域进一步提供深化和细化的服务,近红外光谱有望成为与时代发展特征(如大数据、云计算和物联网等)最相关的一项分析技术。
尽管近红外光谱分析技术的应用前景广阔,但仍有一些技术壁垒和难题需要攻克。例如,目前光谱数据库或模型的仪器供应商依赖(Vendor lock-in)问题,即各厂商的仪器之间存在的台间差异,使其普适性的应用迁移变得困难,需要从仪器标准化、算法和软件等多方面协同努力方能得以解决。再例如,无论是传统的机器学习算法还是深度学习算法,都是在有监督学习的框架下建立定性或定量分析模型。所谓有监督学习就是每个训练集样本是带有标签的,即每个样本的光谱对应着一组参考值(真实的浓度值或类别)。随着近红外光谱技术的广泛应用,将产生大量无标签的光谱资源,这些光谱没有对应的参考值,因此,如何充分利用大量无标签的样本信息进行半监督或无监督分析模型的构建,有可能是未来很值得研究的新方向。