基于机器学习联合网络爬虫算法的果汁鉴伪技术的研究进展

2022-02-17 12:20:40SUNYong王译霄宣晓婷张熙悦邓文艺靳欢凌建刚
关键词:代谢物果汁组学

SUN Yong,王译霄,宣晓婷,张熙悦,邓文艺,靳欢,凌建刚

1.宁波诺丁汉大学化工与环境工程学院,宁波 315100;2.宁波市农业科学研究院/国家蔬菜加工技术研发专业中心/宁波市农产品保鲜工程重点实验室,宁波 315400;3.湖南一品东方生物科技有限公司,长沙 410000

果汁是以水果为原料,经压榨、离心、萃取等物理方法得到原汁后再经加工制成,其富含维生素、矿物质、糖分和果胶等营养素[1-2]。根据不同的加工方式,可将果汁分为非浓缩还原型和浓缩还原型果汁,目前市场上大多数纯果汁都是浓缩还原型果汁[3-5]。此外,相较部分发达国家,我国纯果汁的市场份额占5%以下,因此,果汁市场具有巨大的发展潜力与前景。

受到西方饮食习惯以及健康理念的影响,在我国果汁产品逐渐受到人们喜爱。果汁行业较水果零售业具有更高的附加值,可以有效解决部分水果保鲜期短、运输成本高等缺点。由于经济利益驱动,果汁掺杂、掺假等现象层出不穷[3,6]。这些掺假手段包括:兑水稀释、添加外源糖、果渣以及其他果汁勾兑、使用低劣果汁掺假[7]。这些掺假手段除了使消费者的经济利益受损外,还可能对消费者造成严重的健康危害。因此,各国都在积极制定相应的政策法规以完善果汁生产工艺和品质控制。目前,果汁鉴伪技术主要有3个难点:一是水果种类的多样性;二是地域性差异;三是不同储存和处理技术的差异性等,导致果汁鉴伪的检测流程长、手段复杂、费用高昂等问题[8]。随着代谢组学技术的发展,目前已有研究将代谢组学应用于果汁鉴伪中,根据研究目的不同,可分为靶向代谢组学和非靶向代谢组学,其中靶向标记法是针对某个或某一组特定的靶向化合物进行检测,通常包括氨基酸、有机酸、寡糖、多糖以及单糖等[9]。该方法最大优点在于能够相对准确和定量检测出小分子代谢产物,为果汁鉴伪以及确定果汁产地提供可靠的参考依据[8,10]。而非靶向标记法主要是通过检测果汁内的代谢产物的变化来鉴定真伪,如以未掺假的果汁作为基准,掺假果汁中代谢成分的分解与转化呈现不同趋势,进而实现鉴伪。

本文借助计算机机器学习联合网络爬虫算法检索文献,总结近年来国内外主要的果汁鉴伪技术的研究与应用进展,分析其优势和不足,并着重阐述基于代谢组学的非靶向/靶向标记法在果汁鉴伪中的应用,以期为果汁鉴伪技术研究提供参考。

1 网络爬虫算法与数据统计

网络爬虫是模拟浏览器发送网络请求,按照特定规则自动抓取互联网信息的程序。利用爬虫技术对文献进行抓取,可得到互联网上所有公开学术文献信息,并可批量下载。与传统文献检索方式相比,使用爬虫算法检索可以节省文献获取时间,显著提高工作效率。

本文主要对几大主流数据库网站(谷歌学术 Google academic、Scopus、Springer、MDPI等)进行收集,由于数据量巨大,我们使用了独立研发的基于网络爬虫和数据分析算法的模型,该算法抓取数据、验证数据的流程如图1A所示。使用关键词包括adulteration、authenticity、biomarker等。所有文献都将通过自动和手动双验证以达到最大限度相关性。目前数据相关性可达90%以上[11-12]。根据文献内容,可分为五大类即农业生物类(ABS)、化学类(CH)、工程类(EN)、生物化学类(BIO)以及医药类(Med)。由图1B可见,2016年至今,有关果汁鉴伪的学术文章基本保持每年150篇左右。从学科分类上看,果汁鉴伪技术主要出现在农业与生命科学领域,每年的分布都在30%以上,与农业食品安全有着紧密联系。因此,果汁鉴伪与安全保障仍将是近年的研究热点。

Med:医学Medical;BIO:生物化学Biochemistry;EN:工程学Engineering;CH:化学Chemistry;ABS:农业和生物科学Agricultural and biological sciences.

2 常用鉴伪方法

表1列举了七大类不同的检测方法。物理化学法是利用果汁中的特征组分来确定是否存在掺假,但存在一定局限性,如在加工过程中添加此类组分所导致的鉴伪精确度低,另外该方法也易受到品种、产地、成熟度及种植条件等因素的影响。光谱分析在果汁鉴伪中也有较多应用,其具有检测速度快、无损、测量方便和重复性佳等优点。Vardin等[13]研究发现FTIR技术结合PCA分析可以鉴别石榴浓缩汁中掺假葡萄浓缩汁。León等[14]借助近红外光谱检测苹果汁中掺糖情况,鉴伪度在91%~100%。核磁技术虽然需要较长的分析时间、样品处理繁杂且成本高,但其通过18O/16O、2H/1H、13C/12C这些特征比率定量分析,所得的鉴伪精确度较高。此外,基于水果指纹DNA的检测方法通常具有较好的特异性[14],在进行分析之前,需要对指纹DNA进行PCR扩增,并利用水果物理化学性质的不同进行鉴伪,但通常该方法的鉴伪度不高,一般可以达到25%。目前PCR技术已在苹果汁、橙汁、梨汁等果汁鉴伪中进行应用。Morton等[15]借助PCR技术和琼脂糖凝胶电泳分析苹果汁的特征基因图谱,实现了苹果汁的PCR鉴伪。同样有研究报道成功从橙汁中鉴别柑橘汁,其变异系数仅为2.5%[16]。研究表明,以DNA为基础的PCR技术具有灵敏度高、条件易优化等优点[17],但其劣势在于果汁样品中DNA的含量较低,且加工方式会影响其含量,从而不利于PCR技术的应用。综上,每一种分析检测方法都各有利弊,相应的鉴伪度高低差别较大,未来将沿着不同检测方法的耦合方向发展,为果汁鉴伪开发出更高效、准确的检测技术和分析方法。

表1 果汁鉴伪主要方法 Table 1 Comparison of different detection methods

3 代谢组学在果汁鉴伪中的应用

代谢组学作为现代食品科学研究的重要技术手段,在食品鉴伪中已逐渐开展应用研究。利用核磁共振(NMR)、质谱(MS)、色谱(HPLC、GC)及联用技术,对分子质量<1 ku的代谢物进行定量定性分析以达到物种鉴定的目的[27]。根据研究目的不同,代谢组学分为靶向代谢组学(靶向标记法)和非靶向代谢组学(非靶向标记法)。靶向标记法是对特定代谢物进行针对性、特异性的检测与分析,而非靶向标记法则是对有机体内源性代谢物进行全面、系统的分析。两者有机结合可以更好地发现差异代谢物并进行定量分析。

3.1 靶向标记法

因水果种类、地域、品种和代谢途径等不同,水果内部的物理化学性质也有所不同,使其呈现出独特的性质,从而赋予水果不同的特性。在果汁鉴伪过程中,精准、快速地分辨其代谢成分的变化是至关重要的。靶向标记法能够对果汁化学成分进行深入分析,是其中应用最为广泛的检测方法之一。但是该方法的分析过程较为复杂,同时要求找到足够的生物活性物质作为标记,这些不利因素也从不同程度上限制了其在品控和检测上的大规模应用。

表2总结了不同果汁中的生物活性物质。从表2可以看出,不同果汁呈现出不同的生物标记物,以2-甲基丙基-乙酸为例,其广泛存在于苹果汁中,但在其他类型的果汁中含量较低,可用于苹果汁的鉴别。然而仅以2-甲基丙基-乙酸作为特征生物标记物会影响准确度。因此,增加生物标记物的数量和种类可最大限度降低误差,但也导致分析方法不可避免的复杂化,从而难以统一标准化。因此,利用通用方法和特异性方法联合鉴伪是未来发展趋势。首先使用相对快速、经济的通用方法进行初筛,之后再使用特异性方法对初筛样品进行针对性的特异性分析。

3.2 非靶向标记法

非靶向标记法是指采用 LC-MS、GC-MS、NMR技术,无偏向性地检测受体体内受到刺激或扰动前后所有小分子代谢物(分子质量1 ku以内)的动态变化,并通过生物信息学分析筛选差异代谢物,对差异代谢物进行通路分析,揭示其变化的生理机制。相较于靶向标记法,非靶向标记法重在发现差异代谢物,可以定性及相对定量分析,操作简便、成本较低。开发非靶向标记方法是靶向标记方法的重要补充。由于靶向标记方法的诸多限制,开发更为有效和简便的分析方法显得尤为重要。现代高分辨率质谱以及分离技术如超高压液相色谱等技术的发展,使非靶向标记方法得以长足的发展。结合数据挖掘以及多维化学计量分析技术,非靶向标记方法可以更准确而高效地分析果汁化学成分。Jandric 等[41]研究发现采用超高效液相色谱-四级杆串联飞行时间质谱(UPLC-QTOF/MS)联用技术可快速检测果汁中掺杂低劣果汁。刘晗璐等[42]同样利用UPLC-QTOF/MS技术实现了NFC和FC橙汁的区别,为NFC果汁的品质鉴伪提供了新思路。

表3统计了非靶向标记法在不同果汁鉴伪中的应用。以花青素为例,由于花青素是细胞内重要的抗氧化剂,在果汁加工和贮藏中,花青素将出现不同程度的代谢与降解[43-44]。如果出现人工掺杂,花青素含量也会出现异常水平,从而为鉴伪提供很好的标记[45]。此外,非靶向标记方法能够找到果汁种类以及产地的相关性,因为不同产地的水果其所处生长环境不同,其代谢产物也呈现出细微的变化。除了主要代谢产物,水果中的次级代谢产物(醛、阿魏酸等)也可作为标记物。实践表明,使用非靶向标记法所找到的标记物与已知标准物联合对果汁进行鉴伪,通常准确率都较高。由表3可见,在标记物中,依据水果的种类、产地以及因呼吸作用引起的次级代谢,非靶向分析方法可以相对快速和准确地确定不同果汁的指纹图谱。与靶向标记法相比,目前非靶向标记法的研究也呈现逐步上升的趋势。2020-2021年,从Scopus发表的论文数量上看,平均每年的发表数量在30篇(https://www.scopus.com/)。非靶向标记方法因其分析过程相对快速和高效,正在逐步成为靶向标记法的有力辅助手段。

表2 不同果汁中的生物标记物 Table 2 Biomarkers in different fruit juices

表3 非靶向标记法在不同果汁鉴伪中的应用 Table 3 Application of non-targeted labeling method in the authentication of different fruit juice

此外,随着现代高分辨率质谱以及分离技术的快速发展,在果汁鉴伪中将产生大量的数据,因而统计学方法显得尤为重要。在众多的统计分析方法中,ANOVA是在不同领域应用最为广泛的数理统计方法,通过ANOVA分析,可以初步找到参量变化对于响应结果是否具有统计显著性[11]。偏最小二乘回归(PLS)法通过投影预测变量和观测变量得到一个新空间来建立一个线性回归模型,目前在靶向和非靶向代谢组学中得到广泛应用[52]。基于非相似性的偏最小二乘回归(DPLS)是在偏最小二乘回归的基础上发展起来的统计分析方法,其最大特点是能够达到对主成分的回归[53]。此外,主成分分析(PCA)作为一种统计分析、简化数据集的方法而广泛应用于数据处理[37]。俞邱豪[54]在小浆果类果汁鉴伪过程中,通过对果汁中化学成分进行PCA分析得到32种特征标记化合物可用于区别浆果类果汁。HCA和PCA最大的优势在于无监督学习。这对于机器学习和数据挖掘具有非常重要的意义[12]。综上所述,基于果汁样品的自身复杂性,使用单一的统计数据方法往往会带来较大误差,目前通用的方法是联合使用这些统计分析方法,从而避免单一统计方法带来的系统性误差。此外,随着人工智能技术的不断迭代,基于非监督型的机器学习统计工具将可能成为未来全自动化果汁鉴伪技术开发的核心,这也对果汁鉴伪的整体算法建立和优化提出了新的要求。随着计算机算力和分析设备检测限的不断提高,全自动无人监督的果汁鉴伪技术将成为未来的发展趋势。

4 结论与展望

随着社会和科技的快速发展,人们对绿色、健康、方便的理念越来越重视,在巨大的经济利益驱动下,果汁掺杂、掺假等问题严重,亟需高效、可靠、简单的果汁鉴伪技术。相较于传统鉴伪技术,代谢组学是针对生物代谢物对样品进行检测,具有精确、可定量等优势,适合果汁等深加工产品的鉴伪。其中非靶向标记法因其相对快速和高效的分析手法,正在逐步成为靶向标记法的有力辅助,在果汁鉴伪领域的应用具有巨大潜力。基于果汁样品的产地、品种、加工和保存方式的多样性、复杂性,使用单一的鉴伪技术往往会出现假阳性和假阴性现象,需要深入研究以加强代谢组学技术在复合果汁检测中的适用性。此外,随着数据挖掘和计算机技术的不断更新迭代,基于非监督型的机器学习统计工具如PCA、HCA等将可能成为未来智能化果汁鉴伪开发的核心。这也对果汁鉴伪技术整体算法的建立和优化提出了新的要求。未来应沿着不同检测方法的耦合方向,为果汁鉴伪提供准确率高的分析方法。

致 谢衷心感谢伦敦大学学院化学工程系刘奕杨教授协助算法编程与数据收集,感谢宁波诺丁汉大学英语语言教育中心杨善如教授协助论文撰写,感谢宁波诺丁汉大学化工与环境工程学院何俊教授、中国科学院过程工程研究所王云山和杨刚教授对本文提出的宝贵修改意见。

猜你喜欢
代谢物果汁组学
阿尔茨海默病血清代谢物的核磁共振氢谱技术分析
不健康的果汁
军事文摘(2020年22期)2021-01-04 02:16:50
可以吃的果汁杯
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
失忆果汁
喝果汁
启蒙(3-7岁)(2016年9期)2016-02-28 12:26:53
柱前衍生化结合LC-MSn分析人尿中茶碱及其代谢物
代谢组学在多囊卵巢综合征中的应用
HPLC-MS/MS法分析乙酰甲喹在海参中的主要代谢物
质谱学报(2015年5期)2015-03-01 03:18:37