谢媛媛,苏加坤,应旭辉,罗娟敏,王义明,邵灯寅,罗国安,蔡继宝*
(1.清华大学 化学系,北京 100084;2.江西中烟工业有限责任公司,江西 南昌 330096; 2.珠海清大弘瑞生物科技有限公司,广东 珠海 519085)
研究报告
基于人工智能技术的烟气暴露大鼠代谢生物标志物筛选方法研究
谢媛媛1,苏加坤2,应旭辉1,罗娟敏2,王义明3*,邵灯寅2,罗国安1,蔡继宝2*
(1.清华大学 化学系,北京 100084;2.江西中烟工业有限责任公司,江西 南昌 330096; 2.珠海清大弘瑞生物科技有限公司,广东 珠海 519085)
该研究将主成分分析、偏最小二乘判别分析等多元统计分析方法用于烟草血浆、尿液和肺组织代谢组学数据的分析,以揭示暴露于不同烟气中大鼠血浆、尿液和肺组织中内源性生物标志物的整体变化情况,筛选潜在生物标志物;将血样、尿样和肺组织代谢轮廓谱分析得到的生物标志物进行整合,运用神经模糊网络模型对标志物进行缩减,并用人工神经网络评价模型预测能力,确定烟气暴露不同时间(7,14,30 d)以及不同烟气暴露对大鼠内源性代谢物变化影响“因果效应”密切相关的关键生物标志物群,明确不同烟气对大鼠机体损伤机制的异同。
人工神经网络;模糊逻辑;代谢组学;烟气暴露;关键生物标志物群
代谢组学是表征生物体内源性代谢物的整体及其受内在或外在因素影响的科学,采用恰当的数据分析方法,从基于质谱或核磁共振波谱的代谢组学研究中获取的内源性小分子化合物的“海量”信息中发掘有用信息是代谢组学研究的重要内容之一[1-2]。
多元数据分析技术是目前代谢组学研究中的常用方法,但主成分分析(PCA)、偏最小二乘(PLS)和偏最小二乘判别分析(PLS-DA)等目前广泛应用的数据处理技术对多类(类别≥3)样本进行同时分类和预测的能力较差,限制了代谢组学研究在临床疾病诊断或疗效评价上的应用。此外,通过质谱检测得到的代谢物的质谱响应变化与真实浓度及其最终的生理变化之间是非线性的关系,而目前常用的多元统计分析技术多为线性的数据处理方法,势必会造成有用信息的丢失,得到错误结果。针对这些问题,学者们开始探索新的数据分析技术。目前支持向量机(SVM)[3]、模糊c均值(Fuzzy c-means)[4]和人工神经网络(ANN)[5]等不同特点和功能的数据处理方法均已被用于代谢组学的研究,在一定程度上改善了分类结果模糊的问题,并应用于很多医药领域,例如药物制剂、临床疾病诊断等[6-7]。被称为“灰箱”模型(Grey box model)的神经模糊逻辑(Neurofuzzy logic)[8],结合了神经网络的适应性学习能力和模糊逻辑(Fuzzy logic)的普遍表达能力,可用以解释输出变量得到的过程,在一定程度上解决了神经网络的“黑箱”问题。
本研究结合神经模糊逻辑和神经网络模型各自的优势,提出“运用神经模糊逻辑模型对潜在生物标志物进行缩减,并用人工神经网络对模型预测能力进行评价”的代谢组学生物标志物发现方法,对前期烟气暴露大鼠血浆、尿液和肺组织代谢轮廓谱分析获取的生物标志物进行整合分析,筛选了不同烟气暴露对大鼠内源性代谢物变化影响“因果效应”密切相关的关键生物标志物群,以期明确不同烟气对大鼠机体损伤机制的异同。
1.1 试剂与仪器
LC-MS级乙腈和HPLC级甲醇购自美国Fisher公司,甲酸购自Acros公司(纯度98%,比利时)。亮氨酸-脑啡肽(纯度≥97%,Leucine-enkephalin,LE)标准品购于Sigma公司。超纯水(18.2 MΩ)由本实验室Milli-Q超纯水系统(Millipore,Bedford,MD,USA)制备。Waters AcquityTM超高效液相色谱系统(Waters,Millford,MA,USA),配备高压二元梯度泵、可控温自动进样器(最低4 ℃)和二极管阵列检测器。质谱检测器为Waters Premier TOF飞行时间质谱仪(Waters,Millford,MA,USA),配有ESI电离源接口和Lock-spray接口。
1.2 动物实验及样本分析前处理
1.2.1 动物实验 90只Wistar大鼠分成 3组(对照组、吸食普通卷烟组和吸食某品牌卷烟组),每组30只,每组再分成3个小组,每个小组10只,分别烟气暴露7,14,30 d。普通卷烟和吸食某品牌卷烟组均由江西中烟工业有限责任公司提供。烟气暴露在特制的装置内进行。每只大鼠每天分别暴露20 min,吸烟时烟气浓度采用阻挡法,阻挡率设置为70%,控制温度为(22±2)℃,湿度保持在(21±0.5)%,氧气浓度保持在(21±0.5)%,压力为(101 325±40)Pa。在烟气暴露7,14,30 d时,给大鼠称重,在代谢笼中收集大鼠24 h的尿液,经麻醉后在肝门静脉处取血约6~8 mL,放入经肝素钠处理过的 10 mL 离心试管中,迅速在3 000 r/min下离心10 min,取上层血浆。各生物样品在-80 ℃下保存。同时取大鼠肺组织,用生理盐水洗净并用滤纸吸干水分,称重,于-80 ℃下保存。
1.2.2 生物样本前处理 取冻融后的样品100 μL,加入400 μL甲醇,涡旋1 min,充分混匀以沉淀蛋白,之后在4 ℃下13 000 r/min离心15 min,取上清液并加入300 μL超纯水稀释,用0.22 μm滤膜过滤。
取冻融后的肺组织样品,按1∶3(g/mL)加入生理盐水进行匀浆。取200 μL匀浆液,加入600 μL甲醇,涡旋2 min,4 ℃下10 000 r/min离心15 min,取上清液过0.22 μm滤膜。
质量控制(QC)样品的制备:将烟气暴露14 d的所有待测大鼠血浆样本取出等量部分混合均匀后,按样品处理方法处理;尿样、肺组织QC样品的制备同血浆样本。
1.3 UPLC/Q-TOF-MS测定条件
色谱分离采用Waters公司AcquityTM-BEH C18反相分析柱(100 mm×2.1 mm,1.7 μm i.d.,Waters,MA,USA),柱温为40 ℃,流速为0.4 mL/min。自动进样器温度设定4 ℃,每次进样4 μL。流动相:A为纯乙腈;B为0.1%甲酸水溶液,采用梯度洗脱方式洗脱样品,各样品梯度设置如下:①血样:0~3 min,5%~50%A;3~7 min,50%~60%A;7~10 min,60%~70%A;10~14 min,70%~95%A;14~17 min,95%A;17~19 min,95%~5%A;19~24 min,5%A;②尿样:0~8 min,5%~50%A;8~10 min,50%~95%A;10~13 min,95%A;13~15 min,95%~5%A;15~19 min,5%A;③肺组织:0~2 min,20%~55%A;2~11 min,55%~75%A;11~12 min,75%~95%A;12~15 min,95%A;15~16 min,95%~20%A;16~19 min,20%A。
质谱为电喷雾离子源(ESI),分析采用V模式,在负离子模式下采集数据。检测参数设置如下:脱溶剂气流量600 L/h,脱溶剂气温度350 ℃,锥孔气流量40 L/h,离子源温度120 ℃,毛细管电压2 500 V,锥孔电压30 V。质谱扫描范围为100~1 500m/z,扫描时间0.2 s,扫描间隔0.02 s。采用2 ng/mL亮氨酸-脑啡肽(Leucine-enkephalin,LE)溶液为锁定质量校准液进行实时质量校正,质量校准选择“DRE”模式,流速2 μL/min。质量轴校准采用甲酸钠溶液(0.05 mol/L)进行。
1.4 数据处理
质谱数据处理采用Waters公司Markerlynx软件(Waters,MA,USA)进行色谱峰自动识别和峰匹配,然后将所得数据导入SIMCA-P软件(Umetrics AB,Ume.,Sweden)进行多元统计分析。采用PCA观察样本的聚集、离散状态以及离群点。采用有监督的PLS-DA判定造成这种聚集和离散的主要差异变量,根据变量权重值(VIP)找到与吸烟密切相关的差异表达代谢物。运用MassLynx软件中的i-Fit功能,对所筛查到的具有差异的代谢物进行分析,计算其可能的分子式,再结合得到的精确质量数,在数据库(如KEGG,http://www.genome.jp;HMDB,http://www.hmdb.ca)中检索以鉴定标志物。
1.5 人工神经网络
将代谢组学研究获取的血浆、尿液和肺组织中潜在生物标志物的数据及其包含的样本按组别顺序排列,属于同一组别的样本有同样的组别号,然后将代谢组学数据中的代谢物信息定义为输入变量(全局变量),将样本的组别号定义为输出变量;使用模糊逻辑和神经网络的软件FormRules(Intelligensys Ltd,UK),对所有数据进行分析,建立模糊逻辑模型(NeuroFuzzy logic model),筛选出对模型建立贡献较大的变量集合(缩减变量),采用人工神经网络软件INForm(Intelligensys Ltd,UK)建立人工神经网络模型(ANN model),比较全局变量与缩减变量的预测准确率,当缩减变量与全局变量的准确率相当时,认为缩减变量集合可以代表全局变量的信息,即为潜在生物标志物[9]。
2.1 代谢轮廓谱分析结果[10-11]
运用液相色谱-质谱联用技术的代谢组学方法研究了含有天然本草添加剂卷烟对大鼠代谢的影响。分别分析了烟气暴露7,14,30 d时空白组大鼠、吸食普通卷烟大鼠及吸食含有天然本草添加剂的某品牌卷烟大鼠的血浆、尿液和肺组织样本,并采用偏最小二乘判别分析(PLS-DA)对数据进行模式识别,分别获取能够表征各烟气暴露时期大鼠血浆、尿液和肺组织损伤程度的潜在生物标志物,如表1所示。
表1 烟气暴露大鼠血浆、尿液和肺组织中损伤生物标志物
(续表1)
No.Potentialbiomarkers(trend)RelatedpathwaySample13Methylhippuricacid(↑)∗Fattyacidbeta⁃oxidationUrine14Cresolsulfuricacid(↓)Urine15Benzoylphosphoricacid(↑)EnergymetabolismUrine16LysoPE(16∶0/0∶0)(↑)PhospholipidmetabolismLung17LysoPC(16∶0)(↓)∗PhospholipidmetabolismLung1820⁃Hydroxyeicosatetraenoicacid(↑)ArachidonicacidmetabolismLung19PG(18∶3/20∶3)(↓)PhospholipidmetabolismLung20Palmitoleicacid(↑)∗FattyacidsmetabolismLung21Docosahexaenoicacid(↑)FattyacidsmetabolismLung22Arachidonicacid(↑)∗ArachidonicacidmetabolismLung23Linoleicacid(↓)∗LinoleicacidmetabolismLung24Docosapentaenoicacid(↓)FattyacidsmetabolismLung25Palmiticacid(↑)∗FattyacidsmetabolismLung26Oleicacid(↑)∗FattyacidsmetabolismLung
“↑”:up regulated;“↓”:downregulated,compared with normal control group;* :confirmed with reference substances
2.2 神经模糊网络模型参数的优化
为了得到最优的缩减模型,找出重要的标志物,需对模型参数进行优化,以烟气暴露7 d的样品为例(图1),通过对交叉验证(CV)、结构风险最小化(SRM)、留一验证(LOOCV)、贝叶斯信息标准(BIC)和最小描述长度(MDL)等模型参数进行优化,其中Model-2(SRM模型)和Model-5(MDL模型)得到了相同的缩减标志物,且R2值均为最高,说明通过本模型得到的5个缩减生物标志物可表征烟气暴露7 d时对大鼠内源性代谢物的损伤。
图1 烟气暴露7 d大鼠血液生物标志物的神经模糊网络模型参数优化
2.3 神经模糊网络模型的建立及人工神经网络对模型预测能力的评价
2.3.1 烟气暴露7 d生物标志物的ANN分析结果 烟气暴露7 d标志物缩减神经网络模糊模型给出了5个重要标志物,其变量贡献率为所有标志物的98.91%。该5个标志物是血x2、血x5、血x7、肺x11、尿x1,分别为花生四烯酸、油酸、LysoPC(20∶4)、PG(18∶3/20∶3)和柠檬酸。从subModel-1的规则来看,血浆中生物标志物油酸的水平与尿液中生物标志物柠檬酸的水平和肺组织中磷脂类生物标志物PG(18∶3/20∶3)的水平具有相关性,对分组(Y)有贡献。从模型预测结果来看,所有变量集平均R2为85.1,缩减变量集平均R2为88.4,因此缩减变量略优于所有变量。
2.3.2 烟气暴露14 d标志物的ANN分析结果 烟气暴露14 d标志物缩减神经网络模糊模型给出了6个重要标志物,其变量贡献率为所有标志物的93.71%。该6个标志物是血x2、血x5、肺x10、肺x11、尿x1和尿x4,分别为花生四烯酸、油酸、二十二碳五烯酸、PG(18∶3/20∶3)、柠檬酸和3-羟基-3甲基-2-羟基吲哚。与烟气暴露7 d的缩减变量相比,少了1个LysoPC(20∶4),而多了二十二碳五烯酸和3-羟基-3-甲基-2-羟基吲哚。前者是亚麻酸的氧化产物,组织受损后含量减少,与多种疾病(如冠心病、糖尿病)相关;后者的含量在吸烟组中均有不同程度降低,其降低与氧化损伤相关,可能是烟气暴露14 d后体内氧化损伤程度进一步加重。从模型预测结果来看,所有变量集平均R2为89.4;缩减变量集平均R2为88.1,缩减变量与所有变量相当。
2.3.3 烟气暴露30 d标志物的ANN分析结果 烟气暴露30 d标志物缩减神经网络模糊模型给出了7个重要标志物,其变量贡献率为所有标志物的96.05%。该7个标志物是血x2、血x3、血x6、肺x10、尿x1、尿x2和尿x3,分别为花生四烯酸、LysoPC(16∶0)、LysoPC(18∶2)、二十二碳五烯酸、柠檬酸、去氢抗坏血酸和磷酸胍基乙酸。根据subModel-3的规则来看,血浆中生物标志物花生四烯酸的水平与尿液中生物标志物柠檬酸的水平具有相关性,对分组(Y)有贡献。根据subModel-4的规则来看,血浆中生物标志物LysoPC(18∶2)的水平与肺组织中生物标志物二十二碳五烯酸的水平具有相关性,对分组(Y)有贡献。从模型预测结果来看,所有变量集平均R2为96.6;缩减变量集平均R2为95.81,缩减变量与所有变量相当。
将在不同烟气下暴露7,14,30 d的血样、尿样和肺组织代谢轮廓谱分析得到的生物标志物进行整合,运用神经模糊网络模型对标志物进行缩减,并用人工神经网络对模型预测能力进行评价,得到烟气暴露不同时间(7,14,30 d)与不同烟气暴露对大鼠内源性代谢物变化影响“因果效应”密切相关的关键生物标志物群,如表2所示。
表2 各生物样品标志物的ANN筛选结果
本研究采用模糊逻辑算法对烟气暴露不同时间的代谢轮廓谱数据进行分析,建立了模糊神经网络模型,筛选出对模型建立贡献较大的变量,采用人工神经网络模型通过预测准确率的比较判断缩减后的变量集合是否可代表所有变量的信息。如表2所示,在不同时间点得到的缩减生物标志物不尽相同,推测可能与烟气暴露时间不同,对实验动物病理生理状态的损伤程度不同,反映在实验动物代谢表型亦不相同有关。对不同时间点样本进行数据处理时找到的不同的关键生物标志物可能会为烟气损伤机体病理毒理过程的阐释提供一定的参考。
在血浆样本中得到了多个磷脂代谢相关的标志物,已有文献报道吸烟会引起磷脂降解[10,12],体内磷脂代谢异常可能与烟气中氧化性物质的吸入对机体细胞膜、脂蛋白、脂质等产生影响有关[12-14],而磷脂代谢的异常会增加心血管疾病的风险[15],特别是花生四烯酸水平的升高是心血管疾病的重要标志之一[16],同时也是机体发生炎症反应的重要标志之一[12],而炎症的发生与心血管疾病、癌症等疾病相关[17-18]。在尿液中得到了一些与能量代谢相关的标志物,其中磷酸胍基乙酸是体内合成肌酸的主要内源性物质,而肌酸是细胞内能量新陈代谢的重要分子和能量暂时存储的场所[19]。磷酸胍基乙酸和柠檬酸在体内的水平降低说明吸烟对大鼠的能量代谢有一定的影响。
本研究基于液相色谱-质谱联用技术构建了大鼠暴露于不同卷烟烟气中7,14,30 d时血浆、尿液及烟气损伤的主要靶组织——肺组织的代谢轮廓谱,表征了不同烟气对大鼠内源小分子代谢物组的影响。采用并结合神经模糊逻辑和神经网络模型各自的优势,提出了“运用神经模糊逻辑模型对潜在生物标志物进行缩减,并用人工神经网络对模型预测能力进行评价”的代谢组学生物标志物发现方法。发现了与吸烟危害密切相关的代谢生物标志物,揭示吸烟可引起炎症反应和氧化损伤等机体损伤。采用人工神经智能技术对不同时间点代谢轮廓谱分析的标志物进行聚焦和筛选,得到不同生物标志物。人工神经网络筛选到的变量不只是根据某一种物质的含量变化,更重要的是考虑了变量之间的相互作用,因此对于人工智能技术寻找到的标志物,不仅要对每一个标志物进行定量,还需对该标志物集合的所有代谢物进行研究,以寻找变化规律。本文通过人工神经智能技术找到了烟气暴露不同时间区分不同烟气暴露组的关键生物标志物,后续研究中尚需对这些关键生物标志物及其所在代谢循环中与它们关系密切的生物标志物精确定量分析,以期为烟气损伤机体病理毒理过程的阐释提供一定的参考。
[1] Luo G A,Wang Y M ,Liang Q L ,Liu Q F.SystemsBiologyforTraditionalChineseMedicine.Beijing:Science Press(罗国安,王义明,梁琼麟,刘清飞.中医药系统生物学.北京:科学出版社),2010.
[2] Luo G A,WangY M,Liang Q L,Liu Q F.SystemsBiologyforTraditionalChineseMedicine(P512).Hoboken:John Wiley & Sons,Inc.2012.
[3] Bullinger D,Fröhlich H,Klaus F,Neubauer H,Frickenschmidt A,Henneges C,Zell A,Laufer S,Gleiter C H,Liebich H,Kammerer B.Anal.Chim.Acta,2008,618(1):29-34.
[4] Li X,Lu X,Tian J,Gao P,Kong H,Xu G.Anal.Chem.,2009,81(11):4468-4475.
[5] Shao Q,Rowe R C,York P.Eur.J.Pharm.Sci.,2006,28(5):394-404.
[6] Bourquin J,Schmidli H,van Hoogevest P,Leuenberger H.Pharm.Dev.Technol.,1997,2(2):111-121.
[7] Khan J,Wei J S,Ringnér M,Saal L H,Ladanyi M,Westermann F,Berthold F,Schwab M,Antonescu C R,Peterson C,Meltzer P S.Nat.Med.,2001,7(6):673-679.
[8] Xie Y Y,Li L,Shao Q,Wang Y M,Liang Q L,Zhang H Y,Sun P,Qiao M Q,Luo G A.RSCAdv.,2015,5:75111.
[9] Xia J F.ResearchandApplicationofNewMetabolomicsMethodsontheBasisofLiquidChromatographyTandemMassSpectrometry.Shanghai:East China University of Science(夏建飞.基于液质联用技术的代谢组学新方法的研究与应用.上海:华东理工大学),2010.
[10] Su J K,Ying X H,Luo J M,Wang Y M,Xu D,Luo G A,Cai J B.J.Instrum.Anal.(苏加坤,应旭辉,罗娟敏,王义明,徐达,罗国安,蔡继宝.分析测试学报),2016,35(12):1521-1527.
[11] Ying X H,Su J K,Xie Y Y,Wang Y M,Luo J M,Luo G A,Guo L,Cai J B.J.Chin.MassSpectrom.Soc.(应旭辉,苏加坤,谢媛媛,王义明,罗娟敏,罗国安,郭磊,蔡继宝.质谱学报 ),2017,in printing.
[12] Vulimiri S V,Misra M,Hamm J T,Mitchell M,Berger A.Chem.Res.Toxicol.,2009,22(3):492-503.
[13] Kaplan M,Aviram M.Clin.Chem.Lab.Med.,1999,37(8):777-787.
[14] Vayssier-Taussat M,Camilli T,Aron Y,Meplan C,Hainaut P,Polla B S,Weksler B.Am.J.Physiol.HeartCirc.Physiol.,2001,280(3):H1293-H1300.[15] Lu Z L.Chin.J.Cardiol.(陆宗良.中华心血管病杂志),2001,29(5):62-64.
[16] Yalcin M,Aydin C.Clin.Exp,Pharmacol,Physiol.,2009,36(4):447-453.
[17] Coussens L M,Werb Z.Nature,2002,420(6917):860-867.
[18] Willerson J T,Ridker P M.Circulation,2004,109(21 Suppl 1):I2-I10.
[19] Wang L S,Zhang Y Y,Shan A S.Chin.Anim.Husband.Vet.Med.(王连生,张圆圆,单安山.中国畜牧兽医),2010,37(6):13-16.
Study on Screening of Cigarette Smoke Exposure Biomarkers for Rat′s Metabolites on the Basis of Artificial Intelligence Technologies
XIE Yuan-yuan1,SU Jia-kun2,YING Xu-hui1,LUO Juan-min2,WANG Yi-ming3*,SHAO Deng-yin2,LUO Guo-an1,CAI Ji-bao2*
(1.Department of Chemistry,Tsinghua University,Beijing 100084,China;2.Tobacco Jiangxi Industrial Co.,Ltd.,Nanchang 330096,China;3.Zhuhai QingdaHongrui Biotechnology Co.,Ltd.,Zhuhai 519085,China)
Multivariate statistical analysis methods,principal component analysis and partial least square discrimination analysis,were applied in this study for the data mining of cigarette smoke exposure metabolomics on plasma,urine and lung samples,in order to characterize the holistic influences of cigarette smoke exposure,and screen potential biomarkers.The screened biomarkers obtained from the metabolic profiling analysis on plasma,urine and lung were integrated and reduced by neurofuzzy logic.The predictability of the established model with this focused biomarkers were evaluated by artificial neural networks.Key biomarkers were closely related to different smoke exposure time(7,14,30 days),and different kinds of cigarette smoke exposure on the endogenous metabolites in rats were found in this study,and the damage mechanism of cigarette smoke exposure on rat′s organism was discussed.
artificial neural networks;neurofuzzy logic;metabolomics;cigarette smoke exposure;key biomarkers
2016-11-14;
2016-12-25
中国烟草总公司重大专项项目(110201401025(JH-03))
10.3969/j.issn.1004-4957.2017.06.001
O657.63;Q411
A
1004-4957(2017)06-0705-06
*通讯作者:王义明,教授,研究方向:生命分析化学,Tel:010-62781688,E-mail:wangyiming1688@163.com 蔡继宝,研究员,研究方向:烟草化学,Tel:0791-88286946,E-mail:jbcai@ustc.edu.cn