基于数据驱动的离子源数据智能分析平台

2024-03-26 03:53熊卿智彭芳伟金安安
计算机与现代化 2024年2期
关键词:离子源标准值质谱

熊卿智,李 祥,2,彭芳伟,金安安

(1.东华理工大学信息工程学院,江西 南昌 330013; 2.东华理工大学江西省网络空间安全智能感知重点实验室,江西 南昌 330013)

0 引 言

食品是人类赖以生存的基本需求,保障食品安全是关系到人们身体健康和生命安全的重要问题,因此一直以来备受国内外学术界和社会各界的广泛关注[1-3]。但是频繁出现的食品安全问题对人们的身心健康造成了严重危害,甚至可能危及生命安全[4-5]。现代农业和畜牧业生产中广泛使用农药、兽药和生长激素等,来提高农业和畜牧业的生产效率[6-7],但在使用不当的情况下,可能引起药物残留超标问题,给人们健康带来潜在威胁[8-9]。食品药物残留检测是保障食品安全和人们健康的重要措施[10-11]。

在食品药物残留检测中,绝大部分都需要使用到离子源。离子源是在高真空条件下,使用高能量的电子流轰击检材分子[12],分子失去电子,转变为离子化状态。离子在离子化状态下具有不同的质量,不同质量的离子在磁场的作用下,到达检测器的时间不同。通过这种方法,可以得到离子源质谱图,也就是离子源数据[13]。在一次检测中,会得到大量的离子源数据。现在这些数据只能通过国外的软件打开,在其中进行相关操作。数据不能批量读取导出,使得数据导出时费时费力。在进行离子源数据分析时,需要从大量的质荷比中挑选出需要的质荷比及其对应的强度值,增加了数据分析前的准备工作。

随着计算机技术的发展,智能化平台变得越来越普及,信息技术被广泛地应用于各个领域[14]。计算机技术不再局限于计算机学科本身,而是越来越多地与其他学科相交融[15]。当计算机技术与生物化学学科相融合时,诞生了许多生物化学类系统平台[16-18]。

针对离子源离线模式现有处理方法存在的局限性,本文提出了一种简便、高效、准确的智能数据处理分析平台。平台着重对数据导出、数据提取和数据分析进行研究,完善技术解决方案并搭建开发环境。平台通过集成机器学习技术,能够不断提高数据分析的准确性。通过开发离子源数据智能提取、处理分析平台,本文突破现有离子源离线模式处理方法,为同类问题提供了解决思路和支持。

1 相关工作

食品药物残留检测局限性包括检测微量残留敏感性不足、相关药物覆盖范围有限、食品基质化合物干扰、缺乏标准化方案和阈值以及检测成本和检测时间的限制。目前先进的检测食品中药物残留的方法主要依赖于化学方法,这些检测方法存在受环境影响大、分析速度较慢和检测精度较低等缺点。

例如,Takegawa 等人[19]在定量分析时,使用线性回归分析研究了选定低分子量二羧酸和ω-氧代羧酸对Aerodyne 气溶胶质谱仪(AMS)m/z44 信号的贡献。结果表明,这些有机酸的质量浓度与m/z 44 信号之间存在很强的相关性(r2=0.85-0.94),表明他们对AMS 测量有显著影响。此外,Poon 等人[20]在定量分析时,利用线性回归分析开发了一种基于蛋白质组学特征诊断模型,该模型通过微阵列的显著性分析确定,用于区分癌症患者和对照组,最终为该疾病提供了一种诊断方法。Lu 等人[21]在定量分析时,使用线性回归分析来量化癌症组织中氨基酸的浓度,该分析显示,与邻近的正常组织相比,氨基酸水平降低,这表明癌症的氨基酸代谢发生了变化,该检测方法非常耗时。此外,Kou 等人[22]开发了一种快速灵敏的方法,将分子印迹聚合物(MIPs)与内萃取电喷雾电离串联质谱(iEESI MS/MS)相结合,用于环境水样中氟喹诺酮类药物的定量分析,利用线性回归分析建立浓度-反应关系,得出该方法有效提取和测定目标化合物的结论,回收率高,精密度可接受。然而,这些方法有一些局限性,例如不能覆盖所有相关成分。

离子源质谱数据只能使用Xcalibur 软件打开和操作。在单个实验中,产生了大量离子源质谱数据,需要对其进行分析,由于Xcalibur 没有批量导出数据的功能,从而增加了初步准备所需的时间。在数据分析阶段,定量分析通常都是使用统计科学线性回归模型进行的。在Xcalibur 软件的定量分析过程中,当涉及到多个标准样本的多次实验数据(例如,含量为0.1、1、10和100的4种标准样本,每个标准样本进行3次独立实验以排除实验偶然性)时,当前的分析方法仅允许选择单一实验数据进行定量分析。这种单数据点的选取方式可能引入额外的误差,而他无法利用多次实验数据以减少潜在的变异性。因此,当前方法在多标准样本的情况下无法充分利用可用数据,可能导致定量结果的不确定性增加。解决这一问题方法是允许选择多个实验数据,并根据他们的平均值进行定量分析,从而提高分析的准确性和可靠性。基于上述分析,本文开发了一个智能离子源分析平台,该平台能够批量导出质谱数据,并集成机器学习技术,从而提高了数据分析的准确性。通过该智能平台能够以更方便、快速、准确的方式分析离子源数据,为未来的科学研究工作提供重要帮助。

2 系统设计

2.1 体系结构设计

本平台采用三层架构思想,对系统进行分层设计,使系统更加容易进行维护,并且增强了平台的扩展性以及可移植性。架构示意图如图1所示。

图1 架构示意图

视图层:主要负责界面展示,将用户的请求发送到业务层处理。

业务层:接收视图层发送的请求,对数据进行业务逻辑处理,并调用数据层接口进行数据访问。

数据层:本层使用SQL语句对数据库操作处理。

2.2 功能模块设计

针对离子源离线模式存在的问题,本文开发了一套智能化平台,提供简便、高效、准确的数据处理分析功能,该智能化平台具有以下几个功能:

1)数据导出功能。将离子源质谱文件(raw格式)中的数据精确提取至表格文件中,并且补齐数据中的空缺值。对离子源质谱文件进行批量处理,导出对应的表格文件,文件名称与质谱文件名称保持一致。

2)数据筛选功能。根据用户输入质荷比整数值,对选中数据文件中的质谱信息进行提取,提取数据保存到新的表格文件中。可同时输入多个质荷比整数值,对多个数据文件进行处理,并将提取数据整合至同一个表格文件中,并根据文件名对数据进行整合排序。

3)数据分析功能。在数据分析功能中,数据有4个类别,分别是Blank、Standard、Control、Sample。①Blank类别,检测无浓度物质所得到的离子源数据,提取质荷比对应的强度值作为标准曲线空白值;②Standard 类别,检测配置已知浓度的物质所得到离子源数据,利用已知浓度值(X)和提取的质荷比对应强度值(Y),通过线性回归模型,绘制标准曲线图;③Control类别,检测配置已知浓度的物质所得到离子源数据,将其提取质荷比对应强度值代入Standard 类别得到线性回归方程,计算出其浓度值,通过将算出的浓度值与物质实际浓度进行对比,用于判断本次检查结果的可靠性;④Sample 类别,检测未知浓度的物质所得到离子源数据,将其提取质荷比对应强度值代入Standard类别得到线性回归方程,计算出其浓度值。

4)检测报告功能。这个功能是将Sample 类别的浓度值与数据库中的国家标准值进行对比,输出检测报告。当Sample 样品浓度值小于国家标准值时,检测结果为阴性(-);当Sample 样品浓度值大于国家标准值时,检测结果为阳性(+)。最后将检验项目、标准值、检测值、检测结果等结果输出为报告。

综上所述,离子源智能分析平台功能模块如图2所示。

图2 功能模块图

2.3 系统流程设计

用户访问该平台后,会在页面上看到功能列表栏,其中包括以下功能菜单:数据导出、数据筛选、数据分析和测试报告。平台主界面如图3所示。

图3 平台主界面

用户可以根据自己的工作选择相应的功能。具体流程如图4所示。

图4 平台流程图

数据导出时,用户首先选择需要导出的数据文件,然后选择导出文件夹,平台会将数据导出为表格文件保存到指定目录下,导出结束后会自动打开文件夹;数据筛选时,用户首先需要选择文件,再输入质荷比,平台自动将数据筛选并整合成表格文件并自动打开表格文件;数据分析时,用户需要选择分析类别及其所对应的文件,当类别为Standard 时,需要输入浓度值,平台会根据数据利用机器学习的线性回归模型对数据训练,并输出回归曲线;输出检测报告时,用户只需点击输出检测报告按钮,平台将Sample 类别所预测的浓度值与国家标准值对比,根据对比结果输出检测报告。

总之,用户通过使用该平台可以方便地导出数据,根据指定标准过滤数据,使用机器学习回归模型分析数据,并生成全面的检测报告功能。

3 关键技术实现

3.1 数据导出

数据导出功能是从离子源数据文件中提取所需的质荷比和强度值,并进行数据补齐操作。本文使用C 语言编写了结构体来存储质荷比和强度值,并通过该结构体来读取文件。经过多次实验发现,该文件保存的是经过多次扫描(每次扫描结果都不同),最终对多次扫描结果求和的平均值。

在该数据文件中,第一次扫描数据,后面有4 对0.000,然后是质荷比范围,最后是一个0.000。之后是下一次扫描的数据,由于读取数据是成对进行的,但最后一个是单个的0.000,这会打乱质荷比和强度值的顺序。随着第二次扫描的结束,接着是单个的0.000,然后是3对0.000,接着是0.000和最小质荷比,最后是最大质荷比和0.000。接下来是第三次扫描结果,以此类推。如图5所示。

图5 部分文件数据图

因此在读取数据时,需要剔除每次扫描结束后的无效数据,以免在导出数据过程中发生错误。本文使用一个数组来接收与下标对应的质荷比和强度值,并将整数部分相同的质荷比相加。读取结束后,对数组求平均值,以获得最终结果,并将其输出为表格文件。伪代码如下:

3.2 数据筛选

数据筛选功能旨在根据给定的数据文件和质荷比选取相应的强度值。首先,该模块使用Pandas[23]读取数据文件,并获取数据文件名、质荷比和强度值。考虑到数据导出模块中的质荷比顺序是从1到2000,因此将索引值限制为所给质荷比减2 的值,以减少遍历数据的次数并提高查找效率。

然后,该模块将所给质荷比与数据文件中的质荷比进行比较。如果相等,则记录文件名、原始质荷比和相应的强度值;如果不相等,则将索引值加1,并再次进行比较,直到找到相应的质荷比。

当数据文件中在同一质荷比范围内出现2 个强度值时,比较2 个强度值的大小,选择较大的强度值作为本次筛选的强度值。然后,获取强度值的索引位置,并使用该索引获取对应的质荷比。由于可能会出现2 个强度值,因此当索引值下的质荷比大于所给质荷比加1 时,则跳出循环。将所选的文件名、筛选的质荷比、筛选的强度值写入DataFrame 中。最后,将写入DataFrame 中的数据根据质荷比进行分类处理,并输出为表格文件。伪代码如下:

3.3 数据分析

数据分析采用的是机器学习中线性回归模型。线性回归是一种统计建模技术,用于分析2 个或多个变量之间的关系。他旨在识别因变量(表示为Y)和一个或多个自变量(表示为X)之间的线性关系[24]。在线性回归中,目标是根据自变量的值找到能够预测因变量值的最佳拟合线[25]。这是通过估计线性方程系数来实现的,线性方程确定了直线的斜率和截距。一旦估计了系数,就可以使用该方程来预测自变量给定值的因变量值。线性回归模型公式如下[26]:

线性回归模型通过直观地观察相关系数a可得到不同的特征对所对应的相关变量影响度。线性回归模型的损失函数是均方误差[27],即将每个点横坐标代入线性回归模型所得到纵坐标与实际纵坐标的差值平方和除以样本个数,当损失函数最小时,说明所有点到直线的距离之和最小[28]。损失函数公式如下:

本文为单变量线性回归模型,公式如下:

将公式(3)代入公式(2)中:

J分别对a和b求偏导:

根据公式(6)可得出:

将公式(7)代入公式(5):

解公式(8)可得:

最后将公式(9)代入公式(7)可解得:

机器学习模型是通过确定损失函数,然后不断优化损失函数,最终达到最优,得到所求模型。在本文中根据Standard 样本的浓度值为X,强度值为Y,通过线性回归模型,求出a和b,绘制线性回归拟合图。线性回归拟合图如图6所示。

图6 线性回归拟合图

3.4 检测报告

检测报告功能是将Sample 样品的浓度值与数据库中的国家标准值进行对比,并将其输出为检测报告。

首先查询数据库,得到Sample 样品中药物的国家标准值,将国家标准值与上文中得到线性回归模型所计算Sample 样品的浓度值作比较,若国家标准值大于Sample 样品的浓度值,说明Sample 样品中药物没有超标,检测结果为阳性(+);若国家标准值小于Sample 样品的浓度值,说明Sample 样品中药物超标,检测结果为阴性(-)。最后把样品名称、日期、检验项目、标准值、检测值、检测结果等信息输出到检测报告中。检测报告样本如图7所示。

图7 检测报告图

4 结束语

本文提出新方法完成离子源数据处理。首先通过调用C 语言程序编译的动态链接库获取离子源数据,然后使用pandas 对数据进行处理,最后使用机器学习对数据进行回归分析和对未知样品进行预测。新方法可用于医学、化学、环保等领域中的离子源数据分析和处理。与传统操作相比:1)处理速度有较大改进,大大缩短了处理时间;2)精度上有较高提升,提供了更可靠的分析结果。该平台应用在实际数据处理中产生了显著效果,相对于传统的设备操作和手工处理,提高了检测效率和精度。

食品安全对人们的生命安全至关重要,“民以食为天,食以安为先”,所以食品药物残留检测技术的准确性和快速性至关重要。由于时间原因,该平台暂未实现数据可视化处理,因此,在未来研究中,笔者会根据离子源数据构建质谱图像,以增强数据的可视化。

猜你喜欢
离子源标准值质谱
15个健康“硬指标”
气相色谱质谱联用仪在农残检测中的应用及维护
政府综合财务报告分析指标体系问题研究
单电极介质阻挡放电离子源的消电子技术研究
吹扫捕集-气相色谱质谱联用测定水中18种挥发性有机物
基于《企业绩效评价标准值》的医药全行业绩效评价及预测
枣霜化学成分的色谱质谱分析
Modeled response of talik development under thermokarst lakes to permafrost thickness on the Qinghai-Tibet Plateau
Changes in feed intake,nutrient digestion,plasma metabolites,and oxidative stress parameters in dairy cows with subacute ruminal acidosis and its regulation with pelleted beet pulp
高频离子源形成的HD+离子束中H3+比例实测研究