白军朋, 李 斌, 张淑娟, 陈怡每
1. 北京农业信息技术研究中心, 北京 100097 2. 山西农业大学工学院, 山西 太谷 030801
喹诺酮类抗生素是一种重要抗生素, 常用于治疗或预防人和动物的细胞感染[1], 随着抗生素的过度使用, 抗生素会残留在人或动物体内, 导致细菌的耐药性增加。 残留在动物源性食品中的抗生素会通过食物链直接进入人的体内, 对人类的健康造成危害[2]。 食用产品中的抗生素残留也逐渐成为消费者关注的食品安全问题[3]。 因此大量的动物源食品需要做抗生素残留分析, 检验任务既繁重又时间紧迫。 当前传统的检测方法主要有微生物学检测方法[4]、 免疫分析法[5], 这些方法特异性强、 灵敏度高, 但存在过程复杂、 耗时长、 有破坏性等缺点。 因此, 发展高效、 灵敏的抗生素残留检测方法对于保障国家的食品安全和人体健康具有重大意义。
太赫兹指的是频率0.1~10 THz(1 THz=1012Hz)范围内的电磁辐射的统称[6], 通常也被称为太赫兹辐射、 T射线等, 对应的波长为0.3~3 mm、 波数在3.3~330 cm-1之间[7]。 由于其具有透射性、 安全性、 指纹性等的独特的性质, 可识别大分子物质。 朱思源[8]等以四种常用青霉素为研究对象, 获得其太赫兹光谱吸收曲线。 发现它们在一定的频率范围内都存在明显的光谱特性。 吉特[9]等采用太赫兹时域光谱技术对青霉胺进行研究, 发现该技术可以对青霉胺进行定量检测。 Long等[10]将诺氟沙星在0~100%分了12个梯度, 测量纯净的诺氟沙星样本发现在0.825和1.187 THz处存在两个吸收峰, 并且逐步回归选择的变量结合特征峰的多元线性回归预测模型最优, 预测相关系数Rp达到了0.867。 这表明太赫兹时域光谱技术可以识别抗生素这种大分子物质, 在定量测量方面也表现出了一定的潜力, 但是模型精度有待提高。 中国国家标准(GB 31650—2019)规定的喹诺酮抗菌类药物在动物源性食品中的残留限为0.01~1.9 μg·mL-1。 现有有关诺氟沙星太赫兹光谱检测的文献中涉及到浓度检测的研究不足以满足实际检测需求, 不同浓度梯度间隔下的太赫兹光谱检测分辨能力有待系统性的开展研究。
为此, 本研究探讨了较全浓度的诺氟沙星含量预测建模方法, 分别设计了较大梯度诺氟沙星(浓度系列和梯度间隔均大于104μg·mL-1, 即1%)和较小梯度诺氟沙星(浓度系列和梯度间隔都小于100 μg·mL-1, 即0.01%)并展开了探索性检测研究。 主要的研究内容如图1所示: 首先对浓度呈较大梯度间隔的诺氟沙星固体压片进行检测研究, 采集太赫兹光谱数据, 采用多种建模方法预测诺氟沙星含量, 尝试在检测准确率方面得到提升; 其次对呈较小梯度间隔的诺氟沙星溶液样本含量检测的可行性进行探索, 尝试用不同建模方法对诺氟沙星含量进行定量预测, 寻找较优的定量检测方法。 需要说明的是: 在制备呈较小梯度浓度间隔样本时, 由于诺氟沙星固体颗粒在浓度小于5%(即5×104μg·mL-1)很难检测, 无法满足较小梯度样本的制备要求, 并且其在水中的溶解度也有限, 本研究采用乙醇溶剂的诺氟沙星溶液残留标准物质(100 μg·mL-1)为母液进行较小梯度诺氟沙星制备研究, 为后续检测限的探索提供研究基础。
图1 实验流程图Fig.1 Flowchart of the experimental process
实验所用的诺氟沙星(CAS 70458-96-7)从生物工程(上海)股份有限公司购买。 聚乙烯粉末(CAS 9002-88-4, 粒度40~48μm)购买于西格玛奥德里奇(上海)贸易有限公司。 用于较小梯度诺氟沙星样本制备的标准溶液购买于农业农村部环境保护科研检测所(中国天津), 是乙醇中诺氟沙星溶液残留标准物质(GSB05-3338-2016), 浓度为100 μg·mL-1, 规格是1 mL·支-1。 比色皿样品池光程规格为0.2 mm。
1.2.1 较大梯度样本的制备
称取部分诺氟沙星和聚乙烯粉末在研钵中充分研磨之后用压片机及其模具(Specac GS15011, 英国)压片, 压力大小是3.5 t, 压片时间为3 min·片-1, 压片直径约13 mm, 厚度在1~2 mm之间, 样本总质量200 mg。 分别制备浓度5%, 15%, 25%, 35%, 45%, 55%, 65%, 75%, 85%, 95%和100%的压片样本, 为减少操作误差, 每个含量的混合物样品制备9个压片, 共99个较大梯度样本。 按2∶1划分成校正集和预测集。
1.2.2 较小梯度样本的制备
采用乙醇中诺氟沙星溶液残留标准物质(GSB05-3338-2016)为母液, 稀释得到29个小梯度浓度(0.001, 0.002, 0.004, 0.006, 0.008, 0.01, 0.02,0.04, 0.06, 0.08, 0.1, 0.2, 0.4, 0.6, 0.8, 1, 2, 4, 6, 8, 10, 20, 30, 40, 50, 60, 70, 80和90 μg·mL-1)。 用移液枪移取少量的诺氟沙星乙醇溶液滴加到比色皿样品池中即完成样本制备, 依次完成所有样本制作。 每个浓度制作9个样本, 共261个较小梯度样本, 按2∶1划分成校正集和预测集。
使用日本ADVANTEST公司生产的太赫兹时域光谱系统TAS7500SU, 使用透射工作模式。 中心波长为1 550 nm, 重复频率为50 MHz, 脉冲宽度为50 fs, 光纤飞秒激光器的输出功率为20 mW的。 可测量频谱范围为0.1~7 THz, 频谱分辨率为7.6 GHz, 系统动态信号范围在60 dB以上。 实验环境温度为25 ℃(±1 ℃), 相对湿度低于3%。
将制备好的较大梯度压片样本和不同浓度的待测试较小梯度溶液样本放入透射模式的样品腔中, 依次完成所有样本的太赫兹光谱测量。 每次测量前测量一次参考信号, 每个样本测量一次光谱数据, 较大梯度的参考信号为空扫信号, 较小梯度的参考信号是空扫的比色皿样品池信号。
时域信号在30 ps被截断置零, 用以去除从衬底背面反射的信号。 对时域数据进行快速傅里叶变换(FFT)得到样本的频域光谱。 根据Dorney[11]和Duvillaret[12]等提出的方法计算各样本的吸收系数。
卷积平滑(S-G)作为一种数字滤波器, 可以平滑数据并增加数据信噪比(SNR)。 对光谱数据进行S-G平滑, 以减少噪声干扰和粒子散射。
逐步回归通过一步步引入变量, 筛选剔除多余信息, 得到有效变量; 连续投影算法(SPA)[13]作为一种可以使矢量空间共线性最小化的前向变量选择算法, 具有消除原始光谱矩阵中的冗余信息的优势, 可以筛选出有效的信息, 提取全频段的几个特征频率。 多元线性回归进行定量建模预测分析。 实验数据处理与绘图全部在Matlab R2018a和Origin 2017中完成。
利用相关系数r、 校准均方根误差(RMSEC)和预测均方根误差(RMSEP)来评价模型的性能。 其中相关系数r包含Rc(校正相关系数)和Rp(预测相关系数)。 预测诺氟沙星浓度模型中最理想的模型应具有高的校准相关系数(Rc)和预测相关系数(Rp), 低的校准均方根误差(RMSEC)和预测相关系数(RMSEP)。 为保证模型的稳定性, 还应该保证RMSEC和RMSEP有较小的差异。
2.1.1 较大梯度诺氟沙星测量结果
如图2(a)所示是较大梯度诺氟沙星中不同浓度的样本的吸收系数平均光谱, 因为低于0.4 THz和高于1.5 THz的信号信噪比(SNR)很低, 所以只选0.4~1.5 THz的数据进行后续建模分析。 本文发现纯净的诺氟沙星样本在0.816和1.205 THz处有两个吸收峰, 与Long等[10]检测的0.825和1.187 THz及Redo-Sanchez等[14]检测的0.79和1.19 THz相近。 一方面, 峰位轻微的移动可能是由样品的颗粒大小引起的; 另一方面, 也可能因为诺氟沙星的种类差异和测量仪器不同造成了这种峰位的微小移动。 通过观察吸收系数图, 可以发现随着诺氟沙星浓度的增加, 吸收系数增加, 并且峰值也变的更加明显。 这说明诺氟沙星的吸收系数变化和浓度有直接关系。 但是在诺氟沙星浓度低于5%的时候, 很难发现吸收峰的存在, 原因可能是聚乙烯中诺氟沙星浓度较低的时候, 样本对太赫兹光谱的吸收变少, 从而接收到的太赫兹时域光谱携带的信息量变少所致。
图2 太赫兹吸收系数平均光谱(a): 较大梯度诺氟沙星; (b): 较小梯度诺氟沙星Fig.2 Average spectrum of terahertz absorption coefficient(a): Larger gradient Norfloxacin; (b): Smaller gradient Norfloxacin
2.1.2 较小梯度诺氟沙星测量结果
较小浓度诺氟沙星溶液样本的吸收系数如图2(b)所示, 不同浓度的诺氟沙星乙醇溶液的吸收系数曲线基本重合, 未表现出明显差异。 可能是因为当诺氟沙星溶液的浓度比较低时, 对太赫兹光谱影响不大, 所以表现为小梯度诺氟沙星溶液的吸收系数没有直观上的差异。 尝试用不同的化学计量学方法寻找与浓度有关的特征变量, 本文选取信噪比较高的0.4~3 THz范围内的光谱数据进行后续建模分析。
为了提高吸收光谱的信噪比, 本文使用S-G滤波器对原始光谱进行预处理, 对相邻11个数据点进行二项式拟合。 处理后的光谱对比如图3所示, 可以看出预处理后的数据更加平滑和规范化。
本文对较大梯度的诺氟沙星样本进行太赫兹光谱测量, 获得其太赫兹吸收谱, 原始光谱如图3(a)所示, S-G滤波后的图3(b)所示。 预处理后的数据更加平滑和规范化。 利用诺氟沙星的两个特征吸收峰(0.816和1.205 THz)进行多元线性回归建模与预测, 得到预测相关系数Rp和预测均方根误差RMSEP分别为0.941和10.84%。 这时发现预测相关系数较高, 达到了0.9以上, 但是RMSEP比较高。 为了进一步提高较大梯度诺氟沙星的预测效果, 本研究尝试对整个波长范围的数据采用逐步回归方法选取特征变量, 这里选取11个特征变量(0.412, 0.443, 0.557, 0.633, 0.786, 1.106, 1.221, 1.251, 1.411, 1.450和1.500 THz), 这里的特征变量消除了部分多重共线性, 使得到的光谱数据包含更多的信息。 然后进行多元线性回归分析, 预测相关系数Rc和预测均方根误差RMSEP分别为0.962和2.74%。 显然, 用逐步回归选取变量的多元线性回归建立的模型比用特征峰多元线性回归建立的模型精度更高,Rc得到了提高, RMSEP降低。 这说明逐步线性回归方法可以从全波段中选取更多有效的信息。 逐步回归是从整个波长中搜索变量, 其中容易出现光谱数据过拟合, 为了减轻数据过拟合, 选取变量时严格的对每个波长进行逐一添加或删除。 为了提高较大梯度诺氟沙星模型的预测精度, 进一步用特征吸收峰结合逐步线性回归选择变量的多元线性回归建模预测较大梯度诺氟沙星的浓度, 这时Rc=0.989, RMSEP=5.72%, 虽然预测相关系数提高了, 同时预测均方根误差也增加了。
图3 太赫兹吸收系数光谱(a): 较大梯度诺氟沙星(原始数据); (b): 较大梯度诺氟沙星(S-G滤波后);(c): 较小梯度诺氟沙星(原始数据); (d): 较小梯度诺氟沙星(S-G滤波后)Fig.3 Terahertz absorption coefficient spectrum(a): Larger gradient Norfloxacin (raw data); (b): Larger gradient Norfloxacin (after S-G filtering);(c): Smaller gradient Norfloxacin (raw data); (d): Smaller gradient Norfloxacin (after S-G filtering)
利用SPA选择的变量对较大梯度诺氟沙星进行建模与预测分析。 选取变量过程中, 当运行SPA程序时, SPA_MLR程序会计算一系列的误差均方根误差(RMSE), 这个过程保证选取的变量个数伴随着一个理想的RMSE, 并且这个RMSE不会比最小的RMSE明显大。 图4(a)显示了通过SPA选择变量的过程, 从图中可以看出, 当SPA选择前5个变量时, RMSE值显著的降低。 随着选择变量个数增加, RMSE值逐渐减小。 当选择14个变量时, RMSE达到了理想值(RMSE=1.66%)。 选择变量过程中, 尽管RMSE曲线存在一些波动, 但是整体呈现随着变量的增加RMSE曲线下降的趋势。 在较大梯度诺氟沙星样本中, SPA选择的14个变量如图4(b)所示, SPA选取的变量分别用小正方形标记(0.764, 1.000, 1.053, 1.098, 1.144, 1.311, 1.326, 1.349, 1.379, 1.402, 1.425, 1.455, 1.478和1.493 THz)。 我们发现在1.205 THz以下有5个变量, 1.205 THz以上存在9个变量, 这说明有效信息的频率大多分布在较大的频率范围。 SPA选择的变量的多元线性回归结果为Rp=0.992, RMSEP=5.52%, 虽然模型精度提高了, 但是预测均方根误差也变大了。
图4 SPA选择变量(较大梯度诺氟沙星)(a): 选取变量数的RMSE; (b): 选择的变量位置Fig.4 Variable selection SPA (Larger gradient Norfloxacin)(a): RMSE graph of the number of variables selected; (b) Location of selected variables
较大梯度诺氟沙星的建模结果见表1, 逐步回归选择变量后的多元线性回归达到模型效果最优, 预测相关系数Rp=0.962, RMSEP=2.74%, 该模型在保证了预测相关系数的前提下, 同时保证RMSEC和RMSEP的差值最小, 使模型具有更高的稳定性。 这说明太赫兹时域光谱技术可以检测较大梯度诺氟沙星, 预测精度相比已有检测的建模结果(Rp=0.867,RMSEP=16.6%)得到了很大改善。
表1 较大梯度诺氟沙星的MLR建模结果Table 1 MLR modeling results of largergradient Norfloxacin
为了进一步研究较小梯度间隔诺氟沙星含量的定量检测问题, 本文制备了浓度系列和梯度均小于100 μg·mL-1的29个较小梯度浓度, 对较小梯度的诺氟沙星样本进行了测量, 得到原始光谱如图3(c)所示。 经S-G滤波后如图3(d)所示, 预处理后的数据更加平滑和规范化, 后续对其进行建模分析。 首先, 用纯净的诺氟沙星样本的特征峰(0.816和1.205 THz)进行多元线性回归建模预测小梯度诺氟沙星无水乙醇溶液的浓度, 发现得到Rc和Rp分别是0.590和0.307, 建模效果很不理想, 可能是由于较小梯度诺氟沙星溶液中含诺氟沙星少, 所以光谱所包含的特征峰信息也比较少, 从而导致特征峰建模效果不理想。 之后用SPA算法选取变量进行建模分析, SPA选择了两个有效变量(0.496和1.77 THz), 利用这两个变量进行多元线性回归建模预测较小梯度诺氟沙星溶液的浓度, 我们得到Rc和Rp分别是0.485和0.472。 发现预测相关系数Rp只有0.472, 模型效果仍然不理想, 这可能是因为SPA算法不适合用于较小梯度诺氟沙星溶液来提取变量,也即SPA找到的变量含有有限的浓度信息。 最后利用逐步线性回归选取变量进行多元线性回归建模, 逐步回归找到了10个特征变量(0.565, 0.610, 0.641, 1.335, 1.762, 1.793, 1.862, 1.892, 2.152和2.228 THz), 建立模型的Rc和Rp分别是0.859和0.728。 较小梯度诺氟沙星的建模结果如表2所示。 可以看出相比特征峰多元线性回归和SPA的多元线性回归, 逐步线性回归的多元线性回归模型效果达到了最优, 但是预测相关系数为0.728, 预测均方根误差为18.79 μg·mL-1。 这说明太赫兹时域光谱技术在检测较小梯度诺氟沙星溶液方面能力较弱, 需要继续寻求提升的手段。
表2 较小梯度诺氟沙星的MLR建模结果Table 2 MLR modeling results of smallergradient Norfloxacin
总体来说, 太赫兹时域光谱技术作为一种新型的无损检测技术, 因其具有独特的指纹特性, 且样品预处理简单等优势, 近年来被广泛应用于抗生素的定性定量检测研究探索。 存在的问题主要有:
(1) 对于较高浓度检测, 一般具有较好的精度; (2) 对于较低浓度检测, 检测精度较差, 特别是当检测浓度低于中国国家标准(GB 31650—2019)时, 检测变得异常困难。 近些年来, 国内外相关研究人员也在不断探索新型探测方法, 如超材料[15]、 平行平板金属波导[16]等用于痕量检测研究。 这也成为本研究的未来方向之一。
分别以较大梯度(浓度系列和浓度间隔均大于104μg·mL-1, 即1%)诺氟沙星和等于或者低于国家规定检测限的较小梯度(浓度系列和浓度间隔均小于100 μg·mL-1, 即0.01%)诺氟沙星为研究对象, 通过设计梯度实验, 探索太赫兹时域光谱技术用于较全浓度诺氟沙星的检测潜力。 较大梯度诺氟沙星样本的检测分析发现: 纯净的诺氟沙星样本存在两个吸收峰, 峰位与已有的研究结果基本一致。 逐步线性回归选择变量进行多元线性回归分析, 预测集的相关系数Rc=0.962,预测均方根误差RMSEP=2.74%。 检测结果相比已有检测的最优模型(Rc=0.886, RMSEP=16.6%)得到了提升; 进一步的较小梯度诺氟沙星溶液样本检测分析发现: 逐步线性回归选择变量的多元线性回归达到了模型效果最优, 预测集相关系数Rc=0.728, RMSEP=18.79 μg·mL-1, 该模型相比大梯度诺氟沙星的预测能力明显下降。 说明太赫兹时域光谱技术在预测小梯度诺氟沙星含量方面能力不足, 需要继续寻找提升手段。 总体来说, 太赫兹时域光谱技术可以比较准确的预测较大梯度的诺氟沙星, 并在较小梯度诺氟沙星的预测方面也表现出一定的潜力, 但检测能力较弱。 本文为诺氟沙星浓度的进一步检测研究提供了理论基础。