郭 盟,董新明,韩 广,,王慧泉,,王忠强,赵 喆
(1.天津工业大学 生命科学学院,天津 300387;2.天津康复疗养中心,天津 300191;3.天津市光电检测技术重点实验室,天津 300387;4.爱科维申科技(天津)有限公司,天津 300308)
孵化蛋胚是物种繁育、疫苗生产和种禽繁殖与生产的重要环节。流感疫苗主要以蛋胚为载体生产[1],其制备过程为:将流感病毒毒株接种在9 日胚胎无特定病原体(specefic pathogen free,SPF)中,毒株在胚胎的尿囊腔中增殖培养,在15 日时提取胚胎中的组织液,对组织液进行分离提纯并用于甲醛或者β-丙内酯灭活等方法处理后获得流感疫苗[2]。在接种病毒前,需要对蛋胚的活性进行检测,筛除死胚和弱胚,只有活胚能够接种病毒;在接种后,蛋胚需要定时进行活性检测,对活胚继续培养,对死胚及时清除以防止孵化箱内的交叉污染,对弱胚取出并回收利用以减少疫苗资源的浪费,弱胚若不及时处理会使整个孵化箱内培养的蛋胚都被放弃。在流感疫苗生产过程中,对孵化蛋胚在15 日的孵化期内进行10 次活性检测,而蛋胚的多样性差异会严重影响对蛋胚活性的判断。因此,快速、无创、准确的蛋胚活性检测是确保疫苗质量和提高禽类繁殖产能的重要因素,弱胚的准确检测是当前要攻克的关键技术之一。
在过去二十年,有关快速、准确的蛋胚活性分类方法的研究不断出现,包括声学振动法[3-4]、热差法[5]、超声成像法[6]、机器视觉[7]、高光谱成像法[8-9]等。声学振动在检测过程中会有声学共振现象,引起孵化蛋胚的一起振动,影响孵化蛋胚的正常发育。热差法运用在孵化过程中,检测过程缓慢且不能实时判断孵化蛋胚的活性。超声成像的高频信号对孵化蛋胚的发育也有一定的不良影响。常用的蛋胚检测方法有图像法和人工检测法,图像法和人工检测法均通过分辨血管和气室的特征进行活性检测。人工检测的检测效率和检测准确率都较低;图像法提取蛋胚图像的感兴趣区域,观察蛋胚内的血管分布和液体颜色,在检测过程中有较严格的要求,蛋盘中有空位时,光照会使相机过度曝光,获得的蛋胚图像较差,蛋胚的检测准确率降低。
光电容积脉搏波检测法[10](photo plethysmo graphy,PPG)是光吸收量随着动脉血液搏动而搏动,是检测蛋胚组织中血液容积变化的一种无创手段。将光源直射到蛋胚表面,入射光透过蛋壳射入蛋胚组织中,经过蛋壳、组织的吸收和散射作用,最终在蛋胚底部射出。采用透射式方法获得蛋胚光强信息,从蛋胚透射出的光强会随着蛋胚内血管的收缩和舒张而变化,将光强度变化的信号通过光电传感器转换成电信号,获得容积脉搏血流的变化。利用光电容积脉搏法对蛋胚进行检测,对胚胎的检测彻底,获得的蛋胚活性信息丰富。活胚和死胚的分类非常明确,但是弱胚在信号质量上与死胚相近。
近年来,卷积神经网络(convolutional neural networks,CNN)广泛应用于计算机视觉[11,12]和自然语言处理领域[13-14],可通过一维卷积神经网络对患者心电图实时分类[15]及对人体运动信息分类识别[16]。CNN 具有自适应提取特征的能力,能够高效提取数据特征,且不必对数据做过多的前期预处理,相较于其他预测模型,它特有的权重共享机制能够大大减少权重的数目,降低模型的复杂度。CNN 从输入层到输出层经历多个隐藏层,能够解决复杂信息,实现复杂函数逼近,从而提升分类的准确率。
本文提出一种基于CNN 模型的孵化蛋胚活性高通量检测方法,蛋胚活性检测装置可以同时采集大量蛋胚数据,通过数字高通滤波器和低通滤波器对蛋胚脉搏波进行预处理,去除信号中的基线漂移和部分噪声,信号的滑动功率谱密度(power spectral density, PSD)作为卷积神经网络模型的输入,对蛋胚活性快速作出判断。
当光入射蛋胚时,透过蛋壳、静态组织层,光强的衰减程度相同,由于脉搏搏动性,透过血管层时,光强随着脉搏波的波动呈周期性变化,从光电检测器可以获得透过蛋胚的光强信号[17],从而获得蛋胚的脉搏波。如图1 中蛋胚波形图所示,从上至下依次为活胚、死胚和弱胚。本文通过对蛋胚信号的预处理,去除基线漂移,保留6 Hz 以内的信号,再利用简单的运算分辨蛋胚活性的状态,获得的分类结果较差。通过研究发现,蛋胚信号在频域上有一定的区别。因此,提出脉搏波信号增强的滑动PSD 方法,再利用CNN 模型深度解析脉搏波的信息,区分蛋胚的活性,
图1 胚胎的活、死、弱状态图Fig.1 Waveform of embryo's live, dead and weak state
快速傅里叶变换(fast Fourier transform,FFT),是根据离散傅氏变换的奇偶虚实等特性,对离散傅里叶变换的算法进行改进获得的。
对于标准的周期性信号,经过快速傅里叶变换,会出现一个峰值,而随着时间的推移,频谱图像上的峰值位置基本不会发生变化。由于噪声的随机性,在短时间的测量过程中,峰值的位置会出现波动。滑动功率谱的方法如图2 所示,对于一段周期性信号,第1 个窗为第1 点至第6 点,对其作FFT,形成FFT-1,第2 个窗为第2 点至第7 点,对其作FFT,形成FFT-2,依次类推,最后一个窗口为第94 点至第99 点,对其作FFT,形成FFT-94。将经过FFT以后的信号进行合并,形成滑动PSD。
图2 滑动PSD 原理图Fig.2 Schematic diagram of sliding PSD
根据上述原理,对于一段检测时长为8 s、采样率为62.5 Hz 的脉搏波信号,设计一个计算FFT 的滑动窗,第1 个窗为第1 点至第60 点,第2 个窗为第2 点至第61 点,依次类推,最后一个窗口为第441 点至第500 点。将每一个窗口中的FFT 按照时间进行拼接,形成蛋胚脉搏波滑动PSD,图3 为活胚的脉搏波图像,经过滑动PSD 的方法得到如图4 所示的活胚脉搏波PSD 结果。
图3 蛋胚脉搏波图像Fig.3 Egg embryo pulse wave diagram
图4 活胚脉搏波PSD 结果Fig.4 Live embryo pulse wave PSD results
根据以上方法,分别获得的活胚、死胚和弱胚的PSD 对应结果如图5 所示。
从图5 可以看出死胚和活胚的分布区域有着明显的差异,可通过以上特征对蛋胚死、活状态进行判断;但是,死胚和弱胚在图像上的特征较为相似,信号的频率随着时间的变化比较杂乱,死胚没有主频,弱胚有主频。因此,采用简单的PSD信号增强的方法不能直接对蛋胚的死、弱状态做出判断。活胚的脉搏波博信趋于稳定,脉搏波的频率不随着时间发生变化,对应的PSD 结果中,每个时间点的频谱基本保持不变,是一个稳定的周期性信号。弱胚和死胚的信号较为相似,对应的PSD 结果也较为相似,不能明显地对弱胚和死胚信号进行区分。经过PSD 方法的脉搏波信号得到了增强,经过比较分析,死胚和弱胚的脉搏波信号经过PSD 技术的结果也难以区分蛋胚的活性。仅根据PSD 的可视化方法不能精准地对蛋胚活性进行分类,可采用挖掘深度蛋胚脉搏波信息的神经网络模型分类。
图5 蛋胚对应的滑动PSD 结果图Fig.5 Sliding PSD results diagram corresponding to egg embryo
CNN 网络模型是一种包含卷积计算且具有深度结构的前馈神经网络,是深度学习中最具有代表性的算法之一。CNN 网络模型构建多层神经网络,具有优异的表征学习能力,能够运用于监督学习和非监督学习中。随着大规模的数据获取和计算机硬件的飞速发展,CNN 网络模型应用越来越广泛。
卷积神经网络的隐含层包含卷积层、池化层和全连接层。卷积层的功能是对输入数据的特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个相应的权重系数和一个偏差量。在卷积层进行特征提取后,输出的特征图被传递至池化层进行特征选择和信息过滤。卷积神经网络中输出层的上游通常是全连接层,对于图像分类问题,输出层使用逻辑函数或归一化函数输出分类标签。
池化层主要用于特征降维、压缩数据和参数数量,减少过拟合。文中使用最大池化获得一组最大输出,其式为其中:R是 池化的大小;T是池化的步长。经过池化后,特征图像维度变为其相应输入的1/R。池化层和卷积层可以彼此的堆叠构成深度神经网络的隐藏层的架构。这些层可以提取出数据中的复杂特征。全连接层和softmax 分类器的组合可以用来识别分类蛋胚的状态。将从卷积和池化层提取出的特征平展成向量的形式为序号。将向量输入到全连接层,形式如(3)式:
其中:c是蛋胚活性分类;L是最后一层的索引;NC是蛋胚状态分类的数目。
在预测结果后,对CNN 模型的分类结果进行分析,ROC 曲线和AUC 常用于评价二值分类模型的优劣。假设模型有n个预测值,对模型的预测值由低到高进行排序,依次遍历得分作为判断正负样本的阈值,计算不同阈值对应的正样本数TP和负样本数FP。ROC 曲线中的横坐标FPR和纵坐标TPR计算形式为
其中:P为标签值为正的数目;N为标签值为负的数目。再利用复合梯形求积公式计算出曲线与坐标轴的面积AUC:
其中:x为ROC 曲线的横坐标FPR;y为ROC 曲线的纵坐标TPR。
本次实验采集数据的平台包含近红外光光源、放置蛋胚的蛋盘支架、数据采集器和PC。数据采集时应在无光的环境中,避免其他光源的干扰。本实验采用白壳鸡蛋,孵育时间为9 至13 天,其中蛋胚活性均已人工复检。采集不同孵化天数的蛋胚样本4791 枚,其中活胚1 979 枚,弱胚1083枚,死胚1729 枚。
经典卷积神经网络结构复杂,参数众多,因此需要大量样本支撑网络训练,从而实现参数辨识,但是本文蛋胚活性分类识别属于小样本分类,不适用大部分经典的深度学习网络。本文应用的神经网络结构,如图6 所示。
图6 神经网络结构图Fig.6 Structure diagram of neural network
用于蛋胚活性检测的卷积神经网络参数如表1所示,像素为439×31 的图片为蛋胚活性检测的输入,输入数据经过两层交替连接的卷积池化层获取图像数据特征,其中,两层卷积核的维度为5×5,个数为20,步长为1,池化层维度为2×2,激活函数为ReLU,学习率为0.01。根据第1 节中卷积操作以及池化操作描述,每次经过卷积池化操作后的特征图维度如表2。再通过全连接层将多个二维特征图转换为一维向量以获得更高维的全局特征。最后,全局特征通过Softmax 分类器进行3 分类,分别为活胚、死胚和弱胚。获得训练抓取样本量128,最大迭代次数2200。
将蛋胚数据随机打乱,选择蛋胚总量的50%(2 396 枚)作为CNN 网络的训练数据集;蛋胚总量的30%(1 437 枚),作为验证集数据;蛋胚总量的20%(958 枚)作为测试集数据。训练集用于模型拟合的数据样本,验证集用来调整模型的参数,而测试集用来评估模型的泛化能力。采用Intel i7-7700HQ处理器、16GB DDR4 内存以及Nvidia GTX 1060(6G)显卡进行CNN 网络训练以及预测,同时记录测试集从数据预处理到预测结束所需的时间。
表1 卷积神经网络相关参数Table 1 Convolutional neural network parameters
表2 经过卷积层与池化层的特征图维度Table 2 Feature diagram dimension after convolutional layer and pooling layer
滑动PSD 技术不但包含时域信息,同时也含有孵化信号的频谱随时间变化的信息,增加了蛋胚信号的信息维度,增强了信号的辨识度。该信息作为CNN 模型的输入,使训练更加充分,提高了模型对数据信息的辨识度。
CNN 模型训练的ACC 和LOSS 曲线如图7 所示。
图7 CNN 模型收敛曲线Fig.7 CNN model convergence curve
图8 为使用CNN 的蛋胚分类结果画出的操作特性曲线(ROC 曲线)。曲线越接近(0,1)点说明模型的分类效果越好,图8(a)为活胚和死胚分类的ROC 曲线,图8(b)对应活胚和弱胚分类的ROC曲线,图8(c)对应弱胚和死胚分类的ROC 曲线。求ROC 曲线下的面积AUC,反映二分类模型分类的好坏,是一种常用的模型评价指标。图8(a)、图8(b)、图8(c)分别对应的AUC值为99.70%、97.57%、90.43%。分类模型对活胚和死胚的分辨率能力最好,其次是分辨活胚和弱胚较好,对弱胚和死胚的分辨能力较差。使用CNN 模型对滑动PSD 数据进行处理,提取PSD 中的深度信息,挖掘出蛋胚数据中的特征,实现了蛋胚的活性分类。
图8 基于CNN 网络的孵化蛋胚活性分类的ROC 曲线和曲线下面积AUCFig.8 ROC curve and area under curve AUC of hatching egg embryo activity classification based on CNN network
通过CNN 模型的训练及验证参数的调整,本文对蛋胚活性的分类结果如表3 所示。在CNN 模型预测结果中,活胚的真阳率高达99.74%,死胚的真阳率为93.73%,弱胚的真阳率为84.39%。经过CNN 模型的蛋胚的活性检测具有高准确率,预测时间仅为12.60 ms,可以支持蛋胚活性高通量检测产业化设计,具有一定的应用价值。
表3 CNN 模型预测结果Table 3 CNN model prediction results
通过对误检部分分析,大部分弱胚被判断为死胚,大部分死胚被判断为弱胚。从蛋胚的脉搏波信号中可以得出,弱胚的信号强度很小,被掩盖在噪声信号中,弱胚的脉搏波与死胚的脉搏波有一定的相似性,同时经过PSD 技术后的信号也难以区分,CNN 模型也不能完全分辨。CNN 能够更深层次地有效挖掘鸡胚数据的特征,实现蛋胚的分类,模型训练中的所有数据是随机打乱的,包含了实验所有的发育阶段,因此该模型可以预测当前实验蛋胚的所有发育阶段,相较于使用阈值法有更好的通用性,具有重要的市场应用价值。
本文提出了一种解决孵化蛋胚分类的方法,使用光电容积脉搏波获得蛋胚的生理信号作为蛋胚活性检测的判断依据。此外,将脉搏波信号通过滑动PSD 技术,增加了信息维度,利用PSD信号构建CNN 模型,实现了蛋胚的活性分类。利用本方法构建的CNN 模型进行蛋胚活性检测,单个蛋胚检测时间仅需12.60 ms,计算速度满足工业上的高通量检测需求,可以对大量蛋胚同时检测。本文提出的蛋胚活性检测方法可以对蛋胚的活、弱和死态进行分类,减少了疫苗生产车间的资源浪费,提高了生产效率。实验表明:本文提出的蛋胚检测技术,是一种高通量、无创、高准确率的检测方法,满足实际的应用需求。