基于局部时序特征的细胞视频动态形变度量和分类

2020-06-09 10:08李衡庞枫骞姜彬刘志文
北京理工大学学报 2020年5期
关键词:时序轮廓淋巴细胞

李衡,庞枫骞,姜彬,刘志文

(1.北京理工大学 信息与电子学院,北京 100081; 2.北京理工大学 光电学院,北京 100081;3.国家留学基金管理委员会 信息资源部,北京 100081)

细胞是生物体最小的组成单元,其状态能够直接反映生物体的许多生理信息,因此细胞常被作为重要的研究对象,用于生物医学领域的研究工作. 另一方面,细胞的形态受到细胞自身生理活动和所处环境的共同影响,能够提供多种细胞生理状态信息,是细胞筛选、识别和分类的重要依据[1-2].

近年来,随着显微成像技术的发展,细胞图像序列被越来越多的用于细胞生理研究中,细胞形态的变化也逐渐成为研究者观察的重要目标. 细胞的动态形变能够更快速、准确地反映细胞的状态和活动,对检测细胞状态、预测细胞周期、研究细胞生理具有重要意义[3-4]. 卡耐基梅隆大学Murphy教授领导的团队[5]在利用形态特征描述细胞内蛋白质分布状态的研究方面不断有新的进展,报道了亚细胞局部特征提取,使用三维图像分析蛋白质分布[6],将蛋白质分布分析应用于癌症早期检测[7]等多项工作. 南开大学赵新教授带领研究组对使用细胞形态检测细胞活性的方法进行了研究,提出一种基于形态参数度量细胞活性的方法[8]. 因此准确高效地度量和分类细胞动态形变能够为细胞生物学研究提供强力帮助.

本文以植皮后小鼠淋巴细胞的形变作为研究对象,根据淋巴细胞形变的特性,设计出一种能够有效处理细胞形变过程中空时信息的特征提取方法,并将其应用于两个淋巴细胞形变数据集上. 实验结果表明,所提出的方法能够准确度量和分析淋巴细胞的动态形变,相比于其他形变度量算法具有更高的准确性和更好的鲁棒性.

1 淋巴细胞形变数据

淋巴细胞的形变数据由合作单位,北京佑安医院负责采集. 淋巴细胞采集自经过植皮手术的小鼠(周龄6~8,体重20~22 g)外周血,使用相差显微镜(奥林帕斯BX51,放大倍率1 000×)进行观察,每次仅观察一个淋巴细胞. 将目标淋巴细胞置于显微镜视野中心后,并使用超显微真彩图像分析系统对影像进行进一步放大和拍摄. 以25帧/s的速度拍摄淋巴细胞20~30 s,保存为分辨率288×352的AVI格式视频数据. 随后,对视频数据进行筛选,剔除拍摄不清晰,或淋巴细胞与其他细胞有重叠的数据. 图1展示了视频数据的截图,其中每行对应一个视频的图像序列,每列图片采样时间间隔为5 s,完整的视频数据示例可从http://isip.bit.edu.cn/kyxz/xzlw/77051.htm下载.

数据采集中,分别使用两种小鼠实验方式,获得两个淋巴细胞形变数据集.

数据集Ⅰ:包含两个小鼠植皮实验组,第一组使用20个健康雄性Balb/C小鼠进行自体皮肤移植;第二组使用20个健康雄性Balb/C小鼠作为受体,20个健康雄性C57BL/6小鼠作为皮肤供体,进行异体皮肤移植. 14 d后,断尾采集小鼠外周血,观察和拍摄淋巴细胞形变数据. 将组别作为数据标签,每组各包含40个视频数据.

数据集Ⅱ:仅有一个小鼠植皮实验组,使用25个健康雄性Balb/C小鼠作为受体,25个健康雄性C57BL/6小鼠作为皮肤供体,进行异体皮肤移植. 7 d后,断尾采集小鼠外周血,观察和拍摄淋巴细胞形变数据. 由3名经过训练的观察者对淋巴细胞动态形变进行判别,将视频数据人工分为4组(正常组,轻度活跃组,中度活跃组和高度活跃组),最终通过投票方式确定数据标签,每组各包含25个视频数据.

2 形变局部时序特征提取

通过对细胞视频数据的详细观察,可以发现细胞的形态变化不仅在时间维度上有连续性,还在空间的各个局部区域间表现出不一致性. 为了更直观地展示细胞形变的特性,图2中给出了数据集I中两类细胞动态形变的对比图. 图中已提取出细胞图像序列的轮廓,并使用细胞轮廓序列绘制出细胞的动态形变. 可以看出,对于正常形变的细胞,其轮廓相对稳定,整体变化不明显,只在少数区域能看到轮廓的演化. 与之相对,异常形变细胞的轮廓变化显著,在形变剧烈的区域还可以看出较明显的连续性;同时整个细胞各部分形变程度并不统一,图中左侧区

域的形变程度远高于右侧. 根据观察结果,设计出一种能够有效处理淋巴细胞形变特性的特征提取算法.

2.1 基于径向距离的细胞动态形变描述

细胞的轮廓变化能够很好地反映其形变过程,因此首先利用细胞轮廓序列描述细胞的整个形变过程. 考虑到这里所观察的淋巴细胞主要呈圆形和椭圆形,具体使用图像特征中的径向距离方法,表示细胞轮廓序列. 将在角度k处,时间点t的轮廓点的径向距离定义为

k∈[0,360),t=1,2,…,T.

(1)

式中:细胞图像序列第一帧的细胞质心(xc,yc)被作为提取径向距离的参考点;(xk,t,yk,t)表示角度k处,时间点T的轮廓点位置;T为细胞图像序列的长度. 图3(a)3(b)中展示了使用径向距离表示的细胞形变轮廓序列.

随后,从时间维度分析细胞轮廓点的形变信息,将式(1)中的径向距离函数表示成细胞轮廓上角度k处随时间t的变化函数Ck(t). 如图3(c)3(e)所示,以角度为120°的轮廓点为例,将细胞轮廓的径向距离函数表示为其随时间t的变化,记为C120(t),其曲线如图3(c)3(e)中的灰色曲线.

从图中可以看出,细胞轮廓点的径向距离函数在其随时间t变化的过程中趋势并不稳定,灰色曲线上有许多抖动. 对图中的灰色曲线进行比较,在相对较短的时间段内(大约20帧以内),受到曲线抖动的影响,人眼无法区分图中灰色曲线的差别. 幸运的是,当从一个较长的时间段观察灰色曲线,图3(e)中的曲线有比较明显的变化趋势.

根据这一观察结论,提出利用曲线平滑的方法增强该轮廓点变化的趋势信息. 实际中,使用7阶多项式平滑的方式,得到平滑后的曲线fk(t),如图3(c)3(e)中黑色曲线所示. 通过黑色曲线,能够更清楚地观察和区分两个细胞轮廓点的不同变化过程.

2.2 局部时序特征

根据细胞轮廓点随时间的变化过程,可以看出细胞的局部变化特性能够反应出细胞动态形变的重要信息. 因此,通过提取细胞变化的局部时序特征,能够更加有效地度量细胞的动态形变.

以平滑后的细胞轮廓点随时间的形变曲线为基础,提取细胞轮廓点变化的时序特征. 根据观察,细胞轮廓点的变化趋势是整个变化过程中最显著的特征. 因此,对平滑曲线fk(t)求导,得到其导数f′k(t),如图3(d)3(f)中灰色曲线所示. 鉴于细胞轮廓点的变化仅有远离中心和朝向中心点两个方向,使用细胞轮廓点随时间运动的方向对形变趋势进行区分. 对应到曲线f′k(t),作为平滑曲线fk(t)的导数,其正值对应远离中心的运动,负值对应朝向中心的运动. 所以,可以使用f′k(t)取值的正负号区分轮廓点的运动趋势. 在同一变化趋势下,计算轮廓点运动的累积量Gk描述对应形变的时序特征,如图3(d)3(f)中的青色区域. 在实际计算时,以f′k(t)取值的符号变化点作为边界,对取绝对值后的f′k(t)进行积分,计算Gk,其定义为

(2)

式中:τj表示f′k(t)取值符号变化的点;T为细胞图像序列的长度;j和J分别表示符合变化点的序数和总数.

最后,计算Gk的最大值作为角度k处细胞轮廓点的局部时序变化量,并对整个数据集中的细胞各轮廓点的变化量进行统计,绘制20个平均间隔的直方图. 将某个细胞图像序列在该直方图各区间的分布作为其局部时序形变特征向量.

3 实验结果及分析

使用淋巴细胞形变数据库验证所提算法的效果,并与若干个使用图像特征的形变度量算法进行比较,分析所提算法的效果. 实验中,使用高斯核函数的支持向量机(SVM)作为分类器训练分类模型. 整个分类过程使用5折交叉验证,独立随机重复100次,最终使用精确率(真阳性/(真阳性+假阳性)),召回率(真阳性/(真阳性+假阴性))和F值((2×精确率×召回率)/(精确率+召回率))作为评价分类效果的标准.

实验数据中的淋巴细胞预先使用主动轮廓模型进行了分割, 进行了尺度归一化和序列对齐的操作. 这里分别使用径向距离、傅里叶描述子[9]、通用傅里叶描述子(generic fourier descriptor,GFD)[10]、Zernike矩[11]和阈值邻域统计(threshold adjacency statistics,TAS)[12],5种图像特征为基础的算法分析细胞形变,并进行比较. 此外,前期工作提出的匹配游程统计方法的结果也一起给出. 具体计算时,径向距离和傅里叶描述子都取180维,通用傅里叶描述子的角度和半径分辨率为60和180, Zerniek矩共30阶. 以1 s(25帧)为间隔对细胞视频采样后,对样本图像序列依次计算特征值,随后使用欧氏距离量化相邻样本图像间的差异. 最后,统计欧氏距离的值,并对全部数据的统计结果计算有20个平均间隔的直方图,将其作为描述细胞形变的特征矢量,使用SVM分类.

3.1 数据集Ⅰ

首先在数据集Ⅰ上对现有的方法进行验证. 数据集Ⅰ包含两个分类,各有40个细胞视频数据,5折交叉验证中,每类随机选取32个数据为训练集,8个为测试集. 分类结果在训练集和测试集上的平均精确率(TrPr,TePr),召回率(TrRe,TeRe)和F值(TrF,TeF)均已在表1中给出.

表1 数据集Ⅰ细胞形变分类结果Tab.1 Classification results of cell deformation in Dataset Ⅰ %

由于所研究的淋巴细胞一般为圆形或椭圆形,使用径向距离能够很好地提取细胞形变特征,因此其能够表现出良好的效果. 傅里叶描述子是通过对目标的轮廓曲线做一维傅里叶变化得到的,因此相比于其他特征提取方法,其对噪声更加敏感,因此傅里叶描述子表现并不突出. 通用傅里叶描述子和Zernike矩都从目标图像中提取高维特征矢量描述形状,能够分辨不同形状间的细小差异,是处理复杂形状的有力工具,在细胞形态研究中有广泛应用[5, 13-14]. 在研究细胞形变时,使用通用傅里叶描述子和Zernike矩得到的特征矢量可以有效描述细胞形态的细节,以此为基础计算出的特征空间距离能够提取细胞形态间的细小差异,准确描述形变特性. 阈值邻域统计是用于描述细胞纹理的特征,其主要用于研究细胞区域内的灰度分布变化. 虽然在细胞形变的过程中,细胞区域内的纹理也会随之变化,但是这种变化不是细胞形变的主要信息. 故而,基于纹理特征分析细胞形变无法发挥良好效果.

使用所提出的算法,细胞形变过程中的时序信息被最大程度地保存下来,有效提高了对形变的分类结果. 不仅如此,局部时序特征充分考虑的细胞形变中各个局部区域变化不一致的情况,分别度量细胞各轮廓点的时序形变,最后对细胞整体形变做出综合评价. 所以,局部时序特征非常适合用于淋巴细胞动态形变的研究.

3.2 数据集Ⅱ

数据集Ⅱ包含4个分类,各有25个细胞视频数据,使用5折交叉验证时,从各类别中随机选取20个数据为训练集,5个为测试集. 表2中给出了各算法在数据集Ⅱ上的分类结果.

表2 数据集Ⅱ细胞形变分类结果Tab.1 Classification results of cell deformation in Dataset Ⅱ %

相比于数据集Ⅰ,各算法在数据集Ⅱ上的效果均明显降低. 这首先是由于数据集Ⅱ上的多分类问题明显比数据集Ⅰ上的二分类问题复杂,会影响算法的表现. 其次,数据集Ⅰ中的两个类别分别是从自体皮肤移植和异体皮肤移植小鼠的淋巴细胞采集而来,两个类别间细胞形变差异显著,比较易于分辨;而数据集Ⅱ中各类别是根据人工观察标记而来,细胞本身所处生理条件上没有差异,形变间区分度相对较低. 而且受到人工标记影响,数据集Ⅱ的分类标签中包含人为偏差,更提高了分类的难度.

在分类效果上,对比算法的效果下降比所提出的算法更加显著,这是由于对数据集Ⅱ中的细胞形变进行分类更加需要充分提取形变信息. 直接从相邻帧的形态差异提取形变,对比算法对图像序列进行采样,再从样本帧间提取形变信息的框架本身就丢失了许多未被采样到的形变信息. 然而,由于显微视频数据帧间隔时间短,对全部帧提取形态,信噪比低,难以从噪声中分辨有用信息.

为了更有效地展示所提算法的效果,将数据集Ⅱ上每个视频数据对应的局部时序特征直方图在图4中进行展示. 图中可以看出,细胞形变正常组的特征值整体较小,且分布比较集中. 而随着细胞形变活跃度的提高,特征值不断变大,且分布越来越分散. 此外,相邻活跃度的组间,特征分布的区分度较低,分类边界不清晰. 尤其轻度活跃组和中度活跃组的特征分布相似度非常高.

对各组间的局部时序特征计算巴氏距离(局部时序特征),其定义为

(3)

式中:H为数值分布;γ为数值区间. 图5中展示了各组间细胞形变局部时序特征的平均巴氏距离.

从图5中可以看出,轻微活跃组和中度活跃组间的巴氏距离较大,说明两组中的特征分布情况相似. 高度活跃组的组内巴氏距离相比于其他组较小,表明该组特征分布的组内相似度低. 由此看出,数据集Ⅱ的细胞动态形变多分类问题相对复杂,仅使用图像特征度量全局形变难以有效解决此问题. 通过提取形变过程中的时序信息和空间信息,所提特征算法能更好地度量和分类细胞动态形变.

4 结 论

针对显微视频中细胞的动态形变进行研究,根据对细胞形变的观察,提出一种针对细胞形变的局部时序特征,能够有效提取细胞形变过程中时序信息和空间信息. 使用两个淋巴细胞形变视频数据集,对该特征算法的效果进行了验证. 实验结果表明,所提特征算法在两个数据集上均有突出表现,能够准确度量和分类细胞动态形变,相比于基于图像特征的形变分析算法具有更大优势.

猜你喜欢
时序轮廓淋巴细胞
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
遗传性T淋巴细胞免疫缺陷在百草枯所致肺纤维化中的作用
甲状腺切除术后T淋巴细胞亚群的变化与术后感染的相关性
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
ACS患者血清FSTL-1、外周血淋巴细胞中PPAR-γ、 MMP-9与冠状动脉狭窄程度的关系
传染性单核细胞增多症患儿异形淋巴细胞与T细胞亚群的相关性分析
你不能把整个春天都搬到冬天来
跟踪导练(三)
儿童筒笔画