基于机器学习与细胞形态学对癌细胞分类

2019-11-14 08:17臧启元黄钢徐磊熊征斯
软件 2019年9期
关键词:图像处理癌细胞机器

臧启元 黄钢 徐磊 熊征斯

摘  要: 对在细胞实验室培养的三种癌细胞(肺癌PC-9,乳腺癌MDA-MB-231,膀胱癌5637)进行连续4天的图像采集,并进行图像处理,通过ImageJ软件进行图像预处理,包括细胞图像分割,边缘检测,提取细胞形态特征,并通过python编写四种经典机器学习算法,通过对细胞形态特征进行训练,不同模型得到的癌细胞分类结果,对应四种模型在本文数据集上表现进行评价。随机森林分类,逻辑分类,使用线性核函数的SVM分类,朴素贝叶斯分类的准确率分别为:0.725,0.788,0.796,0.813。

关键词 癌细胞;图像处理;形态特征提取;机器学习

中图分类号: TP391.41    文献标识码 A    DOI:10.3969/j.issn.1003-6970.2019.09.018

本文著录格式:臧启元,黄钢,徐磊,等. 基于机器学习与细胞形态学对癌细胞分类[J]. 软件,2019,40(9):81-83

Cancer Cells Were Classified Based on Machine Learning and Cell Morphology

ZANG Qi-yuan1, HUANG Gang2*, XU Lei1, XIONG Zheng-si1

(1. School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai 200000, China; 2. Shanghai University of Medicine and Health Sciences, Shanghai 200000, China

Abstract: Three kinds of cancer cells cultured in cell laboratory (lung cancer PC-9, breast cancer MDA-MB-231, bladder cancer 5637) were collected for 4 days, and image processing was carried out. Image preprocessing was carried out through ImageJ software, including cell image segmentation, edge detection, extraction of cell morphological features, and four classical machine learning algorithms were written through python to train the morphological characteristics of cells. According to the classification results of cancer cells obtained by different models, the performance of the four models in this data set was evaluated. The accuracy of random forest classification, logical classification and SVM classification using linear kernel function is 0.725, 0.788, 0.796 and 0.813, respectively.

Key words: Cancer cell; Image processing; Morphological feature extraction; Machine learning

0  引言

當今肿瘤问题早已成为医学界的一大难题,研究肿瘤时,对体外癌细胞的研究必不可少。癌细胞的形态与癌细胞的生长和代谢密不可分,通过形态可以分辨出不同种类的癌细胞,也可以找到加入药物后对癌细胞形态的影响[1]。可以不用很多传感器,直观地通过癌细胞的照片,用图像分析和机器学习识别形态就可高速高效地区分出不同种类的癌细胞。所以提取癌细胞形态特征和区分不同种类的癌细胞,对癌症的进一步研究有一定的意义。

机器学习中的神经网络算法已经用在医学图像处理上[2],在细胞图像上,机器学习已经用于血细胞分类[3-6],肿瘤细胞的良恶性判别[7],并取得不错的成效。而本文用机器学习算法对癌细胞识别分类,工作流程如图1所示。

1  细胞图像采集

1.1细胞培养

培养的癌细胞选择PC-9(肺癌),MDA-MB-231(乳腺癌),5637(膀胱癌)三种癌细胞。将3种细胞复苏后分别接种到6个直径为100 mm的培养皿中(同种细胞培养在两个培养皿中),培养皿中培养基为7毫升的DMEM,其中700微升的FBS,70微升的PS,置入37℃,CO2浓度为5%的细胞培养箱中,待其24小时后稳定贴壁生长[8]

1.2细胞图像采集

1.2.1  图像采集设配

显微镜采用徕卡显微系统LEICA DMi8,图像采集软件为徕卡LAS Core,图像采集格式为tif

1.2.2  图像采集方法

(1)待细胞贴壁生长后,用电脑连接显微镜准备对细胞进行拍照。

(2)图像采集软件默认拍摄RGB彩色图像,为了方便图像处理和特征提取,修改软件参数,使其直接采集细胞的灰度图像。

(3)培养皿放到载物台,物镜选择40倍,找到细胞位置,手动调整光圈调节亮度和焦距,选取清晰视野。

(4)每个培养皿每天采集两次,每次采集5张图像,连续采集4天,这样每种癌细胞可以得到其40倍视野的20-40张图像,三种癌细胞共100张tif格式的图像,每张图像中有4-10个细胞,如图2,可对其进行图像处理并提取细胞形态特征。

2  图像特征提取

图像中细胞形态包含很多特征,如细胞面积,细胞核面积,细胞周长,细胞核周长,细胞圆度,纹理特征,核质比等。由于采集过程中手动调节亮度,所以纹理特征不稳定,故本文提取了细胞图像中细胞面积,细胞周长,细胞圆形度,细胞长宽比,最大费雷特直径,最小费雷特直径,细胞边缘粗糙度共7个特征来进行机器学习的训练。

采集到的细胞图像采用ImageJ软件处理,ImageJ软件是由National Institutes of Health开发的基于Java的公开的图像处理软件。可以显示,编辑,处理,分析,保存多种格式的图像。

2.1细胞图像分割

使用ImageJ依次读取所采集到的tif格式细胞图像,进行图像预处理和细胞形态特征提取。以其中一张图像为例,读取灰度图像后,首先使用sober算子边缘检测器对图像进行边缘检测,sober算子大小为3*3,分别检测水平与垂直方向边缘,模板如下[9]

但是由于该操作会产生椒盐噪声,故选择中值滤波对图像进行去噪处理,再通过阈值分割生成二值图像,提取细胞位置,使细胞部分灰度为0,背景灰度为1,细胞分割结果如图3所示。同时在二值图像中有些黑色部分并不是细胞,要设置像素大小阈值对细胞筛选,同时注意到图片边缘显示的细胞不完整,但是其邊缘也被提取出来,所以要将在图像边缘部分不完整细胞剔除掉。通过上述步骤操作处理过后得到的用于提取特征的图像如图4所示。剩余的细胞图像按照上述步骤进行同样操作。

2.2癌细胞形态特征的提取

用ImageJ中Analyze Particles提取特征,分别得到这张图像中的完整的癌细胞数量以及每个癌细胞的面积,周长,圆形度,长宽比,最大费雷特直径,最小费雷特直径,边缘粗糙度7种特征值,结果如图5所示。

上述方法对所有采集到的细胞图像操作过后,可以得到PC-9,MDA-MB-231,5637三种癌细胞的每个细胞的细胞形态特征。把同种癌细胞的7种特征值存于文档,用于下一步机器学习训练并对三种

癌细胞种类的分类。

3  机器学习对癌细胞进行分类

3.1算法模型选取

机器学习算法模型众多,本文选取经典的四种分类模型:逻辑分类,使用线性核函数的支持向量机分类,随机森林分类,朴素贝叶斯分类。其中SVM分为线性核、径向基等,可以用于文本分类[10]和图像分类。SVM分类与BP神经网络都可以达到预期分类效果[11]

3.2实现方法

在win8系统用Python3.6,基于sk-learn机器学习包编程实现。

把提取到的特征加上所对应的癌细胞名称所为标签,分别用四种模型训练,为使结果更可靠,采用4重交叉验证对模型评估。并用原始数据集测试这四种模型得到混淆矩阵如图6所示。

4  结果分析

从混淆矩阵来看,这些四种模型都取得较好的分类效果,但是从客观的角度需要对模型进行评价,模型进行交叉验证的评估指标有精确度,查准率,召回率,f1得分。对上述四种分类模型通过这四种指标进行在癌细胞形态特征数据集上进行评估,Python编程得出各模型的各指标数据如表1所示。

从表1得出,在本文癌细胞数据上,分类效果最好的是朴素贝叶斯,该模型可以达到81.3%的精确度。在本文癌细胞数据上分类效果表现相对较差的模型是随机森林,其精确度为72.5%,各分类模型都能达到预期的分类效果。

5  结语

本文研究了癌细胞在显微镜下照片的图像处理,包括细胞分割,特征提取,并对提取的特征进行四种机器学习分类模型的训练用于三种癌细胞的分类,取得不错的效果。为进一步研究细胞形态奠定基础,下一步可以通过对癌细胞进行抗癌药物的干预找出其形态特征的变化,找到添加的药物与癌细胞形态之间的联系。

参考文献

  • 王洁茹, 张婷婷, 程晓东. 中药抗卵巢癌侵袭转移及化疗耐药的研究[J]. 实用肿瘤杂志, 2014, 29(01): 92-102.
  • 陈洁, 雷萌. 基于脉冲耦合神经网络的乳鼠心肌细胞图像增强[J]. 软件, 2018, 39(2): 41-43.
  • S. Ravikumar, A. Shanmugam.WBC image segmentation and classification using RVM[J]. Applied Mathematical Sciences, 2014, 8(45): 2227-2237.
  • Mazin Z. Othman, Thabit S. Mohammed, Alaa B. Ali. Neural Network Classification of White Blood Cell using Microscopic Images[J]. International Journal of Advanced Computer Science and Applications, 2017, 8(5): 99-104.
  • Razzak M I, Naz S, Microscopic Blood Smear Segmentation and Classification using Deep Contour Aware CNN and Extreme Machine Learning[C]//2017 IEEE conference on computer vision and pattern recognition workshops (CVPRW). Honolulu, HI, USA: IEEE, 2017: 801-807.
  • Jameela Ali Alkrimi, Hamid A. Jalab, Loay E. George, etc. Comparative Study Using Weka for Red Blood Cells Classification[J]. International Scholarly and Scientific Research & Innovation, 2015, 9(1): 19-22.
  • Abien Fred M. Agarap. On Breast Cancer Detection: An Application of Machine Learning Algorithms on the Wisconsin Diagnostic Dataset[C]//International Conference on Machine Learning and Soft Computing (ICMLSC). Phu Quoc Island, Viet Nam. ICMLSC, 2018, 2: 5-9.
  • 徐磊, 黄钢, 熊征斯. 基于NDIR二氧化碳传感器对肿瘤细胞糖代谢速率的研究[J]. 软件, 2018, 39(08): 14-17.
  • 杨丹, 赵海滨. MATLAB图像处理实例详解[M]. 北京: 清华大学出版社, 2013: 231-232.
  • 陈海红. 多核SVM 文本分类研究[J]. 软件,2015,36(5):7-10
  • 王宏涛, 孙剑伟. 基于BP神经网络和SVM 的分类方法研究[J]. 軟件, 2015, 36(11): 96-99.

猜你喜欢
图像处理癌细胞机器
机器狗
机器狗
癌细胞最怕LOVE
假如吃下癌细胞
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
未来机器城
基于图像处理的定位器坡度计算
正常细胞为何会“叛变”? 一管血可测出早期癌细胞
Photo Shop通道在图像处理中的应用