张新斌 康昌春 李文珲
摘 要:在最近几年中,医学影像技术发展迅猛,进入到大数据的新阶段。怎样从大量的医学图像数据内筛选出重要的信息,显然是医学辨识图像过程中的一个挑战。深度学习属于机器学习兴起的新领域。经由人脑的模拟构建起分层模型,它可以有效地化解传统式机器学习法无法挑选出医学图像内所包藏的信息内容,体现出不可小觑的智能化特征提取、建构复杂化的模型结构以及有效的特征表达性能。更为关键的是,深度学习法可以通过像素级的最初数据逐步地通过底层至高层的途径来提取特征,其为化解辨识医学图像所碰到的新问题指出了新的方向。本论文阐述深度学习的概念,简述主要的模型结构,以乳腺肿瘤X线图像数据的归类为例,研究基于深度学习网络探析医学影像大数据的相关课题。
关键词:深度学习;医学影像;大数据
中图分类号:R445;TP18 文献标识码:A 文章编号:2096-4706(2018)08-0084-03
Abstract:In recent years,medical imaging technology has developed rapidly and has entered a new stage of big data. How to filter important information from a large number of medical image data is clearly a challenge in the process of medical identification. Deep learning belongs to the new field of machine learning. Based on the simulation of human brain,a hierarchical model is constructed. It can effectively resolve the traditional machine learning method,which can not pick out the information contained in medical images,and embody the intelligent feature extraction,construction complex model structure and effective feature expression performance,and more critical is the depth study. The method can extract features through the initial data from the first to the high level through the initial data of the pixel level,which is a new direction for resolving the new problems encountered in the identification of medical images. This paper expounds the concept of deep learning and describes the main model structure. It takes the classification of the X-ray image data of breast tumor as an example,and analyses the related subjects of the big data of medical images based on the depth learning network.
Keywords:deep learning;medical image;big data
0 引 言
从2006年迄今,深度学习即被当作机器学习范围的重要分支诞生。它应用数层的复杂结构或通过数重非线性的变换组成数个处理层,并对数据加以处理。在最近几年中,深度学习广泛地在语音与音频辨识、计算机视觉、自然语言处理以及生物信息学等范围均获得了明显的成果。由于深度学习广泛地运用于数据的分析方面,具有极为可观的运用前景,已被赞誉成2013年迄今的十大最为重要的一项突破性技术。
医疗关系着百姓的生命健康。当下医疗的数据量并不小,然而能否使用好海量的医疗数据是医疗领域是否可以做出明显贡献的一项重要指标。当然,医疗数据量亦存在着不少的问题:医疗的数据多元化,主要的类型有图像、文字、视频以及磁等;因为采用的设备存在着区别,数据质量也存在着显著的区别;数据呈现出波动的特点,随着时间与特定的事件改变;因为个体之间的区别,疾病的规律并无普遍的适用性等。因此,可以借助于深度学习的方法来化解医学影像大数据所存在的一系列问题。
1 深度学习理论概述
1.1 深度学习的概念
深度学习来源于人工神经网络的相关分析。含数隐层的感知器即为就一种深度学习结构。深度学习主要经由组合低层特点构建起更为抽象化的高层方式来表达属性种类或是特点,用挖掘数据的分布式特点加以表达。深度学习法模拟的是人类的神经网络结构,经由組合数个非线性的处理层来逐层地处理最初的数据,通过数据内得到各个层次的抽象特点,且应用在分类的预测方面。深度学习的长处在于通过非监督式或是半监督式的特点学习与分层特征获得高效的计算方法来取代人工的获取特点。
通过一个输入内产生相应的输出所关涉的计算能够经由流向图(flow graph)的方式加以表达。流向图属于一类可以表达计算功能的图。在此类型的图内,每个节点所表示的是基础的计算及其所包括的数个隐层以及其中深度学习所对应的模型。而模型内含数个隐层化的数据信息,运算的结果被运用至此节点相应的子节点数值之中。顾及到运算的集合情况,其能够被同意在每个节点与可能性的图结构内,同时也界定了函数族的具体形式。输入的节点并无分节点,且输出的节点也无分节点。
此类流向图比较特殊的属性为深度(depth),即由单个输入至单个输出最长渠道的长度。以往的前馈式神经网络可以被看作拥有等于层数的深度(比如对于输出层为隐层数加1)。SVMs有深度2(一个对应于核输出或者特征空间,另一个对应于所产生输出的线性混合)。人工智能化分析的趋势之一在于凭借于“专家系统”工具,从上至下地通过许多“若-那么(If-Then)”的相关规则加以界定。人工式神经网络(Artifical Neural Network)意味着另外的一类从下至上的途径。神经网络概念并无严格的正式界定。其基本特征在于尝试着仿照大脑结构的神经元内部进行传递,处置相关的信息。
1.2 主要的模型类型
深度学习的不少模型结构已经被运用至医学影像的大数据内。常见的模型类型包括如下的几种:稀疏编码网络(HierarchicalSparse Coding,HSC)、受限玻尔兹曼机(Restricted Bohzmann Machines,RBM)、卷积神经网络(Convolutional Neural Networks,CNN)、栈式自编码器(Stacked Autcr—Encoders,SAE)以及深度信念网络(Deep Belief Networks,DBN)等。
2 基于深度学习网络探析医学影像大数据——以乳腺肿瘤X线图像数据的归类为例
通过抽象化的数据特点可知,基于深度学习网络能够强化总体的分类功能。当然,盲目地加大网络深度亦可以弱化它所具有的泛化功能,产生过拟合的后果。因而,需基于具体的现实运用与数据集信息挑选恰当的网络深度类型。隐含层节点数指标亦为对网络的分类功能产生影响的另一个比较重要的因素,如果隐含层对应的节点数并不多,即会造成网络中神经元内部连接的规模并不大,导致提取的准备分类的数据内部特点数量并不多,不足以实现分类的目标;如果隐含层所包含的节点数过大,除却造成过拟合后果之外,还会造成总体性网络的反应速度迟缓,致使出现训练与检测的时间太长等情况。
因而,本论文将隐含层的节点数应用在探讨适合于乳腺肿瘤的x线图像归类的深度学习的网络模型中。根据相关的实验结果可知,最适合于DBN,SAE与CNN的深度学习模型依次为{1024-100.150-200-300-600.1000-6,1024-100.150-200-300-600.1000-6,1-12C.12S-36C-36S-72C-72S.120C.120C-120C-240-100-6}。若采纳此类型的网络结构模型进行分类,Spec,Sen与Acc的分类指标依次最高。在对它们进行比对后发现,CNN就Ace指标的性能最佳,Spec与Sen存在着不足,DBN与SAE大体一致,原因在于DBN与SAE的结构模型极为近似。通过6类畸形化的乳腺X线图像得到SAE,ANN,CNN以及DBN进行功能的分类之后,可以界定适合于乳腺肿瘤的X线图像归类的CNN,DBN与SAE的网络模型结构,据此,把它依次和ANN展开比对分析可知,ANN的输入特点采用的是其提取的特点,并采纳10折交叉验证法加以研究。基于结果发现,DBN与ANN比对后可知,分类的性能均得以改进,原因在于CNN,DBN与SAE都采纳了深度学习的模型结构。当训练的次数递增时,总体则表现出下降的走向,且CNN的错误率处于最低的程度,其次为SAE与DBN,最后为ANN。就总体训练的走向而言,ANN出现分类上的错误概率浮动改变最为明显,呈现出明显的随机性,总体分类的稳定性欠佳,原因在于ANN最初的权值存在着明显的随机性,总体网络易陷入到局部性的最优。深度学习的网络模型结构所具有的分类功能显著地好过以往的ANN网络模型结构。就4类网络模型的结构分类相应的混淆矩阵可知,SAE、CNN与DBN的各个种类的分类正确率都超出ANN。因而,此3种网络模型结构处于MIAS非正常时分类显著地好过以往的ANN计算方法。有关ANN、CNN、SAE、DBN在分类的特异性、敏感性以及精度的结果统计情况如表1~表4所示。
3 结 论
深度学习必须拥有大量、优质的数据加以应用,特别是它和医学方面的有机结合,其特点更加明显地体现出来。监督学习必须要有人类专家的标记型数据,且及时地传教给机器精确的答案,才可以产生出更为精确的结果。作为机器学习的一个新出现的领域,深度学习在处理图像与计算机视觉领域的成功,替医学学科的图像辨识提供了新的发展路径。当然,虽然当下深度学习已在医学图像辨识中获得了一定的研究成果,但从整体上说,深度学习运用于医学图像辨识领域依旧处在最初的阶段,将来还有不少的问题需加以解决。
参考文献:
[1] 吕鸿蒙,赵地,迟学斌.基于增强AlexNet的深度学习的阿尔茨海默病的早期診断 [J].计算机科学,2017,44(S1):50-60.
[2] 孙志远,鲁成祥,史忠植,等.深度学习研究与进展 [J].计算机科学,2016,43(2):1-8.
[3] 李渊,骆志刚,管乃洋,等.生物医学数据分析中的深度学习方法应用 [J].生物化学与生物物理进展,2016,43(5):472-483.
[4] Haykin S.神经网络与机器学习 [M].申富饶,徐烨,郑俊,等,译.北京:机械工业出版社,2011.
作者简介:张新斌(1985-),男,汉族,山东济南人,科员,助理工程师,硕士。研究方向:医疗信息化。