机器学习在医疗大数据中的应用

2020-12-17 11:45潘晓英刘星星余慧敏许康玲

西安邮电大学学报 2020年1期

潘晓英，王佳，刘妮，刘星星，余慧敏，许康玲

(1.西安邮电大学计算机学院，陕西西安 710121；2.西安邮电大学陕西省网络数据分析与智能处理重点实验室，陕西西安 710121；3.美国德州大学西南医学中心，美国达拉斯 75390)

随着机器学习和深度学习技术发展的普及，已经为人们开辟了一个全新的研究时代，越来越多的数据和越来越强大的计算能力使得机器学习已经在不同领域得到了普及应用[1-3]。医疗健康领域对人工智能的需求也在不断增加，目前，已经看到了智能应用在医疗健康领域的潜在好处，例如帮助临床诊断疾病、确定癌症部位、个性化治疗，传染病高发概率预测等方面[4-6]。尤其是最近几年，机器学习及其在用于医疗大数据领域的应用引起众多学者的极大关注，已成为大数据应用领域中非常重要的研究热点之一，并取得了一系列重要进展。本文拟介绍医疗大数据的概念、来源及特点，探讨机器学习及其用于医疗大数据在临床及医生决策中的应用，特别是在基因组学、电子病历(electronic medical record,EMRE)、医疗影像数据分析、疾病预测和个性化医疗方面的研究成果进行深入的总结，并分析机器学习在临床医疗中的局限性和面临的挑战。

1 医疗大数据介绍

近些年，随着大数据概念的广泛兴起及应用，大数据与健康医疗相融合形成以医疗大数据为主要增长点的医疗新业态，为医疗卫生体制改革和完善起到重要促进作用，同时相关方面的应用也不断改善着普通大众医疗服务质量和水平。

1.1 医疗大数据的概念

医疗大数据的概念并没有明确的表述和定义，其含义可以理解为医生对患者诊疗和治疗过程中产生的数据，包括患者的基本数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据、医疗设备和仪器数据等，这些数据大都是以患者为中心而得来的，同时通过分析这些数据被应用于临床预测诊断、药企药物研发、公众卫生监测、个人健康管理等方面服务于患者乃至全体民众。针对医疗大数据的研究已成为当前大数据应用方面的重要热点领域。

1.2 医疗大数据的来源

医疗大数据来源十分广泛，任何与医疗相关的行为都可能产生相应的数据。总的来说，当前的医疗大数据可以归档在以下4个框架中。

1)医院内产生的信息

现代医院基本实现了信息化，医疗大数据来源于医疗机构是最原始最基础的医疗数据，包括患者院内挂号就医过程中的个人信息、病患进行各种检查的数据、图像等信息，以及医生对患者的诊断、开具处方、用药记录、病历等信息，还有各种手术患者的手术记录、住院信息、医保数据等[7]。同时，医院进行医疗研究和实验室进行临床验证的一些数据，都是医疗大数据的重要来源。

2)制药企业和药物研发信息

制药企业在药物研发方面会产生大量的数据，从药物靶点选取、化合物筛选、动物试验，到临床一期、二期、和三期试验[8]，制药企业产生的用药量、用药时间、用药成分、实验对象反应时间、症状改善表象等大量数据。

3)临床医疗研究和实验室数据

国内外进行的临床医疗研究在项目进行过程中会产生大量关于患者用药时间、安全性、有效性等临床数据，同时，各大医学院高校实验室在实验中产生的数据，临床和实验数据整合在一起，构成了医疗大数据的一个主要来源[9]。

4)智能穿戴设备信息

随着智能移动终端设备和移动互联网的高速发展，便携式的各种健康可穿戴设备逐渐进入人们的生活，各种健康设备通过“云+端”的方式收集用户的生命体征信息，比如心率、呼吸、血压、体温、运动量等[10]。这些数据有利于用户随时了解自己的身体状况，同时，这些数据也成了医疗大数据的重要组成部分[11]。

1.3 医疗大数据的特性

医疗大数据归根结底也是大数据的一种，因此，具备大数据普遍所具有的大量、高速、多样、价值(volume、velocity、variety value，4 V)即4 V特点[12]。除此之外，医疗大数据还具有如下几个特点[13]。

1)多态性

医疗大数据具有形态多样性，不仅包括类似体检、化验结果一样的纯数据，还包括如脑电信号、心电图等信号，同时还有像B超、X线等的医学图像，甚至患者的病情描述的病例等文本也属于大数据[14]，这些都是医疗数据区别于其他领域数据的显著特征。

2)不完整性

虽然医院多数已经实现信息化，但在某些环节，大量数据依然依赖于人工记录，这就会导致数据中包含大量的缺失和偏差，另外，患者转诊或出院之后缺乏记录和继续跟踪，使得数据变得不完整。

3)时间性

医疗大数据的时间性指的是患者的发病、就医的过程是随时间变化的，这些事件的发生有一个时间上的进度，另外，医学检测的心电图等图形图像都是关于时间的函数，这些都属于时间性的特点。

4)冗余性

冗余性指的是很多无关的、重复的数据，患者可能会到多个科室做多种检查，就诊和检查过程所叙述的都是相似或者相同的话语，这些都会被记录下来，这就造成了冗余性的特点。

2 机器学习

医疗大数据本身是枯燥无用的，为了使数据有用，需要对数据进行分析、解释和处理。因此，算法本身比数据更具有变革性，机器学习更适合于医疗大数据的应用。

2.1 机器学习概念

机器学习是研究使计算机模仿人类的学习思考方式，让计算机拥有自学习的能力，并将所提供的数据提供给各类算法训练出模型，然后使用模型预测的一种方法。通过学习使计算机不断更新和重组现有的认知方式，使其性能不断改善提高[15-16]，目前已在人工智能的各个领域取得很好的研究成果。机器学习放弃过去追求数据间因果的分析方式，主要使用归纳、综合的方法，而不是演绎。

2.2 机器学习类别

机器学习按照学习任务的不同可以分为有监督学习、无监督学习和半监督学习和强化学习。

1)监督学习

典型的有监督学习[17]过程通过学习已标注的数据集的特征和结果建立模型，利用训练完的模型对未知的数据进行预测。利用数据对象中提供训练数据对网络参数进行训练，旨在找到一组合适的参数能使模型很好的拟合数据。

2)无监督学习

无监督学习[18]是对无标注的样本信息进行学习。由于无法预先知道样本的标签，因而只能从原先没有标签的样本集开始学习分类器设计。

3)半监督学习

半监督学习[19-20]的主要思想是利用标记的数据和未标记的数据所提供的信息，在标注数据较少的情况下，如何集合大量未标注数据来改善学习性能。其中，标记数据提供数据和标签联合分布信息，未标注数据提供数据分布信息。

4)强化学习

强化学习[21]源于最优控制领域研究，考虑在主体与环境相互作用过程中，如何从奖励/惩罚(称为强化信号)中学习，构造主体最优行动策略。例如利用强化学习将识别算法的结果反馈到分割中，评价分割效果，继而实现图像的智能分割。

2.3 模型介绍

通常简单的预测任务可以用传统模型例如logistic回归来完成，而复杂的任务需要更复杂的模型如神经网络等。复杂模型的训练通常需要更多的例子。没有预先确定的例子数量，但是，构建复杂模型至少需要成千上万个例子。预测任务越复杂，通常需要的数据就越多。也有专门的方法如转移学习来减少构建精确模型所需的训练示例的数量。

2.3.1 决策树

决策树方法[22-23]是机器学习中的经典算法，也是数据挖掘的重要方法之一，该方法是利用树形结构的特性来对数据进行分类的一种方法。决策树的最大优点是直观，以树状图的形式表现预测结果，而且这个结果可以进行解释，决策树主要用于聚类和分类方面的应用。

2.3.2 贝叶斯网络

贝叶斯网络(Bayesian network)[24-25]又称信度网络，是Bayes方法的扩展，是目前不确定知识表达和推理领域最有效的理论模型之一。适用于表达和分析不确定性和概率性的事件，应用于有条件地依赖多种控制因素的决策，可以从不完全、不精确或不确定的知识或信息中做出推理。

2.3.3 支持向量机

支持向量机(support vector machine,SVM)[26]是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。主要用于解决模式识别领域中的数据分类问题，属于有监督学习算法的一种。

2.3.4 神经网络

深层神经网络至少具有两个以上的隐藏层，而神经网络提取信息的能力通常与神经网络的层数有关，层数越多，神经网络提取信息的能力越强，学习能力越强。因此，目前应用最广、功能最强的神经网络都是深层神经网络，与之对应的是深度学习。复杂模型有多层感知器、卷积神经网络(convolutional neural networks,CNN)和循环神经网络(recurrent neural network,RNN)等。

1)多层感知器

神经网络模型通常分为输入层、隐藏层和输出层3个部分，如图1所示，多层感知器的重要特点就是根据各自需求来确定隐藏层所需层数，并且对于神经元的个数也没有限制，是最基本的深度学习网络结构。多层感知器由若干层组成，每一层包含若干个神经元。激活函数采用径向基函数的多层感知器被称为径向基网络。层与层通过神经元组成，不同层之间的神经元以通过训练得到的“权重”形式相互连接。神经网络模型的输入层用于接收输入数据；隐藏层则用于提取数据中的规律或特定的模式，这个过程称为“学习”；输出层则用于输出神经网络的计算结果。

图1 多层感知器处理流程

2)卷积神经网络

卷积神经网络是多层感知器的变种，CNN的设计思想受到了视觉神经科学的启发，主要由输入层、卷积层、池化层、全连接层和输入层组成[27]，如图2所示。在进行图像的特征提取时，先从原始图像中选取合适的小块区域作为训练样本，模型可以从小块样本中学习到一些特征，然后将这些特征作为滤波器与原始的图像做卷积运算，从而得到原始图像中不同特征的激活值[28]。卷积层能够保持图像的空间连续性并且可以降低网络模型的复杂度，卷积核是卷积层的重要组成部分，主要用于自动提取输入图像的深层信息。对图像的一个局部中不同位置的特征进行聚合统计称为池化作用，其主要的作用就是下采样，通过去掉Feature Map中不重要的样本，池化的方法很多，如图3所示，最常用的是最大池采样和平均池采样。最大池采样就是在n×n的样本中取最大值，作为采样后样本值，而平均采样是选取样本的平均值作为最后的样本，与直接使用卷积后的特征相比，这些统计特征不仅可以降低特征向量的维度，减少分类的计算量，还可以扩充训练数据，防止过拟合[29]。

图2 卷积神经网络示意图

图3 池化方法

3)循环神经网络

在传统的神经网络模型中，从输入层到隐含层再到输出层，层与层之间是全连接，但是每个层内的节点无连接，这就导致其无法对时间序列上的变化进行建模。循环神经网络的网络则会对前面的信息进行记忆并应用于当前的输出计算中，即隐含层之间的节点不再是无连接，并且隐含层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。此外，有别于传统的机器学习模型中隐含层单元彼此之间对等，RNN中的隐含层从左向右是有时序的[30]。一条单向流动的信息从输入层到达隐含层，与此同时，另一条单向流动的信息从隐含层到达输出层，特殊情况下RNN会打破后者的限制，引导信息从输出单元返回隐含单元，并且隐含层的输入还包括上一隐含层的状态，即所谓的隐含层内的节点可以自连也可以互连[31]。

3 机器学习在医疗中的应用

机器学习在医疗大数据中的应用非常广泛，已经涉及到了诊断、治疗及研究的方方面面，本文着重探讨机器学习在基因组学、病历、影像数据分析、疾病预测和个性化医疗方面的应用。

3.1 基因组学

基因组学[32-33]是分子生物学的一个分支，主要研究包括以全基因组测序为目标的结构基因组学和以基因功能鉴定为目标的功能基因组学两方面的内容。基因组学最终是为精准医疗服务的，目标是实施患者或特定人群的治疗干预。即发现个体脱氧核糖核酸(deoxyribo nucleic acid，DNA)的变化是如何影响疾病风险的，并试图找到背后的致病机理以便于研制出相应的靶向治疗方案。目前，人工神经网络在基因组信息学中的应用包括基因组序列分析、蛋白质的结构预测两个层次。

3.1.1 蛋白质结构预测

神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式，进而提取更多的信息，并将所得到的信息进行有效的预测。

Wang等人[34]在蛋白质二级结构预测中利用条件随机场与浅层神经网络结合的方式对蛋白质结构和功能进行研究。所得的模型框架不仅可以解决复杂的序列结构关系和相邻二级结构之间的依赖性，而且可以作为通用模型框架来预测蛋白质的其他结构特性。实验结果证明该方法大大优于目前流行的预测因子。

Zeng等人[35]提出通过改变CNN的宽度、深度、池化层的结构来预测转录因子数据集中的DNA序列结合位点。结果表明改变CNN方法在学习丰富的高阶序列特征(如二级基序和局部序列上下文)方面的优势。不仅演示了如何谨慎地构建序列基准数据集，使用控制潜在混淆效果的方法，这对于在竞争方法之间进行公平比较是至关重要的。而且，还探索了如何为这些学习任务建立足够的训练数据，创建了一个灵活的基于云的框架的方法。

Zhu等人[36]构造了一个新的深度神经网络(deep neural networks,DNN)RDense模型，利用已有的核糖核酸(Ribonucleic Acid，RNA)序列和二级结构信息，引入从RNA二级结构中提取的成对概率特征作为输入，然后将双向长短期记忆(long short-term memory，LSTM)网络和密集连接的卷积神经网络相结合，学习蛋白质-RNA结合的偏好。对体外结合的预测优于所有现有的其他方法，模型的准确性有显著提高，具有更好地预测精度和可扩展性。

Zhang等人[37]提出了一种新颖的深度学习架构，该架构利用卷积神经网络、残差网络和双向递归神经网络的整合协同作用来提高蛋白质二级结构预测的性能。由卷积滤波器和原始输入组成的局部块旨在捕获局部序列特征。由门控递归单元组成的后续双向循环神经网络可以捕获全局特征。所提出的深度网络在基准CB513数据集上进行8态预测时，其准确度达到71.4%；并且通过这个模型进行的集成学习达到了74%的准确率，还在其他3个独立数据集CASP10、CASP11和CASP12上评估了模型的泛化能力。这些预测性能优于最新的其他方法。

经典的机器学习方法在处理复杂数据和捕获特征之间的内在联系方面有很大困难。最近的深度学习方法加快了计算速度并提高了预测精度，深度学习中的神经网络可以挖掘数据上下文之间的关系以提取有效信息，在蛋白质结构预测这些研究领域取得了良好的成果。

3.1.2 基因组序列分析

Shiraishi等人[38]提出一种新的检测体细胞突变的方法，该方法基于经验贝叶斯框架来区分体细胞突变和测序错误，其使用来自多个非配对正常样本的测序数据来估计模型参数。实验证明该方法不仅在调用中等等位基因频率的突变方面优于现有的几种方法，而且能够准确调用微小肿瘤亚群内的低等位基因频率(≤10%)的突变，从而可以破译肿瘤标本中的精细亚结构。

Neda Tavakoli[39]提出将双向深度LSTM网络用于序列建模，作为一种执行基于位置敏感散列(locality-sensitive hashing ，LSH),序列比对的方法。特别是使用深度双向LSTM网络来学习LSH的功能，然后可以将获得的LSH用于执行序列比对。通过比对参考基因组上的短阅读查询，所提出的基于LSTM的模型证明了建模序列的可行性。使用引入的基于LSTM的模型，可以达到更高的精确度。

基因测序随着成本的降低，用户不断增加，测序过程将产生大量的数据和样本库，通过机器学习高级算法能够加速分析过程，使得测序更容易、更快捷、更准确，这些进展推动基因测序进入临床过程，辅助医生诊断疾病。

通过基因组学和蛋白质组学等组学分析技术测定个体疾病患者的遗传学信息，并将其用于指导疾病的预防、诊断和治疗过程，是精准医学在临床上最直接的应用。

3.2 电子病历

电子病历，也称为计算机化的病案系统或称基于计算机的病人记录(computer-based patient record,CPR)，是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录，取代手写纸张病历。其内容包括纸张病历的所有信息。电子病历一般包括图像和文字信息，而文字信息以半结构化文本或自由文本的形式存在。以电子病历为基础的医疗数据研究，具有重要的意义[40-41]。

电子病历是结构化文本和非结构化文本相结合的一种知识数据，因此，可以通过自然语言处理的方法，对其进行信息的抽取，以得到有用的医疗知识。电子病例中的一些专业概念，在自然语言处理中可称为实体，例如药品名称、治疗名称。实体和实体之间存在着语义关系，当两个实体出现在一个句子中时，实体以及其对应的上下文就决定了这两个实体之间的关系。实体关系抽取任务可以完成对给定的实体关系类型的判断，针对电子病历中的数据，就可以选择合理的特征来对实体之间的关系实现有效的甄别。

Cui等人[42]提出了一种使用预测任务指导的健康记录的聚合方法，构建各种表征学习模型的训练语料库，和无监督的方法相比，尤其是在有限的训练样本情况下，有更好的预测能力。

Li等人[43]提出了一种将双向长-短时记忆网络和注意力机制相结合的深层神经模型。利用该模型从2018年中国知识图谱和语义计算会议中文电子病历语料库中识别出了5种类型的临床实体，双向长-短时记忆网络和注意力机制相结合的深层神经模型最终获得了比其他广泛使用的模型更好的性能，F-分值为85.79%。

Zhang等人[44]利用支持向量机模型对纽约市诊所获得的电子病历进行癌症数据的分类。从EHRs中提取的医疗记录利用训练支持向量机模型来进行癌症分类。该模型以每例100份病历为训练样本，对10种不同类型的癌症数据的预测准确率为86.2%，对3种癌症的预测准确率为97.33%，对每种癌症的预测准确率采用病历均为400份。

Ling等人[45]将半监督学习框架应用于EMR-California cancer Registry(CCR)数据。从患者病例中提取出转移性疾病的信息来推断类别标签，训练一个用于检测转移性乳腺癌的逻辑回归模型，总体达到了0.87%的准确率。实验结果表明，通过机器学习，对电子病例搜集到的患者信息进行特征选择或融合，能有效提高病情预测的准确率。

电子病历中蕴含着海量的有价值信息，对电子病历的挖掘可以极大地提高医疗诊断效率，提高临床诊断的及时性、准确性，还可以改善预后、降低医疗成本，为互联网医疗提供便利。

3.3 医疗影像数据分析

目前，医学影像[46]的研究主要集中在两个方面，一是医学影像处理研究包括医学影像的增强、分割、配准、融合以及3维(3-dimensions，3D)重建等，这些技术为医学影像数据应用提供技术支撑。二是医学图像的分析，通过对医学影像的模式识别与分类，实现对医学图像的自动标注，并根据图像的特征及标签为图像建立索引，以实现后期用户的图像检索任务。

3.3.1 图像分割

医学图像分割是医疗影像数据处理和分析的重要步骤，由于医学影像其本身的复杂性和特殊性，一般的图像分割难以直接用于医学影像，并且医疗图像分割技术的准确性能够为医生在临床上提供辅助，其重要性不言而喻。

为了提高医学图像分割的精确性和鲁棒性，刘辰等人[47]提出了一种基于改进卷积神经网络的医学图像分割方法，解决了现有3D卷积网络计算量大的问题，利用2维(2-dimensions，2D)序列在MRI图像中实现三维医学图像精确分割。该方法首先使用非对称卷积层和空洞卷积对图片进行编码，获取多尺度信息，再采用双向卷积LSTM网络对冠状面、矢状面和横断面3个视图下分别对2D切片序列进行分割，然后将3个视图的分割结果进行集成，在编、解码部分之间使用采用双向LSTM网络，对单视图切片序列间的空间信息进行充分挖掘，提高了分割精准度，得到最终的结果。

Opbroek等人[48]提出了一种图像分割的转移学习方法，该方法可以对使用不同MRI扫描仪和/或成像协议获取的图像进行监督分割。当只有少量的训练数据时，迁移学习大大优于常规的有监督学习方法，最大程度地减少分类错误达60%。

Opbroek等人[49]之后研究内核学习减少训练数据与测试数据之间差异，并探索内核学习对图像加权的附加价值。提出了一种新的图像加权方法，将训练数据与测试数据之间的最大平均差异降至最低，从而实现图像权重和内核的联合优化。通过内核学习将图像加权和特征表示转移相结合，该方法使用不同于测试数据集的异构训练数据进行监督分割，所提出的方法可以应用于广泛的医学图像分割任务。

Ronneberger等人[50]提出了一个CNN框架U-net。其中U-net是上采样和下采样层体系结构的组合。U-net能够支持少量的数据训练模型，并且通过对每个像素点进行分类，最终的实验结果表明能够获得更高的分割准确率，速度更快。随后Çiçek等人[51]提出从稀疏注释的立体数据中学习3D分割的网络，使用的网络通过使用3D操作替换2D操作扩展了之前的U-net框架。该实现执行动态弹性形变，可以在训练期间对数据进行有效的增强，且该网络不需要进行预训练。

Milletari等人[52]提出了一种由U-net而来的全卷积神经网络的3D图像分割方法V-Net，并且引入了一个新的目标函数，当背景像素和前景像素的数量严重不平衡时，使用Dice损失层不需要重新采样，可以用于二进制分割任务。

Drozdzal等人[53]使用了残差块，研究了长跳连接和短跳连接与全卷积网络(fully convolutional networks,FCN)图像分割的影响。采用一种更高级的U-net变体进行分割。在网络中长跳跃可以在网络浅层给梯度流动提供短路经，加上短跳跃连接，能够增加收敛速度，可以训练更深的网络。

Andermatt等人[54]提出了一种监督式深度学习方法，以自动分割3D体积的生物医学图像数据。其中RNN神经网络的主要层由多维门控循环单元组成，进而进行MRI图像分割。实验结果表明该技术在速度、准确性和记忆效率方面对流行的脑部分割挑战数据集都处于领先地位。

Poudel等人[55]提出了一个递归全卷积网络，该递归全卷积网络可以从整个2D切片堆栈中学习图像表示，并且能够通过内部存储单元利用切片间的空间依赖性。简化了分割流程，从而大大减少了计算时间。研究表明，该递归全卷积网络可以产生最先进的结果，并且可以大大改善心脏顶点附近的轮廓。

将深度学习应用到医疗图像分割领域，采用改进的CNN方法、FCN、U-net、RNN方法都有效地提高了图像分割的准确率。虽然目前医疗图像分割的效果良好，但医学这个特殊的领域对图像分割的要求仍需要向更自动、精确、快速方向发展的。随着计算机视觉领域的研究以及生物医学工程发展，这些领域的研究结果也将促进分割算法的研究。

3.3.2 图像识别

医学图像中包含着大量的反映人体健康水平的信息，目前这部分数据主要依靠人工进行分析，易受主观因素的干扰且效率不高，容易造成数据资源的浪费。深度学习通过多层非线性变化，从海量数据中自动提取抽象特征，既消除了主观因素的影响又能提取到更加高级的抽象特征。

Sarraf等人[56]采用CNN和LeNet-5网络，对阿尔茨海默病脑与正常健康脑进行了分类，并且成功地将阿尔茨海默病患者的功能性MRI数据从正常对照组中分类，训练数据的测试数据准确率达到96.85%，这种方法还能够扩展到更复杂的系统。

Yan等人[57]提出一种深度学习框架，通过CNN模型在图像上自动挖掘局部信息，无需手动增加标签，主要应用于电子计算机断层扫描(computed tomography，CT)等，即二维图像识别，在增强学习阶段，具有良好的鲁棒性，准确度达到92.23%。此框架也可以扩展至三维卷积神经网络中，应用于复杂的3D建模。

Setio等人[58]提出了一种使用多视图卷积网络的新型肺结节检测CAD系统，利用多流CNN，使用专用的融合方法对其输出进行组合以获得最终分类，避免了在降低假正率阶段的人工提取特征和分类。

Li等人[59]提出基于CNN的转移学习，将不同的预训练CNN模型的参数植入到域转移的CNN中进行训练，将经过预训练的CNN模型用作特征提取器，将最后一个完全连接层的输出与支持向量机结合用作特征，以解决分类任务。结果表明转移学习在数据有限的情况下促进医学领域使用CNN。

Li等人[60]提出了一种新型的基于多层隐藏条件随机场的宫颈组织病理学图像分类模型，以使用弱监督学习策略对宫颈癌的良好、中度和差度分化阶段进行分类。实验结果表明该模型不仅具有较高的准确性，且一张图像的平均测试时间为1.64 s，显示了基于多层隐藏条件随机场的宫颈组织病理学图像分类模型和方法在实际临床领域中的可行性。

Codella[61]提出了一种识别黑素瘤的方法，主要利用卷积神经系统和SVM来进行识别。所提出的方法能够在域内进行无监督学习，以及从自然照片域进行特征转移，从而消除了目标任务中需要注释数据来学习良好特征的需求。

Cheng和Li等人[62]提出了一种基于多模型3D卷积网络相结合的分类方法，建立了深度3D卷积CNN，构建多尺度3D卷积自动编码器，与上层全连接层相结合，用于阿尔茨海默病诊断中的图像分类。提出的多模型卷积神经网络在预处理中不需要分割，实验结果表明，与单个卷积网络相比，所提出的方法分类的准确性更高。

目前，对医学图像进行识别主要的研究领域集中在特征提取与识别方法两个方面。神经网络依然是主流的医学图像识别方法，其在自适应、容错率、学习能力以及鲁棒性方面有着良好的表现，在处理多维图像时依然有进一步研究价值。

3.3.3 图像配准

在影像分析中，经常需要比较不同患者的影像，或将同一患者在不同时间、不同影像设备上取得的医学影像进行叠加和比较。这就需要图像配准把不同影像映射到同一个空间，使得影像里的每个像素都一一对应起来。

在传统的图像配准方法中，首先要定义图像相似性的测量方法，再选择一个空间变换的函数或模型，然后，用优化方法计算空间变换的参数，使变换后的源图像和目标图像之间相似度最大。基于影像类型，图像配准包括单模态和多模态配准。基于空间变换的方法，图像配准分线性配准和非线性配准。对于非线性变换，由于要优化的参数非常多，配准一组3D影像往往非常耗时。基于深度学习强大的学习能力，不同的深度学习模型被用于解决图像配准的问题。

Cao等人[63]提出一种CNN的回归模型，直接在输入的源图像通过插值算法计算图像空间点的位移，输出区域中心点配准后的位移。

卷积神经网络可以根据输入的源图像和目标图像对应的区域，输出区域中心点配准后的位移。通过计算众多图像空间点的位移，整幅图像的空间变换就可以通过插值计算出来。

Li和Fan[64]提出了一种全卷积网络的图像配准算法，通过自监督学习框架匹配图像之间的空间变换，进行图像快速、精准匹配。该方法可用于3D结构MRI图像的配准。

Yang等人[65]介绍了Quicksilver，一种快速变形的图像配准方法，将重点放在大变形二形度量映射模型的预测上。该方法不仅预测变形二形度量映射模型的的动量参数化，而且，在保持变形二形度量映射模型的理论特性的同时能够逐块预测策略。其中引入了一个新的校正网络，可以大大提高现有预测网络的预测精度。

Miao等人[66]提出了用于实时2D/3D配准的CNN)回归PEHL方法，引入了3种算法策略LIR、HPR和PSP等3种算法。对所提出的方法进行定量评估，表明与基于强度的方法相比，该方法在提供高度精确的实时2D/3D配准和扩大的捕获范围方面均具有明显的优势。

图像配准的发展趋势从部分依靠深度学习到完全依靠深度学习，可看出深度学习在图像配准任务上有巨大的作用与潜能，但是，数据训练集匮乏依然是影响配准方法研究的一个问题。虽然在配准方法研究上已经取得了一些成就，但医学图像配准依然是目前尚未解决的经典问题，还有很大的研究空间。

3.4 疾病预测

随着机器学习技术的发展和机器学习算法的不断改进，结合医疗大数据对于疾病的辅助预测和诊断越来越准确，对于医生早期发现和诊断疾病具有极其重要的意义。

Weng等人[67]将随机森林、逻辑回归、梯度增强机、神经网络等4种机器学习算法对来自英国家庭的378 256名无心血管疾病患者的常规临床数据进行10年来首次心血管事件预测，结果发生了24 970例心血管事件，占比6.6%。与已建立的风险预测算法相比，机器学习算法改进了预测准确率，其中随机森林算法提高了1.7%，逻辑回归算法提高了3.2%，梯度增算法强提高了3.3%，神经网络提高了3.6%。神经网络算法还预测了4 998/7 404例和53 458/75 585例非病例，与现有其他算法相比，正确预测了355名，准确率提高了7.6%患心血管疾病的患者。机器学习显著提高了心血管风险预测的准确性，增加了确定哪些患者可以从预防性治疗中受益，同时避免了不必要的其他治疗。

Ho等人[68]利用神经网络模型对肝癌患者行切除手术后1年、3年、5年无疾病生存史的80%的患者数据进行预测，同时验证组逻辑回归采用和Dlaunay triangulation，DT)模型对剩余20%的病例进行预测，以区域受试者工作特性曲线作为评价3种模型的性能指标，结果表明，与传统方法相比，人工神经网络提供了准确的预测。

Shi等人[69]以1 271例主要颅脑损伤患者的格拉斯哥昏迷指数、气管插管情况、年龄、收缩压、呼吸频率、脉搏率、损伤严重程度评分及预后为基础，采用逻辑回归和人工神经网络模型进行比较。分别采用配对T检验计算和比较接收者工作特性曲线下面积、Hosmer-Lemeshow(HL)统计量和准确率。实验结果表明，人工神经网络在识别和校正两个方面都明显优于逻辑模型，但在精度上表现欠佳。

Sangwon等[70]提出优化深度学习算法的参数来预测传染病，通过比较DNN和长短时记忆学习模型与自回归综合移动平均学习模型在预测未来一周3种传染病时的性能。实验结果表明，深度神经网络和LSTM模型的性能优于回归综合移动平均学习模型模型。在预测水痘时，前10名的深度神经网络和LSTM模型的平均性能分别提高了24%和19%。当传染病传播时，DNN模型稳定，LSTM模型更准确。

Edward等[71]提出利用深度学习对电子健康档案中事件间(某些时间标记时间如疾病诊断、药物订单、程序订单等的时间关系进行建模，观察模型是否能够提高预测心力衰竭的初始诊断性能，通过对3 884例心力衰竭病例和28 903例作为初级护理患者的对照预测。使用门控递归单元的递归神经RNN模型经过12～18个月的病例和对照观察窗口，将模型性能指标与正则化逻辑回归、神经网络、支持向量机和k近邻分类器方法进行比较。RNN模型的曲线下面积优于其他方法，当使用18个月的观察窗口时，RNN模型的的曲线下面积显著高于基线方法。因此，利用时间关系建立的深度学习模型在12～18个月的短观察窗口内可提高模型的检测效果。

Esteban等[72]提出了一种基于递归神经网络(RNNs)的方法，对柏林Charite医院收集的关于接受肾移植患者的完整信息数据库进行预测，预测其在6～12个月内是否会出现肾脏排斥、肾脏丢失和患者死亡等3个终末点。实验结果证明基于门控循环单元开发的RNN为这项任务提供了最佳的性能，优于其他模型。

综上所述，可以看出，机器学习利用医疗大数据用于疾病预测与其他算法相比，有较为显著的优势和较高的准确率，基于机器学习建立的预测模型也优于其他模型，在疾病预测方面，是值得进一步研究和推广应用领域。

3.5 个性化医疗/健康管理

精准医疗是通过基因组、蛋白质组等组学技术和其他前沿技术，依据患者内在生物学信息及临床特点，在分子学水平为疾病提供更加精细的分类及诊断，从而对患者进行个性化精准医疗的一种新型医疗模式。

对于个体而言，大数据就是全数据，通过集中全部诊疗信息、体检信息形成个体的全健康档案，可以使患者得到更有针对性的治疗方案。

Parisa等[73]提出一种在智能手机上能够运行的辅助卡路里测量系统，该系统可以通过对食物拍照自动测量卡路里摄入量，同时采用深度卷积神经网络对10 000幅高分辨率食物图像进行分类，经过系统训练，实验结果表明，该方法对单个食物分量的识别正确率为99%，这一系统能够有效帮助患者和医生在同与饮食相关的疾病中得到好的建议。

Shirin等[74]提出一个用于对痴呆症患者持续监测的技术辅助监测系统，同时开发了机器学习算法用于分析系统监测的环境数据之间的相关性，以便监测和促进痴呆患者的身体健康，使用从痴呆患者家中收集的感官数据进行评估，用于检测患者日常生活的任何变化，同时结合一种分层信息融合方法进行健康管理，实验证明，所提出的技术能够识别激动等不寻常模式，准确率高达80%。

Georgios[75]分析了个性化/精确医学需要考虑多种异质性参数，如社会人口统计学、基因变异性、环境和生活方式等因素。提出利用深度学习获得或开发高精度、多模式的预测模型，并将模型应用于大型、多模态数据将其转换为决策支持工具，实验证明，基于深度粗恶习的模型可以带来前所未有的结果，匹配甚至提高基于直观和非直观疾病描述的最新预测/检测率。这些结果为深度学习在个性化医疗的方面应用带来了巨大的社会经济效益。

Xiang等[76]提出利用公共数据库中200多名肺腺癌(LUAD)患者的总生存时间和多个特征信息，采取支持向量机来预测多组患者特征的癌症预后，用以指导个性化医疗，实验结果量化了各种患者特征在预测癌症预后中的重要性和贡献，显示了深度学习在个性化医疗中的潜在重要性。这些观察结果鼓励为更多的特定特征集患者收集进一步的数据，以提供更准确的癌症预后估计和个性化治疗。

因此，针对不同人所患不同疾病，机器学习对个人所收集到的医疗大数据进行建模和处理，能够提出针对个人有效的精准医疗和个性化医疗措施与建议，同时对个人进行健康管理有重要的参考价值。

4 医疗大数据面临的挑战

目前，医疗数据的来源主要为医疗机构和互联网。由于大数据不针对特定的问题而且采集的数据范围广、维度高、类型繁多，所以，医疗大数据技术的应用还面临着很多问题。

1)数据质量

随着医疗行业的快速发展导致其数据量的急剧扩增，而数据质量问题也随之被重视，主要表现在数据不正确、数据不完整、数据不一致等方面[77]。医疗数据质量的高低，直接影响和决定着医疗数据和统计信息的使用价值[78]。

由于负责采集医疗数据的工作人员的主观错误或者系统本身的设计问题，加之缺乏收集数据的统一标准，造成了许多不确定性。统计数据的分布在统计过程中可能会人为改变，从而导致估计出数据的分布扭曲或无法实现实际数据分布。这导致最终统计学习模式缺乏可靠性。

2)不确定的度量问题

目前，大数据模型本身还存在一定的误差，精度不是很高，而医院和医生的要求却非常精确，因此会导致其实用价值非常有限。同时，这种误差的度量准则是否具有统计学理论的支持也值得商榷。

在传统的生物统计学中，如果人们能够在完整的统计理论的基础上编制统计数据来准确地描述模型，那么该模型在小样本情况下也能达到很高的置信度，因此，需要一种新的误差测量准则。

3)数据共享及隐私问题

在医疗领域中使用机器学习和人工智能前需要具备大量的数据，最好拥有专业的数据库，才能对数据进行预处理和模型的训练，但是，往往由于隐私问题、记录识别问题以及健康保险流通与责任法案的存在，很难实现专业的数据库进行训练学习[79]。

由于医疗健康数据不同于其他数据，这些数据的高度机密性就决定了一旦泄露，会有损患者的尊严和人格，而且无法弥补这些错误，其中基因遗传数据是最重要的。其隐私保护需要每个从业人员的高度重视。

5 结语

本文首先阐述了医疗大数据的基本概念，描述了其来源和特性，在此基础上，探讨了机器学习及类别，介绍了机器学习的模型，重点分析了机器学习在医疗大数据中的应用，包括基因组学、电子病历、医学图像、疾病预测等，研究表明，深度学习的应用优于传统算法和人工判断，具有广泛深入的应用前景。

机器学习在医疗大数据中的应用优势明显，但也存在着各种挑战，随着机器学习算法的不断改进，医疗大数据与其融合越来越密切，因此，挖掘医疗大数据中的有价值信息对于医疗领域发展特别重要，机器学习提供了另一种解决方式，有理由相信，随着技术的发展，机遇将大于挑战，机器学习在医疗大数据中的应用必将前途光明。