机器学习算法在脑卒中诊治中的应用现状及展望*

2021-07-07 09:37:52海军军医大学卫生勤务学系军事卫生统计学教研室200433武胜勇郭轶斌

中国卫生统计 2021年3期

海军军医大学卫生勤务学系军事卫生统计学教研室(200433) 武胜勇何倩郭轶斌吴骋

世界卫生组织统计表明，目前脑卒中已在全球死亡原因中跃升至第二位[1]。据美国心脏协会(American Heart Association，AHA)统计，在美国，脑卒中是死亡的第五大原因，每年有79.5万美国人经历一次新的或复发性脑卒中[2]。而在中国，脑血管疾病已成为排名第三的死亡原因，对脑卒中防治的重要性已成为业内共识[3]。脑卒中发病的原因涉及先天遗传因素、后天影响因素[4]等，同时也受诸多不可控事件的影响，故其发病过程具有较大的异质性[5]。因此，迫切需要在脑卒中的预防和治疗过程中，通过简化医疗操作过程和改进诊疗技术来解决其治疗过程中产生的诸多复杂问题，降低不断上升的医疗成本[6-7]。

近年来随着生物医学研究的发展，对于脑卒中的研究日益深入，在基于“组学”数据[8-9]、实时风险预测等方面的研究对统计学工具的要求不断提高。传统统计学方法对这些高维、海量、结构复杂的大数据集分析效果并不理想，同时面对真实世界中取样异质性低、缺失值多、复杂程度高等问题，也难以找到合适的处理方式[10]。机器学习(machine learning，ML)主要研究如何使计算机通过实验从数据中学习，是预测分析的一项主要内容[11]，作为传统统计学方法的补充，目前医学研究中采用机器学习的趋势日益明显。

围绕机器学习在脑卒中研究方面的应用，本文综述了支持向量机、随机森林及深度学习方法，描述了其主要思想，分析了其优点和不足，以期对机器学习未来在脑卒中患者诊疗中的应用起到一定助力作用。

机器学习算法与传统预测模型的比较

由于脑卒中发病位置的特殊性，导致其对身体各个部位的影响范围、程度都远超其他疾病，故即使是具有丰富经验的临床医师也很难对其各方面预后做出准确评估。一般认为初始运动障碍和皮质运动系统缺陷较少的患者治疗结束后可能有更好的运动能力，在实际预后评估中，这些普遍被接受的相关性并不总是正确[12]。因为在脑卒中患者病情进展中，其影响因素包括各类临床特征、后续治疗甚至患者发病前后的生活习惯等[13]，但由于这类特征数据类型多、数据量大，使得这些复杂的相互作用很难使用传统模型进行评估。机器学习模型能够模拟复杂系统的结果，具有传统统计学模型不具有的优势，对比见表1。

表1 传统和机器学习模型比较

鉴于机器学习方法相较传统预测模型的诸多优点，目前研究已证实了使用机器学习方法预测卒中结局的预后模型能够取得较准确的结果[14-15]。机器学习算法能够帮助医生做出更好的临床决策，为患者赢得更好的生活质量和预期寿命[16]。

常用机器学习算法及其在脑卒中诊治中的应用案例

1.支持向量机

支持向量机(support vector machine，SVM)是通过将数据升维，映射到一个更高维的特征空间里，在高维空间里建立最大间隔的超平面，通过对支持向量的训练，对特征空间进行划分得到最优超平面，从而将非线性的分类问题，转变为线性分类的机器学习方法。其对多变且具有较强时间性的分类问题具有较大优势[17]，目前已在医学领域取得较广泛的应用[18]。SVM的主要优势在于其利用核函数向高维空间进行非线性映射，理论基础较为明确。同时，SVM对数据的预测主要基于少数支持向量，从而对样本进行筛选，不仅简化了算法，避免了算法过度复杂可能带来的过拟合风险；同时也可以对训练集中的样本进行筛选，抓住关键样本，即研究对象的关键特征。

国内张丽娜等，分别通过使用SVM和logistic回归方法对急性出血性脑卒中早期预后进行预测，并对所建立的模型进行比较，证实了SVM在灵敏度、特异度、准确率及Youden指数等方面均优于传统的logistic回归[19]。SVM在小样本中的表现也明显优于传统方法。Asadi等开发了一个基于二分法的Rankin修订量表评分(mRS)模型，采用SVM基于一个107例的数据集，使预测精确度达到了70%[20]。Bentley等利用116例急性缺血性脑卒中患者的CT脑图像建立了SVM模型，用以识别具有症状性颅内出血风险的急性缺血性脑卒中患者，预测模型的AUC达到了0.744[21]。

但SVM也存在较明显的不足，首先就是对大样本数据的训练难以进行，当样本量较大时，将耗费大量的机器内存和运算时间，且无法达到所期望的效果。Heo等以2923名急性缺血性中风患者为研究对象，建立了基于机器学习的模型，发现基于SVM的模型AUC为0.836，基于logistic回归模型AUC为0.842[22]，SVM并不具有优势。

此外，SVM的经典算法只能解决二分类问题，然而实际问题中纯粹的二分类问题较少。对于多分类问题，SVM主要使用一对多组合模式、一对一组合模式及SVM决策树进行解决，或通过构造多个分类器的组合来将多分类问题进行转换，对于分类较少的问题效果较好，但对于分类较多的问题易出现分类重叠现象、不可分类现象等，同时运算量也将大幅度增加，随着目前硬件水平的不断提高，相关研究目前也在不断深入。

2.随机森林

随机森林(random forests，RF)是以决策树(decision tree)为基础发展而来的一类高级集成学习方法。决策树是指通过数据之间的相似性对数据进行分类，并将分类的依据设定为节点。决策树最大的优势就是将一个复杂的决定，转化为一系列简单的决定，将一个复杂的问题转化为一系列简单的问题，从而使这一复杂问题得到解决[23-24]。随机森林就是用随机的方式构建多个决策树，并对所有决策树的结果进行集成，将众数确定为最终的输出值。

区别于SVM等二进制分类器算法，随机森林本质上是一个多标签分类器，使研究者可以直接通过算法对不同组进行分类，而不需要首先寻找方法将不同类的分组合并在一起(如前文所述的建立多个SVM解决多分类问题)再进行分类[25]。因此，在多分类问题上，随机森林的表现优于SVM等二进制分类器[26]。其次，随机森林可以有效地处理数据量大且维度高的数据集，并能够在训练结束后将重要特征自动进行总结，不需要在训练前对特征进行筛选。

Jung-Gyu Yoon等一项针对韩国脑卒中患者一般情况与卒中后性功能变化的研究使用随机森林算法，取得了较好的结果[27]。文天才等根据卒中相关因素、脑卒中患者所处医疗环境及患者家庭情况等方面，采用随机森林模型对患者31天内非计划再入院的危险因素进行了分析，利用随机森林方法综合考虑各因素对结局变量的影响并进行重要性评分，取得了较好的效果[28]。

随机森林也存在一些不足，如最大叶节点数(max leaf nodes)的设定，如果节点过少，会导致拟合不足；如果过多，甚至不对最大叶结点数进行限定，则容易导致过拟合，使模型难以泛化。目前主要采用每棵树都使用一个训练样本子集和一个随机选择的特征子集进行训练，之后将这些单独训练的子集组合在一起，从而提高模型的泛化能力[29]。另外就是采用剪枝处理，主要分为预剪枝和后剪枝[30]。预剪枝主要是指在训练中对节点划分前后的泛化性进行评估，如果此节点不能提升泛化性，则将此节点标记为叶节点，通过这种方法对节点进行筛选，降低过拟合的风险，也在一定程度上降低了训练所需的计算量，但可能会导致欠拟合；后剪枝则是在决策树训练结束后，对训练出的非叶节点泛化性进行验证，从而选择是否将子树替换成叶节点，后剪枝训练出的模型一般会保留更多的节点，同时其拟合程度也会更高，但其需要的算力也远高于预剪枝[31]。

如前文所述，Heo等的研究中，其随机森林模型就出现了过拟合以至于泛化水平下降的现象，在测试集中，随机森林模型的AUC为0.810，而logistic回归模型达到了0.842[22]。此外，随机森林还存在运算量较大等问题，但随着计算能力和相关研究的不断进展，问题正在逐步解决。

3.深度学习

深度学习(deep learning)，是目前应用最广泛的一类机器学习算法，其主要原理是通过构造多层(通常大于3层)人工神经网络来模拟大脑运行的方式，实现识别、分类、预测等功能[32]。

人工神经网络(artificial neural network，ANN)，简称神经网络(neural network，NN)，可以被认为是机器学习的一个扩展，其善于捕获输入变量和输出变量之间复杂的非线性关系，可以解决传统统计分析的一些限制。在神经网络中，结果和输入变量的关联是使用一个或多个隐含层进行计算的，每个隐含层包含一系列的算法(节点)，其从前一节点获取信息并输出新的数据为下一节点提供数据，这一过程类似于大脑的学习过程，因此称为神经网络。其可以运用大型标注数据集，对节点和隐含层进行迭代训练(数千到数百万次迭代)以对算法特征进行调整(如超参数等)，从而得到最佳的预测模型[33]。

前文所述Heo等人进行的研究，采用ANN模型所得出的算法，其AUC为0.888，优于基于SVM、随机森林及传统logistic分析所得出的模型[22]。谭英等分别利用ANN模型和logistic回归，通过对474 患者基本情况、实验室检查结果及就诊医院等其他相关因素进行分析，建立了预测模型；代入115例测试样本后，其中隐层节点定义为9的ANN算法在准确率、灵敏度、约登指数上均优于logistic回归模型，其AUC为0.787，高于logistic回归模型的0.729[34]。

但深度学习对数据的分析一般采用非线性处理，且其过程中会经过多层神经网络处理，运算过程作为一个“黑箱”，其运算量大，同时很难对结果进行解释。在样本量不足的情况下，深度学习的过拟合现象严重，这也导致了自上个世纪八十年代神经网络算法出现后，一直未受到广泛的应用，直到近几年才开始频繁出现在人们视野中[5]。随着当前大数据技术的兴起，数据量在不断扩大；同时算法的革新，使得神经网络过拟合的问题正在逐步被解决；硬件的发展，也使得算力有了大幅度的提升，解决了以上问题后，以神经网络算法为基础的深度学习迅速发展起来，目前在科研中广泛应用。

讨论

机器学习为解决当前脑卒中诊疗过程中存在的问题提供了新的思路，但其并非是一个完美的解决方案，仍存在以下问题和局限性。

1.结果缺乏可理解性：传统统计学方法中，对于输入值的每一步处理都具有相对明确而简单的关系。而绝大多数机器学习算法被认为是“黑箱”，尤其是深度学习，复杂的网状结构和庞大的参数及超参数数量保证了运算的准确性，也使得输入值和输出值之间的关系难以解释。

2.对数据量要求较大：正如前文所述深度学习在创造之初不能被广泛应用的情况相同，机器学习做出的预测模型需要不断使用大量医疗数据进行训练以保证其持续有效。但当前的医疗环境并不利于医疗数据的高效共享，目前正在对其进行改革以促进医疗信息交换的可行性并加强对此类交换的监管[35-36]，希望在今后的发展中逐步解决这一问题。

3.临床效果有待验证：对算法最终的评价标准并不应该是这些理论上的准确性，而应是这些工具能够多大程度上辅助临床实践。临床效果的大小不仅取决于这些预测模型的准确程度，同时也取决于在这些临床实践中，怎样安全有效地使用这些工具，以使其最终为患者发挥有益作用。目前这类工具在临床上的研究和应用仍处于起步阶段，未来几十年的应用将证实机器学习能否为临床实践提供有益的帮助。

4.相关知识普及不够：目前机器学习正在飞速发展，但多数医疗人员对其了解并不深入，在临床应用中也不够专业。随着机器学习融入日常医学实践的进程不断推进，我们应该推荐医疗人员接受相关训练，从而更好地分析、整合信息并在相关算法的辅助下做出临床决策。因此，在可预见的未来，医学的发展需要对相关从业者进行技术、方法、数据科学背景知识和预测分析伦理学问题等方面的培训。

5.伦理问题逐渐凸显：随着机器学习的广泛应用，其为传统临床科研带来的变化也逐步涉及伦理问题，并带来一系列难以解决且复杂的伦理困境。关于患者隐私、数据歧视等伦理问题已经显而易见。同时，算法应用中出现误判带来的损失由谁承担等一系列问题，在将来的研究和临床实践中会逐渐凸显出来[37]。在机器学习应用的其他领域，伦理学的挑战已经较为明显，故我们需要在生物伦理学上做进一步研究以促进机器学习可持续发展和应用[35]，脸书和剑桥分析的失败就是对临床相关机器学习以及预测分析的一个重要提醒。如今的医疗设备和可穿戴设备几乎可以收集人类行为的所有数据，因此这些数据可以创建每个个体独特的“数据指纹”，并对其之后的行为进行预测，这就难免会对患者的隐私有一定的侵犯。更重要的是，它可以不断地将个体“推到”预设的行为路径上去，使人做出规定的行为，这一问题显然已经超出了当前伦理问题的范畴[33]。因此，一些倡导者呼吁研究人员和机构尽快探讨和采用新的人工智能和机器学习道德准则，避免因为伦理学问题损害患者利益。

展望

在应用中最大的障碍之一，是当前机器学习算法的复杂性，使得不具备Python或其他编程语言技能等相关计算机科学知识的医疗人员，很难理解并加以应用。近几年，随着相关研究的深入，不少医疗工作者开始学习相关知识，同时，机器学习社区也正在努力设计更简易的机器学习工具(如Keras或Lasagne等简单接口)，使其对研究者的编程能力要求更低，而基于用户界面的图形工具(如英伟达公司的DIGITS深度学习工具)，可以使不具备编程语言基础的用户实现深度学习的基本功能，更加降低了机器学习的入门门槛。

由于篇幅原因，还有一些已有应用的机器学习算法，如朴素贝叶斯分类器[38]、算法梯度提升树[39]等，未能做详细描述，有兴趣的读者可参阅相关文献。目前机器学习已广泛应用于脑卒中的诊疗过程中，并在疾病诊断、趋势预测等方面取得了较好的成绩。未来的医学研究，将会更加注重多种来源数据的整合分析，其数据量更大、数据结构更复杂，从而导致对分析方法的要求也更高。机器学习在处理这些类型数据中具备传统统计学方法不具备的优势，正逐步成为医疗科研中不可或缺的一部分，未来也将在脑卒中防治领域发挥更大的作用。