高萌 杨仙鸿 姜祎群
中国医学科学院北京协和医学院皮肤病医院病理科,南京210042
随着技术发展,医疗行业正进入“大数据”的新纪元[1]。作为一门集合了计算机科学、信息学、神经生理学等多学科智慧的新兴交叉学科,人工智能(artificial intelligence,AI)在医学领域可以辅助诊疗,减轻医生的数据分析压力。本文主要探讨医学领域AI的研究进展,同时为AI在皮肤科的研究拓宽思路,提供参考。
AI 的研究可以理解为通过智能的机器,增强人类在各项工作中的能力和效率[2]。其发展分为两个阶段。第一阶段以数理逻辑和符号推理为主。第二阶段从1990年代至今,以概率统计为主。在此阶段,机器学习(machine learning)为最重要的方法领域,是一系列通过任务处理累积经验,从而自动调整参数、提高效能的算法。机器学习分为监督学习和无监督学习。在监督学习中,输入的训练数据由特征和标签两部分组成,机器分析得到两者之间的关系,当有特征无标签的数据输入后,即可得到数据标签。监督学习常用于图像的自动识别和风险评估。在无监督学习中,样本没有标签,机器发掘数据的隐藏特征并进行聚类分析,从而揭示人不易察觉的新机制,可用于探究疾病的潜在发病因素[3]。
近几年,机器学习的分支——人工神经网络(artificial neural networks,ANN)与深度学习(deep learning)得到广泛关注。受人类神经系统的启发,ANN 仿照神经元的连接方式建立了多层“神经元”结构,每层“神经元”从上层接收数据并进行计算,再将输出值传递给下层。深度学习在ANN的基础上进一步优化,与ANN 相比,深度学习有更多的隐藏层,可以以分层方式,发现更高级别的数据特征,目前,ANN和深度学习被广泛应用于诊断系统、疾病预后评估、图像识别等多个方面[4]。
1.图像识别:作为重要的辅助检查手段,医学图像包括X线图像、CT图像、病理图像、眼底镜图像等,在疾病诊疗中起着非常重要的作用。近几年,计算机辅助检测(computeraided detection,CAD)在医学图像识别领域迅速发展[5]。CAD能够发现图像中的异常区域,向临床医生提供参考,提高病变检出率,降低假阴性率,主要应用于良恶性病变的鉴别以及疾病的识别。
许多团队已成功应用AI 进行了多种医学图像的检测。如,Google Brain 团队研发了一项自动检测眼底照片中糖尿病性视网膜病变的算法,经过9 963 张眼底图像的验证,其灵敏度为97.5%,特异度为93.4%,诊断能力堪比专业医师[6]。Kooi 等[7]设计了一个独立阅读乳腺钼靶X 线照片神经网络模型,经过约45 000 幅图像的训练后,该模型的AUC为0.852,检测效能接近人类专家水平。Herweh等[8]开发了一个可通过断层扫描图像自动诊断急性卒中的机器学习模型,其敏感度为46.46%,特异度为94.15%,与人类专家无显著差异。
2.遗传学和基因组学分析:遗传学和基因组学的变异是许多疾病的始动因素,对治疗方面也有很大影响。由于基因组数据量极大,单纯依靠人力很难完成分析任务。AI已被应用于遗传学和基因组学分析的很多方面,包括大型基因组数据集的分析,基因组序列元件注释等[9]。
例如,IBM 公司的Watson 模型可进行与肌萎缩侧索硬化(amyotrophic lateral sclerosis,ALS)相关的RNA 结合蛋白(RNA binding protein,RBP)的筛选。首先,该模型分析了所有已知的ALS 相关RBP,随后,对基因组中1 542 个RBP 片段按照与已知RBP 的相似性进行排序,筛选出与ALS 相关的新RBP。研究人员对前10位RBP进行了验证,发现有5个RBP与ALS明显相关[10]。Kim等[11]开发了一项可自动检测间质性肺炎相关RNA 的机器学习模型,研究者收集了125 个肺活检标本,并对所有标本的微阵列中33 297 个转录物的RNA水平进行检测,用一部分数据训练模型,找出在间质性肺炎中异常表达的RNA,并在另一部分数据中进行测试,该模型的特异度为92%,灵敏度为82%。Dorman等[12]利用机器学习算法对已知乳腺癌化疗抵抗基因的表达和拷贝数进行组合分析,查找到与化疗抵抗相关的基因组。
3.智能诊疗:随着患者临床信息的迅速增长,疾病的诊断及医疗决策的制定变得更加复杂,AI 可以提高医生的诊疗效率和准确性。Chamberlain等[13]开发了一款可以自动筛查哮喘和慢性阻塞性肺疾病的智能手机软件。该应用程序主要由电子听诊器和患者问卷调查组成,通过机器学习算法分析、整合数据,对哮喘和慢性阻塞性肺疾病患者进行诊断。经测试,该程序在普通人群中筛查哮喘或慢性阻塞性肺疾病患者的AUC 为0.95,鉴别哮喘患者和慢性阻塞性肺疾病患者的AUC为0.97。
在国内,广州医科大学、四川大学等单位与加州大学合作开发了一种使用迁移学习技术的深度学习系统,利用类似领域的数据解决给定领域的数据缺乏问题,能够精确诊断眼病和肺炎两大类疾病。该系统可以有效地区分黄斑变性和糖尿病性视网膜病变,并在30 s 内确定患者是否应该接受治疗,准确度达到95%以上;在区分病毒性肺炎和细菌性肺炎上,准确率也超过90%[14]。第三军医大学的研究人员利用机器学习技术,可在30 s 内检测到ABO 抗原和5 种主要恒河猴抗原,准确率超过99.9%。这对于急需输血抢救的病人意义重大,可以增加病人的生还概率,可用于抢险救灾、战场急救等急需验血的情景[15]。
4.预测预后:AI 可以通过患者的临床特征、影像学表现、基因组学特征等相关因素对疾病的发生、发展,可能的治疗反应等进行预测,为疾病的诊疗提供重要参考。
如,Weng 等[16]比较了美国心脏病学会指南与4 种机器学习算法在预测首次心血管事件的数据分析效率。研究者用英国378 256 名患者的电子病历对机器学习算法进行训练和测试,该模型在与心血管疾病发作有关的记录中找到共同特征,然后对剩余的病历记录进行测试。结果显示,机器学习的表现明显优于美国心脏病学会指南,其中表现最好的神经网络算法比指南的正确预测率高7.6%,考虑的变量比指南多出22 个。Menden 等[17]设计了一个机器学习模型来预测癌细胞系对药物的治疗反应。该模型通过基于细胞系的基因组学特征和药物的半抑制浓度(IC50)来量化治疗反应。结果表明,该模型能够以较高的准确性(决定系数R2为0.61)来预测细胞系的IC50,不仅可用来优化药物筛选方案,还可将患者的基因组特征与药物敏感性相联系,实现个体化医疗。韩国高科技科学院的研究人员开发了一个深度卷积神经网络模型,可以通过分析PET图像,预测轻度认知障碍患者未来发展为阿尔兹海默病的可能。研究人员输入139 例阿尔兹海默病患者和182 例健康者的PET 图像对该模型进行训练,随后对171 例轻度认知障碍患者的PET图像进行检测,判断其未来3年发展为阿尔兹海默病的可能,结果表明,该算法预测的准确度高达84.2%[18]。Hazlett等[19]用深度学习算法根据脑磁共振成像的表面积信息,预测有高遗传风险的6 ~12月龄儿童在2 岁诊断自闭症的风险,预测值为81%,灵敏度为88%。
AI 在皮肤科的主要应用为图像识别。AI 模型从经处理的临床图像、皮肤镜图像、数字病理图像中提取特征,进行分类诊断,在皮肤癌特别是黑素瘤的识别中有大量研究[20-21]。其中影响力较大的是斯坦福大学团队研发的卷积神经网络模型,研究者输入近13万张皮肤图像和疾病标签对该模型进行训练,图像包含皮肤镜图像、手机照片以及标准化照片。随后对比该模型与至少21 位皮肤科医生在角质形成细胞癌、良性脂溢性角化病、恶性黑色素瘤与良性痣鉴别中的表现。该模型的AUC 在0.91以上,达到人类专家水平[22]。近年来,智能手机发展迅速,数款可自动识别皮肤病的手机软件被开发,其中SkinVision是第一个采用分形几何算法实现实时诊断皮肤癌的手机软件,其检测黑色素瘤的准确度为81%[23]。在数字病理图像方面,Arevalo 等[24]报道了一个自动识别基底细胞癌的非监督学习模型,经过1 417张数字病理切片训练和另外671张切片测试,其AUC为0.98,值得注意的是,该模型有一个视觉解释层,可以显示出发现的与癌组织相关的区域。国内的中山大学团队采用多实例多标签机器学习算法对皮肤活检图像进行注释,选择了在诊断中重要的15种注释术语,将12 700张皮肤活检图像按3∶7 的比例分别对模型进行训练和测试,注释的准确度最高达85%[25]。
目前,AI 在皮肤图像识别的应用主要集中于皮肤癌的诊断,对其他疾病也有一定研究,但总体较少。Shrivastava等[26]开发了一种机器学习模型,可自动从银屑病患者的临床照片中获取皮损的颜色、质地等特征,进行风险分级。Han等[27]使用基于区域的卷积神经网络生产了包含49 567张标准化指甲图像的数据集,然后对AI 模型进行训练,另外选取1 164张指甲图像对该模型进行测试,其诊断甲癣的准确度高达96%,优于大多数参加该研究的临床医生。浙江大学团队开发了一个面部痤疮自动诊断模型,基于卷积神经网络在临床照片中提取特征,随后通过分类器对特征进行分类,自动检测痤疮的类型[28]。
此外,AI 在预测分析、基因组学等方面也有一定研究。耶鲁大学团队建立了一个多参数ANN 模型来早期检测非黑色素瘤皮肤癌。研究者用2 056 个非黑色素瘤皮肤癌和460 574个非癌症病例的个人健康信息对模型进行训练、测试。该模型提取了性别、年龄、糖尿病状态、吸烟状况、哮喘、种族等共13 个潜在预测指标,经验证,其灵敏度为86.2%,特异性为62.7%,AUC 为0.81[29]。皮肤致敏物质预测模型可有效预测潜在的人类皮肤致敏剂[30-31]。皮肤渗透性预测模型可以对多种化学分子的皮肤渗透性进行预测分析,从而为皮肤外用制剂和护肤品的配制筛选合适的成分[32-33]。利用已知皮肤癌基因的生物学特征,通过机器学习模型寻找潜在的皮肤癌基因[34]。
AI在皮肤图像识别领域的应用可以参考其他学科在图像预处理、特征选择、分类过程中较好的设计方法,如迁移学习。在非图像识别领域,其他学科的研究思路值得皮肤科借鉴,如综合患者的临床特征、辅助检查结果等对皮肤病进行智能诊断,并筛选最佳治疗方案;对常见皮肤病的预后进行预测;通过基因分析药物的治疗敏感性等等。
总之,AI作为一门新兴交叉学科,在医学领域的研究主要涉及图像识别、遗传学和基因组学分析、智能诊疗、预测预后等多个方面。其中,AI在图像识别方面的研究最多,包括皮肤图像识别。在非图像识别领域,AI 在皮肤科的研究较少,可以借鉴其他学科的研究方法,拓宽思路。AI在医学领域的应用众多,本文仅列举了部分研究进展,仍存在很多不足之处。随着研究的深入,AI 在医学中将有着更广泛的应用,从而提高诊疗效率,降低医疗成本,使医患双方共同获益。