医疗人工智能技术与应用研究

2018-06-29 09:07赵阳光

信息通信技术 2018年3期

赵阳光

中国信息通信研究院北京 100191

1 人工智能赋能医疗

人工智能已经非常广泛的应用于医疗领域，人工智能技术与医疗领域呈现出不断融合的趋势。医疗行业长期存在优质医生资源分配不均，诊断误诊漏诊率较高，医疗费用成本过高，放射科、病理科等科室医生培养周期长，医生资源供需缺口大等问题。随着近些年深度学习技术的不断进步，人工智能逐步从前沿技术转变为现实应用。在医疗健康行业，人工智能的应用场景越发丰富，人工智能技术也逐渐成为影响医疗行业发展、提升医疗服务水平的重要因素。与互联网技术在医疗行业的应用不同，人工智能对医疗行业的改造包括生产力的提高、生产方式的改变、底层技术的驱动、上层应用的丰富。通过人工智能在医疗领域的应用，可以提高医疗诊断准确率与效率；提高患者自诊比例，降低患者对医生的需求量；辅助医生进行病变检测，实现疾病早期筛查；大幅提高新药研发效率，降低制药时间与成本[1]。

2 医疗人工智能应用分析

人工智能与医疗的结合方式较多，就医流程方面包括诊前、诊中、诊后；适用对象方面包括医院、医生、患者、药企、检验机构等；从赋能医疗行业的角度分析，包括降低医疗成本，提高诊断效率等多种模式。我国医疗人工智能企业聚焦的应用场景集中在虚拟助理、病历与文献分析、医疗影像辅助诊断、药物研发、基因测序等领域。

2.1 健康管理助手

健康管理助手是指通过语音识别、自然语言处理等技术，将患者的病症描述与标准的医学指南作对比，为用户提供医疗咨询、自诊、导诊等服务的信息系统。多数疾病都是可以预防的，但是由于疾病通常在发病前期表征并不明显，到病况加重之际才会被发现。虽然医生可以借助工具进行疾病辅助预测，但人体的复杂性、疾病的多样性会影响预测的准确程度。人工智能技术与医疗健康可穿戴设备的结合可以实现疾病的风险预测和实际干预。风险预测包括对个人健康状况的预警，以及对流行病等公共卫生事件的监控；干预则主要指针对不同患者的个性化的健康管理和健康咨询服务(如图1)。

健康管理助手在医生端和用户端均发挥了较大的作用。在医生端，智能问诊可以辅助医生诊断，尤其是受限于基层医疗机构全科医生数量、质量的不足，医疗设备条件的欠缺，基层医疗成为了我国分级诊疗发展的瓶颈。人工智能虚拟助手可以帮助基层医生进行一些常见病的筛查，以及重大疾病的预警与监控，帮助基层医生更好地完成转诊的工作，这是人工智能问诊在医生端的价值体现。在用户端，健康管理助手能够帮助普通用户完成健康咨询、导诊等服务。在很多情况下，用户身体只是稍感不适，并不需要进入医院进行就诊。健康管理助手可以根据用户的描述定位到用户的健康问题，提供轻问诊服务和用药指导。患者在就诊前使用预问诊系统填写病情相关信息，由系统生成规范、详细的门诊电子病历发送给医生。预问诊系统采用层次转移的设计架构模拟医生进行问诊，既能有逻辑地像医生一样询问基本信息、疾病、症状、治疗情况、既往史等信息，同时，可以围绕任一症状、病史等进行细节特征的问诊。除问诊外，预问诊系统基于自然语言生成技术自动生成规范、详细的问诊报告，主要包括：患者基本信息、主诉、现病史、既往史和过敏史五个部分[2]。

2.2 病历与文献分析

电子病历是在传统病历基础上，记录医生与病人的交互过程以及病情发展情况的电子化病情档案，包含病案首页、检验结果、住院记录、手术记录、医嘱等信息。其中既有结构化数据，也包括大量自由文本输入的非结构化数据。对电子病历及医学文献中的海量医疗大数据进行分析，有利于促进医学研究，同时，也为医疗器械、药物的研发提供了基础。人工智能利用机器学习和自然语言处理技术可以自动抓取来源于异构系统的病历与文献数据，并形成结构化的医疗数据库。国内众多相关企业正是基于自己构建的知识图谱，形成了供医生使用的临床决策支持产品，为医生的诊断提供辅助，包括病情评估、诊疗建议、药物禁忌等服务。

图1 人工智能+健康管理：预测+干预

2.3 医疗影像辅助诊断

医疗影像数据是医疗数据的重要组成部分，从数量上看90%以上的医疗数据都是影像数据，从产生数据的设备来看包括CT、X光、MRI、PET等医疗影像数据。据统计，医学影像数据年增长率为63%，而放射科医生数量年增长率仅为2%，放射科医生供给缺口很大。人工智能技术与医疗影像的结合有望缓解此类问题。人工智能技术在医疗影像的应用主要指通过计算机视觉技术对医疗影像进行快速读片和智能诊断。人工智能在医学影像中应用主要分为两部分：一是感知数据，即通过图像识别技术对医学影像进行分析，获取有效信息；二是数据学习、训练环节，通过深度学习海量的影像数据和临床诊断数据，不断对模型进行训练，促使其掌握诊断能力[3]。目前，人工智能技术与医疗影像诊断的结合场景包括肺癌检查、糖网眼底检查、食管癌检查以及部分疾病的核医学检查和病理检查等。

以肺结节检出为例，利用人工智能技术进行肺部肿瘤良性恶性的判断步骤主要包括：数据收集、数据预处理、图像分割、肺结节标记、模型训练、分类预测。首先要获取放射性设备，如CT扫描的序列影像，并对图像进行预处理以消除原CT图像中的边界噪声，然后利用分割算法生成肺部区域图像，并对肺结节区域进行标记。数据获取后，对3D卷积神经网络的模型进行训练，以实现在肺部影像中寻找结节位置并对结节性质进行分类判断。

2.4 药物研发

药物研发需经历靶点筛选、药物挖掘、临床试验、药物优化等阶段。利用传统手段的药物研发需要进行大量的模拟测试，周期长、成本高，传统药物研发需要投入大量的时间与金钱，制药公司平均成功研发一款新药需要10亿美元及10年左右时间。目前，业界已尝试利用人工智能开发虚拟筛选技术，发现靶点、筛选药物，以取代或增强传统高通量筛选(HTS)过程，提高潜在药物的筛选速度和成功率。通过深度学习和自然语言处理技术可以理解和分析医学文献、论文、专利、基因组数据中的信息，从中找出相应的候选药物，并筛选出针对特定疾病有效的化合物，从而大幅缩减研发时间与成本。

2.5 基因测序

基因测序是一种新型基因检测技术，它通过分析测定基因序列，可用于临床的遗传病诊断、产前筛查、罹患肿瘤预测与治疗等领域。单个人类基因组拥有30亿个碱基对，编码约23000个含有功能性的基因，基因检测就是通过解码从海量数据中挖掘有效信息。目前高通量测序技术的运算层面主要为解码和记录，较难以实现基因解读，所以从基因序列中挖掘出的有效信息十分有限。人工智能技术的介入可改善目前的瓶颈。通过建立初始数学模型，将健康人的全基因组序列和RNA序列导入模型进行训练，让模型学习到健康人的RNA剪切模式。之后通过其他分子生物学方法对训练后的模型进行修正，最后对照病例数据检验模型的准确性。

3 问题与挑战

3.1 数据瓶颈

数据是人工智能技术最重要的因素之一。对于机器学习而言，模型越复杂、越具有强表达能力越容易降低对未来数据的解释能力，而专注于解释训练数据。这种现象会导致训练数据效果很好，但遇到未知的测试数据预测效果会大幅降低，即发生过拟合现象，从而也就需要更多的数据来避免该问题的发生，以保证训练的模型对新的数据也能有良好的预测表现。对于医疗人工智能而言，数据的重要性更为明显。以医疗影像辅助诊断公司为例，企业训练模型的数据来源通常是公开数据集，或者企业与个别医院合作获取的影像数据。这种模式在企业创业初期可以维持，但是当企业发展到一定阶段时弊端会开始出现。以肺结节CT筛查为例，企业通常与个别医院展开合作，获取该医院CT设备的数据。但是，目前，市面上广泛流通的CT设备商有七到八家，机型则达到了上百种，企业在与医院合作时是针对某一机型的设备进行的数据训练，该模型在适用于其他机型时，如果一些诸如层厚、电流、电压、扫描时间等参数不同，模型需要重新针对新机型进行数据预训练。除此以外，病人受检测时的姿势(平躺或者趴窝)，CT长宽512像素或者768像素的差别，不同排数机器的层厚差异以及薄层重构算法都是对模型训练产生影响的因素。因此，数据问题的解决是保证医疗影像辅助诊断产品是否能够广泛应用的关键，广泛开展合作，加深数据的积累以及技术上的创新或是下一步行业发展的重点。

3.2 临床应用

医疗AI产品需要实现从试验向临床应用的突破。目前，业内针对肺结节、糖网病检查等场景的医疗人工智能产品诊断准确率普遍很高，但是真实情况并非如此乐观。企业在训练自己模型时通常都有自己的数据库，各自的算法都是按照自己的数据进行训练，然后以自己的数据来验证准确性。在没有得到临床验证前，基于标准或特定数据集的实验室测试结果并不具备较大的意义，因为实际临床应用的场景是非常复杂的。以糖网病筛查为例，瞳孔较小、晶状体浑浊等人群的免散瞳眼底彩照，图像质量往往达不到筛查的要求。此外，受限于成本因素，很多基层医疗机构使用的是手持眼底相机，成像质量堪忧。

另外，目前图像识别技术在医疗影像辅助诊断上的应用已经取得了比较好的应用，技术上也取得了较大的突破，但是医疗影像辅助诊断产品下一步应当完善自己的算法，避免“就图论图”。以甲状腺结节诊断为例，医生诊断的依据并非只是彩超的拍片结果，还要结合甲状腺功能化验，查看抗体的相关表现；因此，将临床表征信息、患者基本信息、LIS指标、随访记录等都作为预测模型的因子，实现多模态的诊断体系将是医疗影像辅助诊断产品下一步重点突破的方向。

3.3 商业模式

现在的医疗人工智能企业多数是依靠单点医疗机构开展工作，合作方式较为单一，数据作为医院资产也难以供企业放置于院外使用[4]；此外，医疗人工智能产品想以销售软件的形式让医院付费，不论从计费方式、软件资质等方面都较为困难；因此，建立可持续的商业模式是医疗人工智能行业长久发展的关键。

3.4 权责范围

人工智能协助进行辅助诊断在医疗责任认定方面也存在问题和挑战。例如，用户在使用医疗虚拟助手表达主诉时，可能会漏掉甚至错误地进行描述，导致虚拟助手提供的建议是不符合用户原本的疾病情况的；因此，目前监管部门禁止虚拟助手软件提供任何疾病的诊断建议，只允许提供用户健康轻问诊咨询服务。我国监管部门对于利用人工智能技术提供诊断功能的审核要求非常严格，对于能够对病变部位进行自动识别并提供明确诊断提示的产品，必须按照第三类医疗器械进行临床试验认证管理。未来，应进一步明确针对AI诊断进入临床应用的法律标准，做出AI诊断的主体在法律上是医生还是医疗器械，AI诊断出现缺陷或医疗过失的判断依据等问题。

4 国内外发展对比与趋势分析

虽然我国医疗人工智能领域近几年取得了应用层面的突破，但我国医疗人工智能整体发展水平与发达国家相比仍存在差距，在前沿基础设施建设、产业应用、人才培养和监管体系等方面都亟待建立和完善。

尤其在基层建设层面，有效的医疗大数据的积累将是医疗人工智能产业未来发展的核心因素。医疗数据的有效性包括三个方面：电子化程度、标准化程度以及共享机制。电子化程度强调数据和病历的供给量；标准化程度强调数据之间的可比性和通用型；共享机制强调数据获取渠道的便利性和合法性。只有满足上述三个方面的条件，医疗大数据才能得到有效搜集和应用，进而为人工智能打下基础。在医疗大数据策略方面，美国联邦制定了各种数据标准，包括数据交换格式、数据模型表达方法等，因此，美国医疗大数据的积累拥有大量底层、标准、数据规范、标准代码等作为基础支撑。我国在医疗数据质量控制方面存在一定的问题，不同医疗机构间的数据差异性非常大，导致构建一致性的数据集难度较大，即便在医院内部，数据分别存储在不同临床业务系统，没有实现互联互通，数据间的鸿沟导致大量的数据未实现大数据的价值。

由于国内医学影像数量年增长率很高，而相应的放射科医师增长率较低，因此，供需缺口是推动国内AI技术在医学影像应用的重要因素。我国人工智能+医学影像的公司数量众多，而且应用领域也较为广泛，在放射影像、糖网图像、甲状腺图像、宫颈癌病理图像等方面都有很深入的研究，产业界实力在世界范围内属于前列。但是，除医学影像外，我国对于AI技术利用的多样性较发达国家存在一定差距。例如，美国许多企业在研究利用算法分析动物的血管和疾病，这对行业上下游非常重要。再比如肠道微生物有大量的数据，微生物数据量达到百万级别，甚至高于基因测序测的数据量，对于此部分数据的分析也具备巨大价值。根据国家《新一代人工智能发展规划》的总体战略部署，以及《促进新一代人工智能产业发展三年行动计划(2018-2020年)》中关于医疗领域的具体实施目标，我国正在重点培育和发展医疗影像辅助诊断系统等医疗人工智能产品，并通过搭建医疗行业训练资源库、标准测试集及知识产权服务平台夯实人工智能产业发展的软硬件基础，完善医疗人工智能发展环境。未来医疗人工智能行业需要加强上下游协同，形成产业发展闭环。在构建医疗辅助诊断系统过程中，应结合患者基本信息、临床表现、影像学特征、病理检验结果、随访等多种因素，研发多模态人工智能辅助诊断系统，从而逐步推进医疗人工智能产品实现从试验向临床应用的突破。

[1] 徐国平,王家骥.基础医疗卫生服务应该在中国新医改中得到正确理解和全面实施[J].中国全科医学,2015:18-20

[2] 王斌,杜方冬.医院信息化的相关理论问题研究[J].中国现代医学杂志,2013:108-112

[3] 铅笔道.人工智能与影像诊断相结合的医生界阿尔法狗[J].中国医学计算机成像杂志,2016:282-282

[4] 聂金福.人工智能在生物医疗领域的应用和机遇[J].软件和集成电路,2017(04)