刘鸣
随着大数据、人工智能等创新技术的发展,数字技术在医疗领域高度渗透,“互联网+”助力医疗行业,使得医疗信息呈几何倍数增长,医疗大数据时代已经到来。
大数据是指所涉及的信息资料数量规模巨大到无法通过现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合[1]。IBM提出了大数据的“4V”特征,即数量(volume)、多样性(variety)、速度(velocity)和真实性(veracity)。
天文学和基因学是最早产生大数据变革的领域。2003年人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序,而在10年之后,世界范围内的基因仪15 min就可以完成同样的工作量[2]。随着各种便携式智能设备的出现以及物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录下来,产生的大量数据可以被收集起来,形成了大数据的海洋。
随着传感器及智能设备等技术的快速发展,数据格式变得越来越多样化。在医疗系统,每一位患者从门诊就诊、专家号选择、各种检查检验结果、入院、药物或手术治疗、结果评估、复查等产生大量信息,数据格式涵盖了文本、音频、图片、视频、模拟信号等不同的类型。医院每天都会有成百上千例患者,所产生的数据量更是庞大。
英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术与传统的数据挖掘技术最大的区别。大数据分析是一种以实时数据处理、实时结果导向为特征的解决方案。它的“快”有两个层面的含义:一是数据产生得快;二是数据处理得快。
数据的重要性就在于对决策的支持。数据的真实性是获得真知和思路的最重要因素,但即使是最优秀的数据清理方法,也无法消除某些数据固有的不可预测性。在云计算出现之前,传统的计算机无法处理数量如此庞大且不规则的“非结构数据”;在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易地被利用起来。大数据与云计算是一个问题的两个方面:一方面是问题,另一方面是解决问题的方法[1]。
所谓数据库就是组织、存储和管理数据的仓库。随着信息技术和市场的发展,特别是20世纪90年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库技术的主要目的是有效地管理和存取大量的数据资源,包括:提高数据的共享性,使多个用户能够同时访问数据库中的数据;减小数据的冗余度,以提高数据的一致性和完整性;提供数据与应用程序的独立性,从而减少应用程序的开发和维护代价。
心电数据库是指数据库内的心电图诊断和分类是经过临床资料证实,即数据库的心电图分类是以临床证据作为分类标准,或者经过权威的专家小组确认(主要指心律失常数据库)。
目前公认的可作为标准的心电数据库有三个[3],包括,① 美国麻省理工学院与Beth Israel医院联合建立的“MIT-BIH心电数据库”[4]:目前在国际上应用最多的数据库,由很多子数据库组成,每个子数据库都包含某个特定类型的心电记录。应用最多的是心律不齐数据库和QT数据库,国内外许多心电方面的研究都是基于该数据库的实验数据和各类识别算法的检测标准。② 美国心脏学会的“AHA心律失常心电数据库”[5]:主要目的是评价室性心律不齐探测器的检测效果。③ 欧盟的心电图通用标准心电数据库[6]:包含1000例短时间的心电记录,采用12或15导联,主要目的是用于评价心电图自动分析仪的性能。其他还有如,④ 欧盟的“ST-T心电数据库”:用于评价ST段和T波检测算法性能;⑤ 心脏性猝死动态心电数据库:世界范围内每年40万人猝死,PhysioNet进行心脏性猝死的数据库建设,支持和推动这一重要领域的电生理研究;⑥ PTB心电诊断数据库:德国国家计量署提供的数字化心电数据库,目的在于算法标准的研究与教学;⑦ PAF预测挑战数据库:2001年针对自动预测阵发性心房颤动(paroxysmal atrial fibrillation, PAF)的开放性竞赛,竞赛的意义是推动美国在这个重大临床问题上的探索和创设友好竞争及广泛合作的环境。
首先,心电数据库存储的一段心电图条图要求包含如下数据:① 用于管理的数据,如姓名、年龄、出生年月、身份证号(医保号码)等;② 不变的医疗数据,如性别、血型、过敏史等;③ 可变的医疗数据,如历次心电图诊断、相关临床诊断等。其次,数据的存储必须符合一定的标准和要求,以方便国内外不同中心心电图研究结果的交流和对比,如心电图记录的时间、性别、出生年月、种族、患者识别码、与疾病相关的临床病理资料、数字化记录和保存、心电图可随时打印在记录纸上等。第三,对于图形记录,要求采样频率不低于500 Hz、频响范围在0.05~150 Hz(0.05~250 Hz)[7]、12导联同步记录、记录时间不少于10 s、具有通信功能(可压缩传输并精准还原)、低噪声、无基线漂移等。第四,数据库的数据是动态的、不断增加的,要求在多个部位存放,并能按既定规则和定义提取,或按用户自定义提取。
心电数据库的建立根据不同的研究方向,其要求也有所不同。比如:要进行心血管疾病流行病学的研究,首先应建立入选样本的基础心电图,并按计划定期随访采集心电图进入数据库,以便进行不同时期心电图的比较及调查心电图变化与临床资料的关系;建立正常人心电图标准值范围则需要数据库包含足够大的样本量,并且要考虑到不同性别和年龄组的样本分布数,以符合正常值研究的统计学要求;用于判断心电图诊断及仪器标准的心电数据库还应满足有关机构制定的标准,包括心电图的数据采集、储存、传送格式等标准;若研究心电图与临床疾病的潜在关系,则心电图数据库除包括明确的临床诊断证据外,还应有一定的样本数,最好还能收集到合并不同疾病或病理状态患者的心电图等。
越来越多的大型医院通过构建区域性的心电信息诊断平台,除了接收本院门诊、病房的心电资料外,还接受从社区、患者家庭等不同地方传输过来的心电图,可以集中诊断,实现区域化的心电图数字化存储和信息化共享[8]。此举一方面可以实现远程监护,服务基层,节省医疗时间、空间及其他成本;另一方面可以实现基层医院和大医院之间的数据共享,相应的数据将纳入标本库,为大数据科研服务。
2003年山西医科大学第二医院成立了远程心电监护中心,建有几十个分站,遍布县乡级医院、社区卫生服务中心和厂矿卫生院;2006年武汉亚洲心脏病医院开展远程心电监测工作,并于2009年成立湖北省远程心电会诊中心,截至2016年年底已和全国近400家基层医疗机构合作,辐射15个省市,覆盖人数近2000万。近年来,也相继有多个地区成立心电会诊中心,如2012年7月由第三军医大学大坪医院承建的西南地区远程心电会诊中心成立,形成了覆盖西南各省(市)三甲医院、区县医院、社区卫生服务中心、乡镇卫生院和村卫生室的多级区域协同医疗服务网络,解决了西南地区和边远乡村广大基层群众心电图检查诊断难题,提升了西南地区心血管疾病诊疗水平和防治能力;2016年7月,广东省家庭医生远程心电监测平台正式启动,与30余家医疗机构达成了合作,预计能和200多家医疗机构达成合作,覆盖患者人数达800多万。
在远程传输和会诊的方式下,更多的病例资料可以被集中存储和管理,不仅包括心电图,同时传输的还包括病例信息、基础疾病甚至就诊时间、就诊周期和就诊地点等。并且,这些数据持续不断产生、爆发性增长,形成了大数据分析所需要的“海量”。
传统的数据分析要求结果准确,但是,当样本是全部而不是“随机”或“抽样”时,并非所有的医疗数据都十分理想,数据本身会存在很多瑕疵甚至是错误。比如,远程传输的心电图片段就会有各种问题,主要是资料的“不完整”,如心电图机自动分析时未逐搏标记;自动标记测量的心搏不可避免地存在错漏,而人工纠正时又不能保证所有数据为同一人测量,即存在人工测量的个体差异等;上传到会诊中心的病历资料不完整;由于操作不规范等原因,原始采集数据的准确性、可靠性得不到保证。但是,大数据时代的研究数据如此之多,我们不必像“小数据”时代那样热衷于追求精确度。我们要允许“不精确”,不再对一个现象刨根问底,只要掌握大体的发展方向即可。
心电图自动分析是迄今为止计算机在医学领域中应用最为成功的范例之一,它融合了包括传感器技术、信号处理技术、描记技术以及逻辑判断技术(人工智能)等最新的研究成果。心电自动分析软件利用计算机分析并显示心电图,测量必要的参数,再根据临床标准作出正确的诊断或评价。心电自动分析软件减少了医生的工作量,提高了临床指标分析的精度。
目前国外主要的心电分析程序有Philips的DXL ECG algorithm, GE的Marquette 12SL ECG Analysis Program,Glasgow 12-lead ECG Analysis Program,HES Hannover ECG System,Mortara的VERITAS Algorithm,日本福田的The Advanced ECG Analysis Program(Ver.S2),日本光电的Electro Cardiograph Analysis Program System(ECAPS)12C等[9]。国内的心电分析程序有理邦的Smart ECG Measurement and Interpretation Program,科曼的ECG V8.0心电自动分析软件,迈瑞的运用Glasgow算法等。Philips的DXL ECG Algorithm、GE的Marquette 12SL ECG Analysis Program和Glasgow 的12-lead ECG Analysis Program可以称为目前主流心电分析软件的“三驾马车”。
自1980年Marquette 12SL ECG Analysis Program出现以来,GE在计算机心电分析方面一直保持着行业领先地位,该软件也成为被证实的临床“金标准”。在心律失常的节律诊断、起搏检测、心率、电轴、各波段的持续时间及QRS振幅等方面,可实现有针对性的心电图跟踪和回顾,同时也包含多种疾病和各种程度的不正常的ECG数据库检测。
Philips DXL心电算法依据最新研究和相关的指南(如2007 AHA/ACCF/HRS指南Part Ⅱ1, 2009AHA/ACCF/HRS指南Part Ⅵ2)而不断更新。比如算法中新增的右室导联和后壁导联提高了右心和后壁心电的分析诊断能力;ST-Maps功能借助视觉进行ST段变化的快速评估;STEMI-CA标准能识别可能的犯罪冠脉或可能的引起功能性缺血的解剖位置;设计了多种分析起搏器起搏方式的算法,同时保证各导联对起搏脉冲的精确检测;更重要的是,在心电图报告上显示了可以提醒临床医师注意的需要紧急处理的临床事件的关键值(危急值)。
Glasgow 12-lead ECG Analysis Program是被Peter W. Macfarlane教授及其同事不断研究和改进10年的产品。神经网络的研究成果,提高了房颤报告的准确性;2000年以后进行了一系列改进,包括房扑的检测、用年龄和性别来解释ST段抬高的心肌梗死、程序中加入Sgarbossa标准用以检测左束支阻滞合并急性心肌梗死的患者等。
截至目前,计算机辅助的心电图自动分析并不能完全取代人工判读,其原因在于:一,计算机判断的准确性需要用统计学方法来评价;二,计算机不具备综合考虑患者所有临床情况进行系统分析的能力。然而,大数据时代的到来有可能改变这种人工干预的程度,提升计算机自动分析的准确性。
心电图自动分析的完成是基于系统中已经设定的测量和诊断标准,将实际采集的数据与系统中的数据进行对照,只要达到或符合某一条或几条标准就给出相应的诊断提示。在这种方式下,需要不断编译和更新数据库“标本”信息,比如Philips DXL算法会依据指南而不断更新,需要花费巨资。而谷歌则依据每天处理的30亿查询中输入搜索框中的错误拼写,用一个巧妙的反馈循环就可以将用户实际想输入的内容告知系统,将错别字作为“相关词”进行处理,几乎是用“免费”的方式获得了这种拼写检查。这种用户在线交互的方式,可以使机器不断地“从数据中学习”。
2017年两会中“人工智能”第一次出现在政府工作报告中,关注人工智能的科技界因此热血沸腾;世界癌症日2月4日当天,IBM的“Watson医生”第一次在中国“出诊”,仅用10 s就开出癌症处方;Science杂志报道了英国诺丁汉大学流行病学家Stephen Weng博士团队发表在PLoS One上的重要研究成果,他们将机器学习算法应用于分析电子病历的常规数据,发现与当前的心脏病预测方法相比,深度学习算法不仅可以更准确地预测心脏病发病风险,还可以降低诊断的假阳性率。
目前应用于医疗的人工智能大多是用来提高医生的工作效率,扩大工作内容的广度和增加深度。Science杂志2017年刊登了中国第三军医大学罗阳团队的最新研究成果[10]:利用人工智能在30 s内鉴定血型,准确率超过99.9%。这对于急需输血抢救的患者意义重大,可以为患者节省3~15 min时间,提高他们的生还概率,同时也可用于抢险救灾、战场急救等急需验血的情境下。2017年,据美国食品药品管理局(FDA)官网显示,其首次批准了一款心脏磁共振影像AI分析的软件Cardio DL。这款软件将计算机深度学习用于医学图像分析,并为传统的心脏MRI扫描影像数据提供自动心室分割的分析,这一步骤与传统上放射科医生需要手动完成的结果一样精准。这款人工智能心脏MRI医学影像分析系统不但得到了FDA510(K)的批准,还得到了欧洲的CE认证和批准,这标志着该软件将被允许用于临床。
人工智能是基于大数据,而大数据的核心就是预测。国内已经有不少企业开始涉足医疗领域的人工智能应用。Standard医疗“岐伯”人工智能引擎一经推出市场便引起关注。“岐伯”人工智能引擎主要是将自然语言处理、认知技术、自动推理、机器学习、信息检索等技术应用于临床资料(包括医学专著、论文、治疗方案、试验数据、临床报告、医学期刊、教科书等)的深度学习,在大规模证据搜集、分析、评价的人工智能系统中推导出心脑血管疾病辅助诊断、治疗、预防建议。
武汉亚洲心脏病医院在2017年4月尝试应用“岐伯”人工智能引擎验证室性早搏起源的自动定位诊断,结果令人满意。目前心电图的自动分析和测量主要针对QRS波形态正常的心搏,而对于异常室性早搏的QRS波则无相关自动分析。我们选择了411例经心内电生理检查并成功行射频消融术的起源于流出道不同部位的室性早搏病例,根据指南以及专家建议,对其体表心电图自动测量分析和计算相关参数,包括R波时限、QRS波时限、R波时限指数、R波波幅、S波波幅、R/S波幅指数、窦性移行区指数、室性移行区指数、V2S、V3R、V2S/V3R指数以及V2过渡比等,并与人工测量结果进行对照。由于原始数据为非格式化数据,主要有jpg和bmp两种格式,每幅图的尺寸、像素大小、灰度、噪声等皆不相同,因此有些病例由于图像本身或算法适用性的原因未能入组,所以最终得到383组(383/411,约93.19%)共4596个数据,对绝大多数的病例可以做到在1 min内完成提取和计算的过程。对每种心电图参数的自动测量值与手工测量值(分别去除最大和最小的10组数据)进行统计学分析,结果提示自动测量和人工测量结果差异无统计学意义。
上述预试验的结果给予我们极大的信心,它提示我们可以通过大数据技术进行分析,提出一种概率预测模型来简单地判断心电图正常患者患病的可能性以及心电图不正常患者康复(心电图恢复正常)的可能性,建立预测分层体系。
总之,“人工智能+医疗”不是什么花哨的噱头,而是实实在在的未来。心电图检查作为一个在技术上实现自动化分析相对成熟的心血管疾病检查项目,试水人工智能,从心电信息切入,进而全面融合疾病相关资料,实现心血管疾病风险防控和慢病管理值得我们期待。
参考文献
[1] 维克托·迈尔舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:29.
[2] 埃里克·托普.颠覆医疗[M].张南,魏薇,何雨师,译.北京:电子工业出版社,2014:1-5.
[3] 朱泽煌,胡广书,郭恒,等. MIT-BIH心电数据库的开发及用作检测标准[J]. 中国生物医学工程学报,1993,12(4):244-249.
[4] Goldberger AL, Amaral LA, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals[J]. Circulation,2000,101(23):E215-E220.
[5] ECRI Institute. AHA database[EB/OL]. https://www.ecri.org/Pages/default.aspx.
[6] Willems JL, Arnaud P, van Bemmel JH, et al. A reference database for multilead electrocardiographic computer measurement programs[J]. J Am Coll Cordiol,1987,10(6):1313-1321.
[7] Norman JE, Bailey JJ, Berson AS, et al. NHLBI workshop on the utilization or ECG databases: preservation and use of existing ECG databases and development of future resources[J]. J Electrocardiol, 1998,31(2):83-89.
[8] 刘鸣,张林,余秀明.建立远程心电监测系统平台的意义(一)[J].中国心血管病研究,2016,14(11):961-964.
[9] Kligfield P,Badilini F, Rowlandson I,et al.Comparison of automated measurements of electrocardiographic intervals and durations by computer-based algorithms of digital electrocardiographs[J].Am Heart J, 2014,167(2):150-159.
[10] Zhang H,Qiu X,Zou Y,et al. A dye-assisted paper-based point-of-care assay for fast and reliable blood grouping[J].Sci Transl Med,2017,9(381).pii: eaaf 9209.