姚圣森 武晓静
(1.深圳大学医学部,广东 深圳 518055; 2.深圳大学总医院心血管内科,广东 深圳 518055)
随着现代社会进入数字化时代,语音技术作为一种新的信息识别和资料收集工具,不仅渗透到日常生活,也作为一种新型的疾病监测、诊疗工具和研究方法开始在临床上出现。由于发音受声带/喉和大脑语言中枢调节,与咽喉部及中枢神经系统相关的疾病可能直接影响到语音,因此,语音与咽喉及神经系统疾病之间关系的研究起步较早,目前不仅是嗓音相关疾病诊断的主要方法,也已成功用于帕金森综合征、阿尔茨海默病、孤独症等疾病的识别与监测[1-2]。虽然在20世纪80年代,人们就认识到心脏跳动可影响言语的基频[3],但通常并不认为语音和心脏相关,语音与心血管疾病间的关系长期未受到关注。随着人工智能(artificial intelligence,AI)在各领域的迅猛发展,人们通过各种语音软件和设备记录患者说话声音后,通过相关的语音分析工具,如HearO语音应用程序,应用机器学习或各种以AI为基础的算法与临床数据相结合,发现语音特征变化与冠心病(coronary heart disease,CHD)、心衰、肺动脉高压(pulmonary hypertension,PH)等常见心血管疾病间的确存在联系和规律。语音具有个体化、易采集、费用低等优点,可能成为一种新的辅助方法用于未来心血管疾病的管理和监测。现主要就近年语音在常见心血管疾病诊疗和评估中的研究进展做一综述。
由于生活方式、人口老龄化等因素,动脉粥样硬化性心血管疾病(atherosclerotic cardiovascular disease,ASCVD)在很长一段时间里累积发病率和死亡率均处于高位,严重影响人类健康和生活质量。CHD是ASCVD的主要表现形式,20世纪70年代后,介入心脏病学的快速发展使CHD诊疗水平显著提高并快速普及,然而如何早期识别促动脉粥样硬化危险因素,早期发现CHD,一直是ASCVD防控领域研究和探索的重要话题[4]。始于20世纪50年代的Framingham心脏研究使人们认识到促动脉粥样硬化危险因素在心血管疾病发病中的重要性,对血脂、血压、血糖、体重等危险因素的认识和控制,使美国在20世纪70年代迎来了心血管疾病死亡率下降的拐点。中国学者[5]利用来自中国ASCVD风险预测研究中的大样本数据,建立了用于心血管疾病10年风险和终生风险评估的China-PAR模型,其目的也是探索适合中国人群特点的危险因素分层和控制方法,从而降低中国ASCVD的发生率和死亡率。
目前已认识到的与动脉粥样硬化和CHD相关的传统危险因素,主要包括年龄、性别、体重指数、血压、吸烟、血脂异常、糖尿病、高同型半胱氨酸等。随着人们生活进入AI时代,研究者们还发现了与CHD相关的新型预测因素。Lin等[6]通过计算机深度学习算法分析面部照片,发现有些面部特征能辅助预测CHD风险。语音作为一种个体化特征,在CHD风险预测方面的作用也开始崭露头角。最初,Levanon等[7]对健康受试者和心脏病患者的语音样本进行初步分析,发现心脏病患者可能有异于健康人的语音特征,提示语音能辅助判断心血管疾病,并申请了专利。Maor等[8]纳入了101例计划行冠状动脉造影的受试者,根据冠状动脉造影结果将受试者分为CHD组(n=71)和非CHD组(n=30),同时招募了37例对照组受试者,指导所有纳入对象分别用中性、积极、消极3种情感说话,并将个人语音记录到智能手机后,分析其基于倒谱的声学特征参数,通过单因素logistic回归分析发现5个与CHD相关的语音特征,分别为 Feature15、43、49、71和78,他们同时将这些语音特征与ASCVD危险因素进行多因素logistic回归分析,发现用消极情绪说话时,Feature43为CHD的独立预测因素(OR=4.01,95%CI1.25~12.84,P=0.02);用积极情绪说话时,Feature71为CHD的独立预测因素(OR=0.37,95%CI0.18~0.79,P=0.009)。在另一项研究中,Pareek等[9]纳入了80例CHD患者和80例年龄匹配的健康对照受试者,指导受试者发出元音/a/并持续4 s,通过多维语音程序处理语音信号,结果发现与健康对照组相比,CHD患者语音特征中的声谱图、长期平均谱、频率微扰、振幅微扰、振幅扰动商等存在差异,提示多维语音程序可用于识别CHD的患病风险。目前,语音在CHD评估中的研究刚刚起步,多为小样本临床观察,CHD患者出现语音变异的规律尚需大规模临床研究验证。然而,语音作为一种新型辅助评估方法,在未来预测和评估动脉粥样硬化和CHD风险中的潜在价值已初步呈现。
心衰是多数常见心血管疾病的终末阶段,由于潜在患病人数多,心衰的死亡率及再住院率在未来相当一段时间仍呈逐年攀升趋势,已成为严重危害人类健康的重大慢性疾病。随着心衰规范化诊疗进展及各地心衰中心的建设,对心衰防治的重视使其长期预后得到改善。然而,心衰病程长,常在代偿与失代偿间转换,再住院率高是目前存在的主要问题。如何早期识别心衰风险,预警和识别心衰失代偿是心衰慢病管理的重要内容。
临床上监测心衰常用的客观方法包括测体重,通过体格检查发现凹陷性水肿以及在医院内通过检测血清生物标志物如脑利尿钠肽、N末端脑钠肽前体(N-terminal pro-brain natriuretic peptide,NT-proBNP)等方法,这些方法往往用于已出现了失代偿性心衰的患者,评估其病情严重程度。新近兴起的通过植入装置进行血流动力学或肺水含量监测,如CardioMEMS、MultiSENSE、ReDS等传感器装置[10-12],以及通过HeartLogic多传感器指数和警报算法评估[13],可实现患者心衰失代偿事件的提前预警。然而以上方法使用的设备昂贵且为侵入式,需植入传感器或已安装过起搏器,仅适合小部分重症心衰患者。仍有绝大多数心衰患者缺乏客观、便捷、非侵入式的监测和预警方法。
近年来,语音在心衰危险分层及失代偿早期预警方面的研究进展迅速。以色列Sheba医学中心Maor等[14]在一项注册研究中收集了10 583例慢性病患者的语音,其中慢性心衰患者2 267例,通过Vocalis Health程序进行语音处理,从每例患者20 s语音记录中共提取了223个声学特征,根据四分位法基于声学特征,从低到高将患者分为Q1~Q4四组,随访20个月时824例(36%)患者死亡,Kaplan-Meier生存分析发现,与Q1组相比,Q2、Q3、Q4组的死亡风险分别增加30%、70%和170%,住院风险分别增加18%、35%和69%。他们的研究提示基于心衰患者语音特征的分析能辅助进行心衰患者的危险分层,帮助识别高风险患者。Murton等[15]在一项pilot研究中观察了10例接受利尿剂治疗的急性失代偿性心衰患者,采集治疗期间每日患者的语音,发现患者经过利尿剂治疗后,说话速度较前变快,呼吸频率降低,在语音特征上表现为嘎裂声百分比升高,基频增加,倒谱峰值突出度降低。他们的研究提示对于心衰患者,语音变化较水肿出现更早,失代偿性心衰患者的语音特征能在传统的症状和体征出现前探测到心衰失代偿。Reddy等[16]分别建立了25例健康者和20例心衰患者的语音资料库,分别提取语音片段并分析梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)及声门特征,通过支持向量机(support vector machine,SVM)、极限树、AdaBoost和前馈神经网络(feed-forward neural network,FFNN)四种机器学习算法进行了个体特征及其组合的训练,FFNN分类器性能最优,准确率为81.51%,表明通过对MFCC和声门特征的机器学习训练,可用于自动识别心衰患者与健康者。Amir等[17]在一项单中心观察性研究中对5例进行规律透析的心衰患者进行研究,患者每周进行3次血液透析,分别记录透析当天中午/傍晚以及第二天早上和晚上的语音,获得不同时间点的语音测量值(speech measures,SM),然后通过智能手机应用程序算法对语音进行分析,发现透析前的中位基线SM为0.87±0.17,在透析疗程结束后的中午上升至1.07±0.15(P=0.035 5),并在第二天早上前保持在类似的水平(P=0.007),直到透析后的第二天晚上,SM恢复到基线水平(0.88±0.19),且透析后即刻体重的变化与SM呈正相关。随后Amir等[18]继续开展了一项单臂观察性研究,通过HearO语音应用程序,获取了40例成年急性失代偿性心衰患者入院及治疗后出院的语音数据,并分析了5个不同的语音测量值(SM1~SM5),结果表明,与基线相比,SM的变化率分别为:SM1平均为91%(中位68%),SM2为165%(中位108%),SM3为218%(中位158%),SM4为200%(中位143%),SM5为49%(中位34%)。他们的研究提示心衰患者的语音SM能反映容量负荷变化和液体潴留情况。语音与手机结合预测心衰的研究为心衰的院前居家监测提供了便捷、可行的方法。Schöbi等[19]对68例急性心衰患者和36例稳定性心衰患者的语音停顿率(pause ratio,PR)特征进行了评估,通过自动提取语音停顿特征,并将其与临床指标,包括纽约心功能分级、外周水肿的严重程度、肺听诊异常和NT-proBNP水平等进行相关性分析,结果发现与稳定期患者相比,急性心衰患者的PR为14.9%,PR与NT-proBNP水平呈正相关;该研究表明PR可用于识别急性心衰患者,尤其在NT-proBNP尚未出现改变时,可作出早期预测。
水钠潴留是失代偿性心衰患者最重要的临床表现之一,心衰患者发生语音变化可能与声带水肿有关,其机制尚待进一步研究。然而,语音辅助心衰患者危险分层的研究及语音特征变化能较体重和水肿更敏感地预警心衰失代偿发生的现象,提示语音在心衰监测中的潜在价值。尤其语音具有无创、实时、低成本、适合居家监测等优点,语音监测在心衰慢病管理和远程随访中的临床应用前景值得期待。
PH是指由多种病因和不同发病机制所致肺血管结构或功能改变,引起肺血管阻力和肺动脉压力升高的临床和病理生理综合征。根据患者临床特征、病因和肺血流动力学特点,国际上公认把PH分为五大类,其中由左心疾病引起的左心疾病相关性肺动脉高压(pulmonary hypertension due to left heart disease,PH-LHD)属于第二大类PH,是PH中常见的类型。PH-LHD发生于心衰基础上,与心衰的临床表现相似,主要表现为气短、乏力、运动耐量下降等症状。因此,很难仅从临床表现判断心衰患者是否并发了PH。血流动力学检查是PH诊断的金标准。然而,目前临床上右心导管检查尚不是左心疾病和心衰患者的常规检查,同时由于其有创性,也不适合作为心衰患者的早期筛查和随访方法。心脏超声由于能准确评估心脏结构改变、估测肺动脉收缩压及无创等优势广泛用于临床,但其对早期和轻度肺动脉压升高的患者存在敏感性低和稳定性差的局限性,部分PH,尤其早期轻症患者可能会漏诊,限制了其对PH-LHD的早期识别。目前用于辅助判断PH严重程度和预后的脑利尿钠肽等血清标志物诊断PH的特异性不强。如何早期发现PH一直是困扰临床医生的问题。
在PH患者语音特征分析研究中,Sara和Maor等[20]采用双盲法对83例具有临床指征行有创心导管检查的患者进行研究,这些受试者的肺动脉压力在语音采集过程中是未知的,对每例受试者通过智能手机记录三段不同情感体验的语音,对每个单独记录测定语音生物标志物值,该生物标志物是Maor等[14]研究者在以色列Sheba医学中心注册的一组慢性病患者(n=10 583)中开发的,它是由每个患者20 s的语音中提取的223个声学特征的线性组合而成的标量,在本研究中,每个受试者的语音记录与该语音生物标志物值之间的组内相关系数为0.829(95%CI0.740~0.889);根据患者心导管检查结果,将患者分为高肺动脉压力组(≥35 mm Hg,n=27)(1 mm Hg=0.133 3 kPa)和低肺动脉压力组(<35 mm Hg,n=56),发现高肺动脉压力组患者的平均语音生物标志物值显著高于低肺动脉压力组患者;在调整年龄、性别、高血压、糖尿病和纽约心功能分级后,多因素logistic回归分析发现该平均语音生物标志物值是PH的独立危险因素(OR=2.31,95%CI1.05~5.07)。他们的研究表明语音特征改变可能与PH严重程度相关,语音分析可能有助于PH早期筛查。然而,目前关于PH与语音关联性分析的研究较少,PH患者出现语音变化的机制不清,可能与肺动脉增宽或心房增大致左喉返神经部分受压有关,类似于心脏-声带综合征(亦称Ortner’s syndrome)。PH患者语音改变的特点、机制及在临床诊疗中的价值和意义尚待进一步研究。
高血压是一个严重的全球问题,流行病学数据表明,由于人口老龄化,高血压的患病率亦逐年增加。高血压是多种心血管疾病发展的危险因素,也是导致死亡的主要原因之一。新近研究发现血压水平与语音也存在关联。Ankhan[21]在相同的环境条件下从86个受试者录制了230种音频数据,同时使用袖带血压计测量血压值,根据血压水平进行不同的分组,采用卷积神经网络-回归(convolutional neural network-regression,CNN-R)、支持向量机-回归(support vector machine-regression,SVM-R)和多元线性回归(multiple linear regression,MLR)等模型对语音和血压值进行算法关联及预测。结果发现不同血压水平条件下语音特征不同,当分组为较高血压水平组(121~160/81~110 mm Hg)和较低血压水平组(90~120/60~80 mm Hg),使用ReliefF算法时,不同模型对收缩压值预测率分别如下:MLR为89.43%,SVM-R为92.15%,CNN-R为93.65%;而对舒张压值的预测率分别如下:MLR为80.06%,SVM-R为82.89%,CNN-R为84.87%。他们的研究提示血压水平不同患者的语音特征不同,语音特征能反映不同的血压水平。目前,语音与高血压的研究较少,机制尚不清楚,语音特征在高血压的早期识别、监测及研究中的指导价值尚待进一步研究。
语音解码和分析技术作为一种新兴的非侵入性监测方法,在动脉粥样硬化和CHD风险预测、心衰危险分层和失代偿预警、PH识别和严重程度判断及高血压辅助监测等方面,已初步显示潜在的应用前景和价值。目前研究多集中在现象观察,样本量少。心血管疾病为何会产生语音变异,其机制尚缺乏深入研究。同时,不同心血管疾病语音变异规律及特点尚待系统研究。然而,语音具有独特的个体化、易采集、低成本、适合远程和居家监测等优点,尤其随着5G网络和AI这两个重大技术的突破和发展,再加上配备有语音助手或家庭设备的智能手机、平板等通信联络工具的普及,将语音解码和分析技术集成到虚拟医生和智慧医疗中,用于心血管疾病的居家或远程监测和评估成为可能。
然而,语音应用于真实世界监测和诊疗还存在一些问题尚待解决。一方面,由于大多数心血管疾病患者年龄相对较大,且中国是多民族国家,使用语音技术还需考虑到地域和方言等问题,需了解不同年龄、性别、地域、文化等因素对语音相关特征的影响;另一方面,语音数据可能同时包含敏感的个人信息,因为其可能代表一个人的身份、种族等信息,或在云端所保存的个人健康信息,需采取一定的措施来保护其安全性。然而,语音作为一种新的疾病监测和信息收集方式,已显示其独特的优越性和潜在价值,语音指导的心血管疾病监测可能成为未来心血管疾病慢病管理和研究的辅助方法。