冯鑫, 郁磊, 许斐, 李阳, 靳祯
(1.山西大学 复杂系统研究所,山西 太原 030006;2.山西大学 疾病防控的数学技术与大数据分析山西省重点实验室,山西 太原 030006;3.山西医科大学 第一临床医学院,山西 太原 030001;4.山西医科大学 第一医院,山西 太原 030001)
Cookie Theft测验是临床上常用的测评认知沟通能力的方法[1-4],通过向被试者展示如图1所示的Cookie Theft图(取自波士顿失语症诊断测试),根据被试者对图片内容的描述进行评估分析.已有的研究大多将Cookie Theft测验用于阿尔茨海默病(Alzheimer′s disease,AD)患者的语言分析或认知障碍评估[5-8],目前对脑小血管病患者的认知受损方面及语言功能的研究大多采用波士顿命名测验或动物列名测验[9-10],而将Cookie Theft测验应用于脑小血管病患者的认知沟通能力测评尚未见诸报道,由于脑小血管病与阿尔茨海默病之间有着密切的关系[11-12],故本文提出将Cookie Theft测验用于研究脑小血管病患者的认知沟通能力测评.
在临床测试中,Cookie Theft测验通常需要评测人员用录音设备对被试者的描述内容进行录音,根据录音对被试者描述内容的有效信息进行评分,评分结果很大程度上依赖评测医生的经验,评测结果存在一定的主观性,为了解决这一问题,本文将Cookie Theft测验进行了数字化,以量表的方式呈现给评测医生,使评测结果客观;其次,对比分析了脑小血管病患者与健康人在Cookie Theft测验上的表现差异;最后,综合Cookie Theft测验时的语音相关特征和信息量相关特征,利用人工智能方法建立脑小血管病智能诊断模型.
图1 Cookie Theft图
共招募了55名实验对象参与Cookie Theft测验,其中健康人30名,脑小血管病患者25名,脑小血管病患者的纳入标准如下[13-15]:(1)年龄在50-85岁之间;(2)影像医学上表现为以下任意一种:腔隙性脑梗死、脑白质变性或脑微出血;(3)发病前无精神病史,无情绪障碍,无其他影响认知功能及语言功能的疾病史和外伤史.健康对照组的实验对象从同时期门诊检查的健康老年人群中遴选产生.他们的基础信息如表1所示.
表1 脑小血管病组和正常对照组的比较
表2 Cookie Theft图数字化量表
如图1所示,Cookie Theft图描绘了一个熟悉的家庭场景,有着童年所学的基本关键词汇,有着鲜明的人物和地点对比.根据图片中的内容,将Cookie Theft图数字化为量表的形式,如表2所列.被试者描述出人物、地点和物品类别中的每个子项各得一分;在事件任务中,有动作及动作的对象,故事件得两分;重复的表达不二次计分;对于以上量表的计分,不要求逐字逐句对应,意思一致即可.该量表一共包含22个测试子项,总分为28分.
采用录音设备对被试者的描述内容进行录音得到原始语音样本;对语音样本进行人工转录获取语音的文本.在本文中,提取的特征由如下两部分组成:
(1)信息量相关特征:基于Cookie Theft图数字化量表提取被试者在无提示语和有提示语两种情况下各个测试子项的得分及总得分.
(2)语音相关特征:利用PRAAT软件提取语音总时长、语音中的沉默时长、主试者及被试者语音的时长、语音中声波振幅的最大值、最小值、平均值和均方差等.根据语音的转录文本得到主试及被试语音的总字数.结合PRAAT软件及语音转录文本提取的特征可计算出被试的语速、语音占总时长的比例、重复率和停顿率等特征.
图2和图3的雷达图分别描述了脑小血管病组(CSVD)与健康对照组(HC)实验对象在无提示语和有提示语条件下,在数字化Cookie Theft测验量表上的表现对比情况.雷达图中,每个测试子项的长度代表了在该测试子项上,CSVD组(灰线)和HC组(黑线)中得分的人数占该组别总人数的比例(概率值),譬如:在无提示语条件下的【三个人】测试子项上,从图中可以看出,HC组中有超过80%的人描述出了该子项信息,而CSVD组中仅有不到30%的人描述出了该子项信息.通过深入对比图2和图3,可以得到以下结果:
图2 无提示语条件下的数字化Cookie Theft测验结果雷达分析图
图3 有提示语条件下的数字化Cookie Theft测验结果雷达分析图
(1)不论评测过程中主试者是否给出提示语,HC组在绝大多数测试子项上的得分率均高于CSVD组,表明HC组在Cookie Theft测验时的表现明显优于CSVD组,即HC组能够描述出的图片信息量更多且更全.
(2)当评测过程中主试者不提供任何提示语时,HC组在【凳子歪了】、【拿饼干】、【踩凳子】、【盘子】、【母亲】、【女孩】、【男孩】和【三个人】等8个测试子项上的得分率显著高于CSVD组,表明CSVD组在人物及人物关系、事件信息描述方面较差,在物品信息描述方面与HC组的表现相当.
(3)当评测过程中主试者提供提示信息时,CSVD组和HC组在各个测试子项上的得分率均整体提高,但CSVD组在【踩凳子】、【橱柜】、【房子】等测试子项上的得分率仍然较小(低于50%),表明CSVD组在这些测试项上容易忽略.
为了实现脑小血管病的智能诊断,基于随机森林方法建立了机器学习模型,从55名实验对象中随机抽取38名(~70%)实验对象作为训练集,剩余的17名(~30%)实验对象作为测试集.为了对比不同输入特征对模型性能的影响,分别建立了仅用语音相关特征、使用语音相关特征及无提示语条件下的信息量相关特征、使用语音相关特征及有提示语条件下的信息量相关特征作为输入变量时的智能诊断模型,模型的性能如表3所列.从表中可以看出,与仅用语音相关特征相比,增加构建的Cookie Theft数字化测验量表提取的信息量相关特征作为模型输入后,模型的识别准确率显著增加.值得注意的是,有提示语条件下的信息量相关特征建立的模型性能优于无提示语条件下的信息量相关特征,与临床评测过程中应可能减少提示语的原则不一致,这是因为,当主试者不给出任何提示信息时,CSVD组在许多测试子项上都无法得分,即测试过程无法提取充足的有效信息,从而会导致模型识别准确率的降低.
表3 不同输入特征对脑小血管病智能诊断模型性能的影响
为了更加便捷和客观地评测脑小血管病患者的认知沟通能力,提出了一种基于Cookie Theft测验的数字化评测方法.首先,将Cookie Theft测验数字化为一个包含四个类别(人物、地点、物品和事件)、22个测试子项、总分为28分的量表;接着,分析对比了脑小血管病患者和健康人分别在无提示语和有提示语条件下的表现差异情况;最后,综合传统语音相关特征及基于Cookie Theft测验的信息量相关特征,利用随机森林方法建立了脑小血管病智能诊断模型,其识别准确率可达82.4%.