张力元 谢渭芬 曾 欣
斯特鲁普(Stroop)测试是一种测试人类执行功能、认知功能等能力评估的方法,目前已被广泛应用于多种可导致执行功能、认知功能障碍的精神神经类疾病的诊断评估,例如:帕金森病、痴呆、儿童注意缺陷多动障碍(ADHD)、精神分裂症、强迫症(OCD)、抑郁症、焦虑症、创伤后应激障碍(PTSD)、肝性脑病[1-3]等。现就斯特鲁普测试在临床的应用现状作一综述。
斯特鲁普测试基于斯特鲁普效应(Stroop effect)。早在1886年,Mc Keen发现识别红色色块的颜色比直接识别“红色”这个词语花的时间更长,这为后来斯特鲁普效应的发现奠定了基础。1935年,John Ridley Stroop发现,当文字的颜色与含义不一致的时候(例如用红色打印的文字“蓝”),描述文字本身的颜色比描述文字的时间比两者一致时更长且更容易犯错,这一现象被称为斯特鲁普效应[1]。斯特鲁普效应的机制尚不十分清楚,可能与脑左侧背外侧前额叶皮层(DLPFC)和前扣带皮层(ACC)的功能有关。有学者[2]将功能性磁共振(f MRI)与斯特鲁普测试相结合,发现DLPFC在颜色命名的准备阶段较词语命名准备阶段更活跃,而ACC则在出现词语和颜色不一致的刺激时更活跃。由于斯特鲁普效应可反映人类的精神运动速度、注意力,以及认知灵活性,从而评估人类的执行功能和认知功能。基于这一效应,开发了最早的颜色-词语模式的斯特鲁普测试,用于认知与执行功能障碍相关的神经精神疾病的评估[3]。后来还陆续开发了多个版本的斯特鲁普测试,如:情感性斯特鲁普测试(emotional Stroop test)、白天-黑夜模式斯特鲁普测试(day-night Stroop test)、大-小模式斯特鲁普测试(big-small Stroop test)等,其中,情感性斯特鲁普测试在临床较常用。
情感性斯特鲁普测试基于情感性斯特鲁普效应,其原理如下:词语可分为情感性词语(semantic words)和中性词语(neutral words),基础疾病不同,情感性词语也有所差异。例如,对于抑郁症患者,sad、depressed、sorrow 等为情感性词语,cup、computer、aunt等为中性词语。典型的抑郁症、恐惧症、OCD和PTSD等患者对情感性词语颜色的辨认时间显著长于中性词语[4]。情感性斯特鲁普测试中包含有颜色的中性词语和情感性词语(如用红色打印文字“sad”),受试者需要忽略词语的意思来辨认词语的颜色[5]。值得注意的是,该测试中出现的情感性词语与词语本身的颜色之间没有冲突,因此对词语颜色命名时间的延长是由词语意思的干扰所引起的,这种现象在一定程度上可以反映疾病相关刺激所引起的注意力偏向(attentional bias)[6],而注意力偏向是很多精神病理学(psychopathology)认知理论(cognitive theories)的核心特征[4]。
此外,斯特鲁普测试还可用于评估干预认知功能、工作记忆、注意力的治疗方法的疗效,如对经颅直流电刺激(t DCT)、恒定电流脑刺激、运动(如渐进式的抵抗运动训练)[7-9]等治疗前后分别进行斯特鲁普测试,可了解患者认知功能和执行功能的改善情况。
颜色词语模式的斯特鲁普测试是被最早开发的斯特鲁普测试模式,常被用于评估帕金森病、阿尔茨海默病、ADHD等患者的认知灵活性、信息处理能力、非空间选择性注意力和选择性注意力[10-12]。2014年的一项 meta分析[13]共纳入了637例阿尔茨海默病患者和977名健康者,阿尔茨海默病患者较健康者表现出更加明显的斯特鲁普效应。Kóbor等[14]还将斯特鲁普测试应用于ADHD的研究,发现ADHD患儿在进行斯特鲁普测试时,不论刺激一致与否,给出正确答案的速度都较健康儿童要慢,当刺激不一致时反应更慢,这样的结果提示ADHD患儿的信息处理能力有多重缺陷。
在2013年,美国的Bajaj等[12]开发了一种简易版本的斯特鲁普测试,即Encephal App,并将其用于肝性脑病的研究,这是Encephal App可用于隐匿性肝性脑病(CHE)诊断的首次报道。他们对43例既往发生过显性肝性脑病(OHE)的肝硬化患者、83例无OHE病史的肝硬化患者和51名健康对照者分别进行标准心理测试(SPT)、抑制控制试验(ICT)、肝性脑病心理测量评分(PHES)和Encephal App测试。结果显示:与健康对照者相比,肝硬化患者存在认知功能障碍,且既往发生过OHE的患者和CHE患者认知障碍更加明显;Encephal App检测结果[完成Off部分测试所需要的时间(Off Time)、完成On部分测试所需要的时间 (On Time)、Off Time+On Time]与 SPT、PHES、ICT在评价肝硬化患者的认知障碍方面具有良好的一致性,即表面效度(face validity)良好;在Encephal App的3项主要检测结果中,Off Time+On Time>274.9 s时评价CHE具有较好的ROC AUC,在既往无OHE肝硬化患者中ROC AUC为0.77,既往有OHE患者中为0.79;健康对照、发生过OHE的肝硬化患者、CHE患者的Off Time+On Time分别为(217±27)、(271±60)、(365±98)s。该研究还对10名健康对照者和9例有OHE既往史的患者在(40±14)d内重复进行斯特鲁普测试,结果显示前后两次测试结果(Off Time、On Time)的差异均无统计学意义,表明其具有较好的重测信度(test-retest reliability)。基于该研究,Bajaj等认为,与经典的神经心理测试SPT、PHES、ICT 等相比,Encephal App易于操作,不依赖于专业人员指导,可以快速教会受试者,便于床旁操作(point-of-care)和受试者自我检测,有望应用于CHE的筛选和后续治疗效果的评估,改善患者生活质量,减少意外事故的发生。
2014、2015年该研究小组分别在另一个人群和后续一项多中心研究中进一步明确了Encephal App诊断CHE的准确性及其价值。前一项研究在167例肝硬化患者(64例为既往OHE患者)和114例健康对照者中进行,发现以纸笔测试(数字连接测试-A、数字连接测试-B、数字符号测试和积木图案测试)为金标准,Encephal App测试Off Time+On Time>190 s为标准诊断CHE的ROC AUC为0.91(95%CI为0.86~0.96),灵敏度和特异度分别为0.891和0.821。进一步研究发现,36例没有OHE的肝硬化患者的Encephal App结果与驾驶测试中车祸和违章转弯呈正相关;对30例肝硬化患者在1~3个月内进行重复测试,发现患者前后两次检测结果(Off Time+On Time)的组间相关系数高达0.83(95%CI为0.65~0.92;P<0.01),表明该检测方法具有良好的可重复性,即前后测量一致性高、稳定性好。此外,该研究还发现Encephal App也可用于评估经颈静脉肝内门-体静脉分流术(TIPS)术前、术后,以及低钠血症纠正前后的认知状态[15]。后一项研究纳入了来自美国弗吉尼亚、俄亥俄州、阿肯色州的437例肝硬化患者和308名健康对照者。每个受试者均接受PHES、ICT和Encephal App测试。437例肝硬化患者中,用传统ICT、PHES诊断为CHE的患者,Encephal App测试时间显著长于未患CHE的患者。以ICT>1 sd为CHE诊断金标准时,Off Time+On Time截断值为181.9 s,ROC AUC为0.73;以PHES得分<-4为金标准时,Off Time+On Time截断值为195.9 s,ROC AUC 为 0.80。以 Off Time+On Time>181.9、195.9 s为标准,肝硬化患者中CHE的检出率分别为54%、37%,故认为Encephal App对于诊断CHE具有较好的敏感性[16]。
2017年,还有学者利用斯特鲁普测试评估了肝移植手术对患者认知功能的影响。该研究纳入了230例肝硬化患者(其中85例既往发生过OHE)和89名健康对照者,结果显示,肝硬化组在斯特鲁普测试中花费的时间较健康对照组长;肝硬化组中既往发生过OHE的患者在斯特鲁普测试中花费的时间较未发生过OHE的患者长,两组Off Time+On Time分别为(245.5±82.8)和(185.1±47.9)s,P<0.000 1;且既往发生过OHE的患者在“On state”测试次数明显增多,两组On state测试次数中位数分别为6(5.5~7.5)和6(5.0~7.0)次,P=0.04。在发生过 OHE的肝硬化患者进行肝移植后,其对“On state”的学习能力较移植前恢复[第1次On Time与第5次On Time差值为—0.09 s(移植前)比1.70 s(移植后),P<0.05)],从而推断肝移植可以改善 OHE所导致的学习障碍[17]。此外,斯特鲁普测试也适用于儿童CHE的筛查。最近一项印度的研究共纳入了37名肝外门静脉阻塞(EHPVO)的患儿,分别对其进行Revised Amsterdam Kinder智能测试(RAKIT)和斯特鲁普测试。以RAKIT为诊断标准,患有CHE的EHPVO儿童的斯特鲁普测试时间(Off Time、On Time、Off Time+On Time)均较无CHE的患儿长。以On Time=94.2 s为截断值时斯特鲁普测试诊断CHE的灵敏度、特异度和ROC AUC分别为1、0.850 7和 0.96。以Off Time=79.12 s为截断值诊断CHE的敏感度、特异度和ROC AUC分别为1、0.831 8和0.95。以Off Time+On Time=180.39 s为截断值诊断CHE的敏感度、特异度和ROC AUC分别为1、0.895 5和0.976[18]。
我国学者也探讨了斯特鲁普测试在中国肝硬化患者中的应用价值。2016年黄海英等在国内开展的一项研究中纳入了54例无肝病对照者和110例肝硬化患者(40例无CHE,52例CHE,18例OHE)。在以PHES、CFF、斯特鲁普测试中至少2项阳性作为 “金标准”,斯特鲁普测试Off Time+On Time>233.8 s为标准诊断CHE的ROC AUC为0.803,灵敏度、特异度分别为0.833和0.717。因此认为,斯特鲁普测试是较为可靠的筛选CHE的方法,具有结果客观、特异度高、简便易行等优势[19]。
情感性斯特鲁普测试用于临床研究始于1984年,Gotlib等[20]发现,抑郁患者在对抑郁相关词语颜色命名时所花费的时间较健康对照组明显延长,随后的研究[21]结果还表明,抑郁患者在情感性斯特鲁普测试中的表现与抑郁症状的严重程度直接相关。而后一系列研究结果表明,焦虑障碍的患者在情感性斯特鲁普测试中的表现也会变差,例如:蜘蛛恐惧症的患者在命名蜘蛛相关词语颜色时花费的时间较正常人明显延长,而且蜘蛛恐惧症的严重程度与患者对威胁相关词语颜色命名时的受干扰程度显著相关,以上现象也可见于蛇恐惧症患者[22]。
此外,情感性斯特鲁普测试还用于评估焦虑症、PTSD等患者接受认知行为疗法(cognitive behaviour therapy)、元认知疗法(metacognitive therapy)、正念疗法(mindfulness-based approaches)、注意力训练(attention training)和重复经颅磁刺激(r TMS)等前后的注意力偏倚、信息处理、认知灵活性等能力的变化情况,这些研究[23]结果表明,患者接受了以上治疗或训练后在斯特鲁普测试中的表现较前好转,从而认为以上疗法或训练可以改善患者的注意力偏倚、信息处理、认知灵活性等能力。2017年来自韩国的学者们在一项研究[24]中纳入了86例网络游戏滥用障碍者、23例OCD患者和77名健康对照者,对每名受试者进行颜色词语版本的斯特鲁普测试,其中网络游戏滥用障碍和OCD组在辨认词语颜色所花费的时间明显比健康对照组长(P=0.001),且OCD组是3组中最慢的。因此,该研究认为网络游戏滥用障碍和OCD患者的抑制控制能力和认知灵活性都是受损的。
另一项研究探讨了注意力训练(attention training)对战争相关创伤后应激障碍(TSD)的影响。Khanna等[23]纳入了27名患有PTSD的士兵(PTSD组)和16名未患PTSD的士兵(非PTSD组),在进行注意力训练前后分别对其进行情感性斯特鲁普测试。PTSD患者在接受注意力训练前,当斯特鲁普测试中出现战争相关的词语时会呈现出较强的情感性斯特鲁普效应(与出现中性词语时相比,PTSD组受试者在命名战争相关词语颜色时出现较长时间的延迟),而非PTSD组受试者没有出现这种效应。PTSD受试者接受注意力训练后,当斯特鲁普测试中出现战争相关的词语时,在命名词语颜色时受试者无延迟发生。因此,研究者们推测,注意力训练使得PTSD患者的注意力分配过程得到了规范。
除了常用的颜色-词语模式斯特鲁普测试和情感性斯特鲁普测试,白天-黑夜模式和大-小模式斯特鲁普测试主要用于儿童认知功能的评估和研究。其中,白天-黑夜模式源于1994年的一项研究[25],在该测试中当看到“月亮”的图片时受试者需要说出“白天”,当看到“太阳”的图片时受试者需要说出“夜晚”。该研究发现,年幼儿童完成该测试有一定困难,6岁以下的儿童完成该测试的正确率<80%,6~7岁的儿童则接近90%。3岁半至4岁的儿童在进行测试时会有一个很长的反应潜伏期(约2 000 ms),而年长儿童的反应潜伏期则约为1 000 ms。另一项研究[26]则发现,中国的学龄前儿童较美国学龄前儿童在白天-黑夜模式斯特鲁普测试中的表现更好,因此推断不同文化背景可影响儿童的执行功能。
大-小模式斯特鲁普测试主要用于评估儿童的抑制控制能力,该测试包含“同步模式”(same condition)和“反相模式”(opposite condition)。同步模式时受试者看到图片中出现大圈时需说出“大”,出现小圈时说出“小”,反相模式时出现大圈则说出“小”,出现小圈时说出“大”。该研究分别对3~4岁、5~6岁、7~8岁、9~10岁、11~12岁的儿童进行该测试,结果表明,随着年龄增长其在“反相模式”测试中的错误率降低和测试时间缩短,且在3~8岁年龄段最明显,因此该研究认为抑制性控制在幼儿时期发展最迅速,大-小模式的斯特鲁普测试较白天-黑夜模式斯特鲁普测试更易理解且需要更少的工作记忆[27]。
斯特鲁普测试作为评估执行功能的一项重要工具,测试结果的异常提示受试者执行功能障碍。斯特鲁普测试便于床旁操作,易于患者或研究者进行快速评估,能客观地反映执行功能情况,已经证实其与多种精神神经类疾病的诊断、病情评估等有关,具有广泛的临床应用前景。但目前的研究仍存在以下问题:① 多数研究为单中心、样本量较小的回顾性研究,而临床多中心、大样本的前瞻性研究较少。② 斯特鲁普测试结果受多种因素影响,如年龄、教育程度、人种、文化背景、生活方式[28-29]等。测试版本较多,目前无统一的标准,尤其缺乏基于大样本量的中国人群的参考值范围。③ 目前已有的研究大多将斯特鲁普测试应用于精神-神经类疾病的诊断,该测试是否适用于其他非精神-神经类疾病,以及是否值得普遍推广,均尚不可知,因此有关斯特鲁普测试的研究还需进一步在非精神-神经类可影响执行功能的疾病中进行。