苗丹民,曹 爽,刘 治,李晨曦,刘旭峰
(1空军军医大学军事医学心理学系,陕西 西安 710032;2解放军中部战区空军医院心理科,山西 大同 037000;3山东大学信息科学与工程学院,山东 青岛 266237)
心理测量是依据一定的心理学理论和程序,对人的行为和心理属性进行量化的科学。自陈式量表作为心理测量的主流手段,在人员选拔、临床诊疗、教育教学等方面发挥了十分重要的作用,但同时也因主观性等原因受到了广泛质疑,测量的准确性始终因测量理论和技术的限制而构成瓶颈。多质融合心理测量技术使用自然语言唤醒特定的意识活动,通过应答行为和辅助性认知神经反应最大程度探求被试的真实意识活动,以提高测验的有效性和准确性。多质融合心理测量技术着眼于量表作答过程中意识的启动及其特点和规律的探索,以期为传统的心理测量方法带来崭新的生机。
现代心理测量学有三大主流理论——经典测量理论、项目反应理论和概化理论[1],它们构成了现代人员选拔的理论基础,推进了心理测量学的研究。这些理论从不同的角度构建了作答结果与潜在心理特质之间的统计学模型。但遗憾的是,它们似乎从没有关注过答题过程中意识的启动及其特点与规律,一定程度上影响了心理测量的发展。
心理测量理论有一个假设:被试在答题时将会认真且真实作答[2]。但实际操作中,往往因为社会赞许性等致使被试应答反应容易产生偏差。在征兵、应聘等高应激情景下[3-4],心理测量效果受到广泛质疑。与智力(如能力倾向、成就等)测验相比,非智力(如人格、情绪、动机和态度等)测验会更多受到文化、种族、教育等因素影响,测量效果不尽人意。
自2006年以来,本课题组担任了征兵、征招学员、招聘文职人员心理健康人格测验的任务,发现了心理测量中存在的问题,开始积极思考解决问题的办法。2015年提出了心理测量的多质融合概念,并于2017年系统论述多质融合理论与发展[5]。通过八年多的研究探索,初步论证了该理论的可行性和有效性。多质融合理论的假设是:①被试在作答非智力测验题目时是一个复杂的意识加工过程,包含了条目刺激下意识活动和社会性加工下意识活动两个部分;②条目刺激下的意识活动是简单明确的心理反应,社会性加工是复杂性混合的心理反应并对应答行为产生明显影响;③条目刺激下的意识活动可同时唤醒本能性认知神经活动[眼动、面部运动单元(action units,AU)、面部血流等],两者存在一定函数规律;④多质融合心理测量的目的是,通过自然语言唤醒特定的意识活动,同时记录伴随性认知神经本能反应,并通过应答行为和辅助性认知神经反应最大程度探求被试的真实意识反应,以提高测验的有效性和准确性。
基于以上假设,多质融合技术旨在心理测量中同时采集被试应答行为及其多项认知神经活动,借助于统计学、机器学习等技术对多通道数据进行融合识别,搭建意识-认知神经活动的蓝桥,实现主观意识活动的客观、精细评判[6-7],并据此形成了三个研究方向:①意识唤醒:包括意识唤醒的机制、意识唤醒与认知神经活动的关系等;②自然语料库建立:包括能够唤醒意识活动的自然语言形式和内容、自然语料的获取、基于人工智能的自然语言自生成技术等;③多质数据融合分析:包括多质认知神经数据同步采集、分析、大数据处理,以及多质数据跨通道分析即模型构建等。
意识探索是科学研究的皇冠。哲学家与生物学家在意识本源的认识上长期存在不同见解,认识论和方法论上截然不同,对意识的主观性或客观性争论不休。近30年来,脑科学的出现和发展,有力推动了意识的科学研究。
生物学家或神经科学家秉持还原论的观点,即意识活动与大脑活动是同质的,心理属性可以还原为大脑神经系统的属性[8],因此采用的是分子、神经元、神经系统、脑功能的研究途径。弗朗西斯·克里克[9]认为,“你的快乐和忧伤,你的记忆和抱负,你的人格同一感和自由意志,都只不过是神经细胞及大量分子不断聚集的活动”。他的研究目标是寻找意识活动的神经活性物,即能够产生意识体验最小限度的神经活动和神经机制。FEINBERG等[10-11]通过多年的神经生物学研究,提出了意识的“神经生物学自然主义”模型,认为意识表现出复杂神经网络系统的生物活动特征,其本质是物理的。
意识科学的研究强烈暗示了一种观点:意识体验可以从大脑中解码出来。主要实验的逻辑是,如果施加的实验刺激与大脑活动变化间存在统计依赖关系(称为编码过程),那么可通过大脑活动变化的规律推测被试受到的特定实验刺激[12]。HAXBY等[13]使用最近邻法对被试视觉刺激的类别进行分类;WAGER等[14]通过最小绝对收缩和选择算法预测被试的疼痛水平;GRECUCCI等[15]使用核岭回归法从被试的大脑灰质中预测愤怒的表达和抑制分数;BORST等[16]使用多元探照灯法研究心理意向与大脑活动模式的关系,预测被试此刻想象的是电影画面还是声音。
脑科学家认为,神经元的运作机制可以解释任何一项行为活动,但意识存在于主观领域,当采用客观方法研究时,便会出现“解释鸿沟”,即外部的科学视角与主观的意识体验存在无法逾越的鸿沟[8]。基于自然法则研究最大困难是,“没有任何科学依据能将客观与主观联系在一起,证明两者之间存在因果关系”,因为“大脑是物质的,意识是非物质的”[17]。因此,CHALMERS[18]将意识问题分为 “简单问题”和 “困难问题”。简单问题是指可用还原论的方法“科学”描述和解释的意识问题;困难问题是指通过理解物理过程会伴随出现的主观类意识体验。生物学和神经科学取向的意识研究符合当代科学框架的研究规则,可以阐明意识产生的神经基础及作用机制,但是它们对“困难问题”却束手无策。CHALMERS[18]通过神经元替换思维实验,假想将神经网络中神经元一个一个被计算机所替代,当全部神经元被计算机替代,机器就产生了意识。正如渡边正峰[17]所言,尽管全部神经元被取代,可以重现神经点火,“却缺少了其他要素(神经回路、突触)和结构(电脉冲的产生和搬运,突触应答)”,所以“人工神经网络是没有意识”产生的。越来越多的研究证据表明,研究得到的大脑数据与意识体验之间毫无关系,“即便是将大脑的客观存在问题完全解决了,也丝毫无法向大脑的主观问题靠近一步”。
神经元直接测量、脑电图、功能性磁共振成像、经颅磁刺激、光遗传学技术等的发展,极大丰富了脑科学研究手段;随着机器学习领域研究的快速发展,对复杂数据集无与伦比的学习和处理能力,为神经科学研究带来了方法学的重大创新[19]。科学家们希望这些技术和机器学习结合,未来能预判一个人在想什么[20]。然而,这类研究默认了大脑是不变性和一致性的,即解码模型可以在不同时间、不同被试间保持稳定性[21]。JABAKHANJI等[22]对多项已发表中的研究数据库进行了交叉对比,发现这些模型的实际识别功效被夸大了,目前跨被试的心理状态解码模型并不适用于实际决策场景。于是渡边正峰[17]认为,有一个可能,把大脑与机器连接,如果产生意识融合,证明可以将大脑所体验到的事物储存在机器里,“未来向机器移植大脑的意识,可能是打开意识研究最有希望的突破口”。谷歌技术开发主管KURZWEIL预言:“21世纪后期可以实现把人的意识移植到机器中。”
看起来繁荣昌盛的认知神经科学领域,却没有人愿意触碰意识。因为基于自然法则研究意识最大的困难是,没有任何科学依据能将客观与主观联系在一起,证明两者之间存在因果关系。现有科学框架无法解释意识,因为科学研究被封闭在客观的框架中,意识科学超越了现存的科学研究能力。
多质融合心理测量的意识研究观认为:①大脑是意识产生的前提,但意识与物质归属于两种不同的现象。就目前的科技研究水平而言,人类仍无法从细胞或大脑结构等实证研究中推导出意识;②认知神经活动是意识活动在不同维度上的反应,它们表征了意识活动的倾向而不是其本身。认知神经数据与意识的关系类似于指纹与人的关系,虽然指纹不能还原出人本身的信息,但我们可以通过指纹信息判定出人的身份。多质融合心理测量的研究思想是通过探寻意识活动和认知神经活动之间的规律关系,澄清脑、意识与认知神经活动之间行为层面的关系。
在既往研究中,意识唤醒的方法主要包括:当研究者希望研究“有意识”和“无意识”时,会试图在有意识和无意识的刺激之间建立关联或对比。例如:让被试对阈值水平附近的刺激物进行辨别[23];连续闪烁抑制范式,通过向被试一只眼睛呈现连续闪烁的图像,另一只眼睛呈现静止的图像,使被试看到但意识不到静止的图像[24]。当研究者希望判别或预测意识内容时,通常会操纵实验条件,以唤醒被试不同的意识。例如研究视觉体验时,向被试呈现不同种类的视觉图片;研究疼痛的意识体验时,向被试的手臂施加不同程度的热刺激。既往研究是在严格的实验室条件下,通过剥离并唤醒出单纯的意识体验,进而探讨大脑的反应。
心理测量意识唤醒,涉及记忆提取、自我参照、判别决策等复杂信息加工过程,以往采用主观问题唤醒、主观应答反应的途径,推测意识体验内容。在特定条件下,这种推测是真实的,如医院精神心理科就诊患者完成的心理测量,可以用简单的方法解决复杂的问题。但面对非特定条件下的心理测量,意识唤醒就没有那么好的运气了。多质融合技术的使命,就是要在这样的条件下,寻找一种能唤醒特定复杂的意识,并又能够准确地判断其意识活动倾向更为恰当的方法。
首先我们需要阐明多质融合技术要唤醒的是什么样的意识。以抑郁症为例,当判断是否心情低落时,我们希望探测被试是否具有抑郁症情绪低落的病理性主观体验,而非正常人群心情不佳的体验,这种体验储存于患者情景记忆中。情景记忆以自己的切身经历作为参考系,是指个体对于自己生活的记录[25]。情景记忆的一个独特作用是具有“时间心理旅行”的功能,即对过去事件意识的再次体验,包括行为发生时的时间、场景、思维、情绪反应等[26]。可以理解为,多质融合唤醒的意识是非能力测验中储存于被试大脑内相关记忆痕迹。基于此,多质融合技术提出的解决方案是使用欲测量心理属性的人群的自然语料进行量表条目编制。
语言是人类意识体验最直接的记录。既往研究表明,记忆的提取符合编码-提取匹配一致性原则,即记忆提取的效果取决于信息编码和信息提取时线索的匹配程度。匹配程度越高,提取的效果越好[27]。使用自然语言,能够使得对于题目有过经历的被试更好地提取到行为发生时的记忆。而没有这种记忆痕迹的被试,则无法在这种刺激下提取到类似的意识体验。在过去的研究中,我们对抑郁症、童年创伤等尝试使用了自然语料的方法进行量表编制,得到了较好的效果[28-29]。
自然语料是唤醒特定复杂意识有效性的重要手段[6]。多质融合技术承认意识与物理间的鸿沟,主观性的问题须通过主观性与客观性相融合的方法解决,认知神经指标可以探测到特定意识活动的倾向性。心理测量的意识唤醒,属主观性的唤醒方法。因此,在作答完成一个条目后,可通过询问被试“该刺激让你想到了什么、产生了什么样的画面感(表象)、是否引起了情绪变化”等,以质性分析和李克特式分数评定的方式进行综合评估。
多质融合技术采用了自然语料进行条目编制,因此其一项重要的工作是对不同心理属性人群的自然语言进行科学提取,建立自然语料库。
自然语料库的建立有两类方式。一种是人工获取法:由专业人员向特定被试群体提问开放性问题,要求针对问题展开叙述。比如请做一个5 min的自我介绍,请描述近期让你印象最深刻的一件事等。通过录音设备记录、语音转换文字、自然语言分析技术,提取语料,归类整合,再通过信效度检验确定语料的质量。人工获取法的优势是便于实施,可以定向获取所需话题语料,深入了解被试对一个话题的想法等;缺点是部分被试表述时存在方言、口音,为后期转录带来困难,需要耗费大量的人力和时间成本。另一种是网络爬虫法:使用编程从互联网自动抓取信息的方法。随着网络时代的普及,社交网络为各类志同道合的人群提供了相互交流的平台,这些语料是未经实验室条件干预下的天然信息。机器学习领域的研究表明,基于网络语言对精神障碍患者进行识别是可行且有效的[30]。网络爬虫法的优点在于能够在较短时间内获得大量的语料,例如由于社交媒体的匿名性,人们将会更加愿意披露自己的真实想法和体验[31],特别是对于精神障碍及敏感性话题;缺点在于互联网的信息良莠不齐,信息来源难以确认,有非目标语料被错误纳入语料库的可能性。因此,网络爬虫法仍需要设置相关的人工审核以提高信息的准确性。
自然语料提取技术有两个面临的挑战。第一,使用机器学习进行自然语料的自生成。随着自然语言分析领域的进步,人工智能表现出了强大的语言生成能力。近期生成型预训练变换模型(Chat Generative Pre-trained Transformer,ChatGPT)的发布在社会引起了较大反响。ChatGPT是一种自回归语言模型,它使用了基于深度学习模型的转换器架构来生成类似于人类的语言文本。ChatGPT在一系列上下文学习方面的表现非常出色,可以按照用户的要求生成特定角色的语言,以对话的形式与用户在不同的主题中交谈,甚至难以与人类所编写的语言区分[32]。专家使用语料库编制题目需要前期进行大量工作,我们希望可以给定一个主题(题目),由机器利用语料库生成语言,以实现题目的实时化生成,极大拓宽多质融合在现实场景的应用。第二,不同人群、文化、年龄自然语料的差异。理解不同人群自然语料的差异有助于提升多质融合的识别准确性。既往研究者对精神障碍人群的语言差异有着较多的研究,以抑郁症为例,BERNARD等[33]探究了抑郁症和消极情绪者在语言使用上的区别,发现两者都会影响代词的使用,但抑郁症主要影响第一人称代词,而消极情绪主要影响第三人称代词。SMIRNOVA等[34]使用标准化的心理语言学程序,研究了在俄语中抑郁症患者的语言特点,发现其语言结构与临床思维障碍相关,并认为语言变化是抑郁症的重要病理表现。LEIS等[35]通过爬取推特上西班牙语用户的发言,发现抑郁症用户更常见于在夜间发帖,在语言上更多地使用了动词和负性词。此外,对于同一人群,不同文化、年龄的语言是否有差异,这些差异是否会导致被试答题时的加工差异,需要结合语言学继续探索。
随着非接触认知神经信息采集技术的发展,眼动追踪、AU、面部血流分布检测等技术被广泛采用。多通道认知行为数据采集硬件搭建,跨通道融合分析软件开发和大数据信息传送与分析等,为多质融合技术的实现奠定了基础。
为了实现多通道数据的大规模采集,硬件设备需要考虑以下因素:①时间分辨率高。硬件能够满足数据采集的实时性,较高的时间分辨率是观测量表意识加工过程的前提,从而弥补传统量表只关注于主观答题结果的缺陷。②性价比高。设备需要价格合适,能够量产,且在实验程序上无需繁琐的准备流程,以满足心理测验短时间内完成测试要求。③应用场景广泛。设备需要兼容性强,具有较强的推广性。④非接触式测量。设备可以在被试没有察觉的情况下记录其真实反应,不会为心理测量带来无关的混杂变量。
眼动追踪技术是通过眼动仪观测人们眼球运动的一种手段。眼动仪可以实时记录人们视线的注视位置、注视方向及瞳孔大小。眼动不仅可以探查人们行为背后的信息加工机制,还可以揭示人们不能或者不愿意透露的情绪反应、兴趣爱好等[36]。课题组既往使用眼动技术,对抑郁症患者的识别准确率达91.80%[28],对抑郁障碍高危人群识别准确率达88.84%[37],对童年虐待人群的识别准确率达88.82%[29]。然而这项技术最大的挑战是通过多指标数据对自然语言评判的意识倾向性识别模型与标准的确定。
面部表情是肌肉运动的结果,蕴含着大量人类情感的有效信息[38]。AU是美国心理学家保罗·艾克曼等从面部解剖学角度定义的一套面部运动编码系统,这套系统的诞生为精确刻画人脸表情提供了更客观、更细粒度的描述方法[39]。通过对AU及其组合进行准确的检测和分析,有望帮助我们深入理解个体的表情和情绪背后本质的意识活动[40]。AU的检测、识别和分析非常复杂,涉及图像处理,模式识别,计算机视觉以及人工智能等多个领域。除了基于图片和视频数据对AU进行检测,近些年有些研究工作尝试采用其他模态数据来检测AU,比如REALE等[41]使用的点云数据和LIU等[42]采用的红外图像辅助的方法进行AU的检测。这些方法从多模态数据的角度,一定程度上克服了光照变化等复杂环境对AU检测的干扰。随着卷积神经网络、深度学习等算法的不断发展和进步,逐步缓解了AU数据库标注缺乏等问题,使得提取的AU特征具有更强的解释性,增强了所构建模型的泛化能力[43]。但是,由于AU的发生时间短、强度低、当前数据库的标注不足、现实测量场景复杂多变以及巨大的个体差异等,AU的检测和识别仍然是极具挑战性的任务。本团队既往探讨了抑郁症高危人群作答抑郁体验问卷、抑郁筛查量表、中文版童年创伤问卷过程中AU的特征和规律,发现抑郁高危人群AU的激活程度、复杂度以及排列熵等特征与正常人群均有显著差异。这些结果为基于AU的心理测量研究提供了基础。
面部血管受植物神经系统的调节,与认知和情绪活动变化有关。目前通常采用热成像技术实时记录面部颜色或温度变化,通过热交换平衡模型实现成像转换,监测面部血流变化。机器学习和计算机视觉技术的发展,推动了面部血流研究进入数据驱动时代。现有研究利用机器学习模型分析面部血流变化规律,实现对复杂生理心理状态的判断。NAKAYAMA等[44]发现,恒河猴面临威胁性刺激时,鼻孔周围皮肤温度显著下降,提示与负性情绪状态密切相关;TSIAMYRTZIS等[45]分析被试观看感兴趣和无聊视频后面部热图变化,证实面部血流可用于判断注意状态和兴奋程度;HE等[46]提取面部脉搏信号特征,输入反向传播神经网络,实现人脸识别;何森[47]开发面部血流检测系统,将提取的时空特征输入支持向量机模型,判断人的生理和心理状态;焦佳琛[48]设计了一套面部血流感知与分析系统,利用卷积神经网络模型分析面部血流图像,判断研究对象的悲伤情绪强度,为临床抑郁症的诊断提供参考依据。本团队基于热交换平衡血流模型,开展了面部热成像及成像转换,分析不同语言诱发下面部血流灌注率的差异。
多质融合心理测量的目的是:在自然语言启动下,同步记录应答行为、眼动信号、AU信号、面部血流信号等数据,通过对多通道数据融合分析,实现对现有心理测验预测符合率的提升。由于不同自然语言激活的行为表征可能不同,不同人群易激活的行为表征可能不同,不同心理状态激活的行为表征可能不同,因此需要构建非线性、非等概率、点对点的多质数据融合模型。通过融合模型探索认知神经与自然语言识别的关系,这是实现多质融合心理测量技术最大的挑战。这项挑战需要利用大数据及人工智能技术,完成多指标的有机融合。
多通道数据融合分析可通过联合架构、协作架构和编解码架构等实现。联合架构是将单通道表示投影到一个共享语义子空间中,以便能够融合多通道特征;协同架构是寻求协调子空间中通道间的关联关系,以保持各单通道独有的特征和排他性;编解码器架构是将一个通道映射到另一个通道的中间表示。多通道融合方法分为基于模型无关的方法和基于模型的方法两大类。基于模型法的多质融合分析包括多核学习方法、图像模型方法和神经网络方法。堆栈(Stacking)算法是结合多模型数据提取更优且预测结果鲁棒性更高的一种集成学习方法,其工作原理是:首先构建多个不同类型的一级学习模型,然后检验每个初级学习模型的预测结果是否出现错误,一旦发现错误会根据其他初级学习模型的判断构建新的二级学习模型,以修正融合分析中产生的错误。Stacking算法通过对多模型融合错误修正机制,可获得更加准确和稳定的预测结果。由于其允许不同类型的学习模型各施其才和互补,再通过二级学习模型进行综合判断,纠正个别模型的误差,选择最优预测结果,使得Stacking算法具有很强的学习与泛化能力。