曹 慧,靳洪刚
(1.澳门大学人文学院,澳门 519000;2.美国汉明顿大学东亚系,美国,纽约 13323)
语言中一词多义的现象普遍存在(Taylor,2001),不同词义称为词的义项,义项是词理性意义的分项说明(黄伯荣、廖序东,2007:274)。在书写及语音形式上相同,在词义层面上有两个或以上意义的词称为模糊词。模糊词又可分为两类:多义词和同音词②多义词(Polysemy)是指具有两个或两个以上相关词义的模糊词,例如,英语单词“paper”可以指代“报纸(newspaper)”,也可以指代“书写工具(written paper)”。多义词通常具有一个基本义(basic meaning),其他意义是根据这个基本义衍生而来,意义间存在一定的关联性和互补性,也叫互补歧义。同音词(Homonymy)是指携带两个或两个以上无关词义的模糊词,例如,英语单词“bank”有两个含义:“河堤(river bank)”和“金融机构(savings bank)”。Weinreich (1964) 指出,同音词一般产生于历史的偶然性,需要根据具体语境选择适当意义,各意义相互排斥,也叫对比歧义。(Weinreich,1964)。本文重点讨论其中的同音词,特别是同形同音词。同音词在语言中具有重要的地位,不仅在于其广泛性,更在于其沟通中的重要地位,即成功的交流必须建立在说话者和听话者从多种可能的词义中正确传达或选取符合情境的意义。同音词的研究近年颇为兴盛,从理论语言学的定义、分类到心理表征模型的建立,逐步发展到结合脑神经手段的实证研究。目前同音词的心理表征模型主要采用模糊词的两种心理表征模型:独立词义表征观和核心词义表征观。
尽管目前同音词的研究不断涌现,仍有三个方面的不足:其一是同音词究竟适用哪种心理表征模型,尚未有明确的结论;其二是涉及到心理表征的研究多以拼音文字语言为主,对作为意音文字代表的汉语同音词的研究则为数甚少;其三是汉语研究的实验设计仍有待提升,尤其是在语境控制上。
为弥补以上不足,本研究采用认知心理语言学的实证研究方法,以语义启动为研究范式,结合行为实验和ERP 脑神经认知研究,对汉语同形同音词的心理表征进行以下几个方面的探讨:汉语同形同音词的心理词汇表征与拼音文字语言的同音词表征特点是否相同?汉语同形同音词的主要意义和次要意义的加工速度是否存在差异?汉语同形同音词的多个意义间是促进还是竞争关系?汉语同形同音词会遵循哪一种心理表征模型?
心理表征假设主要研究大脑中所储存的词义表征、数量、词义间的连接方式及其连接方式所呈现的强弱差异(赵翠莲,2006)。基于拼音文字研究的结果,理论语言学家对多义词和同音词在心理词典中的表征建立了两种不同心理模型假设:一是核心词义表征观(coresense representation),持这种观点的学者有Nunberg、Caramaza、Grober Rhul 等(赵翠莲、李绍山, 2006)。核心词义表征观认为:同音词的相关词义在同一词条下储存,心理词典中只储存一个基本义(core meaning),其他词义是通过神经连接及上下文在线启动获取的,选取词义时,各词义间存在促进加工的作用。在储存方式上,核心词义表征观所代表的是单一词条模型(single lexicon entry),更加节省储存空间。二是独立词义表征观(separate-meaning representation),独立词义表征观认为:同音词的每个词义都在心理词典中单独储存,选取词义时根据语境从心理词典中选择正确的意义,一次只有一个词义得到启动,词义间存在竞争关系。在储存方式上,独立词义表征观所代表的独立词条模型(separate lexicon entry)需要更多的储存空间。
近年来,认知语言学研究者对多义词和同音词的认知加工及心理表征假设展开了实证调查,以探究这些假设是否存在心理现实性(psychological reality),本研究的目的之一也在于此。
对于同音词心理加工和表征的实证研究,过去主要采用词汇命名任务、听觉或视觉化词汇判断任务等行为实验研究方法。语义启动范式①词汇间的启动作用依靠启动词和目标词之间的语义联系。该范式可以比较不同类型和使用频率模糊词的启动情况,也可以检验模糊词的某个具体意义是否被启动以及启动量的多少。(semantic priming paradigm)是调查模糊词加工的常用范式(王晓平,2011),结合词汇判断任务,可以用来观察不同的启动词及目标词组合的加工速度和正确率的差异,从而判断语义联系(McNamara,2005)。正确率和反应时是词汇判断任务中两项重要的指标,反映词汇启动的快慢和加工程度。但两者都是单维指标,仅反映语言加工的综合结果,无法直观地证明词汇的心理加工差异。
因此,越来越多的学者开始结合脑神经实时在线等技术来弥补以上不足,如事件相关电位ERP 技术、fMRI 技术、fNIRS 技术等。
本研究关注同音词中的同形同音词。同形同音词按其不同意义的使用频率可以分为两种类型:各词义使用频率大致相同的同音词称为词义平衡同音词(以下简称“平衡同音词”);各词义使用频率显著不同的同音词称为词义不平衡同音词(以下简称“不平衡同音词”)。使用频率较高的词义称为“主要意义”,使用频率较低的词义称为“次要意义”。同音词不同词义的使用频率影响相应词义的加工和选择(Pexman,2004)。
现有的行为实验和神经语言实验就下面两个问题进行了探索,一是同音词的各意义之间究竟是竞争关系还是促进关系?二是不同频率词义之间是否确实存在加工快慢的差异?
早期的研究大多致力于模糊词与非模糊词之间的比较,Rubenstein et al.(1970)发现当词频匹配时,多义词及同音词的识别比非模糊词更快,由此提出了“模糊词优势效应”(the ambiguous effect),之后的行为研究结果也大都与这个推测相符合(Hino&Lupker,1996;Pexman et al.,2004)。
上个世纪七十年代、九十年代到二十一世纪的研究(Rubenstein,1970;Hino & Lupker,1996;Klein & Murphy,2001、2012;Pexman et al.,2004)均发现同音词的加工比非模糊词更快,同时还证实同音词和多义词的加工储存相似。然而Frost & Bentin(1992)、Rodd et al.(2002、2004)为代表的行为研究则发现同音词的加工受到词形(同形、异形),SOA①Stimulus Onset Asynchrony,指从启动刺激(Prime)呈现起到目标刺激(Probe)呈现出之间的时间。等因素影响,比非模糊词更慢,为此推论同音词的词义间存在竞争关系。
此外,舒华、唐映红、张亚旭(2000)在不同ISI②Inter Stimulus Interval,刺激间时间间隔,启动刺激结束到目标刺激开始的时间间隔。条件下,分别考察了汉语孤立状态和句子语境下的同音词词汇判断,结果发现:(1)孤立状态下,ISI 无论是0 ms 或-150 ms,与同音词主要或次要意义有关的探测词都受到了促进;(2)句子语境下,当ISI 为0 ms 时,在语境一致的条件下,与同音词主要或次要意义有关的探测词均受到了促进,在语境不一致的条件下,则未发现任何促进效应;(3)句子语境下,当ISI 为-150 ms 时,只是在语境一致并且探测词与同音词的主要意义有关的条件下才观察到促进效应。该结果说明:汉语同音词主要意义的启动比次要意义更快,语境一致时,同音词的启动加快,语境不一致时,同音词的启动受到抑制。
除了语境作用外,主要意义和次要意义的加工还随着词频、词汇难度发生变化。如陈宝国、宁爱华(2005)考察了汉字识别中的同音词效应,发现在低频词中存在同音词劣势效应,在高频词中同音词比非模糊词加工更快,表明在低频同音词中,存在词义竞争关系。Armstrong & Plaut(2008)将Rodd et al.(2002)的实验材料按难易度分成简单、中等、困难三个等级进行词汇判断任务。结果发现,中等和困难等级同音词的判断比非模糊词和多义词更慢,表明同音词各意义间的加工关系随着词汇难易程度发生变化。
上述行为实验不但证实同音词具备“模糊词优势效应”,而且还发现同音词不同意义间的加工差异受到加工条件、语境、词频、词汇难度的影响;进而丰富了语义加工研究上的一些重要细节。但是从心理现实性角度考虑,行为实验研究的数据不能直接、完全反映大脑对同音词的实时加工、存储过程,只能提供一些推测性的行为数据,尤其是反应时可能受到多种因素的影响。因此,需要寻求神经语言学研究范式,来为模糊词心理表征假设提供更为直观的证据。
随着技术的日臻完善,EEG 等新型脑神经科技研究方法被引入语言认知加工研究。ERP技术采用EEG 设备进行测量,这种方法对被试的实验过程不产生干扰,可以连续、实时地记录被试的脑电活动,反映被试对于语言项目的加工过程,揭示语言加工的时间进程③使用ERP 研究语言加工有两种途径:一种是关注不同脑电成分的属性、发生源和心理意义等;一种是关注不同实验刺激的加工过程中,同一种脑电成分的波形差异。。与词义加工相关的研究主要关注EEG 数据中反映词义加工的N400 成分和反映后词汇加工的LPC成分(Kutas&Federmeier,2011)。
目前大多同音词研究均采用EEG 设备,通过观察不同语言的词汇加工过程中的脑电波变化,来推断同音词的加工过程,尤其是被认为反映词汇表征和语义加工的N400 脑波成分。这是因为N400 脑波不仅可以用来比较不同类型同音词(同形、异形)之间的加工差异,还可以对比同音词词不同意义之间的加工速度。在数据分析时,主要关注N400 脑波出现的时间、波幅、区域。
首先,EEG 等脑神经实验不但证实“模糊词优势效应”,还探索了加工速度的不同。如Pexman et al.(2017)发现词义更丰富的词语具有更快的加工速度。Kounios et al.(2009)发现词语的词义丰富性可以降低激活的N400波幅。与之相反,Rabovsky et al.(2012)发现在大脑中央区域的电极点,语义较丰富的词语具有更大的N400 波幅。
其次,更多的实验调查了同音及多义词的主要和次要意义间的加工差异。如在ERP 研究中,Klepousniotou et al.(2012)通过词汇判断任务发现:在脑中部电极分析中,相关目标词比无关目标词N400 波幅有所减低,显示了语义启动作用。在脑两侧电极点分析中,不平衡同音词的主要意义比次要意义具有更强的启动作用,在左右半脑其N400 波幅都更小;次要意义也有一定的启动作用,主要出现在左脑,因此推断不平衡同音词的主要意义和次要意义之间存在语义加工差异和左右半脑差异。MacGregor et al. (2015) 采用Klepousniotou et al.(2012)的实验材料,发现在750 ms 的ISI之后,多义词的主要意义和次要意义都显示出启动效应,表明多义词的各意义间相互促进,使其启动状态得到了保持;但是该实验并没有观察到同音词的主要意义和次要意义的启动。
再次,一些不同语言(俄语、英语、西班牙语、汉语)的ERP 研究证实了同音词不同意义的加工差异。如Yurchenko et al.(2018)以俄语作为研究目标,发现了与MacGregor et al.(2015)相似的实验结果,推断同音词词义间的竞争关系导致了同音词各意义的衰退。Meade & Coch(2017)以英语不平衡同音词作为研究目标,结果发现:不平衡同音词的主要意义和次要意义相关目标词都产生了比意义无关目标词更小的N400 波幅,反映了语义启动促进作用。同时,在左半脑,主要意义比次要意义目标词的启动效应更强,右半脑则没有显著差异。LPC 波幅反应了后词汇加工效应,即主要意义和次要意义词之间没有显着差异,但二者都产生了比意义无关词更小的LPC 波幅。据此推断同音词意义之间存在竞争关系。Haro et al.(2017)以西班牙语为实验材料,首次比较了单独呈现的同音词和多义词加工过程。实验发现,同音词和多义词在反应时、正确率和N400 波幅上都没有表现出显著差异。Huang &Lee(2018)对汉语双字词进行了研究,将一个汉字的多个意义分为两种类型:相关词义和不相关词义。结果显示:拥有多个相关词义的词汇,其加工受到促进,体现为更快更准确的词汇判断,更小的N400 波幅和更大的LPC 波幅;而词汇拥有的不相关词义数量越多,其加工越慢,体现为更低的词汇判断正确率、更大的N400 波幅。表明同音词的不相关词义之间存在竞争关系,相关词义则具有相互促进关系。
上述对同音多义词的EEG 脑神经实验从不同角度证实了“模糊词优势效应”,并确定了不同意义的相对加工速度及其影响因素,但是对于同音词语义的心理加工方式仍无定论(详见下节讨论)。
总结上述实验可知,对同音词的研究仍存在争议和不足,需要更多的实证数据来进一步确立心理表征模型,调整、完善实验材料及实验设计。
就心理表征模型而言,尽管ERP 研究的结果可证实同音多义词比非模糊词具有更强的语义启动作用,表现为更快、更准确的词汇判断和不同的N400 波幅,支持“模糊词优势效应”假说,但不同的实验结果使得学者们对同音词词义之间的关系存在两种不同的解释。一些实验表明(Cottrell & Small,1983;Seidenberg et al.,1982),同音多义词具有相似的存储特征,各词义间也存在促进关系,因此遵循“核心词义表征模型”。但另一些实验则认为同音词和多义词的储存方式遵循“独立词义表征模型”,即同音词的多个不相关词义在心理词典中是分开储存的,在加工具体词义前需要从不同词条中选取词义,词义间是竞争关系,选取过程会造成加工时间上的延迟。此外,还有一些研究证实同音词的主要意义和次要意义的加工存在差异,主要意义的启动时间更早,加工速度更快,加工范围更广,存在左右半脑差异(Pylkkänen et al.,2006;Klepousniotou et al.,2012;Meade&Coch,2017)。显而易见,以上不同推论仍需进行进一步的实验探索,尤其是非拼音语言(如汉语)的数据的进一步证实。
从实验材料来看,以上研究主要集中在拼音文字语言。例如:英语(Klein & Murphy,2001;Klein & Murphy,2002)、西班牙语(Haro et al.,2017)、希伯来语(Bentin et al.,1984;Frost & Bentin,1987;Frost & Bentin,1992)、俄罗斯语(Yurchenko et al.,2018),以汉语为实验材料的研究相对较少。汉语属意音文字系统,与其他印欧语系语言在书写形式上存在巨大的差异。目前汉字数量已超过8 万字,但汉语音节数量十分有限①卢偓(2001)以《现代汉语规范字典》为依据,统计出现代汉语基本音节1265 个。。大量的汉字采用相同的语音形式,使得汉语中有丰富的同音字词。汉语同音词分为同形同音词(如“大气污染”与“大气磅礴”中的“大气”dàqì”)和异形同音词(如“利益lìyì”-“立意lìyì”)两种类型(符淮青,1985)。本研究采用视觉化词汇判断任务,首次针对汉语同形同音词进行其心理表征及加工的探索。
从实验设计来看,汉语同形同音词的实证研究通常是在句子语境中呈现(封娇媛,2013;任桂琴等,2007、2009、2012),或以同音单字作为实验材料,以独立形式呈现(Huang&Lee,2018)。句子语境可以为模糊词消歧过程提供一定的作用,但对于同音词具体词义的选择,有时候句子语境的作用会超过词义使用频率,进而无法判断句子语境下同音词不同词义的加工过程。
针对以上研究的不足,本研究将聚焦在汉语同形同音词,采用经典语义启动范式,以最小语境-词对形式作为实验材料,消解句子语境的影响。结合高时间分辨率的ERP 技术,更加直观地观测具体意义的大脑启动情况和语义加工的时间进程。实验重点回答以下三个研究问题:
(1)汉语不平衡同音词的主要意义和次要意义的储存和加工是否存在差异?如存在差异,反映在行为与ERP 数据上具体是什么差异?
(2)其差异反映在大脑何处?是否存在大脑中线和两侧区域差异?是否存在脑左右半球差异?是否存在脑前中后区域差异?
(3)汉语同音词的不同词义遵循哪种心理表征模型?
26 名(12 男、14 女)澳门大学硕士、博士研究生参与本实验。被试均为从小使用汉语的母语者,在大陆汉语环境接受基础教育及本科教育。被试语言功能正常,视力或矫正视力正常,无认知障碍,无脑外伤和神经系统疾病史,此前未参加过此类实验。平均年龄25.81岁(范围22.48-31.71,SD=2.84),平均受教育年限18.57 年(范围17-23,SD=1.90),均为右利手。②由爱丁堡利手清单评估Edinburgh Inventory,Oldfield,1971。每位被试均签署知情同意书,实验完成后获得80 澳门币作为报酬。被试基本情况见表1。
表1:被试基本情况
本研究以汉语双字词作为实验材料,每组材料由一个启动词和一个目标词组成。
3.2.1 启动词的选取
36 个不平衡同音词被选为启动词。本实验中的不平衡同音词选用《现代汉语词典》(第7版)中列为两个词条的词汇,即所有同音词被认为有且只有两个不同意义。同音词每个词义的使用频率来自对国家语委标注语料库③国家语委标注语料库是目前规模最大的现代汉语平衡语料库,总计约1 亿字符。的“现代汉语语料库”(www.cncorpus.org),并对其中的语料进行分析统计。不平衡同音词使用频率更高的词义在本研究中作为“主要意义”,词义在语料库中的平均使用频率为81.36%(范围60-99.6%);使用频率较低的词义在本研究中作为“次要意义”,词义在语料库中的平均使用频率为17.51%(范围0.2-40%)。
3.2.2 目标词的选取
实验选取四种类型的目标词:(1)与启动词主要意义相关的双字词;(2)与启动词次要意义相关的双字词;(3)与启动词意义无关的双字词。目标词(1)和(2),通过词林(cilin.org)、汉辞网(hydcd.com)等网站在线搜索启动词的同义词或近义词获得,或由3 名中文专业的母语者根据语言经验提供,并查询词典验证语义相关性。
28 名汉语母语者(不参加正式实验)对启动词与选取的各组目标词之间的语义相关度进行在线评定。①采用6 分莱克特量表在线问卷调查,将语义相关度标注为0-5 分。0 分表示意义无关,1-5 分表示意义相关,相关程度越高,则分值越高。如1 分表示“词义有微弱联系”,2 分表示“词义有一定联系”,3 分表示“词义有较大联系”,4 分表示“词义近似”,5 分表示“词义相等”。评分高于1 分的词语作为意义相关目标词,评分低于1 分的词语作为意义不相关目标词。
另有根据评分结果,实验从45 个同音词中,排除4 个意义较难理解的低频词,5 个目标词相关度评分不合用的同音词,剩余36 个同音词作为实验启动词。分值高于1 的目标词选作词义相关目标词(1)和(2),二者中语义相关度和使用频率较高的作为(1),语义相关度和使用频率较低的词作为(2)。分值低于1 并趋近于0 的目标词选作词义无关目标词。将(1)(2)(3)组目标词在语料库中的使用频率进行匹配,组间无显著差异,F(2,36)=0.128,p=0.880,三组目标词平均使用频率为153.06 次(范围:0-975);将(1)(2)(3)组目标词目标词的双字笔画数和进行匹配,组间无显著差异,F(2,36)=0.006,p=0.995,平均双字笔画数和为15.14 画(范围:7-27)。主要意义相关目标词的语义相关度平均值为3.53(范围:2.14-4.71),次要意义相关目标词的语义相关度平均值为2.30(范围:1.43-3.71),无关目标词的平均相关度分值为0.41(范围0-0.86)。见表2。
表2:启动词各意义使用频率、目标词类型、目标词词频、笔画数和、语义相关度平均值
除108 组启动词—目标词作为实验材料外,108 组启动词—填充词作为填充材料。填充词为文字合法的假词②由两个真字组成的字符串,不存在于词典及语料库,也不具备与真词近似的读音,例如:传千,讯一。。216 组实验材料采用拉丁方的方式分成三个实验节(block),每个实验节包含72 组刺激材料,使用E-prime 2.0随机呈现。
采用E-prime 2.0 呈现实验任务,并收集被试完成任务时的反应时和正确率。ERP 数据采用BP 公司生产的32 导10-20 标准电极帽(Acti-Cap,Brain Products,Germany)采样,PyCorder V1.0.9 软件(Brain Products,Germany)收集数据。放大器为ActiCHamp Amplifier (Brain Products,Germany)。
26 个被试独立参加实验,准备时间约20-30 分钟,主要是佩戴电极帽及注射导电膏并等待电阻下降,正式实验时长约30 分钟。实验室保持安静及较暗环境,温度适宜(24℃),被试坐在高度合适的椅子上,双眼平行注视屏幕,视距约70 cm。
实验任务为词汇判断。刺激呈现方式为黑底白字的文字图片(宋体,字号23)。每个trail开始前在屏幕中央呈现一个“+”号注视点,提示被试注意进入实验。“+”号呈现时间为500 ms,之后呈现200 ms 空屏,空屏后在屏幕中央呈现启动词,启动词呈现时间为500 ms,之后经过1200 ms 的空屏延迟后呈现目标词。目标词呈现时间为500 ms,500 ms 后屏幕中央呈现“???”界面,要求被试在看到“???”呈现后既快又准确地判断“???”前呈现的目标词是否为真实的汉语词汇。如果目标词为真词,被试需要使用左手食指按下键盘上贴有“√”标签的“F”键;如果目标词为假词,被试需要使用右手食指按下键盘上贴有“×”标签的“J”键。“???”停留在屏幕上,直到被试做出按键反应或超时(最长呈现时间为1300 ms)直接进入下一个trial。具体实验流程见图1。
图1:实验流程图-刺激呈现时间表
E-prime 第一个界面为实验任务说明和操作的指导语,被试阅读完成后,可以点击空格键进入练习阶段。练习阶段包含8 个试次,每个试次后,被试将得到词汇判断结果反馈。主试确认被试充分理解实验任务和操作后进入正式实验阶段,正式实验分为三个实验节,每个实验节间设置休息时间。正式实验阶段无词汇判断结果反馈。
本实验使用德国Brain Products 公司生产的32 导脑电记录系统收集脑电数据,左侧乳突电极TP9 作为参考电极,设置水平眼电(HEOG)和垂直眼电(VEOG) 电极。ERP 数据使用ERPLAB Toolbox V 7.0.0 (Matlab R2017a 安装包)进行脱机处理,数据分析和波形图绘制以目标词呈现前100 ms 作为基线,分析从目标词呈现前100 ms 至目标词呈现后900 ms 的脑电数据并绘制波形图。实验数据分为主要意义相关目标词、次要意义相关目标词、意义无关目标词三个对照组。
结果应用SPSS 21 进行数据分析,使用Greenhouse-Geisser 进行校正。
为保证数据质量,仅保留正确率高于70%的被试数据。1 名被试正确率低于70%,其行为数据和脑电数据被排除,最终行为数据分析样本数为25。1 名被试在实验过程中有过多头部动作和眨眼,1 名被试在脑电记录过程中电阻过大(>25kΩ)被排除,最终脑电数据分析样本数为23。
反应时和正确率两项行为数据被用作分析。反应时从“???”呈现开始记录,如果被试在“???”呈现前按键,或在“???”呈现后1300 ms 内未能做出按键反应,该试次的反应时将不被记录。因反应时从“???”呈现开始记录,统计的反应时数据均加上500 ms后进行分析。
4.1.1 词汇判断正确率
主要意义相关目标词平均正确率为92.7%(SD=0.9%),次要意义相关目标词平均正确率为90.4%(SD=1.2%),意义无关目标词平均正确率为90.9%(SD=1.0%)。采用重复测量方差检验,三种类型目标词组间主效应差异不显著,F(2,422)=1.355,p=0.259(表3,图2A)。
图2:词汇判断正确率(%)及反应时(ms)
表3:行为数据:正确率(%)和反应时平均值(标准差)
4.1.2 词汇判断反应时(仅正确试次)
反应时分析只针对正确试次。为避免极端值的影响,以每个被试为单位,将每个被试反应时数值中高于或低于2 个标准偏差(± 2SD)的数值去除。去除极值后,主要意义相关目标词的平均反应时为758.41 ms,次要意义相关目标词平均反应时为754.65 ms,意义无关目标词平均反应时为760.21 ms。三种类型目标词反应时无显著差异,F(2,215)=0.276,p=0.760(表3,图2B)。
根据矢状轴和冠状轴选取9 个兴趣区(Region of Interest,ROI):左-前(F3),中-前(Fz),右-前(F4),左-中(C3),中-中(Cz),右-中(C4),左-后(P3,O1),中-后(Pz,Oz),右-后(P4,O2) 区域。每个ROI 的电压值是兴趣区内各电极点的平均波幅。
图3 呈现了兴趣区各电极点在-100-900 ms的ERP 波形图对比,从大致波形来看,在目标词呈现后200 ms 内,三种类型的目标词没有呈现出明显的波形差异。
图3:平均波形图
本研究对两种ERP 数据进行了分析:N400成分和LPC 成分。因汉语N400 成分出现略早于其他语言(Huang&Lee,2018),本研究以250-450 ms 为时间窗分析N400 成分,以450-600 ms 为时间窗分析LPC 成分。
以N400 和LPC 两个时段的平均电压值为因变量,进行四组ANOVA 重复测量方差分析:3(目标词类型:主要意义相关、次要意义相关、意义无关)*1(全部电极点);3(目标词类型:主要意义相关、次要意义相关、意义无关)*2(脑区:中线、两侧); 3(目标词类型:主要意义相关、次要意义相关、意义无关)*2(半脑:左半脑、右半脑);3(目标词类型:主要意义相关、次要意义相关、意义无关)*3(脑区:额区、中央区、顶区)。中线考察四个电极点(Fz,Cz,Oz,Pz),两侧考察八个电极点(F3/4,C3/4,P3/4,O1/2),左半脑考察左侧四个电极点(F3,C3,P3,O1),右半脑考察右侧四个电极点(F4,C4,P4,O2)。大脑前部额区考察三个电极点(F3,Fz,F4),中部中央区考察三个电极点(C3,Cz,C4),后部顶区考察6 个电极点(P3,O1,Pz,Oz,P4,O2)。
4.2.1 N400(平均波幅:250-450 ms)
分析9 个兴趣区全部电极的平均波幅,目标词类型主效应显著,F(2,44)= 8.449,p=0.001,p<0.05。成对检验发现,主要意义相关目标词和次要意义相关目标词间存在显著差异,p=0.002,p<0.05;主要意义相关目标词和意义无关目标词间存在显著差异,p=0.016,p<0.05。主要意义相关目标词比次要意义相关目标词和意义无关目标词激发了更大的N400 波幅。
中线电极点不同语义相关度目标词之间存在显著差异,F(2,44)= 5.268,p= 0.009,p<0.05。成对检验发现,主要意义相关目标词和次要意义相关目标词差异显著,p=0.015,p<0.05。主要意义相关目标词比次要意义相关目标词激发了更大的N400 波幅。
两侧电极点不同语义相关度目标词之间存在显著差异,F(2,44)=6.894,p=0.002,p<0.05。成对检验发现,主要意义相关目标词和次要意义相关目标词差异显著,p=0.005,p<0.05;主要意义相关目标词与意义无关目标词存在显著差异,p=0.026,p<0.05。主要意义相关目标词比次要意义相关目标词和意义无关目标词激发了更大的N400 波幅。
比较中线及两侧电极N400 波幅存在显著效应,F(1,22)=8.429,p=0.008,p<0.05;中线电极比两侧电极激发了更大的N400 波幅,这与N400 一般出现在中线电极的特点相符合。观察中线/两侧区域*目标词类型的交互作用,存在显著差异,F(2,44)= 4.795,p= 0.013,p<0.05。主要意义相关目标词比次要意义相关目标词和意义无关目标词激发了更大的N400波幅。
在左半脑电极点,三种不同语义相关度目标词之间存在显著差异,F(2,44)=4.572,p=0.031,p<0.05。两两比较发现,主要意义相关目标词和次要意义相关目标词之间存在显著差异,p=0.023,p<0.05。在左半脑,主要意义相关目标词比次要意义相关目标词激发了更大的N400 波幅。在右半脑电极点,三种不同语义相关度目标词之间也存在显著差异,F(2,44)=7.891,p=0.001,p<0.05。两两比较发现,主要意义相关目标词和次要意义相关目标词之间存在显著差异,p=0.004,p<0.05;主要意义相关目标词和意义无关目标词之间存在显著差异,p=0.008,p<0.05。主要意义相关目标词在右半球比次要意义相关目标词、意义无关目标词激发了更大的N400 波幅;比较左右半脑N400 波幅,存在显著差异,p=0.001,p<0.05。左半脑比右半脑具有更大的N400 波幅,表现出左侧化效应。观察目标词类型和左右半脑的交互作用发现,不存在显著差异。
分析大脑前中后部区域,主要意义相关目标词比次要意义相关目标词激发了更大的N400 波幅。以前中后三个区域电极点为变量,三种类型目标词N400 波幅存在主体内显著效应,F(2,44)=8.914,p=0.004,p<0.05。成对检验发现,前部区域和后部区域间存在显著差异,p=0.028,p<0.05;中部区域和后部区域间存在显著差异,p=0.008,p<0.05。大脑后部区域比中部区域和前部区域激发了更大的N400 波幅。不同语义相关度和大脑前中后区域不存在交互作用。
4.2.2 LPC(平均波幅:450-600 ms)
分析9 个兴趣区全部电极的平均波幅,不同类型目标词间存在主体内效应,F(2,44)=3.273,p=0.047,p<0.05。成对检验发现,三者间两两没有显著差异。
中线电极点不同语义相关度目标词之间不存在主体内显著差异,F(2,44)= 1.852,p=0.169。两侧电极点不同语义相关度目标词之间存在主体内显著差异,F(2,44)=4.106,p=0.023,p<0.05。成对检验发现,三者间两两没有显著差异。比较中线及两侧电极LPC 波幅不存在显著差异。观察中线/两侧区域*目标词类型的交互作用,不存在显著差异。
分析左半脑电极点,三种不同语义相关度目标词之间不存在显著差异。分析右半脑电极点,三种不同语义相关度目标词之间不存在显著差异。观察目标词类型和左右半脑的交互作用发现,不存在显著差异。
分析大脑前部额区电极点,不同语义相关度目标词之间存在显著差异,F(2,44)=4.528,p=0.030,p<0.05。成对检验发现,三者间两两不存在显著差异。分析大脑中部中央区电极点,不同语义相关度目标词之间不存在显著差异。分析大脑前部额区电极点,不同语义相关度目标词之间不存在显著差异。
三个不同脑部前中后区域激发的LPC 波幅存在显著差异,F(2,44)=12.454,p=0.001,p<0.05。成对检验发现,前部区域和后部区域间存在显著差异,p=0.015,p<0.05;中部区域和后部区域间存在显著差异,p=0.001,p<0.05。大脑后部区域比中部区域和前部区域激发了更负的波形,即更小的LPC 波幅。
不同语义相关度和大脑前中后区域在LPC 波幅上不存在交互作用,F(2,44)=1.393,p=0.258。
本研究使用事件相关电位技术,以视觉化词汇判断为任务,对汉语不平衡同音词各意义的加工差异(行为、脑电波)进行调查,实验结果为不平衡同音词各意义加工的时间进程和启动程度提供了证据。
在与实验关键刺激同音启动词有关的三种目标词类型(主要意义相关、次要意义相关、意义无关)中,反应时和正确率均无显著差异,因此无法对三者进行比较。在强调速度和准确度的词汇判断任务中,很可能由于同音词语义间的竞争关系,导致了启动词的启动优势消失,从而使得目标词的判断速度和正确率并无差别。分析实验任务的原因,对汉语母语者来说,词汇判断是一种相对自动化,对认知负荷要求较低的任务,因此被试可以快速而准确地对所有刺激材料做出判断,其加工难度还不足以让被试在正确率和反应速度上产生显著差异。
在实验设计上,由于本实验采取的是延迟的词汇判断任务,目标词呈现后500 ms 才出现“???”,要求被试做出判断。也就是说,当被试可以进行词汇判断时,已经距离目标词的呈现500 ms,对于母语水平的被试来说,词汇判断也许不一定需要500 ms 以上,被试很有可能在目标词呈现的过程中就已经完成了词汇判断,因此反应时的参考价值有待考证。同理,在很多类似的延迟词汇判断实验中,反应时并不作为结果进行数据分析。此外,以上行为数据结果还说明,单纯使用行为实验研究很可能无法观察到大脑实时加工的细节过程及语义表征之间的差异。
本实验脑电数据发现,在目标词呈现后的450-600 ms 内,三种类型目标词均观察到了LPC 成分。通过分析9 个兴趣区电极点和4组重复测量方差分析,只在大脑前中后部区域发现了显著差异。后部区域比前部和中部区域则具有更大的LPC 波幅,这与之前研究中发现的LPC 成分主要出现在后部区域的结论一致。
本实验N400 成分数据结果与以往研究的结论不尽相同。在大脑的各个区域,主要意义的N400 波幅都大于次要意义。同时,大脑的中线、左半脑和后部顶区均具有更大的N400 波幅。这一结果显示,主要意义相关目标词激发了最大的N400 波幅,次要意义相关目标词和意义无关目标词则没有显著差异,对这一结果出现,我们认为可以从以下三方面进行解释:
第一,本实验所获的N400 波幅反映意义启动的一般进程,即主要意义相关目标词相对于次要意义获得更大的语义启动量。如同所有N400 一样,不只是出现在语义期待违反一项,一切具有意义的内容,即使是非语言刺激都可以诱发N400。此外,本实验发现的主要意义N400 波幅与Macgregor et al.(2015)的实验一致,反映“语义保持效应”,即同音词和语义相关目标词之间的语义联系使得主要意义相关目标词的词义获得了最大波幅,进而有更长的保持时间;而次要意义的保持程度较低,意义无关目标词则不具备语义联系带来的意义保持。这一结果也支持了Rabovsky et al.(2012)的推论,即语义丰富的词具有更大的N400 波幅,启动词和目标词之间的语义相关性或语义重复激发更多的意义加工,启动词和目标词的意义相互促进,因此主要意义相关目标词诱发的大脑皮层活跃程度更高,具有了比次要意义相关目标词、意义无关目标词更大的N400波幅。相反,次要词义相关目标词与启动词之间的联系较弱,在较长的ISI 和SOA 后,次要意义的启动随时间开始衰退。意义无关目标词因为和启动词没有构成语义关系,作为孤立的词汇,启动量较小,其结果为弱小的N400波幅。
第二,本实验呈现的主要意义相关目标词和次要意义相关目标词之间的波幅差异为前人提出的“词义竞争模型”提供了脑神经证据(Beretta et al.,2005;Pylkkänen et al.,2006;Klepousniotou et al.,2012;MacGregor et al.,2015;Meade & Coch,2017)。波幅差异说明同音词的主要意义和次要意义之间存在竞争关系,主要意义较其他意义激活程度更高,较易竞争出胜。次要意义的竞争能力相对较弱,因此竞争关系和启动作用相互抵消,降低了同音词的启动优势效应,使次要意义相关目标词和意义无关目标词没有呈现出显著脑波差异。
第三,本实验结果显示了“词性效应”,即词汇识别与词性有关。词汇识别时,动词和名词在ERP 的N200、N400 和P600 波幅上也存在差异,这一结果与Frazier & Rayner,1987;张钦等,2003;易保树、倪传斌,2018的研究等结果一致,相对于之前的汉语实验以模糊词为词汇判断对象,本实验使用目标词作为词汇判断对象,判断难度较低,可能难以体现出组别间的差异。此外,“词性效应”还表现在在本实验选取的材料中,意义无关目标词主要选取为名词,意义相关词则跟启动词保持一致,存在不同的类型。由于大脑对于不同词性词语的储存和加工存在差异,其行为数据和脑电数据也可能随之受到影响。虽然本实验选取的材料均为汉语双字词,匹配了目标词的使用频率和双字笔画数和,但双字词汇还可能受到字频,字形(如左右结构、上下结构等)等因素影响(Pexman,2001、2002),都可能造成由词性引起的加工差异。
第四,关于左右半脑的差异,本实验结果显示,在同音词加工的初期阶段,左半脑的启动更加明显一些,而到了后期整合加工阶段,两个半脑的启动没有显著差异。这一结果支持大量已有研究的结果,即对于大多数右利手而言,左半脑主要负责语义的加工(夏全胜等,2014)。这表明,在模糊词加工如同其他语义加工一样,在整个过程中,各个半脑都发挥了各自的功能。对于脑皮前后区域的分布,两种ERP 数据都发现后部启动量比前部和中部启动量更大,这与以往的实验结果一致。
为此,针对本研究拟探讨的三个问题,本实验ERP 数据结果可以做出以下回答:
(1)汉语不平衡同音词的主要意义和次要意义的储存和加工存在竞争关系及加工差异。这一差异尽管无法在行为数据上得到明确的体现,但在脑电波数据上得到证实,主要反映N400 和LPC 波幅上的差异。
(2)在N400 波幅上,主要意义和次要意义的激活区域虽然大致相同,即在大脑的中线、两侧、左半脑、前中后区域,但在激活度及保持时间上都存在显著差异,主要意义具有更显著、更高的激活量和意义保持。在LPC 波幅上,也可以发现大脑后部区域比前、中部区域呈现出更大的激活量。
(3)尽管本实验证实汉语不平衡同音词的不同词义在大脑中的激活程度有所不同,但本实验结果还无法证实,汉语不平衡同音词最终遵循哪一种心理表征观,是促进作用的核心词义表征观还是竞争作用的独立词义表征观?这是由于次要意义相关目标词和意义无关目标词之间始终没有呈现出显著差异,因此,目前尚无法做出推论,有待于更多的ERP 实证研究的设计,以便进一步考证。
本研究从以下几方面推进了学界对于同音多义词心理表征问题的研究。
从实验材料来看,相比以往研究,本研究的材料选取具有科学性和可信度。本实验的同音词选取自最新最权威的《现代汉语词典》(第7 版)。林进展(2012)指出,词典是词义标注和消歧的重要资源。在汉字认知中,笔画数、部件、结构特征、频率等均会影响加工过程,其中词频是影响汉语词汇加工的重要因素(陈宝国、王立新、彭聃龄,2003),本研究使用权威的网站和细致的评分标准,匹配了目标词词频、语义相关度、笔画数。
从研究方法来看,汉语同音词研究不但为数不多,而且停留在句末呈现语境和单独呈现范式。本实验打破这一常规,采用经典语义启动范式,以最小语境-词对形式作为实验材料,结合高时间分辨率的ERP 技术,可以更加直观地判断具体意义启动情况,消解句子语境带来的影响,并清晰地观测到大脑语义加工的时间进程和大脑活跃程度。本研究的结果部分支持了以往的研究,表明同音词的不同意义间主要存在竞争关系,同时与以往研究在行为和ERP 数据上存在差异,为心理表征假设提供了一些新的思考。在时间窗的选取上,本实验结合了现有的汉语实验结果,即汉语的N400效应相对其他语言提早出现(王小潞,2007;Huang & Lee,2018),本实验设计与Huang &Lee(2018)相同,将N400 时间窗选取为250-450 ms,LPC 的时间窗口选取为450-600 ms,保证了对模糊词加工的全程观察。
从词汇本体研究的角度来看,本实验研究的同形同音词是现代汉语词汇的重要组成部分,尤其是同义词的语义竞争关系、主要意义与次要意义的波幅差异等对同形同音词的研究,现代汉语词汇体系的研究,汉语词汇学研究等提供了重要的脑神经数据基础。此外,词汇研究与词典编撰有着紧密的联系,以ERP 技术为主导的词汇实证研究可以为词典编撰系统提供原始的依据,特别是对心理词典的研究,为语言用户提供具有说服力的模糊词储存和加工模型,有助于显示词义在心理词汇中的储存状况和提取途径,验证理论语言学的假设。
在教学方面,本文证实汉语同音词的部分心理表征特征,如主要意义与次要意义之间的竞争关系、词性效应等都可以直接或间接应用到实际词义教学中,特别是根据科学数据形成的主要意义与次要意义的区别。肖二平等(2012)提到,对于汉语同音词心理表征的研究有助于揭示产生同音错别字的原因和机制,规范人们的语言运用,并为语文教学提供指导。此外,汉语存在的大量同音不同形的语素(同音字)和同形不同义的语素(多义字),给第二语言学习者学习汉字、词汇造成了很大困难(张琦、江新,2015),模糊词研究虽然为数不多,但值得大力推广,可以为汉语字词教学提供一些参考和帮助。
本研究对于汉语不平衡同音词各意义的加工,提出了一些新的材料选取方法,得出了一些全新的实验结果,但本实验也存在一些问题和局限。
由于之前没有标准化的不平衡同音词表,本研究对语料的选取都基于词典条目和语料库,很有可能在以下方面存在不足。首先,汉语同音词各意义的使用频率没有现存的数据,依赖人工核算难免有失偏颇。其次,语料库中的文献数据主要来自于文学作品,时间跨度为1919—2002 年,以近20 年的语料为主,文学作品中词汇的使用频率和真实的语言使用频率存在一定的差距,该差距亦不能进行量化。第三,本研究选取的启动词和目标词之间的语义关系为近义关系,未有考虑反义关系和搭配关系,林进展(2012)指出,不同的语义关系可能影响词汇间的关联程度。另外,部分同音词启动词和目标词之间存在相同的汉字,正字法效应可能对加工过程产生一定的影响。
本实验的词汇判断任务,不需要做出与启动词相关的语义关联判断,对于认知的负荷量较小,无关目标词无需与启动词进行关联,其启动量相应也较小。今后实验可以考虑采取判断启动词与目标词之间是否存在语义关联的任务,会更加直观地展示意义启动差异。
本研究只探讨了N400 和LPC 这两种公认的与词汇加工相关的ERP 成分,对于可能存在的其他脑电成分,没有进行更多的观测。此外,ERP 的空间分辨率较低,对此问题的探讨还需要结合其他空间分辨率更高的神经语言学技术,如fMRI 等进一步探究同音词语义加工的神经心理机制。
对于未来的研究方向,不论从理论建设还是实际应用角度,同音词的心理表征的研究价值都不容忽视。特别是汉语同音词的实证研究还处在初步探索阶段,今后的研究尚需从多种角度进行重复验证和深入拓展。
汉语同音词是汉语词汇重要的组成部分,未来的研究可以增加其他类型,如多义词,并对比汉语同音词和多义词的加工。此外,还可以对模糊词的两种类型,同音词和多义词进一步细化,比如将同音词分为语法同音词和非语法同音词,多义词分为隐喻多义词和转喻多义词,对各个具体类型进行研究对比。
此外,学界对同音词的研究主要服务于汉语词汇本体的理论基础建设和词典的编纂,而较少关注汉语作为第二语言的同音词研究。由于不同文字系统的语言存在较大差异,未来还可以研究二语者对于汉语同音词的词加工与母语者的异同。汉语中的同音词不仅给母语者带来理解障碍,还有可能增加二语学习者的学习难度,今后可以探讨汉语同音词对于二语学习者词汇学习的影响,为汉语教学者和将汉语作为第二语言的学习者提供一些教与学方法上的指引。
未来的研究需要继续结合理论语言学和神经语言学,用理论语言学指导神经语言学研究,同时用神经语言学为理论语言学提供证据支持。