张秀红,纪雅婷,王晓彤,孟丽婷
(1.辽宁师范大学学报编辑部,辽宁大连116029;2.辽宁师范大学心理学院,辽宁大连116029)
文本阅读中错别字识别机制及其对编校的影响
张秀红1,纪雅婷2,王晓彤2,孟丽婷2
(1.辽宁师范大学学报编辑部,辽宁大连116029;2.辽宁师范大学心理学院,辽宁大连116029)
汉字是中华民族最宝贵的文化遗产,错别字伴随着汉字的产生而产生。文本中的错别字是困扰我们对文章阅读和理解的主要原因之一。随着计算机的发展,越来越多的人用电脑来完成手写的过程,这样导致错别字更加普遍。为此,有必要在两个方面对文本中错别字的识别机制进行总结:文本阅读中语音对错别字识别的影响,包括同音异义错误的识别阶段,同音异义错误识别;文本阅读中字形对错别字识别的影响,包括正字法临近字、相似字的识别,字母换位识别。通过对错别字识别机制的总结,探讨其对编辑校对中错别字的识别的影响。
识别;错别字;语音;字形;校对
汉字拥有悠久的历史,是世界最古老的文字之一。错别字伴随着汉字的产生而产生,也拥有了近千年的历史。古文中的通假字便是古人写作时产生的错别字,现代社会中错别字更是屡见不鲜,报纸、期刊、书籍等各种正式的、非正式的读物都会有错别字的出现。
错别字分为错字和别字。错字就是那些并不存在的字,比如我们在字上加一笔或减一笔,再或者结构写颠倒等都属于错字的范畴;别字指张冠李戴,把甲字写成了乙字。错别字的存在和泛滥,对个人和社会都产生了很大的困扰。一个字的错误,可能造成我们理解的困难,甚至使我们产生错误的理解。自古至今,关于错别字的事例数不胜数,小则闹出一场笑话,大则失去一座城池。汉字是中国文明的代表之一,也是我国文化史上的瑰宝,但是在现在文明不断发展的今天,错别字仍然不断出现。已有很多学者对错别字产生的原因及其识别做了一些研究。根据前人的研究和汉字的特点,可以将错别字形成的原因分为以下几种:形似致误,音近致误,义近致误,音、形两近致误,音、形、义三近致误等。本文主要从文本阅读中错别字识别的机制角度,对当前的研究进行总结分析。由于错别字经常在书籍和报刊中出现,对于编辑校对者来说,如何能够将错别字找出来成了一个很重要的素质。因此,探讨错别字的识别机制及其对编辑校对工作的影响具有重要意义。
语音在汉语加工中具有重要的作用。在文本阅读中,同音异义词是因语音产生错误的主要形式。本文主要针对同音异义词的识别进行讨论。同音异义词指的是两个或两个以上汉语发音相同而意义不同的词语。由于词汇识别的主要目的是意义通达[1],而且汉字读音中存在着显著的音似启动效应[2],所以在日常生活和学习中,我们往往会忽视同音异义词之间的差别,而犯同音异义错误,并且这种错误不容易识别,因此研究同音异义错误对减少错别字的出现有很大的帮助。关于同音异义错误的研究很多,学者们所持有的态度也不尽相同。
(一)同音异义错误的识别阶段
黄建辉、陈恒之[3]在探讨字形及语音加工在中文阅读中所起的作用时,利用同音词、形近词,以及无关词进行实验,得到同音异义错误和其他错误情况对阅读的影响是一致的,影响发生在阅读初期。实验中让被试移动鼠标来阅读计算机屏幕逐字呈现的短文,结果得到同音状况所产生的干扰效应,与无关及形似状况的干扰效应极为相似,却与原文状况有极大的差异。这个结果表明,保留原字的语音和不保留任何信息,在阅读初期都会造成相当的影响,而且如果语音在阅读过程中担任媒介的角色,这种影响的程度是相似的,同音状况的干扰效应应该与无关状况的结果有区别。Daneman和Reingold[4]的研究认为,阅读中语音记录的证据取决于范式,这些范式要求被试做一些除阅读以外的反应。要求被试仅仅是为了理解而阅读,并监测被试当遇到同音异义错误与非同音异义错误时眼动的无意识中断。眼注视行为显示阅读者当遇见同音异义错误和非同音错误时体验一样的困难。
运用整个头部的magnetoencephalography(MEG)来调
查由掩蔽同音假字启动任务引起的大脑反应的时空模式,被试阅读目标词,同时三种非词启动在目标词之前,这三种非词启动是,1.同音假字词:在启动词和目标词读音相同,但是五个字母中只有四个是相同的;2.正字法匹配:启动词和目标词五个字母中有四个是相同的,但是读音不同;3.无关控制:启动词和目标词既没有相同的字母也没有相同的读音。这三种启动条件诱发左下额回部分(theparsopercularisoftheleftinferiorfrontal gyrus,IFGpo)和中央前回左部(theleftprecentralgyrus,PCG)电极的激活,在目标词呈现的100ms之内。然而,进行临界比较揭示出加工的不同更多地表现在语音方面,包括同音假字启动反应显著强于正字法启动反应,主要发生在左IFG/PCG在接近100ms的时候。这种时空的一致性表明早期语音影响视觉词汇的认知[5]。
Feng等人[6]考查中英文读者在阅读中如何利用正字法和语音特征,利用Daneman和Reingold[4,7]的错误破坏范式研究了阅读中英文材料的拼法错误效应。让熟知汉语和英语的读者阅读包含偶然拼写错误的文章。结果显示,一些情况下,在英语阅读中发现非常早的语音激活,而没有证据显示中文阅读中也存在类似的语音激活现象。对于两种语言,同音异义错误在后期加工的测量中都有优势,说明语音有助于读者从错误的破坏效应中恢复。这些结果说明熟练读者能够利用特定正字法的独特特征,但这些正字法(拼法)效应最有可能在词汇通达的早期阶段进行。
(二)同音异义错误识别的脑电特点
Newman[8]用功能性磁共振成像调查视觉词汇识别中语音的作用。被试为7到13岁的儿童,实验控制词频和同音异形字,完成词汇判断任务。在高频条件下发现了显著的同音异义效应,表明在词汇判断任务中语音确实有重要的作用。大脑激活模式支持额下回和顶叶回,这些区域联系着语音加工,同时显示出同音异义效应。此外,大脑的颞上皮层后部显示同音异义效应。
刘宝林等人[9]用ERP研究P600是否能反应意外语音的存在,他们在实验中利用的关键字是诗词中的原有的字或者原有的字被同音异形字或同义字代替之后的字。与诗词中的关键字是原有字情况相比较,当同音异义字的情况下的关键字被呈现250-450ms后出现N400效应。这个结果表明在同音异义字条件下,同音异义替换引起语义困难。这些结果表明,在阅读中遇到同音异义错误的时候,将激发大脑对它的注意,并引起理解困难,从而有利于我们对别字的识别。用ERP实验去探索汉语阅读困难儿童和正常儿童在汉语句子阅读时正字法和语音加工的不同[10]。实验时将句子中的词语一个一个地呈现,并问被试句子的语义是否能接受。实验中关键操作是句子的最后一个词,或者是正确的或者是错误的,不正确的成分,第二个字用同音异义字或正字法相似字代替。结果发现,控制组即正常组,在较长的时间进程里,正字法或语音不匹配激起了相对于基线来说更负的ERP反应 (包括P200和N400)。相反,阅读障碍的儿童在实验条件下P200和N400没有区别。另外,在同音异义条件下N400成分阅读障碍比控制组的负走向小。这表明中国阅读障碍的孩子在正字法和语音信息的传达方面欠缺,相比正常儿童,他们更多地依赖语音信息去判断词汇的意思。这个研究表明,P200和N400是同音异义错误和正字法相似错误的重要脑电指标,根据这些研究发现可以看出大脑对错别字进行识别和加工的情况。
(一)正字法临近字、相似字的识别
黄建辉、陈恒之[3]发现形似字与无关字产生非常相似的干扰效应。这样的结果并不表示字形不起重要作用,因为形似字在字形上毕竟与原字不同,形似字虽然在字形上与原字只有微小差异,但足以产生与无关字相似的干扰,这正显示完整的字形加工在阅读初期扮演着非常关键的角色。
Daneman和Reingold[4,7]发现,同音异义促进恢复过程,是因为同音错误的两个词至少有着相同的长度。因此该结果支持词汇通达理论,这个理论中语音资源的激活和影响被延误与正字法资源有关,而不是语音编码理论占主导,研究发现拼法效应最有可能在词汇通达的早期阶段进行。
报告汉语中单个汉字环境中正字法在语义激活过程中的角色时[11],利用18个本土说汉语的成人进行Stroop启动试验,这个实验是由一个带颜色的字和一个与预期相似的符合正字法规定的假字组成。经典行为Stroop启动表明,带颜色的字或假字一致的条件下比不一致的条件的反应时短。被试在完成Stroop实验以后立刻进行视觉判断任务。结果表明,被试可以非常好地区分带颜色的字和假字。这些发现支持了在汉语单字加工中的直接正字法语义途径。Kim和Lai[12]用ERP研究词语识别中词汇语义和亚词汇可视词形处理交互作用的时间进程。他们要求被试阅读被嵌入假字的句子,这些假字是正字法相似并通过上下文能推断出真字或者不能推断的,以及辅音字符串的非言语。那些能通过上下文支持真字的假字相对于真字来说,在130ms前后引起一个加强的正成分;而那些不能通过上下文推断出真字的假字和辅音字符串非词都有一个加强的N170成分。这说明人脑对假字进行了特殊的加工。
(二)字母换位(transposedletters,TL)识别
在拼音文字中字母换位和字母替换是错别字产生的主要原因。学者们对字母换位和字母替换效应也做了大量的研究,下面就对前人所做的研究进行分析和比较。
大量证据表明,字母换位产生的非词启动比字母替换产生的非词启动更有效。Perea和Lupker[13,14]研究表明,在西班牙语中,字母换位启动的优势只存在于当换位字母是辅音的时候,而当换位字母是元音的时候不存在。这种元辅音的不同所引起的问题,即使考虑到模型也可以很好地解释字母换位效应。
联想启动效应可以在掩蔽非词启动和掩蔽的假的同音异形异义字中获得,而不是在可视条件下的启动。通常的解释是当启动可见时,刺激不再激活基础词的语义表征。考虑到换位字母刺激在视觉识别中的重要角色,检验在一系列的语义判定实验中,可发现换位字母非词启动中是否包含联想启动效应。假如联想启动效应在可视换位字母启动中是不能实现的,可以说明人脑在遇见换位字母的时候遇到了困难,由此也可以说明人脑识别出了错别字的存在;然而,如果在可视情况下,也能出现换位字母的启动效应,我们就不能确切地说人脑将这种错别字识别出来了。Perea等人[15]研究发现,即使在换位字母非词启动可见的时候,联想启动效应也能观察
到,同时字母换位启动效应的大小和字的启动效应是相似的。
字母位置编码是现在视觉词汇识别所有提及模型的关键因素。视觉辨字的任何计算模型的一个关键议题都是为了选择设定字母位置的输入编码方案。近代研究表明,字母换位相似效应甚至发生在当换位的字母不临近的时候。分析研究两个单独呈现词汇判定的实验,去检验字母换位是否发生在音节水平。实验中创造符合正字法控制条件词,这些词关键字母是被替换而不是移位。结果显示在两个音节或者两个相邻的双字母组的位置字母产生的移位效应是相当大的。MartaVergara-Martinez等人[16]用字母换位和字母替换两种材料,让被试完成语义分类和词汇决定任务。在词和非词的识别任务中产生高频和低频刺激下关于TL的效应明显不同。词汇决定任务中,不考虑正字法加工造成的速度和准确率上的细微差异的情况下,行为学和MEG结果都显示,字母换位的假词比字母替换的假词更像真词,而且这种效应受词汇频率的影响。特别是在TL假词是从高频词演变过来时,相对于RL假词反应更慢,产生更多词错误,N400的振幅更小。在低频词时,TL假词也会比RL假词出现更多的错误。这个结果说明在文本阅读中,字母换位所产生的假词更容易让读者误认为是正确的字而不易识别,而相对来说字母替换所产生的错误我们更容易将其识别出来。
随着社会的高速发展,文化也在不断地进步与更新,这就使人们对书籍等阅读物的需求大大增加。然而书籍、报刊中的错别字屡见不鲜,即使在学生使用的课本中也会时而出现,由此显示出编辑校对工作的重要性。我们依据前文对错别字的识别机制的总结分析,来探讨错别字识别机制对汉语编辑校对工作的影响。
对错别字的编辑校对也分为两种情况,一种是错字,一种是别字。错字一般出现在手写稿中,随着书籍、报刊等由电脑输入代替了手写,汉字的错字出现的机会越来越少,所以校对工作的重点在于别字的识别。别字主要由字音、形、义,以及它们的交互作用造成的。随着国外拼音文字校对技术的发展,国内的研究人员开始探索用电脑来进行中文自动校对的可行性。骆卫华等人[17]认为,由于汉字的自身特点,对汉字的直接校正相对于英语来说还是有一定的困难的,主要表现在:1.汉语的词之间没有分隔标志,即汉语中每个词的字数是不同的;2.汉语的词类没有形态上的标志,而且和句法成分之间并没有简单的映射关系,再加上兼类、句法成分省略等的干扰,使得汉语的句法分析困难重重;3.随着与国外文化、科技交流的逐渐增多,汉语和英语混用的情形变得很普遍,在目前的技术条件下,只能分开处理,从而导致句子成分的缺失,这也增加了文本校对的难度。
由于自动校对技术的限制,编辑校对人员应该有关于拟校对内容的基本知识,这样才能有效地将同音异义错误、形近字错误等识别出来,同时校对人员也一定要有耐心,正如前文所总结的,音和形在一定程度上有助于对文章的阅读和理解,所以不管是同音异义错误还是正字法临近字、相似字,都对我们理解不会造成太大的障碍,正因如此就容易疏忽这类错别字,进而影响我们对这类错别字的识别,从而对编辑校对工作产生影响。总之,对错别字识别机制的探讨有益于对汉语错别字识别,提高编辑校对工作的效率,但目前有关错别字的识别机制对文本编辑校对的影响方面的研究还比较少,还有待于我们做进一步的研究。
[1]隋雪,马英雪,李莹,等.汉语词汇加工心理过程的研究进展[J].辽宁师范大学学报:社会科学版,2014,37(3):360-364.
[2]隋雪,张晓利.汉语双字词识别研究进展[J].辽宁师范大学学报:社会科学版,2012,35(6):768-771.
[3]黄建辉,陈恒之.中文阅读中的字形与语音加工[J].心理学报,2000,32(1):1-6.
[4]DanemanM,ReingoldEM.WhatEyeFixationsTellUsAbout PhonologicalRecodingDuringReading[J].CanadianJournalof ExperimentalPsychology,1993,47(2):153-178.
[5]WheatKL,CornelissenPL,FrostSJ,etal.DuringVisualWord Recognition,PhonologyIsAccessedwithin100msandMayBe Mediated by aSpeech Production Code:Evidence from Magnetoencephalography[J].TheJournalofNeuroscience,2010, 30(15):5229-5233.
[6]FengG,MillerK,ShuH,etal.RowedtoRecovery:TheUseof PhonologicalandOrthographicInformationinReadingChinese andEnglish[J].JournalofExperimentalPsychologyLearning MemoryandCognition,2001,27(4):1079-1100.
[7]DanemanM,ReingoldEM,&DavidsonM.TimeCourseof PhonologicalActivationDuringReading:EvidenceFromEye Fixations [J].JournalofExperimentalPsychology:Learning, MemoryandCognition,1995,21(4):884-898.
[8]NewmanSD.TheHomophoneEffectDuringVisualWord Recognition in Children:an fMRI Study [J].Psychological Research,2012,76(3):280-291.
[9]LiuB,JinZ,WangZ,etal.AnERPStudyonWhethertheP600 CanReflectthePresenceofUnexpectedPhonology[J].Experimental BrainResearch,2011,212:339-408.
[10]MengX,TianX,JianJ,etal.OrthographicandPhonological ProcessinginChineseDyslexicChildren:AnERPStudyon SentenceReading[J].BrainResearch,2007,1179:119-130.
[11]WangK.AnElectrophysiologicalInvestigationoftheRoleof OrthographyinAccessingMeaningofChineseSingle-character Words[J].NeuroscienceLetters,2011,487(3):297-301.
[12]KimA,LaiV.RapidInteractionsBetweenLexicalSemanticand WordFormAnalysisDuringWordRecognitioninContext: EvidencefromERPs[J].JournalofCognitiveNeuroscience,2012,24: 1104-1112.
[13]PereaM,LupkerSJ.CanCANISOActivateCASINO? Transposed-letterSimilarityEffectsWithNonadjacentLetter Positions [J].JournalofMemoryand Language.2004,51 (2):231-246.
[14]LupkerSJ,Perea,&DavisCJ.Transposed-LetterEffects: Consonants,VowelsandLetterFrequency [J].Languageand CognitiveProcesses,2008,23:93-116.
[15]PereaM,PaltiD,GomezP.AssociativePrimingEffectsWith Visible,Transposed-letterNonwords:JUGDEFacilitatesCOURT [J].Attention,Perception,&Psychophysics,2012,74(3):481-488.
[16]Vergara-MartínezM,PereaM,GómezP,,etal.ERP CorrelatesofLetterIdentityandLetterPositionareModulatedby LexicalFrequency[J].BrainandLanguage,2013,125(1):11-27.
[17]骆卫华,罗振声,宫小谨.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249.
【责任编辑 赵 伟】
B842.1
A
1674-5450(2014)06-0137-03
2014-08-25
张秀红,女,辽宁本溪人,辽宁师范大学编审,主要从事编辑理论与实践研究。