中文阅读中词切分的认知机理述评

2017-07-29 10:05刘波
科教导刊·电子版 2017年18期

刘波

摘 要 与英文的拼音文字相比,中文属于表意文字,中文文本的词之间并没有空格分割,因此,要完成一篇阅读最重要的过程就是学习词的切分。词的切分是指在阅读过程中,将连续的语句切分成不同的部分,用以了解作者的思维,走进作者的内心世界。本文主要探究了中文阅读中词作为整体加工的心理学证据、中文词切分机理的实验研究以及词切分在计算机科学中的研究。

关键词 中文阅读 词切分 依据 眼动特性 认知机理

中图分类号:B842.5 文献标识码:A

0前言

阅读的认知机理具有悠久的研究历史以及丰富的历史文献。词是语言中最小的能够被独立运用的单位。词的切分是指在阅读过程中,将连续的语句切分成不同的部分。如果将阅读比作合抱之木,词切分便是毫末;如果將阅读比作九层之台,词切分便是类土。由此可见,词切分在阅读中的地位至关重要、无可替代。

1中文阅读中词作为整体加工的心理学依据

1.1词优效应

实验证明,单词中的某一个字母比在一堆毫无意义的字符串中的相同字母更容易被人所记住。例如,与“odrw”中的d相比,被试者将更容易记住“Word”中的字母d,这种差异识别的现象就是词优效应。无独有偶,郑兆明就曾证明中文阅读中同样也存在词优效应。在字词快速传递的情况下,他要求被试者在字词快速传递的情况下,以最快的速度记住2个字,这两字有时组成一个词,有时不能组成词。结果发现,被试者对真词条件的识别能力普遍高于非词条件。

1.2词的属性对眼动模式的影响

阅读时,读者的眼睛需要通过不断地移动方能获取文本上的信息,观文解字,理解作者的思维,理解文章的中心。阅读中一系列的眼跳被统称为眼动行为。对拼音文字的研究表明,阅读时若去掉单词之间的空格,就会大大增加读者对单词的识别能力,甚至会影响到读者对当前阅读词的定位,增加读者选择眼跳目标的困难,从而无法进行眼动行为。在词间加入空格对于早期读者尤其是中文二语学者都具有非常重大意义。因为他们对中文的掌握能力并不高,而加入词边界信息后,则能够促进他们对词的识别,在阅读中文文本时,注视的时间也会更短。

1.3字间空格与词间空格

词是语言中最小的能够被独立运用的单位。对中文文本阅读的研究表明,在词与词之间加入空格对被试者的阅读效率并没有影响,但在字与字之间加入空格后,被试者的阅读速度都普遍得到下降。这表明,在中文的文本阅读中,词是作为一个统一的整体出现的,而字与字之间空格的出现破坏了这种整体,从而造成了被试者的阅读效率下降。

2中文词切分机理的实验研究

2.1空格对中文词切分的影响

上文笔者已简单提过空格对词的影响,但如果将空格直接插入文本中,又会对阅读产生怎样的影响呢?刘应茂等人曾作出实验证明词间空格严重干扰了被试者的阅读,因为最后结果表明,被试者的词间空格的阅读时间高于无空格条件下的阅读时间。他认为词间空格的出现扰乱了读者的阅读习惯,延长了读者的阅读时间。之后,一些研究者也进行了相关的眼动实验,但他们却得出了与刘应茂完全相反的实验结论,他们发现在词与词之间加入空格对被试者的阅读效率并没有影响,但在字与字之间加入空格后,被试者的阅读速度都普遍得到下降。他们发现刘应茂等人的实验研究中每个句子仅有7个字,却被组成了六个词。所以干扰读者阅读的并非词间空格而是字间空格。

2.2词切分对眼动落点位置的影响

对眼动行为的研究表明,阅读时读者对词首和词尾的注视高于其对词中央的注视概率。此次研究发现,首次阅读时读者更偏好对词首与词中央中间位置的注视。在阅读时,若将本文中的空格替换成为数字或字母,就会对阅读产生干扰。winskel也发现,在没有空格的阅读文本中,读者的注意力的确更容易偏向词首而非有空格时词中间偏左的位置。

2.3词切分在计算机科学中的研究

在信息技术飞速发展的今天,如何利用计算机对以文字形式进行爆炸增长的信息进行分类、处理,是当前计算机领域所需要思考的。然而在利用计算机进行信息处理时所面临的一个瓶颈问题就是词的切分。在计算机科学领域中,词切分被称为分词。基于词典的分词系统是计算机科学分词系统中的一种,它主要包括三个要素:词典、扫描方式、匹配法则。其中,词典要素最重要的是词典机制,不同词典机制的制定殊途同归,最终都是为了提高词切分的速度。匹配也是为了提高分词的速度,对于匹配来说,当前使用最为广泛的是最大匹配和最小匹配两种匹配原则。最大匹配是为确保词典中词串最长,最小匹配则是为确保切分时切分出的词最少。基于统计的分词方法是利用字与字之间的互信息来实现的,因此也被称为无词典分词法。文本库中两汉字相邻出现的概率称为互信息,两个汉字相邻的概率越小,其构成词汇的几率也会越小。由于这种方式的分词方法不需要借助词典而只需要对文本字符的互信息进行统计,因此其更适用于解决未登录词或歧义词。

汉语文化源远流长、博大精深,因此在做词汇切分时,我们很难找到一种方式或者规律适用于所有的词汇。基于人工智能的切分困境在于如何使本规则库包含所有的切分策略,如何使计算机在最短的时间内使用误差最小的切分方式。基于统计的切分面临的最大问题是当前的模式难以依赖一种算法解决所有的切分问题。基于词汇的切分面临的最大困难在于难以组建一个完善的词典。当前的切分系统各有利弊,我们很难仅利用一种模型便实现对词的切分。上述的三种切分系统虽然在一定程度上解决了一些问题,但其切分的精确度仍存在一定缺陷。

3结语

词的切分是指在阅读过程中,将连续的语句切分成不同的部分。理解中文阅读中词切分的认知机理对阅读具有非常重要的意义。词切分认知机理的研究符合当前中文阅读机理的要求,符合现代信息技术发展的要求。随着词切分机理研究的推进,中文词的切分还将面临出现各种各样的问题,而解决这些问题的过程,我们也可以更好的理解词切分的认知机理。

参考文献

[1] 梁菲菲.中文词切分认知机制的眼动研究[D].天津师范大学,2013.

[2] 陈焕炎.词频和语义透明度对汉语阅读词切分的影响[D].福建师范大学,2015.

[3] 陈景红.中文词切分及其对不同群体阅读绩效的比较研究[J].长春教育学院学报,2015 (3):32-33.

[4] 张兰兰.汉语阅读过程中心理词加工机制的实验研究[D].天津师范大学,2012.