基于马尔科夫模型的聋生阅读输入分析

2018-09-10 20:01:35姚茂建李晗静吕会华

北京联合大学学报 2018年3期

关键词：聋生

姚茂建李晗静吕会华

[摘要]以不同类型文本阅读输入角度出发，分析聋生的阅读输入规律，以反映聋生阅读时的表现。通过聋生阅读输入的文本与中文分词标准匹配率在不同等级的转移情况建立马尔科夫过程，预测聋生的阅读输入结果。通过阅读实验以验证马尔科夫模型预测的结果，实验结果显示，聋生更习惯于阅读较小的组合词块，单音节词、双音节词、三字及四字多音节词对聋生阅读有较大影响，这与马尔科夫模型预测结果比较符合。

[关键词]聋生；自然输入标注；阅读输入；马尔科夫模型

[中图分类号]G 762[文献标志码]A[文章编号]1005-0310（2018）03-0086-07

Abstract： This article starts with different types of text reading input and analyzes the reading input rules of deaf students to reflect the performance of deaf reading. The Markov process is established through the transfer of the

matching rate of deaf students reading input and the Chinese word segmentation standard at different levels， and finally predicts the reading input of the deaf student. Through reading experiments to verify the results of Markov model predictions， the experimental results show that deaf students are more accustomed to reading smaller combined word blocks， and monosyllabic words， two-syllable words， three＼|syllable and four-syllable words have a greater impact on deaf reading. This is in line with the Markov model predictions.

Keywords： Deaf students； Natural typing annotations； Reading input； Markov model

0引言

許多听力障碍学生的汉语语言是在教学条件下专门培养的，生活环境中无法使用口耳传递交流，缺乏语言环境的真实感，也常借助表象来理解词义，就会含混，甚至误解[1]。这种含混情况，聋生在汉语书面语上表现突出，常常词不达意，颠倒语序。关于聋生的阅读研究大多集中在聋人读者的阅读技巧和阅读策略[2]、语义识别、词汇、语法、比喻语言、推理能力和工作记忆的测试研究[3]，阅读理解中的实词和虚词理解程度差异性[4]，词汇意义的具体性[5]。从以上研究中可以看出，目前聋生阅读理解的研究相对比较多，但是以聋生阅读输入为基础去提高聋生阅读理解能力的研究相对较少。词汇量的多少以及语法掌握程度是阅读写作的基础，通过了解聋生的词汇能力及语法知识能有效预测他们的阅读能力[6-8]，以往有关聋生词汇和语法的研究主要具有以下特征：词汇量少、词汇贫乏、句子简短、句式单一[9]。为提高聋生阅读效果，大多数研究过度强调阅读技巧或阅读策略，而忽略了聋生本身的阅读规律。因此需要寻求一种客观、定量的评价聋生阅读输入的方法，这种方法能反映聋生阅读时的内在规律，最大程度上反映聋生的阅读情况。

汉字是由象形文字演变而来的，具有独特的语标书写特点，并不能像英文单词那样直接输入字母表征出来[10]。用拼音输入汉字，在脑海中会有一个预处理过程，即文本信息的抓取，记录输入过程就对应着用户阅读时的表现。例如，拼音输入汉字“中国”，我们会在脑海中产生“中国”一词，并通过键盘输入拼音“zhongguo”，同时会出现一系列同音异形词组选项，如图1所示，最后通过数字键（1～5）或空格键（默认第一个词组）进行对应词组的选定，实现拼音到汉字的转写。拼音是将汉字转录成拉丁字母的输入方式，汉语的拼音输入方式是顺序式的。如“中华人民共和国今天成立了”，一种阅读输入方式为“[中华][人民][共和国][今天][成立][了]”，另一种阅读输入方式是“[中华人民共和国][今天][成立了]”，等。从某种意义上来说，记录和储存用户输入的文本过程，就能反映他们阅读理解的形式，是词级别还是短语级别，或者对语句的完整语义是否存在正确的理解。

受到以上启发，首先，我们通过自然输入标注软件记录聋生阅读输入的文本，以侧面反映聋生的阅读过程，建立马尔科夫模型，以更加科学的方法评价聋生阅读理解输入情况。其次，根据模型得出的结果，我们提出相应的假设。再次，通过不同条件下的阅读实验以验证模型预测的结果，分析造成这一结果的原因，发现聋生阅读规律。

1相关工作

本文以不同专业的聋生作为实验对象，对聋生拼音输入的文本进行统计分析。

1.1自然输入标注实验

聋生阅读是一个复杂的构建文本意义的过程，它涉及3种水平的信息加工活动：词语的识别、句子的理解和文本的解读[11]。聋生对词语的识别过程，如果能通过拼音输入待测试文本，记录聋生脑海中的预处理过程，即对文本信息的抓取，那么就能很好地反映聋生对中文语句的理解过程。文献[3]指出，语言理解是指人们借助于听觉或视觉的语言材料，在头脑中构建的一种主动的、积极的、有意义的过程。而自然输入标注（Natural Typing Annotations， NTAs）软件通过拼音输入待测试文本，就能记录测试者相应的阅读文本内容以及词语输入的形式，并以“|”符号标记测试者阅读理解短语词块的大小。软件输入测试文本如图2所示，上一部分为输入框：拼音输入内容，下一部分是软件自动记录框：输入过程中产生的信息。进行自然输入测试实验前，预先设定输入法无联想提示功能，排除联想记忆对语句自然输入的干扰，在不告诉实验目的的情况下，记录聋生阅读理解后自然输入过程。

本研究选取特殊教育学校听力障碍大学生为测试对象。其中计算机专业大三学生17名：男生9人，女生8人；园林技术专业大三学生12名：男生3人，女生9人；视觉传达设计专业大三学生14名：男生8人，女生6人。测试获得自然输入标注文本数据43份，其中计算机专业学生占总测试人员的39.53%，园林技术专业学生占总测试人员的27.91%，视觉传达设计专业占总测试人员的32.56%。其中男生占总体人数的46.51%，女生占总体人数的53.49%。

为了使测试具有针对性，选取与听障大学生相关专业的测试文本，分别对应于计算机、园林技术、视觉传达等专业内容。测试开始前，将说明文本投影在教室显示屏上，并用手语的方式重复讲解一遍，告知学生软件使用方法，学生完全理解后，再以自己最习惯的方式进行文本内容的阅读输入。

1.2自然输入标注文本

中文语句的呈现方式可表示为S=c1c2…cn（c1代表一个中文字符，n表示句子S的长度），S=|c1c2…ci1-1|…|ci2ci2+1…cN|cN+1…cn|可以为句子S的一种输入形式。亦可以将对应的句子切分为S=|s1|s2|…|sM|（其中s1=c1c2…ci1-1，…，sM=cN+1…cn，M词是语言材料中最小的意义单元，各种复杂的句法、语义都依靠词来表达。中文分词标准，其参考标准为《现代汉语语料库加工规范——词语切分与词性标注》，是经过长期探索和实践经验得到的现代汉语分词规范。为研究聋生阅读规律，我们将中文分词标准作为参照标准，对各专业聋生自然输入文本相对频率以及全体聋生自然输入文本与中文分词标准相对频率分别进行统计画图，分别如图3、图4所示。

从图3中可以看出，不同专业听障学生，双音节词输入相对频率最高，达到50%以上；单音节词输入相对频率次之，达到30%左右；三字及四字多音节词输入相对频率都在10%以下；五字及五字以上多音节词频率都在5%以下，而且不同专业聋生阅读输入结果相对比较接近。从图4中可以看出中文分词标准只有单音节词、双音节词、三字及四字多音节词，同时聋生阅读输入的词语主要集中在1～4字词，占总体输入频率的80%以上。

2马尔科夫链的应用

首先分析马尔科夫过程，然后通过马尔科夫过程建模预测聋生阅读理解输入情况。

2.1马尔科夫链

过程（或系统）在时刻t0所处的状态为已知的条件下，过程在t>t0所处状态的条件分布与过程在时刻t0之前所处的状态无关，即在已知过程“现在”的条件下，其“将来”不依赖于“过去”，而只与t0时刻有关，这种性质为无后效性[12]。如果n个事件在变动过程中，任意一次的变动结果都具有无后效性，那么这n个事件组成的集合就叫做马尔科夫链，事件演变的过程则称为马尔科夫过程。

2.2状态及状态转移过程

在马尔科夫过程预测中，状态是一个重要概念，它表示事件在某个时刻发生的某种结果。对事件进行预测，就需要知道事件发生的可能结果，求出每种结果发生的概率，进而预测事件出现每种结果的可能性程度。例如，城市居民出行方式预测过程中，有“公交”“自行车”“步行”“地铁”或“其他”等出行状态。

事件在发展变化过程中，从某一种状态转变为另一种状态，这种转变就叫状态转移。例如，某人的身体情况有两种状态，健康或者发烧，从健康转变为发烧、或从发烧转变为健康就是状态转移。将事件随时间的变化而进行的状态转移，称为状态转移过程。

2.3状态转移概率及状态转移矩阵

2.4马尔科夫过程建模

利用马尔科夫链存在与之前的状态无关，只由文本变化、大脑进行阅读、拼音输入等因素确定的极限状态这个特点，将聋生专业文本自然输入标注文本与中文分词标准匹配率划分为若干种有限状态，把非专业文本自然输入作为下一个状态，则从上一个状态到下一个状态聋生自然输入标注文本与中文分词标准匹配率的变化情况，可反映不同专业文本自然输入条件下，聋生阅读理解后输入的词块规律，而这种规律具有稳定的转移趋势。这种转变是由聋生专业文本阅读后输入状态向非专业文本阅读后输入状态的转化，即相当于现在所处的状态向下一时刻的转化，因此与之前的状态无关，此过程具有无后效性。学生阅读理解后自然输入过程就可以看成是马尔科夫链，利用马尔科夫链的极限分布，就可以对总体聋生阅读输入情况进行预测。

把要考评的学生阅读理解自然输入过程分为两个阶段（本专业文本输入，非本专业文本输入）。将自然输入标注文本与中文分词标准匹配率在80%～100%之间记为状态0，60%～80%之间记为状态1，40%～60%之间记为状态2，40%以下记为状态3，共为4个状态。以ni表示本专业文本i等级学生数，nij表示i等级转移到j等级的人数，以nij/nj表示i等級转移到j等级的概率。各专业聋生自然输入与中文分词标准匹配率及转移表分别如表1、表2、表3所示，并计算得出转移矩阵（4）。

从聋生自然输入文本最终匹配率来看，聋生输入结果有将近70%与中文分词标准相同。中文分词标准符合现代汉语分词规范，且只存在单音节词、双音节词、三字多音节词、四字多音节词的划分，那么是否可以这样理解：聋生阅读理解语句的70%部分集中在1～4字多音节词之间，或者说1～4字多音节词很大程度上表现了聋生的阅读习惯。为了验证聋生是否具有这一阅读规律，我们将阅读材料无任何处理和经过中文分词标准处理后，对聋生阅读效果产生的影响进行对比分析。

3实验方法

通过对照实验，观察文本经过处理后是否更加符合聋生的阅读形式，得出实验结论。

3.1实验阅读材料选取及呈现方式

实验对象为原自然输入标注实验测试者，共43名。实验材料选取小学六年级阅读材料2份，难易程度相等，每篇大约450字左右。相应的测试题有10道，采用单选题的形式，题目的设计旨在考察聋生对阅读材料细节问题的掌握、文章推理、篇章结构、内容概括、重点信息的把握、信息的推论等。测试材料中题目先后顺序与阅读材料中的内容先后顺序无关。测试材料分为未处理和经过中文分词标准处理两种情况，对测试材料处理后的部分内容呈现方式如下：

东海龙王父子称霸一方，作恶多端，还经常兴风作浪，害得人们不敢下海捕鱼。哪吒决心治一治他们，为老百姓出一口气。

3.2实验结果统计

阅读材料时间为10分钟，阅读完毕后，将阅读材料上交，过5分钟后再进行测试答题。测试指导语：请回忆阅读材料内容，并根据阅读材料内容，回答问题。共10道题目，每题有4个选项，请选择与文章内容最相符的选项。每道题答对记1分，答错或不答记0分。被试得分情况如图5所示。

3.3实验结果分析

我们使用SPSS统计软件对实验结果进行配对样本t检验，实验结果如表4所示。可以看出，在阅读材料未处理情况下，43名同学的阅读平均得分成绩为6.35，而经过中文分词标准处理后的阅读平均成绩为7.19。

样本相关性如表5所示，本次样本共选取了43名聋生，阅读材料处理与未处理之间的相关性为0.549，相关系数越大表示相关程度越高，显著性水平<0.05。由于选取的置信水平α=0.05，即置信区间为95%，实验结果P<0.05，则拒绝原假设H，表明阅读材料未处理与处理后具有显著相关性。

配对样本检验结果如表6所示，兩组配对实验的均数差值为-0.837，标准差为1.446，标准误差为0.221，95%的置信区间为[-1.282，-0.392]，差值为负数表示聋生阅读未处理材料比阅读处理后的材料得分低。在阅读表现上，聋生阅读处理后的材料（7.19±1.617）比阅读未处理材料（6.35±1.402）的阅读表现高0.837分，差异具有统计学意义，同时由表6看出P<0.05，即阅读材料未处理与经过中文分词标准处理后对聋生阅读得分有显著性差异。由此可见，1～4字多音节词很大程度上体现了聋生的阅读规律，将语句切分处理对聋生阅读理解具有一定的帮助作用。

汉语书面语的书写方式为紧密排列、字字相连，这对读者分词断句和语义提取造成了一定的困难。以汉语为母语的人在阅读时一般会通过小声默读的形式加深对语义的理解，但也会遇到停顿、复读、回看等情况，而以汉语为第二语言的聋人来说，这些问题比较突出。通过记录聋生的阅读理解输入表现，分析在输入中是否存在分词断句、语义提取等现象。语感会对阅读起到帮助理解作用，而语感是对文字进行理解、体会、分析的感悟能力，记录聋生阅读输入表现能很好地体现阅读理解形式。一般来说，好的阅读表现能从阅读分词上来体现。马尔科夫建模结果显示，聋生输入结果有接近70%部分与中文分词标准相同，表明分词能表征聋生的阅读理解输入形式。同时阅读材料在经过处理与未处理情况下，对聋生阅读表现具有显著性差异，阅读材料作分词处理能降低聋生理解难度，有利于提高理解能力。这种差异解释了对语句进行分词划分有助于辨别词语、关键词定位，达到正确理解语义的目的，聋生能较好的理解并回忆起文章的内容，而且这种方式在一定程度上比较符合聋生的阅读习惯，能更好地概括信息。

4结束语

本文通过自然输入标注软件记录聋生阅读输入过程，提出运用马尔科夫模型预测聋生阅读输入结果的方法。将阅读材料分词处理后，对聋生阅读能起到帮助作用，这比较好地解释了马尔科夫模型预测结果。聋生阅读输入的文本存在分词断句现象，记录阅读输入过程能反映聋生阅读理解形式，这为研究聋生阅读模式、阅读特点提供了一个新思路。

虽然文章材料作分词处理后能帮助理解，但是多长的断句能更好地帮助聋生阅读理解？同时，聋生阅读是一个复杂的过程，影响聋生阅读理解还有很多内在因素，如聋生与健听人书面语交流流畅程度、自身听力情况、普通学校就读时间等等，都会间接地影响聋生的阅读表现。这说明在考虑外部因素外，还应根据聋生自身情况，分析对聋生阅读的影响以改进聋生阅读形式，为提高聋生阅读能力提供科学依据。将不同专业聋生阅读表现进行对比分析，发现聋生共同的阅读形式，将这种阅读形式加入到聋生阅读文本中进行评估是后期主要研究方向。

[参考文献]

[1]张宁生.教学实践中耳聋儿童学习语言的某些特点[J].心理学报，1980，12（4）：390-396.

[2]Banner A， Wang Y. An analysis of the reading strategies used by adult and student deaf readers[J]. Journal of Deaf Studies and Deaf Education， 2011， 16（1）：2-23.

[3]彭聃龄.普通心理学[M].第4版.北京：北京师范大学出版社，2012：132-135.

[4]Krejtz I， Szarkowska A， ogińska M. Reading function and content words in subtitled videos[J]. Journal of Deaf Studies and Deaf Education， 2016， 21（2）：222-232.

[5]Moreno-pérez F J， Saldaa D， Rodríguezortiz I R. Reading efficiency of deaf and hearing people in Spanish[J]. Journal of Deaf Studies and Deaf Education，2015， 20（4）：374-384.

[6]Coppens K M， Tellings A， Verhoeven L， et al. Depth of reading vocabulary in hearing and hearing-impaired children[J]. Reading and Writing， 2011， 24（4）：463-477.

[7]Kyle F E， Campbell R，Macsweeney M. The relative contributions of speechreading and vocabulary to deaf and hearing childrens reading ability[J]. Research in Developmental Disabilities， 2016， 48：13-24.

[8]Adams-Means C L. Deaf learners： developments in curriculum and instruction[J]. Disability Studies Quarterly， 2006， 26（4）：218-223.

[9]Takahashi N， Isaka Y， Yamamoto T， et al. Vocabulary and grammar differences between deaf and hearing students[J]. Journal of Deaf Studies & Deaf Education， 2016， 22（1）：88.

[10]Zhang D， Mao Y， Liu Y， et al. The discovery of natural typing annotations： user-produced potential Chinese word delimiters[C]//Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. 2015：662-667.

[11]Wauters L， Bon W H J V， Tellings A， et al. In search of factors in deaf and hearing childrens reading comprehension [J]. American Annals of the Deaf， 2006， 151（3）： 371-380.

[12]张衡.马尔科夫链的一个应用[J].长春光学精密机械学院学报，1994，17（3）：44-49.

[13]耿建军，焦德杰. 基于马尔科夫链的统计分析的教学评估方法[J]. 聊城大学学报（自然科学版），2006，19（4）： 97-100.

（责任编辑白丽媛）