李晨蕊
(国防科技大学国际关系学院 江苏 南京 210039)
在这个信息爆炸的时代,如何在浩如烟海的文本数据中快速选择所需的文本?这个问题使文本的自动化分析方法进入大众视野。文本易读性是文本自动化分析的一项重要内容。它的研究最开始是出于军事目的——弗莱士(Flesch R.)为满足军事需要研究出文本易读性公式。当然除了军事需要,相关研究还有其他重要的实践意义。俄国学者米克(Я.А.Микк)[1]利用文本易读性研究成果来确定学生对所给文本的理解能力,以提高教学质量。如若可以对文本易读性进行准确而高效的分析,俄语学习者便可以选择难度适宜的文本进行阅读,提高语言学习效率。由此可见,文本易读性的研究对语言学习、语言教育,甚至军事等方面都有重要意义。
本文首先对文本易读性的相关术语进行区分,然后对俄语文本易读性的研究历史进行回顾与总结,明确今后的研究方向,以期能够更深入地开展俄语文本易读性研究。
文本复杂性通常基于文本自身的内在特性计算。相关变量可分为定距变量和定类变量。定距变量包括单词长度、句子长度及长词数量等变量;定类变量则包括文本的语法特征、语义特征、词汇特征等变量。文本复杂性这一概念只与文本自身有关,是文本的客观属性。[2]
文本难度通常由文本的客观特征和主观特征决定。客观特征就是文本复杂性所研究的文本的自身特征;主观特征则取决于读者本身,它包括读者的年龄、性别、背景知识等一系列特征。由于文本难度的概念包括客观和主观两个方面,因此同样复杂性的文本对于不同读者而言,难度可能是不同的。正因为其主观参数大多数超出了语言学研究范围,所以现阶段缺乏合理的文本难度公式。[3]
文本易读性,是由英语中的readability一词翻译而来。在俄语中文本易读性这一概念具有多义性。一方面,该术语是指文本易于理解的程度,可通过测量句法难度、词汇、主题表达的清晰程度等一系列变量计算;另一方面,也可以通过能够理解该文本的读者的平均受教育程度衡量。
如果将文本不利于理解的属性视为文本难度,那么文本有利于理解的属性即为文本可理解性。由此可见,影响文本可理解性和文本难度的因素是一致的,只是这些因素对这两个属性的影响效果相反。
文本易读性的研究起始于英语文本。从20世纪20年代至今,英语文本易读性的研究历经80多年而不衰,且日益受到关注。相较于英语文本易读性的研究,该问题在俄语中的研究起步较晚。研究主要分为三个阶段。
在这一阶段,俄罗斯的语言学家重点关注文本的定距变量,提出对文中的字母、音节、语法词素、单词、词组、句法结构等进行定量分析。其中,列斯基斯(Г.А.Лесскис)[4]重点关注了文本的句法难度。他开始研究文本中简单句和复合句的数量,并将句子平均长度、简单句平均长度、复合句平均长度等变量作为计算文本复杂性的定距变量。马茨科夫斯基(М.С.Мацковский)[5]曾选取60名七年级学生参与实验,实验者需对50篇政论体裁文本难度进行评估,将其划分为由易到难七个等级。在此数据的基础上,马茨科夫斯基定义了俄语文本难度公式:
其中:
Y——文本难度
X1——平均语句长度(单词数除以语句数)
X2——文本中包含三个及三个以上音节的单词的比例
由于当时文本易读性的研究并未得到关注,文本材料数量受限,参与实验的人数不足,这个公式的合理性有待进一步考量,但这个公式所选取的变量值得我们参考。
在这一阶段,俄罗斯的语言学家开始将定距变量与定类变量结合。在对文本可理解性的研究中,米克提出文本可理解性的衡量主要基于句子中单词的数量、单词的“熟悉程度”、单词的抽象性(文本中抽象单词和具体单词的比例)三个特征。其中,单词“熟悉程度”的计算方法是凭借经验将单词划分为六个等级进行统计。单词抽象性的计算方法共两种:一是三级划分法,即将单词按抽象性分为三个等级进行统计;二是计算含抽象性词素的单词。除此之外,米克详细阐释了文本复杂性与文本难度的区别,提出了衡量文本复杂性的特征:文本的信息量、语句的复杂性、叙述的抽象性及文本结构的明晰性。
图尔达娃(Ю.А.Тулдава)提出了一个补充参数——文中多义词的数量。她通过统计发现,俄语中每个单词平均拥有3.7个意义,其中动词平均有4.6个意义,名词平均有3.1个意义。除此之外,该学者定义了自己的文本复杂性公式[7]:
其中:
R(i,j)——文本复杂性
I——单词平均长度(音节数除以单词数)
J——语句平均长度(单词数除以语句数)
在这一阶段,俄罗斯语言学家深入研究了已确定的变量对文本易读性的影响。其中,奥博尔涅娃首次尝试将英语的弗莱士文本易读性公式运用于俄语。这一研究为俄语易读性公式的研究做出突出贡献。她将英语和俄语中的单词平均长度进行比较分析,发现俄语中单词的平均长度为3.29个音节,而英语中则为2.97个音节。由此,她开发出如下公式:
其中:
Y——文本易读性
ASL——语句平均长度(单词数除以语句数)
ASW——单词平均长度(音节数除以单词数)
这一阶段的另一个特点是学者在不断扩大变量种类。其中,普什金娜(Е.С.Пушкина)[8]指出由于术语的抽象程度较高,会增加文本复杂性。叶尔马科夫(А.Е.Ермаков)和普列什科(В.В.Плешко)[9]指出应关注文本中的同音异义词。克里奥尼(Н.К.Криони)、尼京(А.Д.Никин)及菲利波娃(А.В.Филиппова)[10]认为可以通过语言结构特征、叙述抽象性及文本信息量衡量文本复杂性。其中,语言结构特征可以用如下变量衡量:长词数量(三个音节以上为长词)、包含长词的句子比例、单词平均长度、语句平均长度、副动词和形动词数量、包含副动词和形动词的句子比例、复合句所占比例。学者计算叙述抽象性的方式借鉴于米克计算含抽象性词素的单词所占文中单词总数量的比例。文本信息量则体现在文中所引入的定义的数量。
什帕科夫斯基(Ю.Ф.Шпаковский)[11]在文本易读性研究中提出如下变量:单词长度、语句长度、文本长度、简单句和复合句占全文的比例、每100个名词中的具体名词数量和抽象名词数量及生词比例等。随后,什帕科夫斯基专注于分析化学教材的文本复杂性,并开发出化学教材文本难度公式。公式如下:
其中:
Y——高等学校化学教材文本难度
X1——长词所占比例(含九个或九个以上字母的单词)
X2——术语所占比例
X3——化学符号所占比例
这一阶段的第三个特点是计算机程序广泛应用于文本易读性研究。其中,别格京(И.В.Бегтин)将奥博尔涅娃提出的公式转化为文本自动化分析在线工具(ru.readability.io/),这一公式还成为Microsoft Word内置的俄语易读性测量公式。叶尔马科夫和普列什科在统计文本中的同音异义词时,提出应开发俄语句法自动分析器用于抽取名词短语和消歧。这一分析器已成为Russian Context Optimizer系统①的部件之一。在分析文本的句际联系时,指代消解是关键问题。当代学者开始关注自动化提取先行词和照应语。托尔佩金(П.В.Толпегин)[12]研究的重点是俄语文本中第三人称代词自动消歧问题。学者尝试实现自动化算法以确定先行词和照应语之间共指关系,建立了“一般前指代识别模型(MB)”与“特征空间和评价识别任务的共指消歧模型(DSE)”,其中DSE模型的准确率达到83.05%。阿布拉莫夫(В.Е.Абрамов)等人[13]共同开发出用于解决“俄、英、德、法语文本分类”问题的计算机程序,为文本的自动化分析做出贡献。
未来俄语文本易读性的研究方法仍应是通过构建统计模型并利用编程的方法实现自动化分析。具体的研究步骤应包括:构建适用于文本易读性研究的语料库—选取特征变量—对变量进行相关性分析—确定回归方程—通过计算机程序实现文本易读性自动化分析。下一步的研究方向应包括:扩大变量种类、优化统计模型、推广研究成果。
今后的研究应该扩展研究范围,将语法特征、语义特征、词汇特征、体裁等的自动识别研究纳入易读性研究之中,扩大特征变量种类,使易读性研究更加深入和细致,进一步提高易读性测量的适用范围和测量准确性。
今后的研究中应结合多元统计相关知识,探索更为精确的统计模型以提高拟合度。在建立统计模型时,应注意各变量之间是否出现多重共线性问题,并根据变量类型合理选择回归模型,科学地构建和优化统计模型,使其能更准确地计算文本难度。
文本易读性的研究是出于实用目的,因此研究不应该脱离实际应用。研究者要积极探索其理论在实际领域的价值,进一步结合网络资源,开发在线网络服务,将易读性研究成果转化为在线分析工具或计算机应用的组成部分,推广文本易读性的研究成果,扩大研究影响力。
文本易读性研究这一课题具有十分重要的实践意义。从俄语文本易读性的研究历史来看,利用统计模型和计算机编程的方法对此进行研究无疑是一次有益的尝试,这也应是今后的努力方向。未来应继续加大研究深度,扩展研究范围,不断推进易读性研究发展。
注释:
①RCO 系统用来进行文本信息分析与检索,适用于Oracle数据管理系统。