才智杰,三毛措,3,才让卓玛
(1. 青海师范大学 计算机学院, 青海 西宁 810016;2. 省部共建藏语智能信息处理及应用国家重点实验室, 青海 西宁 810008;3. 四川省威州民族师范学校,四川 阿坝 624000;4. 西南民族大学 计算机科学与技术学院,四川 成都 610041)
随着自然语言处理研究的不断深入,技术方法的评测已成为自然语言处理的研究内容之一。评测集是技术方法评测的基础数据,有了合理的评测集才能有效地评测技术方法。文本校对评测集是用于评价文本校对效果的数据集,可分为传统文本校对评测集和标准文本校对评测集。传统文本校对评测集是对正确的数据集通过主观经验人工伪造而得到的评测集,标准文本校对评测集是通过选择研究对象获取可信度强的真实数据集而得到的评测集。在没有构建标准评测集的情况下,通常使用传统文本校对评测集进行评测。由于传统评测集是人工伪造的数据集,不能覆盖文本校对的各种类型,因此学者们开始研究标准评测集的构建。
藏文文本校对研究刚刚起步,目前还没有用于评价藏文文本校对性能的标准评测集。随着大数据时代的不断推进,藏文电子语料也与日俱增,这些语料已经过相关机构的审核,基本无错误,因而不能作为藏文文本校对的评测集。本文在结合藏文特点并分析英文、汉文文本校对评测集构建方法的基础上,研究了藏文文本校对评测集的构建方法,构建了用于评价藏文文本校对性能的标准评测集,并统计分析了评测集中的错误类型及分布。
文本校对评测是文本校对性能分析的基础,评测的目的是验证模型的性能,以比较各种文本校对技术的优劣。然而,评测体系需要客观公正,不受主观感觉影响。自2014年起,学者们开始了文本校对评测集的建设工作。英文文本校对评测集建设方面,ACL自然语言学习特别兴趣小组(SIGNLL)组织了CONLL年度会议,专门用于探讨自然语言处理技术方法,2014年的会议任务是探讨文本校对评测方法。该小组在研究英语语法错误检测技术时以标准的方式构建了50篇论文的英文文本校对评测集[1],用于评测英语语法错误检测。该评测集数据采集对象是25名非英语母语国家大学的学生,其构建方式是根据给出的两个提示每人写两篇论文,评测集的具体信息如表1所示。在CONLL2014语法错误检测任务中,17个小组采用不同的文本校对方法在相同的英文文本校对评测集上验证其任务的性能, 学者们希望在这样的平台上挖掘出更先进的英语语法错误检测技术。
表1 英文文本校对评测集信息表
汉文文本校对评测集建设方面,2015年自然语言处理技术研讨会NLP-TEA与中国语法错误检测(CGED)共同为汉文文本校对工具的开发和实施提供了一个论坛。他们在研究汉语语法错误检测时以标准的方式构建了1 000个评测句的汉文文本校对评测集[2],用于评测汉语语法错误检测。该评测集数据采集内容是台湾地区的TOCFL机考作文,其构建方式是以汉语为母语的人手工标注语法错误,并提供相应的纠正,然后以开放测试的形式进行评估,促进了汉文文本校对技术的发展。2017年由台湾大学、计算语言与中文处理协会主办,亚洲自然语言处理联合协会(AFNLP)承办的第八届国际自然语言处理联席会议IJCNLP2017的共同任务也是汉语语法错误检测,他们以标准的方式构建了汉文文本校对评测集[3],用于评测汉语语法错误检测。该评测集的数据采集内容是《汉语水平考试》的写作部分,其构建方式与上面方法一致,表2显示了评测集中错误类型的分布。2018年国际自然语言处理与中文计算会议NLPCC2018的共同任务中,他们从北京大学汉语学习语料库中抽取2 000个句子以标准的方式构建了一个汉文文本校对评测集[4],其目的是评测汉语语法纠错。
表2 IJCNLP 2017语法错误检测评测集中错误类型的分布
国内少数民族语言文字的文本校对评测集构建研究刚刚起步,藏文文本校对评测集构建研究也处于探索阶段。目前,学者们普遍采用爬虫技术抓取网络上现有的语料,进而通过增加噪声数据的方法获取训练集或者评测集(传统评测集)。2018年才智杰等[5]在研究向量模型的藏文非真字自动拼写检查时采用传统的方式构建了规模为11.7万的藏文字评测集, 2019年色差甲等[6]在研究CNN藏文音节拼写检查时采用传统方式构建了人工伪造的音节数据集,2020年华旦扎西等[7]在研究TC_LSTM的藏文词拼写检查时也采用传统的方式主观构建了规模为400句的藏文词评测集。综上所述,我们可以看出英文和汉文文本校对评测集建设方面已比较成熟,同时也推动了英文和汉文自然语言处理发展。但藏文文本校对评测集构建方面还未见标准评测集的相关文献报道,制约了藏文文本校对技术的发展。
数据采集是评测集构建的第一步。数据采集方式多种多样,通常采用问卷调查、做实验、查阅资料、下载公开数据集、人工伪造数据、爬虫以及现场采集等方式。目前进行藏文文本校对技术研究时, 学者们采用人工伪造数据构建评测集(传统评测集),传统评测集中存在的错误类型覆盖率不全、可靠性较低,不能准确反映文本校对的真实情况。而现场采集的数据能反映出问题的真实性,具有直观性、科学性、真实性以及通用性等优点。因此,本文借鉴英文和汉文的文本校对评测集的建立过程,采用现场采集的方式进行了评测数据采集,以此设计了藏文文本校对评测集的构建方案。藏文文本校对评测集的构建方案如图1所示。
图1 藏文文本校对评测集构建方案
藏文文本校对评测集构建方案由评测集采集和评测集数据分析两部分组成,评测集采集包括数据采集对象选取、数据采集内容选取、数据收集以及数据整理四部分,评测集数据分析包括错误类型统计、错误类型分布及数据分析三部分。构建藏文文本校对评测集时,首先要选择与自己研究问题相符合的数据采集对象,进而选择数据采集内容,然后到现场采集数据样本,对采集的数据样本进行整理,并判断数据是否有效,最后对构建的评测集进行数据分析。数据整理是将采集到的数据规范化,并数字化。根据数据集中是否出现拼写错误判断数据集的有效性。若有拼写错误,则将其归入评测集,否则重新采集。数据分析部分通过统计评测集中的错误类型和分析错误类型的分布情况,验证评测集构建的合理性和有效性。
根据藏文文本校对评测集构建方案,可以按以下步骤建立藏文文本校对评测集。
第一步: 数据采集对象选取
本文将拉加草原学校作为这次课题研究数据采集的对象。该学校位于青海省果洛藏族自治州玛沁县拉加镇,这所学校设有9个年级,14个教学班,开设的课程与其他中小学的设课内容基本一致,所使用的教材均为教育部标准教材。此外,将辩论的课程和思想也被运用在了日常教学中。该校的学生都从小学一年级开始学习藏语,都是母语学习者,因而藏语水平总体上比其他语言文字成绩普遍都较高,学生的来源除青海各个州县外,还有甘肃、四川等地区,这种来源多样性有助于识别藏文文本中各地方特有的拼写错误类型。学校设有9个年级(一年级至九年级),其中一年级到三年级的藏语学习时长较短,还未掌握很多的藏文知识点,藏语水平较低,因此本研究以四年级至九年级共六个年级作为研究对象进行现场数据采集。数据采集对象信息如表3所示。
表3 数据采集对象信息表
表3列举的信息可作为本课题研究对象的主要原因有以下四个方面: ①由于该学校的学生均为母语使用者,为数据的有效性提供了基础保障;②由于该学校收集到的数据具有多元化,使得数据类型较全面及覆盖率较高,并与下游任务藏文文本校对的实验内容相吻合;③由于每个年级每位学生的藏语水平各不相同,使得本文采集到的数据具有很大的研究价值;④由于本文将采取现场采集的方式采集数据,使得本文采集到的数据具有真实性。综上,本文的数据采集对象满足数据的有效性、多样性、价值性、真伪性等四大特性,符合作为本次研究的数据采集要求。
第二步: 数据采集内容选取
选取研究内容时,本文考虑学生的藏语学习时长的长短,计划从三年级至八年级的上下册教材中各选一篇课文,共12篇课文。为了提高数据的质量和数据采集的效率,低年级的课文普遍都很短,本文选择其中常用词较多同、篇长较长的课文作为数据采集的内容。高年级的课文普遍都很长,本文选择其中常用词较多、篇长较短的课文作为数据采集的内容。因此本文选取的数据采集内容的覆盖性较全面,其中的常用词也较普遍,符合作为本课题的数据采集内容。藏文文本校对评测集数据采集内容的选取信息如表4所示。为了获取学生在已学课文的情况下所犯的真实性的拼写错误数据,本文将四年级的学生作为三年级上下册教材两篇课文的数据采集的对象,将五年级的学生作为四年级上下册教材两篇课文的数据采集的对象,以此类推。
表4 评测集数据采集内容选取信息表
第三步: 数据收集
由于初三年级需要备考和缺少人手等的种种原因,本文最终实际获取到的数据只有六篇课文的内容,共232名学生的研究样本,数据信息如表5所示。数据采集的方式是现场采集的方法,即老师到每个班听写相应的课文,对每个数据采集对象采取一致的数据采集方法,保证采集数据样本的有效性、可比性、可靠性及研究价值,使得采集的数据具有普遍性和代表性。表5中数据采集参与人数和最终收集的数据样本数一致。
表5 实际评测集数据采集信息表
第四步: 数据整理
评测数据的代表性决定了最终建立的藏文文本校对评测集的可靠性和可行性。完成第三步的数据收集后,本文对收集到的纸质版数据样本进行了整理。数据整理包括对数据样本进行编号,例如,四年级40名学生的数据样本编号依次为4-1、4-2、…、4-40,五年级一班36名学生的数据样本编号依次为5(1)-1、5(1)-2、…、5(1)-36,五年级二班33名学生的数据样本编号依次为5(2)-1、5(2)-2、…、5(2)-33,以此类推。由藏语为母语的人对数据样本进行拼写错误检查并做了错误注释;将6个数据集的内容(正确的数据内容)进行电子化(文档)并以文本格式分别保存;在每个文件中按每个数据采集参与人数复制、粘贴相应的文档并对文档进行编号(纸质版样本编号数=文档复制数=数据采集参与人数=文档编号数),它们之间是一对一的关系;按照每份纸质版样本中注释的错误将在对应电子文档中的正确的字改成错误的字,获取最终的藏文文本校对评测集。藏文文本校对评测集信息如表6所示,表中的数据大小是指评测集文档数的总大小,例如,序号1对应的数据大小200KB是指四年级40名学生的评测集文档数的总大小有200KB,以此类推。
表6 藏文文本校对评测集信息分布表
根据文献[8]中归纳的藏文文本真字错误类型,本文首先识别了本文构建的藏文文本校对评测集中的拼写错误类型,其次对错误类型的分布进行了统计,最后根据统计表对数据进行分析。
为了进一步弄清评测集中错误类型的分布,本文做了详细的统计和分析,得出了以下评测集中错误类型分布情况的统计结果,整个藏文文本校对评测集中的错误类型的分布统计如表7所示。表7中全集是指整个232个评测集文档之和。为了更直观地了解评测集中的拼写错误类型的分布,根据表7中统计的数据本文画出了对应的饼图,如图2所示。
图2 全样本错误类型的分布图
表7 全样本错误类型的分布统计表
图3 真字错误类型的分布图
表8 真字错误类型的分布统计表
为了能更清楚地观察每篇课文的评测集中每个错误类型的分布情况,本文又详细统计了这些数据信息,具体信息如表9所示。表9中数量是指对于一篇课文(共6篇课文)的每个评测集文档中出现该错误类型的总数。根据表9中统计的数据本文得出了每篇课文的藏文文本校对评测集中错误类型的分布图,如图4~图9所示。
图4 课文1评测集中错误类型分布情况
图5 课文2评测集中错误类型分布情况
图6 课文3评测集中错误类型分布情况
图7 课文4评测集中错误类型分布情况
图8 课文5评测集中错误类型分布情况
图9 课文6评测集中错误类型分布情况
表9 各篇评测集中错误类型的分布统计表
由表9、图4至图9可知,各篇评测集中构词错误占的比例最大,占比依次在72.41%~82.6% 的区间,其次是语法错误,占比依次在14.42%~26.11%的区间,再次是非真字错误,占比依次在0.74%~1.70%的区间。至于语义错误、连带错误和标点错误、是由于本文的研究内容和采集方式的选择,导致出现的频次很少,但也符合实际情况,因此本文构建的藏文文本校对评测集是合理的。
本文通过分析英文和汉文文本校对评测集构建方法,设计了藏文文本校对评测集构建方案,根据此方案构建了藏文文本校对评测集,并统计分析了藏文文本校对评测集中存在的错误类型。统计数据结果表明,从藏文文本错误类型大类层面来说,错误类型主要集中在真字错误,占比为98.14%。藏文真字错误类型又分为构词错误、语法错误、语义错误及连带错误四小类,其中构词错误占的比例最高,占比为80.23%。这就决定了我们在研究下一任务藏文文本校对方法时应该注重哪一种错误类型,如何选择任务的侧重点,从而为藏文文本校对技术研究奠定了基础。本文数据采集的合理性、可操作性及统计分析结果确保了本文构建的评测集的有效性。今后我们将在已构建的藏文文本校对评测集的基础上,研究藏文真字的文本校对方法,进一步完善自动文本校对技术。