汉语学术口语语料库的创建与应用研究

2021-01-22 06:04同济大学刘运同
语料库语言学 2020年2期
关键词:词频音节语料

同济大学 韩 毅 刘运同

提要:在汉语国际教育的理论研究和教学实践中,汉语学术口语是一个重要的组成部分,然而目前该领域的研究和探索十分有限。本文使用LancsBox平台搭建了规模达86,395字的试验性汉语学术口语语料库。在语料采写的过程中,通过运用语音识别技术,再结合文本人工校对,大幅提高了采写的工作效率。语料处理方面,在参考各类标注系统的基础上,研究采用XML格式,标注了停顿、重复、口误、填充词、未完句和替换等口语现象。同时,利用所搭建的汉语学术口语语料库,本文对汉语学术口语的一些典型特征开展了初步研究。在词频统计和词语分布分析的基础上,本文还完成了汉语学术口语中的自然停顿单位分析及其分布统计,发现自然停顿单位的长度集中在1—15个音节的区间上。

1.引言

在汉语国际教育的研究与教学实践中,生活汉语、通用汉语的教学与研究较多,学术汉语的教学与研究较少,汉语学术口语的教学与研究更少。无论是在英语作为第二语言还是汉语作为第二语言的研究领域,目前语料库的建设都呈现出书面语语料库较多、口语语料库较少的局面。

本文希望通过创建小型试验性汉语学术口语语料库,为进一步创建大型口语语料库,特别是学术口语语料库的探索提供工具和方法方面的支持。利用所搭建的汉语学术口语语料库,初步统计分析所选取语料的停顿单位、词频分布、语义关联以及特殊句式等研究课题,为汉语学术口语研究、口语研究提供语料基础和方法借鉴。

2.汉语学术口语语料库的设计和研制

2.1 语料的采集和转写

语料的采集是搭建任一类型语料库的基础工作。本文所进行的汉语学术口语语料库的搭建是一项试验性的、先导性的研究,并未按照随机抽样或一定规则的分类抽样选择语料,而是依据便利性原则,选取了网易公开课平台上的“南昌大学公开课:现代汉语与社会生活”1的视频作为语料的主要来源。该课程由徐阳春教授主讲,视频音质较高,普通话相对标准,杂音较少,有利于提高转写效率,减少转写错误。

相较于规范的书面语语料来说,口语语料的采写过程更为繁琐。本研究的采写流程为:

(1)转录。使用虚拟声卡工具Virtual Audio Cable配合声音处理工具Adobe Audition CS6对视频声音进行转录并处理保存。其中,采用内录的方式是为了保证声音质量的稳定,不掺杂外界噪声。

(2)转写。将处理过的音频文件导入“讯飞听见”平台,使用“语音转文字——中文机器快转”功能,利用语音识别技术,对声音文本进行前期处理。该步骤的识别准确率可保证在90%以上,能够较好地提升转写效率。

(3)加工存档。对转写后的语料进行精细加工,对照音频文件逐字逐句校对修正,标注停顿等符号,并储存为文本文档。

2.2 语料的标注

语料的标注分为两个层面:第一是语料基本性质的标注,以及语料的采集时间、分类等方面的标注。在这一层面上,汉语学术口语语料库对每一篇语料的标注包括以下6个方面。

(1)类型,包括课堂(这是本研究的试验性语料库的主要语料类型)、学术会议、学术报告等;

(2)学科,分为语言学、金融、计算机科学等;

(3)时间,指语言行为发生的时间,精确至月;

(4)地点,指语言行为发生的地点,精确至单位、组织和场合,如南昌大学、XX学术研讨会;

(5)说话人性别;

(6)说话人年龄,以10岁为单位进行分段分类,如20—29岁、30—39岁等。

语料标注的另一个层面为对具体的词、句子、段落进行标注。如上所述,进行语料标注的目的是研究语言现象,因此语料标注需要有较强的可拓展性和灵活性。本文认为这一层面的标注应坚持以下4个原则。

(1)标注分类明确可辨;

(2)标注符号可以全部或按照分类快速移除;

(3)可以通过标注符号快速提取相应分类的语料;

(4)标注系统具有较强的适配性和拓展性。

在口语话语标注时,通常会从以下4种标注系统中进行选取,包括:Bois的TD、Konrad Ehlich的HIAT、会话分析(CA)传统的转写系统和Brian MacWhinney的CHAT(刘运同 2016)。本文在参考上述标注系统的基础上,结合XML语言的形式与格式,同时以本文重点研究的课题为出发点,对以下口语特征进行标注。

(1)停顿,即口语表达中的自然停顿。在判断停顿时不仅依靠听力辨别,还依靠音频声波图中的静音时长辅助判断,在停顿处插入符号[P]表示。

(2)重复,即口语表达中的语言重复。用“”符号表示,例如:“连不起来有点杂糅[P]。”此处需要对标注符号的形式做一点简单的说明:在“”中,“df”表示一种标注的大类,此处“df”定义的是“口语中的不流畅”现象,也是本文主要标注的类别。“type='repeat'”中的“'repeat'”表示“口语中的不流畅”这一上层类别中的子类别“重复”,下文还会分别介绍其他次级子类。正如例句所示,标注时将需要标注的文本放置与两个尖括号中间,“”表示该标注的完成,“/”是结束的主要标记,在分析时用于提取和定位标注内容。

(3)口误,即在话语中表达错误,但没有进行修改或修改为其他不相关的内容。用“”符号表示,例如:“那么我们的课大学的课呢[P]跟高中那个时候呢[P]不同点在哪里呢[P]。”

(4)填充词,即用于语段间的停顿和过渡的内容。用“”符号表示。这类现象出现的次数较多,例如:“然后[P]那么A怎么怎么样就可以报考是这样的[P]。”

(5)未完句,即当前句子没有说完,重新说或转说其他句子。用“”符号表示。例如:“跟动作的关系最为[P]密切唉你同学们注意第一句没有[P]啊last year in May[P]。”

(6)替换,即在说话时觉得表达不够清晰完整,从而选择快速替换为意思相同或相近的内容。用“”符号表示,例如:“接着往下看[P]成分赘余[P]那就多余了[P]校门前是一条[P]很笔直的大道唉那不就这个很是多余的啦[P]”。

2.3 语料库的搭建

选择以LancsBox作为语料库的搭载平台开展相应研究。LancsBox是由英国兰卡斯特大学的学者们开发的用于语料数据收集、储存和分析的软件系统2。选取LancsBox作为搭载平台的理由包括以下几点。

(1)本地化处理自有语料;

(2)内置算法可以帮助开展分词、词频统计、关键词检索等语料分析的基础性工作;

(3)可将语料分析结果进行可视化展示;

(4)支持中文。

2.4 语料库的检索

2.4.1 语料库基本数据

语料规模:口语音频长度约200 分钟,转写文本(除各类符号)约10万字;

语料类型:高校课堂;

学科细分:语言学;

时间:2013 年4 月(根据网易公开课网站信息推算);

地点:南昌大学;

说话人性别:男;

说话人年龄:50—60岁(根据南昌大学公开资料推算)。

2.4.2 语料关键词检索

语料关键词检索功能通过LancsBox提供的前后文关键字工具KWIC(key word in context)实现。其具体功能包括以下几点。

(1)查询一个词或短语在语料中出现的频率;

(2)检索特殊的语言结构,例如关联词语、口语词、被动句等在语料中的分布情况;

(3)对检索出的语料条目根据具体需求进行分类、筛选和排序;

(4)在两个语料库中对检索数据进行对比分析。

在进行语料关键词检索的过程中,常用的检索方式包括以下4种。

(1)直接输入词或短语进行检索;(2)使用通配符“*”进行检索;(3)使用正则表达式;(4)复杂度更高的方法就是将通配符与正则表达式相结合。

在进行关键词检索时,语料库可以为研究者提供一些自定义的配置选项,下文详细介绍了几种常用的配置。

(1)对关键词左右显示词语数量的配置:默认显示7个词语,可通过自定义配置的方式更改该数值。

(2)初级筛选:研究者在得到相应检索结果后,如得到非常多的信息条目,可据此使用初级筛选配置,定位需要保留的信息条目或者排除带有干扰的信息条目。

(3)高级筛选:若研究者需要进行更为具体的研究工作,则需要限定更多的筛选条件,KWIC tools提供了高级筛选功能,可以对关键词及其左、右的各个词语进行条件设定,同时可进行正则运算。

3.汉语学术口语的词频统计分布与语义关联研究

3.1 词频统计分析

词频统计分析是词汇研究的重要方法,也是语料库研究中分析文本特点的重要方法。汉语词与词之间没有空格等符号标识词的边界,在做词频统计之前需要对汉语文本进行分词处理。本研究结合LancsBox自带的分词模型和Jieba分词模型对语料进行了分词处理。经过两种分词结果的词汇对照,在Jieba分词的基础上,添加自定义词典,并启用HMM模型3,将“是吧”“对不对”等词语准确地切分出来。本文使用Python程序语言引入Jieba模块进行相关的切词处理,在切词前已经将少量英文、阿拉伯数字等先行去除。

经过中文分词处理,相关语料总共被切出了25,902个词,本文对词频在前100的词进行分析研究。按照词频降序排列后的结果如表1所示。

表1 词频前100的词降序排列结果

(续表)

从统计结果看,词频最高的是“的”“啊”“是”“呢”“了”这些词语。众所周知,“的”在通用汉语中的词频本身就很高。“啊”“呢”等虚词在LCMC(Lancaster Corpus of Mandarin Chinese)汉语书面语语料库中的词频都在200以上4,语料库中“啊”和“呢”等词的高频使用,可视为汉语口语语料库的特征之一。

3.2 词语搭配网络分析

任何一个词语都不是孤立的。在不同的场景下,词语之间存在着某种特定的关系,这种关系很难通过只言片语或少量的文本发现,而运用语料库数据,语料的规模越大,越容易发现特定背景下的语言中词与词之间的特定关系,称之为词语搭配。

我们可以使用两种方法衡量语料库中词语间的关联程度:互信息(MI)和T值(T-score)。MI值可展示语料库中词语的共现频率与预期值的差异。用统计学术语说,这种方法可用来测量词x 和y 之间的关联强度。

但是,在词频非常低的情况下,用MI值测量词语之间关联强度的效果难以尽如人意。T值则可以避免这一问题,这种方法也将词频因素纳入了考虑范围。T值测量的不是关联强度,而是分析可以断言存在关联的置信度(confidence)。从实际的操作情况出发,MI值更可能赋予完全固定的短语以较高的分值,而T值则会产生出现频率相对较高的、特征鲜明的搭配词。

从本次搭建的汉语口语语料库情况来看,词语的出现频率并不低,并且本研究主要关注词语之间的关联强度而非置信度。同时,作者对两种计算方法进行了应用试验,发现MI值更为准确,因此本文选择使用MI值来测算词语之间的关联强度。

LancsBox支持的GraphColl能够便捷地提供MI值与T值的计算,GraphColl是由兰卡斯特大学社会科学语料库研究中心开发的跨平台工具,用于分析搭配网络,建立和研究词语搭配网络,MI值的计算方法如下。

MI=log((AB * sizeCorpus)/(A * B * span))/log(2)

试以“语言”这个词作为关键节点,将参数span(跨距)的取值设置为10(即到关键节点词的左边5个词和右边5个词,可以对这个参数进行调节),“语言”这个词语、与其相关的词语及关联强度可见于表2。

表2 “语言”及相关词语的关联强度

在“位置”一栏中,“L”表示该词出现在关键节点词左边的频率更高,“R”表示该词出现在关键节点词右边的频率更高,“M”表示该词出现在关键节点词的左边和右边的频率一样高。MI值越大,表示与词语“语言”的关联强度越大。

从分析结果中可以看出,与“词语”关联度最强的词是“功能”,常出现在“词语”的右边,即在当前语料中,“语言”和“功能”的关系紧密且顺序常为“语言”在前,“功能”在后。与“语言”关联关系紧密的词还有“形式(R)”“网络(L)”“民族(R)”“环境(R)”“规范(M)”和“交际(M)”等。

词语关联强度的结果可以通过GraphColl绘制成可视化网络图表,距离关键节点越近,则表示关联强度越高;节点颜色越深,代表该词的词频越高,详见图1。

图1 词语关联强度可视化网络

4.学术汉语口语的停顿单位分析

经过梳理,研究根据口语中的停顿将目标文本切分成5,739个停顿单位。需要特别注明的是,一些句子包含英文,英文在统计时会计算构成单词的字母数。例如句子“那么last year in May he went to Hong Kong”统计结果为38个字符。依据这一规则得到的计算结果不尽合理,因此在按停顿单位长度排序时,去除了包含较多英文单词的停顿单位,未将其纳入排序。

4.1 停顿单位长度分析

停顿单位的长度是指一个口语停顿单位所包含的音节数,用正整数表示。依据对当前语料进行的相关统计和排序6,最长的停顿单位包含72个音节,在11秒钟说完,每秒平均说出6.5个音节,其中有较多语言重复。长度在前20的停顿单位包含的音节数以及对应文本如表3所示。

表3 长度前20停顿单位的音节数及文本

(待续)

(续表)

从表3中可以看出,口语中的停顿越长,其话语中的重复、更正等不流畅的语言现象就越多、越明显。

当前语料的平均停顿单位长度为7.57个音节,据此将停顿单位长度分为1—3个音节、4—6个音节、7—9个音节、10—15个音节、16—20个音节、21—30个音节、31—40个音节、41—50个音节、51—60个音节、61—70个音节及71个音节及以上,共计11个停顿单位进行分段统计,其具体分布情况见表4。

表4 语料停顿单位长度分布情况

根据表4的统计分析可以看出,长度在1—15的停顿单位数量占绝对优势,占比达到91.3%以上。可见在学术口语中,长度在1—15的停顿单位更为常见。在这一区间中,长度为1—3和4—6两个区间段的停顿单位又相对较多,由此可以得出,短句在汉语学术口语或课堂语言中较为常见。

4.2 几种长度的停顿单位特点分析

根据表4可以看到停顿单位的长度集中在1—15这一区间上,若再进行一次细分统计,则可得到如表5所示的结果。

表5 停顿单位为1—15的细分统计情况

下面以停顿单位长度为3个音节的表达单位为例,具体从文本、频次和排序三个方面进行观察。

长度为3个音节的停顿单位共有441个,其中出现频率最高的为“对不对”,在441个句子中出现了45次,占比为10.2%。表6展示了按照频次降序排列的前20个停顿单位及其频次。

在长度为3个音节的停顿单位中,首先,高频使用的是用来进行发问的“对不对”“为什么”“是不是”等;其次,是用于引出解释和说明的“所以呢”“比如说”“可见呢”和“那就是”,也有用来引起听话者注意的“同学们”和“你看看”等,同时也不乏与学术内容相关的专业词语,如“普通话”和“共同语”等。

表6 频次降序前20个长度为3的停顿单位及其频次

5.小结

汉语学术口语语料库的创建和分析是一项充满挑战的研究。本研究参考了国外已建成的学术口语语料库的搭建逻辑,如英国学术英语语料库(British Academic Spoken English,简称BASE),并参照了国内部分口语语料库的转写和标注规范,搭建了试验性的学术汉语口语语料库。从语料的收集、音视频的转码、文字的转写到语料标注和入库,搭建语料库的主体环节基本完成。同时,还通过使用相关技术手段,提升了部分流程的效率,例如使用语音识别技术辅助声音转为文本,以及使用程序进行汉语自动分词等。所搭建的汉语学术口语语料库,能够执行检索、分析等研究功能。这项先导研究为大规模学术口语语料库的创建积累了宝贵的经验。

语料库的创建是一项复杂的工程,本研究也存在一些不足。第一,转写与标注的严密性有待加强。严格意义上说,转写文本和标注文本需要多人多层校对审核,以保证较高的准确率。第二,语料库的规模虽然已经超过8 万字(86,395),但对语料库来说规模仍然较小,在进行分析时一些偶然因素可能会导致结果存在较大的误差。

我们发现,即使是一个小规模的学术口语语料库,仍然可以为学术口语研究和教学提供许多有益的参考,例如通过对当前语料库的统计分析,发现汉语学术口语的句长以1—15个音节居多。另外,通过对停顿间的言语单位开展研究,本文发现了大量常用的固定表达方式,如“对不对”“就是说”“为什么”“所以呢”“是不是”等。上述信息不仅能够深化我们对学术口语的认识,也将为学术口语的教学提供真实而有效的素材,以帮助学习者更高效地掌握汉语学术口语。

注 释

1.见http://open.163.com newview/movie/courseintro? newurl=M8s7 JDCEP。

2.见http://corpora.lancs.ac.uk/lancsbox/index.php。

3.HMM模型,即隐马尔可夫模型(Hidden Markov Model,简称HMM),是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。在Jieba中,对于未登录到词库的词,使用了基于汉字成词能力的HMM模型和Viterbi算法。

4.LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。

5.标准离差率越小,偏离程度越小,词语在整个语料库中的分布更为广泛;反之,标准离差率越大,偏离程度越大,词语在整个语料库中出现更为集中。

6.音频链接https://pan.baidu.com/s/1BvrZDgk5Gcd_Wg3Dg2w1Yw,提取码:h7vt。

猜你喜欢
词频音节语料
基于归一化点向互信息的低资源平行语料过滤方法*
拼拼 读读 写写
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
藏文音节字的频次统计
词频,一部隐秘的历史
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
木管乐器“音节练习法”初探
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*