全玉珍, 李静峰
(广西大学 文学院,广西 南宁 530004)
北语HSK动态作文语料库的汉语作文口语化程度检测
——基于《现代汉语词典》口语词统计
全玉珍, 李静峰
(广西大学 文学院,广西 南宁 530004)
冯胜利先生2008年3月在《语言科学》发表了《汉语书面语体庄雅度的自动测量》一文,提出了汉语书面语体庄雅度测量的可行性方案,但在对外汉语领域所测量出的结果是否依然成立呢?文章在对外汉语领域中提出论证该测量结果是否科学有效的方法,即通过对留学作文口语化程度的检测来反向论证冯胜利先生的汉语书面语庄雅度测量的结果。主要方法为通过计算留学生作文中的口语词数量占作文总词数的比例来推断留学生的实际汉语写作能力,最终来从一个新的角度印证冯胜利先生的《汉语书面语体庄雅度的自动检测》的正确性。
口语词;口语化;庄雅度
冯胜利先生在其《汉语书面语体庄雅度的自动测量》一文中指出:“庄雅成分不仅可以表现文章的庄雅度,而且比较准确地反映出作文水平的高低等差。”[1]同时,冯先生也指出,“当然,还有哪些形式可以作为鉴定庄雅特征的补充成分,仍在进一步的研究中”;“我们面临的最终问题是,计算出来的庄雅度究竟有多大程度的可靠性”。对于这套检测系统,笔者也认为还有可以补充完善的地方。当我们在着眼于书面语词汇和句型的时候,是否可以反过来思考,即检测出文章的口语化程度,来作为庄雅度检测结果的一个补充和印证。文章的口语化程度越高,则庄雅度越低,反映出作文水平越低;文章的口语化程度越低,则庄雅度越高,反映出作文水平越高。然而,检测文章的口语化程度是否具有可行性呢?参照冯先生的论文,“我们将嵌偶词、合偶词及书面语句型作为体现现代汉语书面正式语体庄雅特征的主要语言成分,这些不同的庄雅特征不仅有理论的根据,同时也有数量极限(亦即有可穷尽性)。”在这话中,我们了解到,要具有可测量性,至少要满足两点:(1)有理论依据,(2)有数量极限。测量口语化程度的理论依据为:我们可以提取出文章中的口语词,计算出口语词占文章词汇总数的百分比,比率越高庄雅度越低,汉语作文水平越低。至于第二点,通过我们对《现代汉语》(第6版)中有标记和无标记的但又确实是口语词的词进行的统计,现代汉语中口语词的数量是有数量极限的。因此,从这个角度思考,我们统计口语词来反方向印证书面语体庄雅度的设想是具有可行性的。
汉语口语作为一种非正式语体,是人们日常口头交谈时使用的语言,是最早被人类普遍应用的语言形式,所有的民族都有口语。口语通常是通过声音传播的。根据需要,文学作品中也常以文字记叙口语。口语灵活多变,多因场合与发言者不同而被自由使用。因为发言者与听者同在现场,有时这种发挥不但不影响听者理解,反而能更生动地体现发言者心态,或使语言简洁化。与口语相对,书面语是在口语的基础上发展出来的,用于书面表达的语言。口语成为书面语言后则比较固定,语法更严谨,有利于准确地流传。“经过一段时间后口语和书面语差别就有加剧的趋向,原因是口语不断随时间与地方而变化,而书面语相对稳定。”[2]经过教育的人会从书面语学习中采纳严谨的语法用于口语,而书面语经过一段时间后也需要改变以适应口语的变化,否则懂书面语的人会越来越少。
因此,可以归纳出,口语的特征为:(1)同步性。即外部语言表达与内部思维是同步进行的,口语只是将思维外化了。(2)简散性。即常使用的是一些散句、短句,有时可使用体态语表达结构松散。(3)暂留性。口语是通过声音传播的,而声音是瞬间即逝的。(4)临场性。时空是特定的,说话必须符合时间和空间并受其制约,比如讲课,不同于演讲、也不同于讲故事,要受到这个时空约束。(5)综合性。系统的综合,说话时语言、声调、态势语要综合考虑,系统的综合要求在说话时要调动各部分的积极性来完成说话内容,且各部分、各系统要有整体感、协调感。
面对口语的这些特征,要打算测量留学生中对口语词的使用情况,就要首先弄清楚,书面语是如何口语化的。书面语口语化有三个主要途径:
(1)书面语中的单音节词在口语里要变成双音节。比如,书面语“此时”,口语表达就要用“这个时候”。
(2)文言词变白话词。就是说,第一要把单音词变多音词,第二要把文言变白话,例如书面语“良久”,口语就只能说“很久”。
其中,(1)(2)这两个途径与冯胜利先生《汉语书面语体庄雅度的自动测量》(2008)一文2.1部分韵律语法体中介绍的汉语韵律体系i)相呼应,“韵律语法:如果该语言的计算系统(Computational System)必须在韵律规定的条件下才能合法运作的话,那么这种语言的语法就是韵律语法,亦即韵律制约下的构词造句法。单音节不足构成一个音步因此不成韵律词,故古语必双而后独立(如‘果知’)”。
(3)书面语停顿靠标点符号,口语靠情感的处理、靠语气的变化。“把书面语的停顿变成口语的停顿,要靠词于词、句子与句子的间歇时间来表现,而且远远多于书面语的停顿时间。”[3]这途径与冯胜利先生《汉语书面语体庄雅度的自动测量》(2008)一文2.1部分韵律语法体中介绍的汉语韵律体系 iii)相呼应。即“文章的内容越庄雅,韵律词的要求就越严格”。
《现代汉语词典》比较全面地总结了汉语词汇,其中必然包括书面语和口语的词条。为了下一步有效地进行留学生汉语作文中口语词的计算和测量工作,专门对《现代汉语词典》中的所有词条进行了筛选,严格按照标准挑选出了六类口语词,它们分别是:(1)标口词。即《现代汉语词典》中明确标注出为口语词的词,共计947例。(2)未标口词。即《现代汉语词典》中未进行口语标注,但在实际的语感中,被认为是口语词的词,共计1816条。(3)轻声词。明确标注为轻声的词,共计1893条。(4)儿化词。明确标注为儿化的词,共计1923条。(5)语气词叹词拟声词等。明确标注为语气词、叹词、拟声词的词,共计 263条。(6)方言词。明确标注为方言词的词,共计1830条。
留学生在进行汉语作文写作的过程中会有意无意地使用汉语口语词,“统计作文中的口语词可以在一定程度上反映出留学生的汉语水平及书面语写作能力”[4]。对于这一部分的统计分析,采用的方案是在北京语言大学HSK动态作文语料库[5]中按照留学生的作文成绩进行分级检索,分别分为60-69分、70-79分、80-89分、90-100分这四个分类,每个分类取样50条,共计留学生作文200篇。在不同的分类中筛查出留学生作文中所使用的《现代汉语词典》中挑选出的口语词的数量。我们采用公式“口语词比率=口语词出现数/作文总词数”[6]来计算留学生作文的口语词使用比率。在不同的等级分类中,口语词的出现情况分别如下:
(一)90-100分档
这一档的留学生母语背景为:加拿大、美国、菲律宾、日本、越南、韩国、印度尼西亚、泰国、英国、法国和俄罗斯。
50篇留学生作文中,出现的口语词为以下统计数据:
老师、孩子、早上、什么、女孩子、香香的、差不多、这个、孩子、慢慢、时候、小孩、老师、老师、孩子、什么、一点、巴士、差不多、没错、孩子、老师、明白、艺人、早上、短短的、满、什么、打发、开心、不错、也好、也罢、早上、老师、东西、吃、打算、倒霉、同屋、耳旁风、漂亮孩子、老师、妈妈、妈妈、什么、慢慢、京腔、差不多、光、一下、一阵子、那么、抽烟、孩子、老师、爸爸、妈妈、特好、得了、什么、就算、说不定、爸爸、时候、孩子、老师、觉得、早点儿、玩意儿、老掉牙的、本来嘛、好听、什么、打算、时候、小小的、东西、时候、不得了、小孩子、随随便便、真的、不见得、没问题的、一来是、二来是、好玩的、怎么、多少、孩子、什么、觉得、院子、小孩、时候、不错、咱、聊天、摸不着头脑、什么、实在、时候、不错、喜欢、开心、日子、够、痛痛快快、哥哥、多么、外婆、屋里、聊天、什么、爸爸、妈妈、爷爷、姨婆、怎么、给吓坏了、赶紧、小花脸、时候、孩子、叫、听话、当中、真是、喜欢、多么、那么、歌儿、时候、反正、不太、喜欢、倒、什么、孩子、怎么样、框框、爸爸、妈妈、娘、爷、孩子、见不得人、好冷、片子、孩子、一块儿、聊天儿、心眼里、有点儿、是在、多么、不错。
该分数段的留学生作文词数,最少为201词,最多为414词,口语词出现比率最低为0,最高为印度尼西亚90分作文出现了12个口语词,占总次数311的比率为0.03858。单篇作文中,出现最少的口语词数量为0,最多为12词,其中,0口语词的学生9个,分数为95分6人,90分3人。可以看出,此分数段的学生口语词数出现为0个时,95分的人数远远大于90分人数。这在一定程度上印证了假设:口语化程度越低,书面化程度越高,留学生汉语能力越强。
(二)80-89分档
这一档的留学生母语背景为:美国、俄罗斯、新加坡、韩国、马来西亚、日本、泰国、加拿大、印度尼西亚、缅甸、越南、瑞士、突尼斯、塔吉克斯坦。
50篇留学生作文中,出现的口语词为以下统计数据:
东西、孩子、孩子、东西、烟味儿、抽烟、觉得、假如、吃饱、胡乱、爸、妈、担心、操心、孩儿、舒服,忽略、恼人的、硬把、搞绿化、纰漏、主见、冤大头、怪谁、吐吐气、这儿、挑水、懂了、中国话、别人、做饭、主意、孩子、老师、事情、喜欢、身边、变、一般、感兴趣、什么、想法、好听、说说话、多么好啊、不懂、一团、好处、新鲜感、一团、好处、做不出来、一路来、不再、一对对、变成、一起、死了、女孩子、一些、小事、一起、读书人、多半、对的、一生下来、还小、一般、别人、孩子、了不起、谈谈心、上次、说过我、小朋友、说一下、这一点、看法、太早、升上、谢谢、感觉到、图、了不起、大家、好学、老师、怕怕、没有意思、逃学、有意思、别人、李老太、孩子、抱怨、担心、一点、挨饿、那些、天天、办法、哪儿、不好的、害自己、抽烟、不抽、快活、扎到、妈妈、爸爸、老师、孩子、做人、对的、做生意、不景气、逃跑、大声、顺眼、担心、得、喜欢、感兴趣、心情不好、挺不错、怪不得、不懂、想象不出来、听到、散散心、分寸、好吃、孩子、回来、算是穷、孩子、小时候、孩子、一起、坏事、不然的话、各演各的、孩子、不应该的、如果要、还得了、实在、抽烟、也好、发达起来、来抽、抽烟、坏处、比如、坏的。
该分数段的留学生作文词数,最少为192词,最多为422词。口语词出现比率最低为0,最高为韩国85分作文出现了8个口语词,占总次数283的比率为0.02826。单篇作文中,出现最少的口语词数量为0,最多为越南80分作文出现了8个口语词,其中,0口语词的学生4个,分数为85分3人,80分1人。同样的,这在一定程度上印证了假设,口语化程度越低,书面化程度越高,留学生汉语能力越强。
(三)70-79分档
这一档的留学生母语背景为:美国、加拿大、韩国、英国、印度尼西亚、泰国、蒙古国、菲律宾、新加坡。
50篇留学生作文中,出现的口语词为以下统计数据:
老师、孩子、那儿、小孩子、多么、小大人、小男孩、小女孩、老师、小孩子、嘴巴、脚、画画、外婆、爸爸、妈妈、老师、孩子、老师、孩子、跟、觉得、看不起、老师、孩子、爸爸、什么、东西、好好、什么、开开心心、喜欢、坏处、相当、喜欢、开心、一些、什么、孩子、老师、嗓子、出名、早上、功课、这么、小年青人、小青年、外甥女、奶奶、跟着、开心、喜欢、哥哥、妹妹、摇头晃脑、学坏、喜欢、喜爱、一点儿、光、喜欢、小孩、什么、喜欢、差不多、七点半、妈妈、爸爸、喜欢、红、有点、好的、坏的、小孩、喜欢、脸蛋、怎么、味儿、嘴巴、讲一讲、喜欢、高兴、坏话、好的、坏的、那种、讨厌、平时、一下、有时候、喜欢、光碟、听一听、唱一唱、开心。
该分数段的留学生作文词数,最少为167词,最多为367词。口语词出现比率最低为0,最高为美国70分作文出现了8个口语词,占总次数226的比率为0.03539。单篇作文中,出现最少的口语词数量为0,最多出现了8个口语词共有3篇,为70分两篇,75分一篇。至少这个数据证明,留学生作文中口语词越多,口语化程度越高,书面化程度越低,汉语能力越低。
(四)60-69分档
这一档的留学生母语背景为:澳门地区、英国、瑞士、澳大利亚、印度尼西亚、泰国、蒙古国、西班牙。
50篇留学生作文中,出现的口语词为以下统计数据:
本来、对的、有用、才能、喜欢、谁都能、十分、到底、甚至、容易、平常、长处、意思、恐怕、尽量、从、一直、总是、几乎、还是、简直、而且、难听、生气、才会、不可能、习惯、吃了、听听、当成、还小、好好、从小、也是、真的、总是、总觉得、好听、等等、很乱、才会、只要、一些、就像、除了、不但、吃香、个个、但是、而且、自从、多半、感到、即使、凡是、哼哼、还算、一般、惊呆、不管、不算、比较、从小、轻轻地、几乎、也会、不算、在乎、过去、虽然、随着、顺口、可见、对着、只要、喜欢、自从、开始、忽然、一些、说是、老人家、有意思、迷住、好听、心窝、认为、想起、一些、一直、还算、不仅如此、喜欢、都有、迷上、这些、都是、变成、不少、有些、喜欢、肯定、没有、好玩、来说、才会、慢慢、不可能、等等、数不尽、总是、喜欢、看法、好听、往往、喜欢、感到、听听、容易、看法、认为、凡是、都有、总是、听听、调子、容易、几乎、好长、喜欢、不一定、技术到家、喜欢、容易、好听、一些、看法、一般、老土、跟得上、说过、不行、听一听、唱一唱、不算、看不见、走下去、这儿、喜欢、不太好、不好、好的、坏的、看法、喜欢、不错、迷住、买了、弄得、散了、没什么、喜欢、好处、为了、好处、好好、从小、喜欢、一听到、很好、不少、有空、保、喜欢、觉得、绝对不会、往往、好的、一般、喜欢、好听、最近、听不懂、大部分、实在、还有、呵呵、好不好、谈到、等等、还有、喜欢、禁不住、变得、也是、认为、觉得、据我所知、变成、有时、除了、喜欢、听不懂、迷住了、听得懂、对我来说、小小的、放开、喜欢、最多、一点也不、唱个不停、害处、喜欢、不知道、大道理、最大的、没有、一有空、总被、有名、伙伴、喜欢、不像、认为、十分、看法、不要、好的、太大、听听、不太、喜欢、画儿、看看书、看不起、不要、说起、听说、不像、搞坏、没错、喜欢、觉得、不好、都是、还要好、好处、常常、明明、没有错的、就会。
该分数段的留学生作文词数,最少为127词,最多为356词。口语词出现比率最低为0.0093,最高为印度尼西亚65分作文出现了12个口语词,占总次数239的比率为0.05029。单篇作文中,最多出现了12个口语词的作文共有2篇,均为60分,出现最少的口语词数量为2个,共4篇,全都是65分。这个统计数据显示,留学生作文中口语词的数量和分数成反比,口语词的多少与留学生汉语写作能力有相关性。
通过一系列的数据统计,我们可以明显看出,在60-69、70-79、80-89、90-100这四个分数段中,留学生作文中口语词的多少与作文成绩成负相关。留学生的作文中,口语词越少,书面化程度越高,留学生的汉语写作能力越强;口语词越多,书面化程度越低,留学生的汉语写作能力越低。因此,通过考察留学生作文中的口语词比率来反方向推断留学生书面语的使用能力是可行的。在对外汉语领域的实际操作过程中,可以将留学生作文的口语化比率作为反映其书面语掌握程度的佐证。
[1]冯胜利,王洁,黄梅.汉语书面语体庄雅度的自动测量[J].语言科学,2008(2):113-126.
[2]刘圣心.高级阶段留学生书面语体意识的考察与培养[D].广州:暨南大学,2008.
[3]叶景烈.略论现代汉语书面语体[J].上海师范大学学报(哲学社会科学版),1990(2):133-137.
[4]王慧.泰国学生写作书面语情况分析及教学对策[D].上海:上海师范大学,2013.
[5]北京语言大学.北京语言大学 HSK动态作文语料库[DB/OL].(2010-10-04)[2016-02-10].http://www.hanyu123.cn/html/c7/ 288.html.
[6]汲传波,刘芳芳.留学生汉语书面语中的口语化倾向研究[J].语言教学与研究,2015(1):31-37.
The Colloquial Test of Chinese Compositions in HSK Dynamic Composition Corpus—Based on Colloquial Words of Modern Chinese Dictionary
QUAN Yuzhen,LI Jingfeng
(College of Liberal Arts,Guangxi University,Nanning Guangxi 530004,China)
Mr.Feng Shengli published“Automatic Detection System on the Polished and Formal Degree Test of Chinese Written Language”in Linguistic Sciences in March,2008.In his paper,he put forward feasible programs for testing the polished and formal degree of Chinese written language.However,whether the results concluded in TCSL field are correct or not is still a question.Therefore,this paper tries to propose methods to evaluate the results in TCSL field,which means to prove Mr.Feng's results by the colloquial test on overseas students'compositions.Finally,Mr.Feng's results prove to be true mainly by concluding the actual Chinese writing level of overseas students from the ratio of colloquial words in the their compositions.
Colloquial Word;Colloquialization;Polished and Formal Degree
H195.1
A
1009-8666(2017)01-0036-05
10.16069/j.cnki.51-1610/g4.2017.01.007
[责任编辑:王兴全]
2016-10-11
全玉珍(1992—),女,广西桂林人。广西大学文学院硕士研究生,研究方向:汉语国际教育;李静峰(1977—),女,广西河池人。广西大学文学院副教授,博士,研究方向:语言文化及语言教学。