语言信息处理与普通话水平测试语法研究

2015-03-28 18:40:02方永斌魏刚
红河学院学报 2015年1期
关键词:信息处理普通话方言

方永斌,魏刚

(云南师范大学文学院,昆明 650500)

语言信息处理与普通话水平测试语法研究

方永斌,魏刚

(云南师范大学文学院,昆明 650500)

普通话水平测试进入计算机处理阶段已经成为一种趋势和可能,然而在对普通话水平测试进行计算机处理的过程当中却困难重重,语法问题是首要解决的问题。立足语言信息处理对普通话水平测试的影响,重点阐述语法问题在普通话水平测试的计算机处理中的作用和地位,结合实际,对现实存在的语法问题进行分析和探究,并试图从中找到解决对策,以更加完善信息化的普通话水平测试。

语法;语言信息处理;普通话水平测试

前言

随着现代技术的发展,各领域都或多或少地进入了信息化和知识化阶段,语言学也进入了信息化阶段,也就诞生了语言信息处理这门学科。“语言信息处理,是用计算机对语言信息(包括口语和书面语)进行编码、转换、传输、解码、存储、分析等进行加工处理的科学。”[1]语言信息处理技术在现代化及信息化建设中的作用越来越引起人们的重视,它对现代汉语的研究也提出了更高的要求。

我国是一个多民族的国家,各民族的交流就需要民族间的共通语,我国的通用语是汉语普通话,汉语普通话(以北方方言为基础)就成为了我国五十六个民族间交流的通用语,与此同时,普通话水平测试也就显得更为重要。随着我国语言信息处理技术的不断进步,语言信息处理已经应用到了普通话水平测试上,面对国家倡导的努力学习普通话,大力推广、普及和使用普通话,完善和优化语言信息处理基础上的普通话水平测试已成为一项十分重要而迫切的任务。推广、普及和使用普通话一直是我国推行的基本语言国策,普通话水平测试又是这项国策的重要组成部分,而加快和促进普通话水平测试手段的现代化进程则具有重要的历史意义。

在现代科技的发展和支持下,语言信息处理应用到普通话水平测试上已成为可能,而当下的问题则是调和语言信息处理与普通话水平测试的“矛盾”,例如语音、语汇、语法、“说话”、地区间的不兼容等问题。在实行计算机式的普通话水平测试以来,虽然体现了普通话水平测试的进步以及测试手段的科学化和客观化,也在很大程度上减轻了测评员的工作负担,但也存在诸多问题,而语法问题尤为突出,尤其是在“说话”部分。在语言现象飞速发展的今天,语言现象也随之在“语言杠杆”周围徘徊,新语言现象的频繁出现,致使语法手段的“更新”,由此导致的语法问题也层出不穷。比如“很man”,“你走,先”等,因此导致在计算机在对测试对象进行测试时很难正确判断其说话内容的语法规则,同时,也不适合不同地区、不同地域的普通话水平测试,因此,在对普通话水平测试(PSC)进行计算机处理的过程当中,语法问题就显得尤为重要。

一 语言信息处理在普通话水平测试中的作用和地位

普通话水平测试(PSC)开始于国家语言文字工作委员会、原国家教育委员会、原广播电影电视部在1994年10月联合发出的《关于开展普通话水平测试工作的决定》的通知,2000年又通过立法手段对普通话水平测试加以强调。经过多年的努力,普通话水平测试工作取得了重大的进展和突破,普通话水平测试的各方面都得到了改进和完善,然而,普通话水平测试作为我国新兴而复杂的语言测试工程,与我国的汉语水平考试(HSK)及国内外其他一些著名的语言测试相比还显得不是很成熟,研究成果也不够丰硕,研究的领域也不是太透彻,还有许多方面需要我们区探寻和研究。在发展过程中,形势和任务的迫切性要求我们能够跨领域合作,采用新的研究手段和方法,解决在推广普通话工作中遇到的突出的理论问题与实践问题。

1986年1月召开的全国语言文字工作会议提出:“信息处理是一门新兴的边缘科学,有广阔的前景,加强这方面的研究,对经济、文化、科学技术的发展具有长远的意义,因此,当前语言文字工作的任务必须包括这项内容。”在语言文字工作当中要包括汉语汉字的信息处理,在普通话水平测试中同样也应该包含语言信息处理这一内容。在当前的社会形势之下,语言信息处理必须或应该纳入到普通话水平测试中,作为普通话水平测试的辅助手段,以响应国家对普通话推广工作的重视以及各项政策、法规,在提高普通话水平测试效率的同时强化其科学性和客观性。

随着推广普通话工作以及语言信息技术的进步,大部分地区已经采用实验语音学、语音识别技术和计算机技术作为辅助手段来进行普通话水平测试及评分。与此同时,把普通水平测试的考试管理工作接入现代化信息技术已成为趋势。然而,“虽有上海、湖北、黑龙江等省市在普通话水平测试科研和管理工作中引入现代化信息技术,但出现各地独立开发,重复建设、互不兼容、技术水平参差的不协调局面。”[2]这就需要解决各地方音与普通话语音的辩证分析,研发出一套完整而又适合全国各地普通话水平测试的信息管理系统。随着实验语音学、语音识别技术和计算机技术在普通话水平测试中的不断完善,国内已经开始着手语音库的建立,而且取得了丰硕的成果,“但这些语音数据库大多是面向信息处理领域。建立普通话培训和水平测试用标准语音语料库和‘中介语’语音语料库,尽快填补国内这方面的空白,并为深入开展测试研究提供一个技术平台,具有特殊的重要意义。”[2]由此可以看出,普通话水平测试在语音方面得到了较大的发展和重视,同时也在研究领域取得了重大的成就,但是相对于词汇、语法方面的研究就显得较为薄弱,在信息处理基础上的词汇、语法研究就更显薄弱。在此,可能会有人认为普通话水平测试是对字、词、语调等方面的语音的考察,语法便失去了应有的重要地位。在2003年颁布的《普通话水平测试大纲》就明确阐释了“普通话水平测试的内容包括普通话语音、词汇和语法”,语法在普通话水平测试中同样具有重要作用,在“说话”部分,除了考察语音、语汇外,同样也考察了语法,只是限于现在计算机信息处理的缺失,各方面还有待提高,尤其是需要计算机信息处理智能技术以及机器翻译的智能化技术的支持,因为“机器翻译系统是典型的自然语言处理系统”[3]。

综上,语言信息处理在普通话水平测试中具有重要的作用和地位。首先,语言信息处理技术的发展,一定程度上反映着我国信息化水平的提高,而运用到普通话水平测试中则大幅提升了测试的效率,促进普通话水平测试“质量”的提高,同时也减轻了测评员的负担。其次,目前而言,语言信息处理对普通话水平测试的语音考核已具备了较完整的管理系统,对测试中遇到的方音辩证问题起到了重要作用,用时也为语音数据库的建立提供了坚实的实践基础。再次,“信息、知识最大最直接的表示就是自然语言”[4],因此通过语言信息处理的发展,普通话水平测试的词语和语法问题同样会得到解决,而且,通过数据库的建立和计算机信息处理技术的智能化,“自然语言理解”也将取得成功。另外,语言信息处理技术的发展,促进着全国通用的普通话水平测试信息管理系统的建立,随着语言的发展而规范各种语法偏误,同时也与时俱进,时刻“更新”和容纳新产生的语法现象,进一步推进我国的普通话推广工作。

二 普通话水平测试(PSC)语法研究的必要性

普通话水平测试的内容包括语音、词语、语法,但是在实际测试当中,测评员有意无意地将重心放在了语音部分,考察词语朗读、短文阅读是都倾向于语音的考核。在“说话”中,由测评员实际测试还好,他们或多或少的会注意语法问题,而在计算机测试当中,计算机是依据语音、语调来确定汉字、词和句子,再借助语图来判断字词语音,而后再从多字或少字来判断连贯与否便评定成绩,语法问题的重要性的不到体现。

在实际的普通话水平测试中,把语音放在首位是合理的,因为“应试人普通话的口语水平首先体现在语音这个外显的物质外壳上,相对于语音,词汇、语法是更深层的两个系统,特别是语法直觉性小,隐蔽性最大。”[5]正因为词语、语法是两个深层次的系统,而语法又是直觉性小,隐蔽性最大的一个系统,这就更能说明,语法是考核不可或缺的一部分,通过对语法的考核才能真正体现普通话水平测试是一种以北方方言为基础,以“北方话词汇”作为基本词汇规范,“以典范的现代白话文著作作为语法规范”的汉语口语测试。

普通话水平测试是一种汉语口语测试,人们可能会进入一个误区,认为只要能够与会说汉语普通话的人进行普通话交流便达到目的。在日常生活中的交际中,人们可能不会太注重语法问题,而就算出现语法上的失误,人们也能够理解对方所要表达的意义,这主要是基于说话双方对于某一话题的前提和预设,这些都是说话双方在潜意识中就已经明了的东西,看来似乎语法的偏误在日常生活中并没有严重的不良影响。然而,在计算机进行的普通话水平测试当中却会出现很多问题。

普通话水平测试研究的现状及揭露的问题,应当引起对语言信息处理基础上普通话水平测试语法研究的重视。《普通话水平测试大纲》明确阐释了“普通话水平测试的内容包括普通话语音、词汇和语法”,但是自普通话水平测试借助计算机及语音识别等技术以来,语法在测试中就体现得不完整,这主要是由计算机技术的局限性所致。然而,“语法直觉性小,隐蔽性最大”,且又是《普通话水平测试大纲》明确阐释的内容,对普通话水平的考核具有重要的参考价值,又对中文信息处理及“自然语言理解”起到了极大的推进作用,因此,对计算机基础上普通话水平测试的语法研究就很有意义。

三 普通话水平测试语法研究对策及建议

推普工作已经成为了我国的一项基本国策,而普通话水平测试则又是推普工作的重要组成部分,语言信息技术的发展又为普通话水平测试提供了极为重要的辅助手段,促进着推普工作的不断完善。目前的普通话水平测试基本上都是以计算机为辅助手段,测试过程中遇到了诸多问题,而语法问题最为明显,针对这一问题,笔者结合前人的研究成果提出以下对策及建议。

(一)语言逻辑语法系统的建立

随着计算机的发展,人们对语言信息处理的要求越来越高,而语言信息处理的智能化则成为了人们的共同期望和要求,在普通话水平测试的计算机处理过程中,面对日益突出的语法问题,计算机的智能化成为了无数语言研究学者的共同期盼,语言逻辑语法系统的建立则能够为自然语言理解提供些许帮助,更能为普通话水平测试提供一个完善的语法系统。

“近30年来,逻辑的应用范围从数学和哲学扩大到语言学和计算机人工智能科学等领域,形成了所谓逻辑、语言和信息计算等学科的交叉研究。这种研究在西方被称作形式语义学或逻辑语法,自上个世纪70年代以来,其发展态势极为迅猛,以著名的蒙太格语法为开端,形成了广义量词理论、话语表现理论、情境语义学和类型—逻辑语法等理论。”[6]逻辑、语法、计算机技术的交叉和融合已成为当今语言信息处理的趋势,而且对于语言信息的智能具有重要作用。

就目前而言,普通话水平测试注重的是语音部分,词汇和语法部分相对薄弱,在“说话”的考核中也同样没有注重语法,语音同样占有了绝对的主要地位。造成这一结果的主要原因是当今计算机技术的局限性,计算机在对普通话水平测试进行语音识别等相关处理时,并不能灵活而又准确的判断其“说话”内容的语法问题,并能够做出相关分析和评判,最终对测试对象进行客观合理而又科学的考核和评定。语言逻辑语法系统是在计算机基础上进行并完成的,它是以自然语言作为对象,通过语言的逻辑语法来进行信息处理。在普通话水平测试中,以测试对象的录像作为对象,对其进行语法逻辑的信息处理,结合语音分析,综合评判测试对象的“语法”能力。

逻辑语法系统是一个极为复杂而庞大的系统,如果想在目前就达到自然语言理解,实现语法的人工智能,准确辅助普通话水平测试似乎还不可能,因为“自然语言远比人工符号语言复杂丰富得多, 很难在一个框架内对它的句法、语义乃至语用的方方面面进行统一处置” [8],同时也很难将这个复杂、庞大的语法系统融合在语言信息处理当中。实现庞杂的语法系统信息化还需要艰难的努力,更需要计算机的人工智能技术的支持,短时期达到是极为困难的,但构建反映汉语语义特征的系统却又是势在必行。

(二)方言词汇、语法数据库的建立

汉语普通话具有一定程度的地域性,全国分为七大方言区:北方方言区、吴方言区、粤方言区、闽方言区、湘鄂方言区、客家方言区、赣方言区,五大官话区:华北官话、中原官话、西北官话、西南官话、江淮官话。普通话水平测试虽说是以标准的汉语普通话作为评判标准,但是在针对不同官话区、不同方言区的普通话水平测试时,定会受到地方方言语用习惯的影响,从而出现了与标准汉语普通话具有差异性的语法现象。汉语普通话是建立在北方方言的基础上,恪守“以典范的现代白话文著作作为语法规范”的语法规则,在出现具有差异性的方言语法现象时,往往计算机是无法准确处理的。“要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的语法功能分析和语义搭配限制,综合利用现有的语法、语义资源,提取多义词的每个意义在不同层级上的各种分布特征”[7],那么,方言词汇、语法库的建立就显得很重要。

根据各地的汉语使用差异,构建实用的汉语方言词汇、语法数据库。在此数据库基础上,针对不同方言区的测试对象进行信息处理,虽不可能完全准确给予评定,但至少在信息处理上给予了普通话水平测试极大的帮助,使得普通话水平测试信息处理系统更加完善。建立具有地方特色的数据库就需要普通话水平测试及相关研究者的努力,建立汉语方言词汇、语法数据库同样是一个浩瀚的工程,它需要语言实体和计算机技术的支持,而要实现普通话水平测试信息系统的通用和全面兼容则更需要各方言区的汉语方言词汇、语法数据库的支持和糅合。构建汉语方言词汇、语法数据库的同时还要建立标准普通话的词汇、语法数据库,对方言词汇、语法的错误现象给予纠正。只有在标准普通话的词汇、语法数据库和各地汉语方言词汇、语法数据库的共同支持下,普通话水平测试“语法考核”的信息化才会成为可能。

(三)人机互动

《普通话水平测试大纲》虽然列举了普通话与方言常用词语对照表以及常见的语法差异,而各地的方言词汇、语法数据库也为普通话水平测试提供了方言语法的规范,但是在实际测试中却经常出现普通话与方言界定不清的情况,计算机又如何识别和处理呢?

“人工智能无论怎样发达, 却没有一台计算机能够完全代替翻译人才, 没有一个机器人能够接管严复、鲁迅、傅雷等翻译家的工作。其根本原因在于语言是文化的载体, 作为翻译对象的原文本所承载的种种涉及语言甚至超越语言的文化信息, 是人工智能所不能理解和表达的。”[8]普通话水平测试的本质是口语测试,口头语言不同于书面语,书面语严格遵守着语法规则,而口头语却是一边想一边说,“想”和“说”之间并不会有一个严格的逻辑分析,常常出现“反常语法”的现象,导致计算机进行信息处理时出现失误,这是人工智能或者是近期的计算机信息处理技术不可能解决的问题。语言本身就是一个复杂的系统,而运用在实际生活中则更显得复杂,想要在短时期内就处理和解决这一问题几乎是不可能的。此时,只能人工弥补这一缺漏,虽然说人机互动没有达到语言信息处理的目的,语言信息处理本质是脱离人工处理,进入纯信息处理的阶段,但目前的计算机技术并不可能达到这一目的,只有在普通话水平测试的各系统都达到完善,计算机信息处理达到相当水平的智能化方可实现。然而,人机互动同样也提高了普通话水平测试的效率,也减轻了测评员的负担,在有利的系统支持下,将使得普通话水平测试更加科学化和客观化。

(四)语法观念的规范

普通话水平测试中,测评员只是一个测试的监督人员和评定人员,对普通话水平测试的信息化过程的推动并不能起到关键作用,先进的计算机信息处理技术和相关语法系统的建立,以及方言词汇、语法数据库的构建只是一个辅助的工具,而测试对象语法观念的规范才能起到关键作用。

在进行普通话水平测试过程中,测试对象自觉遵守语法规则,自觉培养语用规范意识,那就使得对普通话水平测试的计算机信息处理事半功倍,加快其信息化进程,促进普通话水平测试的完善,同时加快其语法规范系统化和信息化进程。

综上所述,在计算机基础上的普通话水平测试中,要自觉培养语用规范意识,借助语言逻辑语法系统和方言词汇、语法数据库的构建,在此基础上,人机互动,以弥补目前语言信息处理技术的局限,进而规范计算机基础上的普通话水平测试的语法现象。

结语

在推普工作进行得如火如荼的今天,普通话水平测试越来越成为人们工作、生活、学习中必不可少的部分,而语言信息处理与普通话水平测试的融合则进一步推进了推广普通话工作的进程。在普通话水平测试的信息处理过程中,语法问题日益明显,进行语法的规范研究就显得十分重要。

面对日益突出的语法问题,应当在语法的规范意识基础上构建语言逻辑语法系统,建立以方言词汇、语法为主的数据库,以辨认和识别方言语法与标准普通话语法的差异,同时在必要的时候人机互动,以处理口语测试过程中出现的复杂的语法现象,达到普通话水平测试语法考核的科学化和客观化。然而,语法的直觉性小,隐蔽性最大,而且“语法知识的抽象程度较高, 规则和词语的语法属性信息对实际语言现象的覆盖面较广……为了实现自然语言理解, 最终当然要利用语义信息以及包括常识在内的语境信息。”[9]相信在不久的将来,普通话水平测试信息处理系统一定会更加完善,对语音、词汇和语法等进行的信息处理也会得到规范。

[1]杨瑞鲲,王渝光.语言信息处理与普通话水平测试[M].昆明:云南大学出版社,2010:6.

[2]王晖.普通话水平测试研究的现状及构想[DB/OL].中国语言文字网.http://www.china-language.gov.cn/89/2007_6_20/1_8 9_1177_0_1182321067328.html.

[3]俞士汶.自然语言理解与语法研究[M]//.马庆株.语法研究入门北京:商务印书馆,1999:241.

[4]毕玉德.面向语言信息处理的朝鲜语知识库研究[J].中文信息学报,2004,(3):28.

[5]王晖.普通话水平测试研究的词汇、语法问题探究[C]//.第二届全国普通话水平测试学术研讨会论文集,2004:167-168.

[6]黄新华,金立.面向信息处理的自然语言逻辑研究—皱崇理《逻辑、语言和信息》评介[J].哲学研究,2003,(3):92.

[7]王慧.机器翻译中基于语法、语义知识库的汉语词义消歧策略[C]//.第七届中国人工智能联合学术会议,2002:2-3.

[8]李传玲.语言符号和副语言符号的文化信息处理[J].辽宁医学院学报(社会科学版),2009,(4):96.

[9]谢四莲.语法知识在语言信息处理中的作用[J].娄底师专学报,2004,(2):30.

[责任编辑 鲁海菊]

Study on the Grammar problems in PSC on the Language Information Processing

FANG Yong-bin,WEI Gang
(Chinese language and literature college of Yunnan Normal University, Kunming 650500,China)

PSC in computer processing stages has become a trend and may, however, in the process of computer processing of PSC is difficult, grammar is the primary problem. Language information processing based on the influence of PSC, emphasis on grammar problem in mandarin level test of the effect and status of computer processing, combined with the actual, analyze the grammar problems of reality and explore, and tries to find the solution, with more complete information of PSC.

grammar;PSC;language information processing

H08

A

1008-9128(2015)01-0093-04

2014-04-20

方永斌(1989—),男,云南罗平人,硕士,研究方向:应用语言学。

猜你喜欢
信息处理普通话方言
方严的方言
东方少年(2022年28期)2022-11-23 07:09:46
东营市智能信息处理实验室
方言
今日农业(2021年15期)2021-11-26 03:30:27
基于Revit和Dynamo的施工BIM信息处理
留住方言
说说方言
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
我教爸爸说普通话
如果古人也说普通话
学生天地(2016年19期)2016-04-16 05:15:26