基于NLPIR汉语分词系统和BFSU PowerConc 1.0的警务汉语词频与搭配研究
——以禁毒案件为例

2017-01-20 01:14□孙
现代语文 2016年36期
关键词:高频词近义词词频

□孙 琳

基于NLPIR汉语分词系统和BFSU PowerConc 1.0的警务汉语词频与搭配研究
——以禁毒案件为例

□孙 琳

警务汉语教学是专门用途汉语教学的新兴分支。本文以禁毒案件为例,使用NLPIR汉语分词系统和语料库检索软件BFSU PowerConc1.0统计禁毒案件高频词作为参照,与现有警务汉语教材相关课文的生词表对比,考察高频词命中情况。同时,以高频词表中出现的一组近义词为例,使用语料库软件分析其搭配特点,辨析词义,探索将语料库应用于专门用途汉语教学的新思路。

警务汉语 语料库 词频 搭配

一、引言

警务汉语属专门用途汉语,是国际汉语教学领域新兴的教学分支。近年来国际警务合作日益频繁,为更好地打击国际犯罪,提高合作效率,2006年9月,中国公安部国际合作局委托北京外国语大学中文学院开办执法联络员汉语培训项目。这是中国长期(为期一年)、系统地开展警务汉语教学的首次尝试①。发展近十年来,警务汉语在课程设置和教材编写方面积累了经验,但尚未对教学方法和教材编写进行系统的研究。以词汇教学为例,警务汉语词汇的甄选原则是什么?哪些词汇是教学重点?如何处理大量同现的近义词?这些问题都有待回答。

基于语料库的汉语教学研究提供了解决问题的新思路。据郭曙纶(2013)梳理的目录,汉语语料库已被应用于汉语本体研究、汉语教学研究、教材编写以及词典编纂②。特别是在统计字频词频、研究词语搭配方面,语料库语言学研究方法与传统语言学研究相比,具有快捷、精准、解释力强的优势。警务汉语多见于警务新闻和警务报告中,案件分类清晰,文本相对集中,容易采集整理。通过自建小型语料库来研究警务汉语词汇、辅助词汇教学是可行的。本文以禁毒案件文本为例,使用NLPIR汉语分词系统和语料库检索软件BFSU PowerConc 1.0考察警务汉语高频词汇和词语搭配,并与现有教材收录的词汇进行比较,以期为警务汉语教学提供有益的参考,也为专门用途汉语教学研究探索一条新路。

二、研究方法

(一)研究工具

1.NLPIR汉语分词系统

本文使用NLPIR汉语分词系统2016版在线大数据搜索与挖掘平台③统计词频和切分生词。该平台可在抓取文本后一键实现文本分析,显示内容包括分词标注、实体抽取、词频统计、文本分类、情感分析、关键词提取、相关词导图(Word2vec)、依存语法、繁简转换、自动注音和摘要提取等。研究重点使用分词标注和词频统计功能。

2.BFSU PowerConc 1.0

本文使用语料库分析软件BFSU PowerConc 1.0统计分析词语搭配。PowerConc 1.0支持包括汉语在内的多语种语料,可以处理中文生语料、中文切分语料和中文标注语料,操作便捷,界面简洁。研究使用该软件处理中文切分语料。

(二)研究步骤

1.采集语料

警务案件分类繁多,本文仅以禁毒案件为例。上网采集2012~2014三年间公安部每年发布的十大禁毒案件报告作为语料样本,共计6077字。研究使用微型语料基于以下两点考虑:第一,禁毒案件报告来源单一,信息集中,语言特征明显。郑艳群(2013)指出,数据规模是无法决定数据结果的可靠性的。数据规模对研究结果可信程度的贡献主要体现在估计的显著程度上。因此,只要说明分析结果所依据的数据库的数据来源、语料特征以及数据规模即可④。第二,便于切分语料。本文研究目的不在于建立警务汉语语料库,而在于探索研究的新思路,提供新方法。小规模语料能够在短时间内完成人工切分,符合研究目的。

2.切分语料

切分语料分三步进行。

第一步,将生语料输入NLPIR汉语分词系统分析平台,完成自动切分。

第二步,人工复查切分结果,并使用“用户自定义词”功能进行调整。禁毒案件涉及法律术语、毒品名称等特殊专有名词,平台不能自动识别。如“冰毒”,自动切分时会作为两个词标记,需要人工修改过来。分词标注举例如图1。

图1:

第三步,根据调整后的分词标注生成切分语料文本,以空格分隔相邻的两个词。例如:

生语料: 云南公安机关禁毒部门成功侦破何定荣贩毒案NLPIR分词标注语料: 云南/ns公安/n机关/n禁毒/vn部门/n成功/ad侦破/v“/wyz何定荣/nr贩毒/vi案/ng切分语料: 云南 公安 机关 禁毒 部门 成功 侦破 何定荣 贩毒 案

注意将标点符号也同时替换为空格。带有空格的切分语料文本将用于BFSU PowerConc 1.0做进一步分析。

3.统计词频

NLPIR汉语分词系统的最大特点是,能够在生语料的基础上直接实现分词,统计出词频。在线平台自动显示名词、动词、形容词排在前十位的高频词。展现方式包括柱形图和折线图两种,也提供数据文本,即按照词频从高到低罗列所有高频词,并在后面标注词频数。

将切分语料文本导入BFSU PowerConc 1.0,再次统计词频。

4.调整高频词表

根据语料可以预测,某些已经学习过的词,如“公安”、城市名等,词频较高,所以在第一次统计词频后,剔除与禁毒案件关联不紧密的词语,二次生成高频词表。备选词首先从NLPIR的分词数据文本中选取相同词频或者最相近词频的词语,然后与BFSU PowerConc 1.0统计的词频列表对照,补足高频词表中的空位。

5.高频词对照

将调整后生词的高频词与现有警务汉语教材生词表对照,考察选词情况。

6.近义高频词搭配检索与分析

使用BFSU PowerConc 1.0检索语料样本中近义高频词例句,分析搭配特点,为近义词辨析提供教学依据。

三、禁毒案件词频统计

统计高频词的意义在于弄清禁毒案件文本中最常出现的警务词语有哪些。换句话说,在理解这类文本时,有哪些词语是反复出现、绕不开的。

(一)词频统计结果

经人工自定义调整后,使用NLPIR汉语分词系统统计词频,生成柱状图如图2。

图2:词频统计柱状图

词频列表见表1。

表1:词频列表

其中,“制贩”是两个动词的连用,不能算一个词,应剔除;“成功”显示了两个词频,使用BFSU PowerConc 1.0复查,发现NLPIR将“成功+v.”(如“成功破获”)和“成功+n.”(如“成功典范”)里的“成功”区别为两类,可合并在一起,统计词频数为26。

从表1可以看出,一些名词和动词在禁毒案件报告中使用频率非常高。最高频使用的形容词是“成功”,体现了警务报告凸显成绩的特点。从列表中的高频名词可以得到这样几条信息:2012~2014三年间,广东与福建是禁毒案件高发省,多为团伙作案,缴获的主要制毒原料以及毒品是麻黄碱和冰毒。再看动词,多为动补或动宾结构,强调结果;使用相同语素的近义词较多,如“禁毒、制毒、贩毒”“抓获、缴获、破获”“破获、侦破”等。形容词总体词频较低,出现的一组近义词为“缜密、严密、密切”。

从词频统计可以得出禁毒案件报告文本的基本特征:使用名词、动词频率较高;高频名词能够提供案件总体基本信息;使用相同语素的近义词(包括动词、形容词)较多。

需要指出的是,由于NLPIR汉语分词系统仅显示了名词、动词、形容词三类最主要实词的词频,一些其他词类的高频词并没有显示在其中,例如,区别词“非法”(23)、“特大”(20)等。

(二)调整高频词表

表1高频名词中,“公安、部门、机关、广东、福建”是已经学习过的一般警务词语,同禁毒案件联系不够紧密。另外上文提到,“制贩”“成功”也带来了两个空缺。以补足高频动词空缺为例,首先,查看NLPIR的分词数据文本。“制贩”词频为13,文本显示,词频相同的动词除“联合”以外,还有“配合”“摧毁”。接下来查看BFSU PowerConc 1.0统计得到的这两个词的词频,发现“配合”实际词频为15,而“摧毁”为13。通过查看索引行,发现有“/n的配合”与“/d配合”两类,NLPIR将前者标记为“/vd”,后者标记为“/v”,所以词频有出入。本文将其统一处理为动词,即“配合”词频为15。名词、形容词的选取也用同样的方法。补足空缺后生成表2。

表2:禁毒案件高频词表

需要说明的是,名词在按词频甄选时,没有收入以下高频词:“省(19)、公安部(14)、公安局(13)、案件(13)、人(12)、云南(12)、湖南(11)、警方(11)、山东(10)、河南(10)、市(9)、湖北(9)”。本文统计高频词语,目的在于为警务汉语教学服务,而这些词语为一般警务词语或者省级行政区名称,与禁毒案件关系不够密切,故剔除。表2收入了更多毒品和制毒化学品名称。

(三)与教材生词表对照结果分析

本文选取两本教材中禁毒相关课文的生词表:

1.《警务汉语·专业篇·高级》⑤第九课《加强对毒品的打击力度》,下简称“专业篇-9”;

2.《警务汉语视听说》⑥第一课《缉毒》⑦,下简称“视听说-1”。

两课生词列表见表3。

表3:禁毒相关课文生词列表

以表2作为参照,生词表命中的高频词如表4。

表4:生词命中高频词表

从高频词命中结果来看,专业篇-9好于视听说-1。从词类来看,名词、动词均有命中,而形容词为0。这与本文使用的语料样本和两篇课文的语体有关。语料样本是公安部发布的官方信息,属于公文语体,书面语色彩很浓;注重陈述事实,突出结果;因为都是重案、要案,倾向使用形容词来加强表达力度。专业篇-9课文内容包括一篇采访对话和一篇阅读,内容主要是介绍我国毒品犯罪基本形势和“金三角”地区的新毒情;既有比较正式的访谈语体,又有书面语体,以客观介绍为主。视听说-1使用重庆卫视《拍案警世》中一则禁毒案件纪实作为学习内容,其中包括主持人的解说、办案民警的口述等,口语风格明显。由于不同课程侧重训练的技能不同,课文编排时选择的材料必然有差别。另外,一些高频词没有出现在生词表中,是因为在此前的警务汉语课程中已经学习过,如“犯罪嫌疑人、团伙、窝点、配合、抓获、破获”等。毕竟禁毒案件只是诸多案件中的一类,上述词语在警务汉语中是通用的。另外,虽然两课生词表高频词命中数都不多,但不难发现,专业篇-9命中的高频词与禁毒案件的相关性更高,而视听说-1命中的则是通用警务汉语。因此,视听说-1在根据案件纪实视频选择生词时,应该特别注意与禁毒案件的相关度。

四、基于搭配的近义词辨析——以“抓获”“缴获”“破获”为例

搭配与语言应用的领域有关。Smadja(1993)将“领域相关搭配”(Domain-dependent collocations)作为单独的一类⑧。这类搭配有两种情况,一种是含有外行人完全听不懂的专业词汇,一种则是词汇易懂,但组合在一起却完全不是外行人理解的意思。相比之下,前者只要通过专门学习就可以掌握,警务汉语就属于这一种。通过词频统计可以看出,警务汉语中存在高频出现的含有相同语素的近义词。相同的语素能够提供理解和记忆的线索,不同的另一半则带来语义的差异。掌握这类近义词是学习警务汉语的重点也是难点。本文以“抓获”“缴获”“破获”为例,使用BFSU PowerConc 1.0索引功能,在语境中考察这些动词与宾语的搭配情况,为警务词汇教学提供参考。

首先,考察“抓获”后面宾语的情况。导入空格语料文本后,在索引栏内输入“抓获”,搜索显示所有含目标词的句子列表:

如图选择R1,考察“抓获”后面第一位的词语,显示如下图:

结果一目了然,“抓获+犯罪嫌疑人”出现次数非常多。再用对数似然率(log-likelihood)考察其搭配强度:

“犯罪嫌疑人”与“抓获”的对数似然率为298.0508,远远高于其他词。因此可以确定,“抓获+犯罪嫌疑人”是一组强搭配。

同理,考察“缴获”后面第一位词的情况,如图:

结果表明,“缴获+毒品名称”是最常见的搭配。

最后来看一下“破获”后第一位词的情况:

搜索结果不能显示出“破获”与后一位词的强搭配关系。通过索引句列表可以看出,在“破获”后面的词组其实是案件的名称。如果将这些名称作为专有名词来处理,即内部不进行切分,“破获+……案”的搭配强度明显增加。

综上,在禁毒案件中,“抓获+犯罪嫌疑人”“缴获+毒品名称”是强搭配;“破获+……案”虽然是强搭配格式,但标记不明显,“案”前大量涉及案件信息的限定词语可能对学生识别这一搭配造成干扰。使用BFSU PowerConc 1.0提供含近义词的索引句列表,能够清楚地呈现目标词与后位词的搭配关系和搭配强度,这对于教材编写、预测学习问题、教学中帮助学生迅速掌握近义词词义和使用上的区别都十分有意义。

五、结语

专门用途汉语需要自己的语料库。首先,语料采集难度适中,语料库的构建有可行性。以警务汉语为例,案件有明确的分类,各类案件报道、报告文本集中;案件侦破过程的采访、纪实类影音文件在网络上也很容易获得,而且普遍配有字幕,获取文本的难度不大。第二,基于专门用途汉语语料库的词频统计,为教材生词的甄选提供依据。目前警务生词的选取主要基于编写者的主观判断,从研究结果来看,并非不可取,只是编写者使用的材料或者编写的内容会有局限。如果能够把语料库统计得出的高频词作为基础,再补充进其他相关生词,教学的重点会更突出,学习内容的针对性和实用性也会增强。第三,词频统计还能为课文内容的编写提供信息线索。例如,禁毒案件高频名词可以显示案件高发省份、主要毒品种类等信息,这样在编写课文时,就能把握好搜集信息的方向,兼顾内容的可学性和真实性。第四,语料词频受文本语体特征影响非常大,建立语料库时应标记语体分类,这样才能为侧重点不同的课型的教材编写提供更有针对性的信息。第五,专门用途汉语语料库还可以应用于教学。仅以考察近义词搭配为例,如果建立起界面简洁、操作方便的专门用途汉语语料库,学生就可以自己使用索引查找大量例句,辨析词义,总结哪些是高频搭配。有语料库工具作为辅助,教师在课堂上可以由讲授者变为引导者和指导者:一方面引导学生自己探索发现一般规律,变被动听讲为主动学习,带着问题来上课,提高课堂学习效率;另一方面对学生自主学习的情况提供反馈和指导,投入更多精力指导学生提高听说读写技能。

本文是对警务汉语词频和搭配研究的初探,存在以下不足:(一)语料样本较小,语体风格单一,统计出的高频词语作为与教材生词的对照解释力不足;(二)仅以禁毒案件为例,不能反映警务汉语的全貌;(三)搭配研究暂时只考察了近义词的动宾搭配,宾语只考察了动词后一位。动词与前面词语、后几位词语的搭配情况如何,在警务汉语中这类搭配有没有普通汉语中未见的特点,其他词类搭配有什么特点等等,这些问题有待研究。

注释:

①池宇.警务汉语教学与教材编写初探[J].人文丛刊,2013,(0).

②郭曙纶.汉语语料库应用教程[M].上海:上海交通大学出版社,2013.

③NLPIR汉语分词系统是北京理工大学张华平博士开发的免费自然语言处理与信息检索共享平台,网址为http://ictclas. nlpir.org。

④郑艳群.语料库技术在汉语教学中的应用透视[J].语言文字应用,2013,(1).

⑤张京京、池宇编写,执法联络员汉语培训项目专用教材,待出版。

⑥笔者编写,执法联络员汉语培训项目专用教材。

⑦以视频字幕转写文本作为课文内容。

⑧Frank Smadja.Retrieving Collocations from Text:Xtract [J].Computational Linguistics,1993,(19).

[1]池宇.警务汉语教学与教材编写初探[J].人文丛刊,2013,(0).

[2]郭曙纶.汉语语料库应用教程[M].上海:上海交通大学出版社,2013.

[3]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教育与研究出版社,2010.

[4]孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997,(1).

[5]许家金,贾云龙.基于R-gram的语料库分析软件PowerConc的设计与开发[J].外语电化教学,2013,(1).

[6]郑艳群.语料库技术在汉语教学中的应用透视[J].语言文字应用,2013,(1).

[7]Frank Smadja.Retrieving Collocations from Text:Xtract[J]. Computational Linguistics,1993,(19).

(孙琳 北京外国语大学中国语言文学学院 100089)

猜你喜欢
高频词近义词词频
30份政府工作报告中的高频词
省级两会上的高频词
怎样辨析近义词
28份政府工作报告中的高频词
省级两会上的高频词
找找近义词
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*