PHP简易中文分词系统对闽菜名的分词实验与结果分析

2012-04-29 03:01林梦虹
现代语文 2012年4期
关键词:菜名分词音节

林梦虹

摘 要:菜名作为专有名词的一部分,在计算机分词中,常属于“未登录词”部分。本文选取600个闽菜名为调查材料,测试PHP分词系统在对材料进行切分时的效率,分析该分词系统在菜名切分时存在的问题及问题的主要类别,试图解释造成分词结果错误的原因,提出解决思路。

一、闽菜名特点及对其进行正确的识别、切分的必要性

作为中国八大菜系之一的闽菜以福州菜为代表,另外包括闽南菜、闽西菜等。闽菜所选用的食材种类较为丰富,盛产海鲜的东南沿海地区擅于使用海鳗、蛏子、鱿鱼等海鲜为原料烹制各式菜肴,内陆山区则多用笋、香菇、鸡鸭等山珍野味。闽菜的烹调方式多样而又不失自身特色,擅长“炒、熘、煎、煨”等,“糟”是闽菜的一大特色。在命名活动中,符号化的“事物”需要得到社会的、心理的、文化的认同。只有经过“文化世界的折光”,抽象的所指才能和事物之间建立比较确定的联系,符号才能名称化,成为真正能够指代事物的名称。闽菜名作为标记具体菜肴的符号,或反映菜品的原料,如“萝卜鲫鱼”“鲟肉豆苗”,或表现该菜的烹调方式,如“炝糟鸡丝”,或运用比喻、借代等修辞手法展示该菜的特点,如“龙须燕丸”,或反映菜式的来源,如“福州鱼丸”,具有较为深厚的文化内涵。

有关是否应该对菜名进行切分的问题,存在不同的观点。《现代汉语语料库加工规范——词语切分与词性标注》中认为,食谱上的菜名等通常也是短语型的,若拆开了,意思差别甚远,则不切分,否则切分。即使不切分,也不看作专有名词,例如木犀肉/n,芝麻/n饼/n。本文认为,菜名应属于“专有名词”的范畴:首先,一个菜名往往与一个具体的、确定的菜品相互对应;其次,若以拆开后意义与原意的差别程度作为是否切分的标准,在实际运用时难以落实。

对于计算机分词系统来说,相当大一部分菜名属于“未登录词”,即词典中没有收录的词,而“未登录词”对于分词精度的影响是不容忽视的,因此对菜名进行相对准确的识别与切分是必要的。孙茂松、邹嘉彦(1995)指出,真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。通过相关的分词实验以及对结果的分析,本文认为能否正确识别菜名对分词结果也具有一定的影响,在进行机器翻译时,不能正确识别菜名的问题,会影响到翻译的准确性。大量菜名中包含“煎、炸、炒”等在实际语用中可作动词的烹饪方式,而自动分词系统在对菜名进行切分时,往往将菜名中的烹饪方式判断为动词,导致了切分错误或是词性判断错误。例如“肉烧白菜”这个菜名,若分词系统将“烧”判定为动词,本为名词性短语的菜名就被切分为“主语+谓语+宾语”的成分。又如福建名菜“佛跳墙”,若分词系统未能识别这是一个菜名的话,就很难得出合适的结果。另外,未能正确识别、切分菜名还可能导致其所在句子的错误切分。例如:“他爱吃西红柿炒鸡蛋。”如果分词系统不能正确识别“西红柿炒鸡蛋”这个菜名,就可能导致“他|爱|吃西红柿|炒鸡蛋”这样错误的切分结果。

二、本文调查语料的来源及基本情况

(一)语料来源

本文共收集了600个闽菜名称,主要来自闽菜菜谱及网络:

1.《家常闽菜1000样》

2.《中华名菜荟萃——闽菜》

3.美食天下:http://www.meishichina.com/Topic/CaiXi/MinCai/

(二)语料基本情况

本文所收集的菜名,包含福建境内不同地区的各式菜肴,涵盖了福州菜、闽南菜、闽西菜三大部分,所使用的食材包括海产品、河鲜、山珍等,烹调方式则包括蒸、烧、炒、熘、炸等。菜名音节数从二到七个不等,音节具体情况。

(三)PHP简易中文分词系统简介

本文在进行切分菜名实验时选用了PHP简易中文分词(SCWS)第四版在线分词系统,其链接为:http://www.ftphp.com/scws/demo/v4.php。相关资料显示这是一套基于词频词典的机械中文分词引擎,能将一整段的汉字基本正确地切分成词。它采用自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在90%~95%之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。SCWS采用纯C代码开发,以Unix-Like OS为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持GBK,UTF-8,BIG5等汉字编码,切词效率高。

三、PHP简易中文分词系统(第四版)对闽菜名的切分情况

“分词单位”也可称作“切分单位”,是指信息处理中使用的、具有确定的语义和语法功能的基本单位。《信息处理用现代汉语分词规范》中指出,分词单位包括了语言学中“词”的全部,如“火车”“学习”“更加”;以及满足某些条件的“词组”的一部分,如“牛肉”“一个”“越来越”。北京大学计算语言学研究所的《现代汉语加工规范——词语切分与词性标注》(1999年3月版)中指出,切分单位主要是词,也包括了一部分结合紧密、使用稳定的词组。邢福义先生主编的《现代汉语》对“词”的定义是:具有一定语音形式的、能独立运用的、最小的语言单位。只有少数菜名是直接由语言学上的“词”构成的,更多的菜名是由两个或者以上语言学上的“词”组合构成的名词性短语。所谓“名词性短语”,也叫体词性短语。性质上是名词性的,功能上跟名词相当,经常充当主语、宾语。

本文在使用PHP简易中文分词系统(第四版)对600个中文简体的闽菜名进行切分实验时,所选择的编码类型是GBK,并在复合分词选项下选择了“标注词性”的功能。在判断分词效率时,主要考查两个方面:1.一个菜名被切分后分词单位的数量;2.对于被切分后分词单位的数量为两个及以上的菜名则考虑系统对各部分的词性标注是否恰当。菜名作为一个整体,应该属于名词性成分,表示烹饪方式的那部分动词进入菜名作为其构成部分时,词性应该与原本的动词有所差别。

(一)不同音节闽菜名的切分情况

1.双音节闽菜名的切分情况

本文的分词实验材料中共有双音节闽菜名6个,被分词系统判定为一个分词单位的有三个,占总数的50%,其中,词性被判定为名词的只有2个,分别是肉松和素鸡,“姜鸡”被识别为一个分词单位,但词性被标注为人名(nr),其原因可能是“姜”除了表示一种食物以外,还可以作为姓氏使用。其余双音节菜名均被切分为两部分,并在词性标注上存在问题。“糟鸭”中的“糟”被判定为形容词,然而,“糟”字的词性一般情况下是形容词,意义与“好”相对,但在闽菜中,“糟”是一种特殊的烹饪方式。

2.三音节闽菜名的切分情况

在对104个三音节闽菜名进行切分时,分词单位个数为1且词性标注正确的闽菜名仅有“锅边糊”。另有“金鲤虾”“白片羊”等4个闽菜名被判定为一个分词单位,但词性被标注为人名。“糖/n什锦/n”“荔枝/n肉/n”“砂锅/n鸡/n”等38个菜名被切分为两个名词性成分的组合;“酿/v青椒/n”“醉/v排骨/n”“酒/n蒸/v鸡/n”等42个菜名中包含的烹饪方式被标记为动词;“扁肉燕”“红糟鸡”等10个菜名因包含“扁”“糟”等可作为形容词使用的成分,分词系统未能对其进行正确识别。除此之外,未能被正确识别的闽菜名还有“佛跳墙”“五柳居”等来源于相关故事典故的菜名。

3.四音节闽菜名的切分情况

材料中的四音节闽菜名共有285个,占总数的47.5%,是不同音节数菜名占总数的比重最大的,因此,四音节菜名的切分情况相对较为重要。被判定为一个分词单位的只有“游龙戏凤”“梅开二度”等4个借用成语的菜名。包括“白糖/n锅巴/n”“太极/nz明虾/n”“汤酱/nr草头/n”“包心菜/n卷/q”“甜/a山药/n桃/n”“葱/n烧鸭/n块/q”在内的181个四音节闽菜名被切分成几个名词性的分词单位。“红焖/v猪蹄/n”“生/v蒸/v龙虾/n”“炸/v核桃/n鱼/n”等24个四音节闽菜名被切分为动宾结构的动词性短语。“葱/n烤/v草鱼/n”“香/n炸/v苦瓜/n”“神仙/n整/v鸡/n”等32个四音节闽菜名被切分为“名词+动词+名词”的结构。另有“酥/a 猪肝/n 排/v”“鸡/n 茸/@ 蛎/@ 糊/v”等菜名在切分之后为“名词+动词”结构。

4.五音节闽菜名切分情况

材料中共有187个五音节闽菜名,占总数的31.2%,其数量仅次于四音节闽菜名。“白炒/nr龙虾/n片/q”“偏口鱼/n炖肉/n”“八宝/n书包/n鱼/n”等113个五音节闽菜名被切分为几个名词性的分词单位。“肉片/n烧/v茄子/n”“三/m丝/n拌/v糟/a鸡/n”“桔汁/nz加力/v鱼/n”等37个五音节闽菜名被切分为“名词+动词+名词”的形式。“和合/v大乌/nr参/n”“烤/v木笔/n鲳鱼/n”等21个五音节闽菜名切分后表现为动宾短语。“金黄/z栗子/nr松/v”“百合/n花生/n糊/v”等4个五音节闽菜名被切分为“名词+动词”形式。另有“肉片/n焖/@扁豆/n”“鸡汤/n汆/@海/n蚌/n”“大枣/n煨/@兔肉/n”等12个五音节闽菜名含有“焖”“汆”“煨”等系统不能正确识别的字词。

5.六音节闽菜名的切分情况

材料中的15个六音节闽菜名称都被切分成为若干部分,主要类型有名词性成分的组合,如“什锦/n蜂窝/n豆腐/n”;述宾结构,如“红焖/v通心/nz河鳗/n”;主谓结构,如“陵/ng岛/n生/v蒸/v龙虾/n”等。此外,“松脆”“酥”等对口感的描述性成分也被单独切分成一个单位。

6.七音节闽菜名的切分情况

因为音节数过多不方便使用和记忆,不利于人们快捷地提取有关菜品特色的信息等因素,七音节的菜名并不多见。实验材料中仅包含3个七音节闽菜名,分词结果分别为:“双/m冬/nr肉丝/n豆腐/n汤/n”“江东/nr鲈鱼/n炖/@姜丝/n”“莲蓬/n菠菜/n豆腐/n汤/n”。

(二)闽菜名切分结果的主要类型

通过对不同音节数闽菜名切分后结果的综合分析,可以归纳出以下6种主要类型:

1.若干个名词的组合

这类菜名主要构成部分是做菜的原材料,例如“酸梅/n藕/n”“白糖/n锅巴/n”“豆腐/n鱼尾/n汤/n”“什锦/n蜂窝/n豆腐/n”“蓬莱/n菠菜/n豆腐/n汤/n”等。

2.“动词+名词”式

这类菜名主要结构为“烹饪方式+原料”,例如“熏/v河鳗/n”“烧/v白鸽/n罐/q”“炒/v菠萝/n鸭/n片/q”“红焖/v通心/nz河鳗/n”等。

3.“名词+动词+名词”式

这种形式的菜名结构一般为“配料+烹饪方式+主料”,例如“酒/n蒸/v鸡/n”“枇杷/n拌/v鸡/n”“海米/n拌/v莴笋/n”等。

4.“名词+动词”式

被切分为这种形式的菜名,一般是由于以“冻”“煎”“排”“松”“扣”“糊”等具备动词性的词结尾造成。例如“土/n笋/n冻/v”“蚝/@子/k煎/v”“香油/n虾n/排/v”“五彩/n虾/n松/v”“五彩/n珍珠/ns扣/v”“百合/n花生/n糊/v”等。

5.直接借用成语或其他固定短语作为菜名

如“梅开二度/l”“吉祥如意/l”“百花争艳/i”等。

6.来源于典故、故事的菜名

系统往往未能正确识别这些菜名背后的典故,仅凭字面上的语法关系对其进行切分,造成了错误,例如“佛/n跳/v墙/n”“五/m柳居/nr”等。

材料中不同音节数闽菜名在以上六种主要类型中的分布情况。

根据上图可知,仅有极少数的闽菜名能够被分词系统识别为一个分词单位(不考虑词性标注正确性)。被切分为名词与名词相互组合结构的菜名数量最多,动宾结构的次之,另外,“名词+动词+名词”的形式也较为普遍。

四、分词结果可能带来的问题

(一)即便是由名词组成的菜名,其整体意义并不等于各部分名词意义的简单相加,因此对这类菜名进行切分时不合理的。根据实验结果,结合具体材料,可发现在被切分为名词的组合的那部分菜名里,存在一部分菜名切分后的意义与原本的意义出入较大。如“炒面/n线/n”,原本应划分为“炒/v面线/n”,但由于该词组存在交集型歧义,分词系统将其处理为“炒面”“线”这两个名词的组合,不符合该词组本来的意义。另一个例子“福州/ns肉/n燕/nr”中,“肉燕”本是福州地区一种类似馄饨的小吃名称,被切分开后意义发生了极大的改变。材料中的其他许多闽菜名,如“虾仁/n芙蓉/n蛋/n”“雪/n中鱼/nz”等,在被切分后意义都发生了不同程度的改变。

(二)对于被切分为“动词+名词”或是“名词+动词+名词”的菜名在进入句子后,分词系统对它们的判定仍然是动宾结构,可能导致这个句子其他部分的分词错误。在机器翻译过程中,这样的分词结果可能导致影响整句的翻译结果。例如“扒/v烧/v全/a鸡/n”这个菜名进入句子后的分词结果为“扒/v烧/v全/a鸡/n是/v道菜/n。/un”这个菜名在入句前后的标记结果未见差别,而实际上,这个菜名在进入句子后,应视作一个名词性成分。又如“粉丝/n烩/v鸡/n”这个菜名进入句子后的分词结果为“他/r喜欢/v粉丝/n烩/v鸡/n”,切分结果并不能很好地体现句子层次及语义内容,给机器翻译带来困难。

(三)“五彩/n虾/n松/v”“五彩/n珍珠/ns扣/v”等被切分为“名词+动词”结果的菜名则因为菜名构成部件存在多义性而导致的词性判断错误。在切分这类菜名时,分词系统存在明显的缺陷,对单个菜名的切分已经产生严重失误。

(四)分词结果为一个分词单位的那部分菜名中也存在问题。“梅开二度”“吉祥如意”等以固定词组为菜名,这些词组作为菜名使用时的意义与其原本的意义并不相同。如果不能分辨它们在句中出现时是使用原义还是菜名,就会给整体句意的理解带来影响。

(五)包含了可兼为食材名和姓氏的成分的菜名,例如“姜”“汤”“黄”等往往被判定为人名,如“姜鸡/nr”“汤酱/nr草头/n”“荷包/n黄翅鱼/nr”等。这样的分词结果显然不符合菜名的本义。

(六)在遇到一些较为生僻的烹饪方法用字或是食材用字时,分词系统也产生切分失误。例如“鸡汤/n汆/@海/n蚌/n”“大葱/n焖/@羊肉/n”“炣/@豆腐/n蛎/@”等。

五、分词系统可能进行的一些改进

根据PHP简易中文分词系统对600个闽菜名的分词结果,本文认为该系统可能通过一些改进,提高对菜名的识别和切分能力,以提高分词效率。

俞士汶主编的《计算语言学概论》一书中指出,解决未登录词识别问题的策略主要有三种:一是尽可能多地收入词汇,以降低碰到未登录词的机会;二是通过构词规则和上下文特征规则来识别;三是通过统计的方法来猜测经过一般的分词过程后剩下的“连续单字词碎片”是人名、地名等的可能性,从而识别出未登录词。

有关未登录词的识别问题,目前已有一些工作涉及到中国人名的识别、外国译名的识别、中国地名的识别及机构名的识别,提出了基于模式匹配的中文专有名词识别、基于统计的中文专有名词识别等不同方式。菜名的识别,可以借鉴这些专有名词识别研究工作上已经取得的成果。

另有一些识别未登录词的解决方案可供参考。陈小荷(1999)指出,在识别未登录词时,现有两种解决方案:个别解决方案和一揽子解决方案。其中,个别解决方案主要针对专名未登录词,有建立专名资料库、利用上下文启发信息等方法。一揽子解决方案则包括有穷多层列举法、语料库统计、局部统计、结合词性标注等方法。除此之外,他还提出了自己的一揽子解决方案:先用最大概率法进行第一趟分词,识别已登录的多字词;再运用概率计算的方法在“分词碎片”中寻找未登录词。

参考在未登录词识别研究上已有的成果,本文认为,分词系统在识别菜名时,可采取不同方式,以相互补充、配合。以下是可采用的方法:

1.适当扩充词表:利用语料库、人工筛选相结合的方法,选取一部分相对稳定、常用的菜名,将其收入到词表中。

2.分析菜名构词规则上的特点,归纳总结菜名构词规律,提高分词系统对菜名的识别能力。

3.利用语料库,考察与菜名相匹配的前后成分的情况,分析其上下文特征,为识别菜名提供帮助。

4.对于未收录到词表中的,根据其自身结构或上下文情况也难以使分词系统识别的那部分菜名,可以通过统计的方法来猜测经过一般分词过程后剩下的“连续单字词碎片”是菜名的可能性,从而对其进行识别。

参考文献:

[1]孙茂松,邹嘉彦.汉语自动分词研究中的若干理论问题[J].语言

文字应用,1995,(4).

[2]国家技术监督局.中华人民共和国国家标准GB/T 13715—92[A].

信息处理用现代汉语分词规范[C].北京:中国标准出版社,1993.

[3]孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,

(1).

[4]高红,黄德根,杨元生.汉语自动分词中中文地名识别[J].大连

理工大学学报,2006,(4).

[5]王兴义.基于模式匹配的中文专有名词识别[D].山西大学,2005.

[6]俞士汶.计算语言学概论[M].北京:商务印书馆,2003.

[7]吴景耀.中华名菜荟萃·闽菜[M].长春:吉林摄影出版社,2002.

[8]钟安妮.论中国菜名中的文化内涵[J].探求,2006,(1).

[9]俞士汶,段慧明,朱学峰,孙斌.北京大学现代汉语语料库基本

加工规范[J].中文信息学报,2002,(2).

[10]邢福义,汪国胜.现代汉语[M].武汉:华中师范大学出版社,

2003.

[11]陆俭明.有关词性标注的一点意见[J].语言文字应用,2004,

(2).

[12]北京大学计算语言学研究所.现代汉语语料库加工规范——词

语切分与词性标注[Z].1999年3月版.

[13]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,

(3).

[14]黄昌宁.中文信息处理的分词问题[J].语言文字应用,1997,

(1).

[15]陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言

文字应用,1999,(3).

[16]黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997,

(1).

猜你喜欢
菜名分词音节
分词在英语教学中的妙用
拼拼 读读 写写
结巴分词在词云中的应用
结巴分词在词云中的应用
套路玩得深,点完餐的我泪流满面
藏文音节字的频次统计
看清楚菜名:认真审题
木管乐器“音节练习法”初探
网友盘点最萌最“坑爹”菜名
论英语不定式和-ing分词的语义传承