摘 要:新词的识别是自动分词的一大难点,也是影响分词性能的重要因素。本文主要探析了新词的内外部特征。内部特征主要探析了新词的长度特征、构词规则、构词模式、词缀化倾向、外来词和功能字的问题;外部特征主要探析了新词的局部相对词频和上下文的自由度。
关键词:新词 内部特征 外部特征
随着社会、政治、经济和文化的发展,越来越多的中文新词出现在了人们的生活中。据统计,自20世纪90年代以来,汉语每年大约出现1000个新词语①。新词的出现反映了新事物的不断涌现,满足了人们表达事物的需要,同时也给中文信息处理带来了挑战。
一、新词的界定
从词语识别的角度来看,广义的新词是指所有的未登录词,这是相对于词典词来说的,词典中未出现的词都可以
称为新词。具体来讲,新词主要包括命名实体(包括人名、地名、机构名等)、表义字串(包括日期、时间、百分数等)和普通新词。对于命名实体的识别技术研究的较多,表义字串的识别也相对较容易。而普通新词识别的研究则比较少,总体效果也不理想,仍是中文信息处理中的一大难点。
对于普通新词,根据其形式和意义结合的方式又可以分为三种:1.形式新,意义新。如“裸奔”。2.形式新,意义旧。如“小三”。3.形式旧,意义新。如“楼上(网络用语)”。本文所研究的新词主要是从形式的角度进行考虑的,因此,主要是指前两种新词。
二、新词的内部特征
(一)新词词串的长度特征
1.三音节词的数量呈现增长趋势
古代汉语词汇以单音节词为主,现代汉语词汇以双音节为主,但是近年来,三音节词的比例有所增加。据统计,在1978年到1987年十年间出现的新词中,三音节词占14.4%②。而教育部、国家语委2006年发布的报告里面,收录的三音节词占总数的30.4%③。由此可见,三音节新词表现出明显的增长趋势。
2.四音节词在新词中所占的比例也在增加
随着词语承载的信息量的增加,有些双音节词原来不作为构词成分,如今也成了构词语素。如“山寨”一词据说源于广东方言,通俗说即盗版、仿制等。现在已经成了构词语素,可以构造出“山寨手机、山寨家电、山寨明星、山寨春晚和山寨熊猫”等词。而且有些双音节构词语素具有较强的能产性,这促使四音节词在新词中所占的比例不断增加。
(二)内部构词规则
1.常规的构词规则
大部分新词还是由名词、动词和形容词等构成,仍然遵循常规的构词规则。具体地说,主要有以下几种构词规则:(1)名词+名词/形容词/动词(如:网聊)。(2)容词+形容词/名词/动词(如:生猛)。(3)动词+动词/形容词/名词(如:蹿红)。
2.特殊的构词规则
由于社会的发展,以及人类自身对词语的创造性,使得某些特殊词性的字在新词语中有了特殊的意义,从而形成了新的构词规则。如:介词+名词(如:在线)、介词+区别词(如:被黑)、名词+语气助词(如:网吧)、区别词+名词(如:黑客)、动词+区别词(如:防黑)、名词+方位词(如:楼上)、量词+量词(如:页面)等。由特殊词性构成新词,概率比较低,是新词识别的一个难点。
根据新词构词的这一特点,我们在识别新词时,可以建立常规构词规则库和特殊构词规则库。
(三)构词模式
新词的构词模式主要有以下几种:
1.二元词:1+1模式;
2.三元词:1+1+1模式、2+1模式、1+2模式;
3.四元词:1+2+1模式、2+2模式,3+1模式和1+3模式。不同模式构成新词的频度不同。其中,1+1模式和2+1模式占新词总数的84%④。在三元词中,2+1模式是1+2的模式的10倍多。在四元词中,3+1模式的新词占绝大多数。
(四)词缀化倾向
汉语新词语的构词过程正兴起“词缀化”倾向,凡是同类或近类概念的事物都会很快地打上相应的词汇标记。因此,派生构词的地位也越来越重要。新词语中的三音节词,有些是用一个原有的语素作词缀,取得新意之后,再加上另外两个语素构成⑤。如“族”这个语素,经过近些年的使用,具有了“一类人”的含义,然后由此生成了一系列的派生词,“奔奔族、捧车族、吊瓶族、合吃族、急婚族、赖校族、洋漂族”等等。汉语新词语中的四音节词,也出现了少量由一个单音节或者双音节词演变成一个词缀,并取得新的意义,然后加上另外的三个语素或者两个语素构成的情况。如:现在有很多以“达人”为后缀的四音节词,像“城市达人、美丽达人、恋爱达人、灌水达人、优酷达人”等等。词缀化方式构成新词的趋势有利于新词的识别,我们可以建立前后缀词表来帮助识别新词。
(五)外来词使用频繁
随着我国和世界各国的交流日益频繁以及我国2008年奥运会的成功举办,使得许多外来词在大众媒体上频繁地出现,并且人们在日常交际的口语中也开始运用这些词,这已成为新时期汉语新词的一个新特点。外来词主要包括以下几种:音译词(如:托福)、半音译半意译(如:沙丁鱼)、音译兼意译(如:可口可乐)、意译(如:蜜月)、借词(如:文明)和字母词(如:甲型H1N1流感)等。其中,音译词、字母词和借词等的使用尤为频繁。有的个别词甚至比本民族对应的词的影响力还要大。如现在很多人接受了“IT产业”,而很少说“信息技术产业”。
(六)功能字的问题
有些汉字在文本中出现频率很高,但独立性很强,很少和别的汉字组合成词,一般都是作为单字词出现。如“您、谁、碰、贮、的”等。在分词规范中,对于这些词运用了单独切分的原则。所以我们可以将这类词进行归类,建立功能字库。这些功能字主要有如下两大类:
1.某些词性的词本身不具有实际的概念意义,只有将其放入一个完整的句子中才有一定作用,其功能主要是用来帮助造句,这些词很少用来组成新词、新概念。这类词主要包括介词(于)、助词(的)、连词(与)、象声词(砰)等。
2.某些单字虽然具有实际的概念意义,但由于自身意义的原因,也很少用来组成新词新语。如“沪、斯”等。在二级字库中,像这类单字有近500个。
三、新词的外部特征
(一)局部相对词频
新词在上下文语境中一个重要的特点是重复出现,一个新词在一个文档中通常会不止一次地出现,尤其是在某一特定领域中更是频繁地出现。因此,新词的局部相对词频比较高。局部相对词频是指某个词在局部上下文中出现的频率。即:局部相对词频=词出现的次数/该词所在文本的总词数。
(二)上下文自由度
新词作为语言单位凝固下来之后,一般内部结合度比较高,但与外部上下文的关系比较松散,上下文环境具有多样性,大多数新词的左右邻接类别都比较丰富。如:新词“艳照门”在2008年频繁出现,我们从语料中随机抽取几个句子:
(1)就在这样的一个环境里,中国娱乐圈爆发了前所未有、空前绝后的“艳照门”事件。
(2)本站提供完全的明星绯闻信息,紧密跟踪艳照门最新动向和信息。
(3)关于陈冠希艳照事件的讨论帖已经超过2000多万的点击、回复超过10万条。
(4)“内地艳照门”爆料人被抓?
(5)陈冠希“艳照门”一案前天在香港东区裁判法院预审,事件主角陈冠希未出庭。
(6)广州街头悄然兴起“艳照门”光盘热。
若以词为基本单位来计算,“艳照门”的左邻接集合为{的、跟踪、陈冠希、内地、兴起},左邻接类别为5,右邻接集合为{事件、最新、爆料人、一案、光盘热},右邻接类别为5。“艳照门”的语言环境变化多样,已经形成了一个独立使用、不依赖于上下文的语言单元。
四、结语
新词还有许多特征,如内容上的求新、求异,但这不是本文研究的重点,本文主要是从新词识别的角度来探析新词的内部特征和上下文语境特征,目的是为计算机识别新词提供语言学依据。目前,这些普通新词的识别效果仍有待于提高。因此,如何把这些特征更好地整合到新词识别系统中,提高新词识别的效果,将是我们今后要研究的主要课题。
注 释:
①参见《新华新词语词典》“前言”,北京:商务印书馆,2003年。
②上海辞书出版社1987年出版的《汉语新词词典》收录了1978年到
1987年十年间出现的新词共1654条,其中三音节词有234条,占总数的14.4%。
③教育部、国家语委发布的《2006年中国语言生活状况报告》,收
录了2006年出现的新兴词汇171个。其中三音节词有52个,占总数的30.4%
④据秦浩伟等人对2003年SIGHAN第一届中文分词竞赛公开数据集中
的PK测试集进行统计分析得出:1+1模式和2+1模式占新词总数的84%。
⑤据贺敏等人统计,新词语中的三音节词,有4%是用一个原有的语
素作词缀,取得新意之后,再加上另外两个语素构成。
参考文献:
[1]Li Hongqiao,Huang Changning,Gao Jianfeng.The use of SVM for Chinese new word identification[C].Proceedings of First International Joint Conference on Natural Language Processing,2004.
[2]崔世起,刘群.基于大规模语料库的新词检测[J].计算机研究与发展,2006,(5).
[3]贺敏,龚才春,张华平.一种基于大规模语料的新词识别方法[J].数据库与信息处理,2007,(21).
[4]贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,(10).
[5]罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,(7).
[6]郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报(自然科学版),2002,(2).
(汪青青 南京师范大学文学院 210097)