基于上下文词频词汇量指标的新词发现方法

2016-07-19 02:07邢恩军赵富强
计算机应用与软件 2016年6期
关键词:成词字符串词频

邢恩军 赵富强

1(天津大学管理与经济学部 天津 300072)2(天津财经大学信息科学与技术系 天津 300222)



基于上下文词频词汇量指标的新词发现方法

邢恩军1,2赵富强2

1(天津大学管理与经济学部天津 300072)2(天津财经大学信息科学与技术系天津 300222)

摘要提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法,克服了N-gram方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率,通过选取不同的词频词汇量指标值作为阈值,能够在发现更多新词和提高发现新词的准确率方面进行灵活调整,为新词发现提供一种实用的方法。

关键词新词发现上下文信息熵词频词汇量指标

0引言

随着社会经济、文化、科技水平的不断提高,新词一直在大量且迅速地涌现。新词发现作为自然语言处理、文本挖掘等研究中的一个基础环节,对于提高后续信息处理的效果有重要意义[1,2]。

新词发现方法可以粗略地分为基于语言规则的方法和基于统计学习的方法[3,4]。语言规则的构造与维护需要由语言学家进行,不仅耗费时间而且很难扩展。统计学习的方法主要依赖于大规模的语料,通过计算成词概率,词频、左信息熵、右信息熵等统计特征作为识别新词的依据。本质上,统计特征是对汉字构词能力的量化。

在对语料进行切分组合方面,比较常见的是采用N-gram模型,在切分字符串的基础上,将文本内容按大小为N的滑动窗口操作,形成长度为N的字符串[5,6]。另外还有将新词发现与分词工具进行结合,在分词之后或分词的同时,依据词性及其他组合规则进行新词发现[1,7]。

在统计分析方面,采用的指标和方法比较多样,比较常见的是词频、左右信息熵、独立成词概率、构词规则等。邹纲[8]等通过统计不同时间段和不同来源所获取的语料,比较其中的差别得到新词。罗智勇[9]等通过采用PAT-Array数据结构表示字符串之间的邻接关系,通过计算候选字符串的左右信息熵、似然比等进行统计分析,从而获得新词。贺敏[10]等提出了一种在统计重复串的基础上,通过判断上下文邻接类别,首尾单字位置成词概率以及双字耦合度等语言特征,将词串的外部语言环境和内部构成相结合的新词识别方法。Wu[10]等使用独立成词概率和构词方式作为判断新词的标准。陈飞[12]等利用条件随机场CRF(conditionrandomfield)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题。Sun[13]等提出了利用半马尔可夫条件随机场模型结合潜在动态条件随机场和词性标注识别新词的方法。丁建立[14]等提出一种应用免疫遗传算法的网络新词识别方法, 利用汉语词群现象和词位的概念提取和注入抗体。Sun[15]等提出了根据查询日志分析用户行为习惯并结合词性词频等指标进行新词发现的方法。

1基于上下文词频词汇量指标的方法

在新词发现研究中,普遍采用的N-gram方法通过选取不同的滑动窗口大小来限定候选词的长度,不能很好地适应不同长度的词语。

左信息熵和右信息熵是常用的判定新词的统计指标。在实验中发现,左信息熵和右信息熵较大的汉字或词其独立成词能力较强,一般不会与其他汉字或词构成新词,可以作为停用词的主要候选对象。但是,信息熵公式的特点是倾向于具有最小的邻接字符串集合的汉字或词。例如:在实验中发现,语料库中“不足为虑”仅出现一次,它的唯一左邻接字符串为“或许”,其左信息熵为0,仅依据信息熵作为判断标准的话,“或许不足为虑”作为一个新词的可能性很高。所以采用信息熵作为统计指标时,必须结合词频以及其他一些统计指标。

针对以上两点不足,本文提出了基于上下文词频词汇量指标的方法。

1.1方法概述

本方法所使用的语料库是通过爬取网页并抽取其标题及正文部分构成的。

首先,将文本内容按照标点符号、特殊字符、数字等分割成短句。然后,使用jcseg中文分词器进行分词。将分词结果中的每个字符串、字符串的左邻接字符串、字符串的右邻接字符串、词频等信息记录下来。依据上述信息进行统计计算,发现其中出现的新词。最后针对发现的新词进行后处理,删除新词首尾出现的停用词,过滤掉某些特定的错误组合。

1.2方法采用的数据结构

设字符串s的左邻接字符串集合为L={l1,l2,…,lm},右邻接字符串集合为R={r1,r2,…,rn}。cls(li,s)为字符串lis在语料集中出现的次数,csr(s,ri)为字符串sri在语料集中出现的次数。

使用LSR(s,ri)表示字符串sri的左邻接字符串集合。使用RLS(li,s)表示字符串lis的右邻接字符串集合。LSR(s,ri)和RLS(li,s)的作用是关联左右邻接字符串,保证在后续合成新词的时候,能够正确地将s的左邻接字符串、字符串s和s的右邻接字符串合并在一起,进而递归地结合更多的字符串。

记录每一个字符串s及相关信息的数据结构如图1所示。

图1 记录每个字符串及相关信息的数据结构

1.3左信息熵和右信息熵

左信息熵和右信息熵较大的汉字或词其独立成词能力较强,在本方法中用于选取停用词。

根据信息熵公式[16,17]:

(1)

字符串s的左信息熵定义为:

(2)

字符串s的右信息熵定义为:

(3)

1.4词频词汇量指标

字符串s的左词频词汇量指标定义为:

(4)

其中k为集合L的大小。每一个左邻接字符串li对词频词汇量指标的贡献值为:

(5)

s的右词频词汇量指标定义为:

(6)

其中k为集合R的大小。每一个右邻接字符串ri对词频词汇量指标的贡献值为:

(7)

其中,CDL(li,s)和CDR(s,ri)表示字符串s与某个邻接字符串结合紧密程度的指标。CL(s)和CR(s)对应CDL(li,s)和CDR(s,ri)的均值,表示字符串s与左右邻接字符串结合紧密程度的指标,即s独立成词能力的指标。

2实验

本文实验所采用的语料是从搜狐财经、新浪财经、网易财经等13个网站,爬取到的2014年7月14日到8月13日2594个网页,并抽取其中的文章标题和正文部分。

2.1停用词的产生

通过计算每一个字符串s的左信息熵HL(s)并对结果进行排序,可以得到如图2所示结果。

图2 左邻接字符串的信息熵

横轴为按左信息熵排序后的字符串s的索引。纵轴为每个字符串的左信息熵。

以同样方法计算右信息熵HR(s)并绘图,可以得到几乎完全一样的图形。

分析数据可以发现,HL(s)=0的字符串,在语料库中出现次数基本都在3次以下,并且其左邻接字符串大多只有1个。HL(s)最大的一系列字符串在语料库中出现次数多,并且其左邻接字符串比较多,如表1所示。

表1 左信息熵最大的几个字符串

HL(s)取其他值的情况,可以从图2中看出,其曲线的趋势比较平缓,没有特别明显的特征。这是基于统计学方法进行新词发现的研究中,采用信息熵作为统计指标的主要缺点。

所以在本方法中左右信息熵仅作为选取停用词的指标。在本实验中,选取HL(s)大于6的字符串构成左停用词表,选取HR(s)大于6的字符串构成右停用词表。

2.2词频词汇量指标计算结果

采用词频词汇量指标,对相同的语料进行分析,按照CL(s)排序,结果如图3所示。

图3 左邻接字符串的词频词汇量指标

图中左侧竖直状的数据表明字符串s与其左邻接字符串有很高的成词概率。而图中下侧水平状的数据表明字符串s与其左邻接字符串有很低的成词概率。将图3和图2进行对比,可以看出词频词汇量指标比信息熵指标特征更为明显。

为了观察方便,仅保留实验数据中CL(s)数据最密集的部分,重新画图,可以得到更清晰的特征,如图4所示。

图4 左邻接字符串的词频词汇量指标

选取特定的CL(s)作为CDL(li,s)和CDR(s,ri)的阈值,进行字符串的合并可获得新词。

在实验中,依次选取了从0到14作为阈值,并对比了实验结果,并对其中出现的各种可能的错误组合原因进行分析。

2.3错误组合原因分析

(1) 过滤掉停用词时造成一些新词被截断。这是因为某些字符串即便其信息熵很大,但仍能够与其他字符串组合成新词,如: “中信建投”被截断成“信建投”,因为“中”是停用词。

(2) 字符串s有大量其他组合,甚至其中有更高频的组合,造成某些词的词频词汇量指标降低到小于阈值。如:“封闭回款”被截断成“封闭回”,是因为“回”的右邻接字符串有78个,其中高频组合有“回购”、“回调”等,虽然“回款”的词频排在第三位,但其CDR(s,ri)已经降低到了-28.2318,远远小于阈值。随着分词工具所使用的词库不断丰富,这类错误能够逐渐消失。

(3) 生成多个词,有正确有错误。如:“湘财证券”被分词程序分成“湘”、“财”、“证券”三个词,在处理“湘”时能够得到“湘财”,处理“财”时能够得到“湘财证券”,而处理“证券”时,能够得到“财证券”。因为在递归向左搜索邻接字符串时,“财”的CL(s)数值为-2.8804不符合要求。这样做是为了避免过度搜索,CL(s)过小意味着字符串s与左邻接字符串的关系不密切,自身独立成词能力较高。虽然有CDL(li,s)符合要求,也终止搜索,因为有大量字符串都存在CDL(li,s)较大的邻接字符串。在后处理过程中,针对这种错误情况进行了过滤。

(4) 中文分词器造成的错误。如:字符串“有害物质的”被分词为“有害物”和“质的”,合并后成为错误的新词。

(5) 由数字造成的错误。本文提出的方法在处理过程中把文本按照标点符号、特殊字符、数字等分割成短句,当语料中出现“47号文”、“48号文”这类词语时,会得出“号文”这类错误的新词。

(6) 由高频出现的词汇组合造成的错误。本文提出的方法采用最长匹配原则,当遇到高频的词汇组合时,会产生一些过长的新词。如:“第一财经日报记者”、“雪佛兰产品”,以及类似“习近平总书记”这类“职务+姓名”或“姓名+职务”组成的词。在后处理过程中,针对这种错误情况进行过滤。

2.4后处理

针对新词的后处理包含两部分内容:

(1) 删除新词首尾出现的停用词。在计算得出新词后,需要根据停用词表删除掉左右停用词。

(2) 过滤掉某些特定的错误组合。针对上述错误组合原因分析中出现的第3种错误情况,在后处理时,找出结果中具有包含关系的所有新词,根据组成新词的每个部分的CDL(li,s)和CDR(s,ri)进行判断,将错误的新词过滤掉。针对上述错误原因分析中出现的第6种错误情况,统计出常见的表示各种称谓的词语补充到停用词表中,在删除左右停用词时将其处理掉。由于这种处理可能会造成结果中出现重复的新词,所以需要将重复词过滤掉。

2.5实验结果

对新词的正确率进行统计,结果如表2所示。

表2 不同参数下的实验结果

本实验结果所采用的阈值是依据图4中所显示的特征选择的,处于曲线的过渡部分。从结果可以看出,随着阈值的增大,所发现的新词数量持续减少,而正确率持续增加。通过采用不同的阈值,能够在发现更多新词和提高新词的准确率方面进行灵活调整。

3结语

针对新词发现研究中常用的N-gram方法和信息熵指标的不足,本文提出了基于上下文词频词汇量指标的方法,并且对实验结果进行了分析。本方法没有N-gram方法中窗口大小的限制,词频词汇量指标结合了左右邻接字符串的词频和左右邻接字符串的数量两个关键数据,显示出非常明显的特征。本方法与领域无关,对新词的长度没有限制,仅采用一个统计指标就能取得较好的效果。

下一步的工作主要是针对实验中发现错误组合情况优化算法,以及结合更多的统计指标改善新词发现的正确率。另外,可能的进一步工作是改造本方法,使其能够不依赖分词工具直接进行新词发现。

参考文献

[1]PengFC,FengFF,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandomfields[C]//InternatioalConferenceonComputationalLinguistics.Stroudsburg,2004.

[2]SproatR,EmersonT.FirstinternationalChinesewordsegmentationbakeoff[C]//ProceedingsoftheSecondSIGHANWorkshoponChineseLanguageProcessing,2003.

[3] 张海军,史树敏,朱朝勇,等.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10.

[4]NieJY,HannanML,JinW.UnknownworddetectionandsegmentationofChineseusingstatisticalandheuristicknowledge[J].CommunicationsofCOLIPS,1995,5(1):47-57.

[5] 曹艳,杜慧平,刘竟,等.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691.

[6]GaoJF,GoodmanJ,LiMJ,etal.TowardaunifiedapproachtostatisticallanguagemodelingforChinese[J].ACMTransactionsonAsianLanguageInformationProcessing,2002,1(1):3-33.

[7]ZhangK,LiuQ,ZhangH,etal.AutomaticrecognitionofChineseunknownwordsbasedonrolestagging[C]//ProceedingsofthefirstSIGHANworkshoponChineselanguageprocessing-Volume18.AssociationforComputationalLinguistics,2002:1-7.

[8] 邹纲,刘洋,刘群,等.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9.

[9] 罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725.

[10] 贺敏,龚才春,张华平,等.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159.

[11]WuA,JiangZ.Statistically-EnhancedNewwordidentificationinarule-basedChinesesystem[C]//ProceedingsoftheSecondChineseLanguageProcessingWorkshop.HongKong,China,2000:46-51.

[12] 陈飞,刘奕群,魏超,等.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060.

[13]SunX,HuangDG,SongHY,etal.Chinesenewwordidentification:ALatentDiscriminativeModelwithGlobalFeatures[J].JournalofComputerScienceandTechnology,2011,26(1):14-24.

[14] 丁建立,慈祥,黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学,2011,38(1):240-245.

[15]SunR,JinP,LaiJ.AmethodfornewwordextractiononChineselarge-scalequerylogs[C]//2012EighthInternationalConferenceonComputationalIntelligenceandSecurity.IEEE,2011:1256-1259.

[16]BordaM.Fundamentalsininformationtheoryandcoding[M].Springer,2011.

[17]HanTS,KobayashiK.Mathematicsofinformationandcoding[M].AmericanMathematicalSociety,2002.

A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ONCONTEXTUALWORDFREQUENCY-CONTEXTUALWORDCOUNT

Xing Enjun1,2Zhao Fuqiang2

1(College of Management and Economics,Tianjin University,Tianjin 300072,China)2(Department of Information Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222,China)

AbstractThis article presents a statistic index which is based on contextual word frequency-contextual word count (WF-CWC). WF-CWC, by modifying the definition of the parameters in information entropy formula, i.e., changing the occurrence frequency of adjacent strings in corpus to the size of the adjacent strings collection, overcomes the defect of left and right information entropies being not significant in characteristics when identifying new words. Meanwhile, this paper presents a recursive and adjacent relation-based string concatenation method, which overcomes the disadvantage of the fixed sliding window size in N-gram model. Empirical analysis indicates that this new word identification method has higher accuracy. Through selecting different WF-CWC as the thresholds, it can make flexible adjustment in finding more new words or improve the accuracy of new words identification, and this provides a practical approach for new words identification.

KeywordsNew word identificationInformation entropy of contextContext word frequency-context word count

收稿日期:2015-01-09。国家自然科学基金青年基金项目(6100 4056);天津自然科学基金资助项目(15JCYBJC16000);天津市哲学社会科学研究规划基金资助项目(TJTJ15-002)。邢恩军,讲师,主研领域:文本挖掘。赵富强,副教授。

中图分类号TP391.1

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.06.016

猜你喜欢
成词字符串词频
基于文本挖掘的语词典研究
“凑合”成词及词义演变考.
先秦形容词性反义并列词语成词规律考
再论“睡觉”成词的时代
“企业”的成词及词义内涵考释
词频,一部隐秘的历史
儒法两家经典的共词分析与研究*
以关键词词频法透视《大学图书馆学报》学术研究特色
一种新的基于对称性的字符串相似性处理算法
汉语音节累积词频对同音字听觉词汇表征的激活作用*