周志浩,李建波
(南京信息工程大学新加坡研究中心,南京 210044)
在自然语言研究中,术语抽取具有相当重要的地位,人类文明的成果都要以术语的形式在自然语言中记录下来[1]。术语既可以用于深入挖掘文本内涵,又可以进行潜在语义分析,是进行进一步信息处理的重要准备工作。术语一般用于特定的专业领域,在特定的专业领域当中,一个术语一般只有一个特定的意义。在专业性较强的领域,术语会以较高的频率出现,如科研论文的关键词就应该是能反映研究内容和相关领域特征的术语。领域术语对于建设语料库、计算机辅助翻译、本体构建、文本检索与分类、人工智能(artificial intelligence,AI)实时翻译等领域具有至关重要的价值。
对于领域术语而言,传统的人工抽取方式已经落后,目前机器自动抽取术语的方式被广泛使用。以计算机辅助翻译软件为例,无论是Trados还是Memoq这样的主流翻译工具,都有自动抽取术语的功能,但效果却很难尽如人意。抽取得出的术语可能并非是术语,同时还存在着抽取术语不全面、抽取术语错误等问题。即便是采用人工抽取的方式,除了耗时耗力难以适应大数据时代社会化大生产的要求,也存在不同的专家观点不一致的问题。所以,如何高效、准确的实现领域术语的自动抽取,既能提高领域术语抽取的自动化效率,又能提高术语抽取的准确率和召回率,是目前相关研究的焦点。
针对术语自动抽取,目前学术界主要提出基于规则、基于统计学的方法。Kapferer等[2]借助领域语言特征的规则集合,Butenko等[3]使用语料库中术语的特征来完善规则集合,识别术语,直观而高效,但抽取时会形成较多的噪声词语,且可移植性较差[4],很难跨领域迁移,具有相当的局限性。
基于统计的方法是利用语料库中词的分布频率来抽取术语,Verberne等[5]提出了以频率为标准判断术语,依据就是术语会比噪声词出现的频率高。Azad等[6]借助维基百科的语料和领域语料的词频差异来抽取术语。Ahuja等[7]认为候选术语和其在语料库中出现的频率成反比,能提高领域术语的显著程度。以上这些基于统计的方法不需要语言学家或领域专家介入,简单经济,效率高,但是过于依赖词语在语料库中出现的频率,对于专业性较强的领域术语并不适用。很多领域术语处于中低频次词频分布,单纯使用基于统计的方法会得到大量的噪声词语,召回率不高,尤其对低频术语的抽取[8]效果不理想。
针对以上问题,提出结合术语的语言特征和复合测量方法,综合使用语言学和统计学的方法,更有针对性的抽取农业情报等极其专业的领域术语,为术语翻译和语料库建设提供了理论依据。
确定术语的语言特征主要是从分析术语的词性或者浅层语法着手,术语主要都是由名词或者名词性短语组成,很少包括动词、副词和连词[9-10]。由此可见,首先可以从术语的词性类别出发,在抽取术语的准备阶段,排除掉成为术语概率较低的词语,可以提高术语抽取的效率。在术语抽取阶段,按词性进行排序,可以确定成为术语的概率。此外,候选术语本身的长度也对术语认定有直接影响。对候选领域术语用语言特征归纳为两类类:词性特征和词长比特征。
运用词性特征可以过滤掉大量的领域高频非术语词,在领域术语中,语气助词和状态词几乎不会出现。其他如介词、感叹词、方位词、拟声词、成语和代词也极少见,89%以上的领域术语都是名词或者名词性短语[11]。如果将词性扩展到包含名词、动词、量词、简称、英文单词等,那么比例就上升到99%以上。这就是关于领域术语词性特征的统计结论。为了兼顾效率和准确性,将极少可能成为属于的介词、感叹词、方位词、拟声词、成语和代词排除,同时将术语的词性规定为名词及名词性短语、简称和英文单词,这样可以尽可能的囊括更多的候选术语,又可以保证效率。对词性特征(part-of-speech,POS)赋予权值,设值时以名词及名词性短语的值为最高,动词等值依次降低。具体设值如表1所示。
表1 词性特征数值设定Table 1 Part-of-speech feature value setting
中文语言中双字词占多数,有学者认为词的长度越长就越有可能是术语,就英语而言,如在英语语言中,能体现专业性的词语很多都来源于拉丁语,词语的长度都很可观。但在中文语言中,并非词长度约高,术语显著性就会越充分,贺海涛等[12]指出中文领域术语的词长多在2~6个字(约77%),超,所以过6个字的术语也很少见,据抽样统计,6字以上术语不到1%。当然,少于两个字的单字词语成为术语的概率同样也很低。在进行词长统计时,不能简单计算词语由几个字组成,从而给出判断是否成为术语的依据。原因就在于,术语是在特定的领域文档集中存在的,要从文档集的语料库出发,进行分析。针对特定领域术语,采用词长比(word length ratio,WLR)的特征,揭示术语的领域隶属程度和相关性。所谓词长比就是指术语的词长和语料库中词语的平均词长的比值。比值越高,领域术语的相关性越大,隶属程度越高。设词长为Len(t),表示词语t的含字长度,语料库中词语的平均词长比公式为
(1)
就词长比而言,单词长度越长,词长比值就越高,当然中文语言的特征也决定了并非词长比值越高越好,而是要在一个合理的区间。中文中两个字的词占大多数,双字词术语的词长比就为1,又因为超过6个字以上的术语不到1%,为提高统计效率,可以把词长比的数值定在1≤WLR≤3,小于1或者大于3的都不计入术语范畴。
从统计学的视角出发,对术语抽取有多种方法,如标准差、词频、文档频率等,这些方法各有特色,但也有不足,如标准差虽然可以根据文档主题不同,区分术语和非术语,但受主题影响过大,很多时候判断会有误差。词频作为传统的术语抽取指标,当然很有效,但是并不能把低频词简单的排除在术语范围之外,另外高频词也不一定是术语,比如介词、连词等出现的频率很高,但它们并非术语。文档频率一般是反向使用的,即文档频率越高,词语的领域性就越低,但是领域术语的情况是相反的,文档数高说明术语的可能性大。针对以上所提及的诸多方法,可以看出都不完善,问题就在于单一性,无法解决复杂的术语判断和抽取问题。所以本文中采用的测量方法是多种复合的,以避免单一化的缺点。使用的复核测量方法有两种:C值法[13]和词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)[14],两种测量方法本身就是考虑多种因素的复合方法,两者结合使用,可以最大限度保证术语抽取的准确性。
C值法是目前普遍应用于领域术语抽取的方法,和其他方法相比,C值法具有简单易行,适应性强的特点[15]。C值法在语料经过词性特征和词长比筛选后,针对候选术语集进行过滤,从而得到精确的语料。C值的计算公式为
式(2)中:a为候选术语;|a|为候选术语长度;f(a)为a的词频;b为嵌套术语;P(Ta)为集合中术语的数量;Ta为含有a的多个词的集合,Cvalue(a)为候选术语C值。
例如,a是“小麦”,那么,Ta就是“冬小麦”“小麦秋播”“小麦拔节”“小麦返青”等包含a的多个词的集合。在词串中,这个参数对词串呈现正面的作用。P(Ta)指的是Ta的个数,Ta突出的是a的独立性,如果参数Ta数值大,说明a在多个词的集合中反复出现,也就说明a非常有可能成为一个术语。总之,对于词串a来说,如果包含a的某个长词串b以较高的频率出现,那么b成为术语的概率就比较大,a是术语的概率就比较小。同时,a在多个词的集合中反复出现,那么包含a的词串集合就越大,也就意味着a具有较高的独立性,成为术语的可能性就越大。f(b)和Cvalue呈负相关关系,Ta和Cvalue呈正相关关系。
C值法虽然优点突出,但并没有考虑到候选术语的单元性,对术语抽取的技术依赖于词频,较难区分高频词语和高频术语,此外对于大量存在于语料库中的低频术语也没有很好的处理策略,所以就需要继续引入TF-IDF的领域术语抽取方法。
TF-IDF是目前广泛使用于搜索引擎等互联网领域,基本思想是如果一个词w在某一篇文档d里面出现了较多次,即具有较高词频,同时在其他的文档中出现的频率[16]较少,那么就可以认为该词w具有较好的区分度,成为领域术语的可能性就越高。TF的计算公式为
(3)
式(3)中:count(w)为关键词w在文章中出现的次数;|Di|为文章里所有词的总和,TFw,Di为文档中TF数值。
但仅用词频高低来确定文本特征是不够的,如“的”是一个常见词,比“冬小麦”在文档里出现的频率高得多,但并不能以此来确定“的”就是术语。由此引入逆文本频率IDF才能更好反映向量化特征,其计算公式为
(4)
式(4)中:IDF(w)为词的逆文本频率数值;N为文本总数;I(w,Di)为文档是否包含关键词w,如果是,那么值为1;如果否,那么值为0,如果关键词w过于生僻,以至于在所有文档中均未出现,则I(w,Di)的值为0,分母为0,逆文本频率也就失去了意义,所以在分母上加上1,以实现对逆文本频率的平滑处理。
IDF反映了关键词普遍性的问题,当一个词在文档集合里高频率出现时,IDF值就低,反之则高。然后把TF和IDF相乘,就可以得出TF-IDF值了,其计算公式为
TF-IDF=TFw,DiIDF(w)
(5)
总之,TF-IDF的特点是如果一个词在文档中高频出现且普遍度低,那么TF-IDF的值就越高,成为术语的可能性就越高。TF-IDF虽然在信息检索、文档挖掘等很多领域得到普遍使用,但也存在精度不高的问题,此外如果文档集合中的部分文档长度较短的话,文本特征不足会影响术语的准确抽取,拥有相同关键词的多个文本也存在相互干扰的问题,这些关键词计算的TF-IDF的值就低。所以才需要配合词性特征、词长比特征以及C值法共同使用。
由于传统的单一领域术语自动抽取方法都有缺陷,所以需要综合使用语言特征和复合测量方法,总体模型建构如下:首先进行分词和词性标注处理,其次按照词性特征中的数值排列,筛选出数值为1的词,最后根据语言特征和复合测量方法计算综合的数值,过滤掉非领域术语的词语,模型流程图如图1所示。
图1 领域术语自动抽取模型流程图Fig.1 Flow chart of domain term automatic extraction model
对文档集合进行分词及词性标注其实是文档预处理的过程。分词和词性标注工具目前有比较成熟的若干种,如Hanlp分词器、Jieba分词、IKAnalyzer等,以上工具各有所长。其中,Hanlp分词器具有功能完善、架构清晰、语料时新等特点;Jieba分词安装简单,支持语言广,比较流行;IKAnalyzer开源轻量,可以模拟语义分词。从权威性的角度出发,采用NLPIR分词系统,该系统所使用的词性标记集,主要用于中科院计算技术研究所研制的词法分析器、句法分析器和机器翻译系统,具有相当的权威性。在分词流程时,把名词和名词词组作为同意类型的词语进行处理,其他词语按NLPIR默认规则处理。在分词的同时,NLPIR分词系统还会自动进行词性标注,按22个一类、66个二类、11个三类确定词性类别。
在分词和词性标注完成后,根据表1中所列的词性类别以及其数值,排除掉数值为0的词,保留数值为1的词。数值为0的词一般都是语气助词、状态词、介词、感叹词、方位词、拟声词、代词,这些词成为术语的概率是极低的,只保留名词及名词性短语、简称和英文单词。但需要注意的是NLPIR分词系统是以单个的词为分词单位的,如“土壤”和“消毒”在NLPIR分词系统中是两个词,而实际上术语应该是“土壤消毒”,也就是说在得出NLPIR分词系统的词语列表后,要明确候选的术语也可以是名词性短语。同样,在文档中的领域术语不仅存在名词加名词的情况,还存在形容词加名词的情况,一样也构成名词短语。另外,对单个连续汉字合并,如“桃”“蚜”合并为“桃蚜”,“瓜”“蚜”合并为“瓜蚜”。
在词语完成初筛之后,对候选术语集综合计算数值,以此来确定最终的术语。将候选术语的综合数值定为WN,设候选术语为wt包括语言特征和复合测量方法两个部分。语言特征包括词性特征数值、词长比特征数值,复合测量方法包括C值法和TF-IDF,其计算公式为
WN(wt)=POS(wt)+WLR(wt)+Cvalue(wt)+
TF-IDF(wt)
(6)
式(6)中:POS(wt)为词性特征数值;WLR(wt)为词长比;Cvalue为C值;TF-IDF(wt)为词频-逆文本频率;WN(wt)为术语综合数值。
根据式(6)可以得出结论,候选术语综合数值越高,成为术语的可能性就越大,反之则成为术语的可能性越小。需要注意的是,候选术语的数值高低还可以用来说明术语对于文档的区分度以及预测性,对于机器自动翻译、互联网搜索、大数据挖掘[]等都具有现实的意义。
由于领域术语自动抽取研究的对象是农业领域上的术语,在文本选择上需要讲究专业性和权威性,因此选取的文本来自中华人民共和国农业农村部网站公开栏目中的文件和公告,随机选取了500篇,内容覆盖了农事指导、农业提案、农业规划、农业管理、农业政策等多个领域,具有相当的普遍性意义。
首先将实验所使用的语料进行分词处理并标注词性,在NLPIR分词系统中,将实验的语料输入,对500篇选取的文档分词处理后,得到的总词语数量为663 195个,除去数字等,其中汉字词语为518 210个,英文单词为1 830个。在进行术语抽取时,部分术语的语言特征和复合测量方法数值如表2所示。
由表2可知,随机列举的术语都是名词或名词短语,所以词性特征数值都为1,文档集合的平均词长为1.96,也就是说语料中的绝大部分词都是双字词,那么词长比在1~3都被认为是符合领域术语抽取要求的。根据C值法可以看出,“农业”这样的词语数值都相对偏低,像“结铃期”这样的词语数值都较高。TF-IDF的数值也反应了类似的结果,最后所得到的WN值就是各项数值相加的总和,若设定下限阈值为4,则大于4的候选术语都将被确定为最终的农业领域术语。
表2 部分术语的语言特征和复合测量方法数值Table 2 Linguistic features of some terms and composite measurement method values
为了了解和传统的基于规则、基于统计学的方法的区别,实验首先采用语言学模板,在排除掉数值为0的词后,在分词和词性标注完成,得到518 210个词语,显然噪声词汇大量出现,在抽取术语时,把很多词语的子串也一并抽取出来了。其次使用统计学词频的方法,在实验语料的准备阶段,文档分词和词性标注的同时,统计了词频,其中词频最高的是“的”,共出现了5 365次,但它显然不是术语。在抽取的频率最高的前100个词语中,只有32个是术语,准确度较低,可见传统的词频统计等方法有着较大的缺陷,对于高频词语和高频术语不能进行高效准确的区分。与此相比,用语言特征和复合测量方法抽取出来的农业领域术语,自动排除了介词、感叹词、方位词等明显不是术语的词,具有较高的准确率。对于领域术语的抽取效果进行评价,一般有两个指标:精确度Precision和召回率Recall。精确度就是指抽取出来的领域术语中正确术语中所占的比例。召回率就是指抽取出来的领域术语占全部术语的比例。精确度可以使用系统正确标记的术语总数占全部术语的总数比例表示,而召回率用系统正确标记的名词术语数量占找到的名词术语总数的比例表示,其计算公式为[18]
(7)
式(7)中:Fscore为F值评价指标,取值范围为0~100%,越接近100%,那么抽取出的领域术语的精确度和召回率就越高,领域术语的抽取效果就越好。
对抽取出来的术语进行人工判定真伪,当阈值为4时,精确度是71%,召回率是80%。当阈值是5时,精确度是80%,召回率是74%。由此可见,阈值的设定对于最终的领域术语抽取结果有着相当关键的影响。应该通过多次实验来寻找最理想的阈值。
(1)针对传统单一的领域术语抽取方法的缺陷提出了综合使用语言特征和复合测量方法来抽取领域术语的模型。首先使用词性特征初筛候选术语集合,再根据词性特征数值、词长比特征数值、C值法和TF-IDF的综合数值确定术语的权值。用这种方法抽取出来的领域术语,具有较高的精确度和召回率,不但可以使用在所研究的农业领域,还可以广泛应用在多种领域,实现术语抽取的高效率和正确率。
(2)由于所使用的方法是多种抽取方法的综合,所以在单项方法上存在覆盖面不足,精度不够的问题,比如词性特征数值就存在遗漏现象,很容易影响最终的统计结果,使抽取出来的术语存在不全面的问题。词长比特征的概念在中文术语的使用中也可能存在挂一漏万的现象,遗漏多字术语的可能始终存在。C值法在区分高频词和高频术语上存在不足,对低频术语识别也较困难。TF-IDF始终存在精度不足的问题。
(3)在下一步的研究里应该加强对各个单项规则的细化,完善规则的机制,提高术语抽取的效率和准确度,同时对于阈值的设定也要进一步细化,以探索最佳的阈值范围,实现术语抽取的最佳效果。