张贵林 易绵竹 李宏欣 闫丹辉 孙玥莹
摘 要:文章以土耳其语军事领域术语语言特征研究为基础,提出一种规则与统计相结合的术语抽取方法,先后通过关键词、停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等特征对单语文本中的候选项进行筛选,在W-data和N-data大小两组单语文本中进行实验,结果表明该方法能够有效地从实验数据中抽取土耳其语军事术语。
关键词:土耳其语军事术语;过滤词典;自动抽取方法
中图分类号:H512;H083;E91 文献标识码:A DOI:10.12339/j.issn.1673-8578.2022.01.003
Research on Auto-Extraction of Turkish Terminology in Military Field//ZHANG Guilin, YI Mianzhu, LI Hongxin, YAN Danhui, SUN Yueying
Abstract: Based on the analysis on the linguistic features of Turkish military terminologies, we proposed a terminology extraction method using combination of rules and statistics algorithm, and experimentally verified this method on monolingual W-data and N-data. The candidate items in the monolingual text are filtered through keywords, stop words, morphological analysis sequence pattern, pointwise mutual information, left and right information entropy and adjacency suffixes. Our results show that the proposed method can effectively extract Turkish military terminologies from the experimental data.
Keywords: Turkish terminology extraction; filtering dictionary; automatic extraction methodologies
引言
当今世界各学科发展迅速,术语规模也随之不断增量扩容,完全依靠人工抽取术语非常耗时耗力。为了快速高效构建或维护术语词典,人们提出了很多术语自动抽取方法,如左右信息熵与互信息算法、word2vector相似词算法、BERT-BiLSTM-CRF融合方法等[1-2],这些方法虽然能够取得一定的效果,但远非完美,自动获取的术语仍然需要人工检查和验证,在本质上,术语自动抽取仍是一个半自动实现的过程。因此,如何利用知识库来改善术语抽取性能而减轻人工筛选的工作量是术语自动抽取研究的一个重要方向。
术语学家或翻译人员先前编制的术语词典,其本身词法、语法和语义等领域属性对动态发展的术语具有天然的指导作用,在自动抽取术语过程中,对相关特征的提取和利用有助于提高术语抽取的效果。基于这一前提,本文提出根据现有土耳其语军事术语词典中术语的语言学特征,构建术语抽取关键词、停止词和形態分析序列模式列表,采用语言学规则与统计方法相结合的策略,利用背景语料中的点互信息、左右信息熵和临接词缀来实现土耳其语军事领域术语的自动抽取。
论文第一部分简要介绍了术语的定义和术语自动抽取的常见方法;第二部分主要阐述了军事术语自动抽取的具体方法、策略及相关算法,分析了土耳其语军事术语特有的语言学特征,构建了用于术语自动抽取的相关知识库;第三部分基于背景语料进行了土耳其语军事术语自动抽取实验,通过实验结果评测和分析,验证了本文所提方法的有效性;第四部分对全文进行总结,并对今后的研究方向进行了展望。
1 术语定义及术语自动抽取方法概述
1.1 术语的定义
术语是表示科学、艺术、专业或学科等领域知识相关特定概念的词汇,在句子中一般作主语和谓语[3]。术语通常与特定的单一概念、对象、事件或状态相对应,多为复合型名词结构,在某一特定学科范围内具有单义性特点,是确保领域专家之间有效沟通的基本信息承载单元,也是翻译质量评估中被广泛使用的多维质量度量标准的核心范畴之一[4]。军事术语可视为军事领域的专门用语,与一般词语相比,在军事领域使用的频率较高,在其他领域使用的情况则很少,具有十分明显的领域流通性。
1.2 术语自动抽取常见方法
术语自动抽取方法归纳起来可分为基于规则、基于统计、规则与统计相结合的方法三大类。基于规则的方法主要是利用现有术语资源的语言学特征,总结设置术语抽取的规则模板,然后通过模式匹配的方式完成候选术语的识别和抽取,如文献[5]。这类方法对受限领域特定类型的术语抽取效果较好,且在准确率方面具有一定的优势,但缺点是规则的制定通常需要一定规模的受限领域标记语料的支持,且要求规则制定者具备较强的语言功底和背景知识,当规则设置出现偏差时,容易出现覆盖面不全和规则之间相互冲突的情况。基于统计的术语抽取方法又可分为基于统计学的方法和基于词向量机器学习的方法[6-8],其主要思想是根据统计特征,通过概率判断出多词字符串是否为稳定的语言结构,并衡量组成成分与领域特征之间的关联程度。相比于规则方法,统计方法的领域适应性较强,自动化程度较高,但容易受到测试语料规模和质量的影响。规则与统计相结合的方法,主要利用两种方法各自的优点,通过先抽取、后筛选的步骤来完成候选术语的抽取,其中统计和规则的使用顺序并不固定,通常取决于研究内容的具体需要。混合方法从理性主义和经验主义融合角度出发,可有效提高术语抽取的准确率和召回率,是领域术语抽取研究最为主流的方法,也是目前研究的重点和热点。
2 基于混合方法的术语抽取策略
识别词语搭配和抽取关键术语的一种常见方法是通过词性标记序列(句法模式)来过滤或筛选候选术语,继而找出与序列模式相匹配的可能成为术语的词组。本文结合土耳其语自身的特点,将土耳其语形态分析序列模式作为语言学规则,通过关键词、常见停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等筛选方法来实现术语抽取。其中,关键词、停止词和形态分析序列模式的确定均以术语词典中术语的词法、语法和语义特征为基础,系统主要包括基于末尾关键词的候选项抽取、基于常见停止词的候选项筛选、基于形态分析序列模式的候选项筛选、基于点互信息阈值的候选项筛选和左右信息熵阈值筛选五大模块,术语抽取过程和整体框架如图1所示。
2.1 军事术语词典的选取
军事领域术语的意义较为宽泛。在一篇典型的军事领域文本中,通常不仅会包括军事领域的特定术语,一定也会出现其他领域的相关术语。目前领域术语知识库的构建大多在领域属性已知的数据集上完成,术语领域属性严重依赖数据集领域属性本身,术语领域属性会跟随数据集变化而发生改变。为了尽量保证术语的军事领域属性,本文主要以土耳其外交部2013年3月发布的英-土双语军事领域术语词表(第2版)为研究对象,并对比分析不同领域的术语词典,选取并确定术语抽取关键词、筛选停止词和形态分析序列模式。对比分析数据还包括土耳其国家机场管理局航空术语词典(2011版)和土耳其信息与通信技术管理局发布的《信息与通信技术术语指南》,用以验证不同领域术语之间的异同点。
2.2 土耳其语军事术语的语言学特征分析
术语自动抽取可分为单词型术语抽取和多词型术语抽取两类,前者研究范畴通常与关键词抽取相同,可属同一过程,多词型术语抽取则一般为术语抽取研究的重点和难点。冯志伟曾在《现代术语学引论》中提出,以组成术语的单词个数为度量单位,大部分术语分布于2~6词之间[9]。为此,本文对土耳其语三类术语词典中的多词型术语分别进行了统计,其分布状况如图2所示。可以看到,当术语长度超过6之后,术语个数急剧下降,其中二词型和三词型术语占比最高,两者相加在不同术语词典中占比分别为74.8%(军事)、57.6%(航空)和74.1%(通信),而长度为6以内的所有术语总占比则高达99.25%(军事)、99.27%(航空)和98.98%(通信)。因此,本文在研究过程中主要对长度不超过6的术语进行分析。
为了验证同一术语的多领域属性,本文对三种术语词典中重复出现的术语个数进行了统计。其中,军事领域术语词典与航空领域术语词典中共同出现的术语个数最多,军事领域术语词典与信息通信领域词典中共同出现的术语个数较少,同时具有三种领域属性的术语个数则更少,且术语长度均未超过4,具有三种领域属性的术语为alc(接收器)、küresel seyrüsefer uydu sistemi(全球导航卫星系统)、kesintisiz gü kayna(不间断供电电源)、elektromanyetik uyumluluk(电磁兼容)、haberle
瘙 塂
me(通信)、ses frekans(音频)、 seyrüsefer(导航)、tahmini var
瘙 塂
zaman(预计抵达时间)和飞行情报中心(uu
瘙 塂
bilgi merkezi)。从语义角度来看,除了多义词alc之外,上述术语大多具有较为稳定的单义性,术语的多领域属性大多不会对术语的领域约束性产生大的影响。
土耳其语军事术语大多数为复合型名词结构,且一个术语整体的句法功能均与该术语最后一个单词的句法功能保持一致。鉴于以上两点,本文集中对两类词表加以对比分析,一是术语词典整体词频表,二是多词型术语最后一个单词的词频表,统计结果显示,在不进行词形还原的情况下,不同末尾词在上述三类词典中同时出现的个数占比分别为33.42%(通信)、37.98%(军事)和54.65%(航空),此时,术语表的规模越大,相同末尾词个数则越少,而当进行词形还原之后,三者占比分别增至74.15%(通信)、60.45%(军事)和59.76%(航空),此时,术语表的规模越大,相同末尾词占比则越高。造成这一结果的主要原因是,末尾词除了决定术语语法范畴之外,还可以承载语义的概念层次功能,这类词汇大多可以用来构建表达同一层次概念的不同术语,如图3所示,在上述军事术语词典中具有相同末尾词的术语个数可达数十乃至上百,在具体的文本中,可以根据需要通过这些词汇来构建新的术语。由于术语词典本身的领域约束性,构成军事术语的这些末尾词可作为核心词汇直接用作面向军事领域文本的术语抽取关键词。
在军事术语词典整体词频表的统计上,经航空和通信领域词频表筛选之后,军事术语词频表中剩余单词表现出很强的军事领域特征,如表1中列出的使用频率最高的前20个单词,在语义层面上,这些词汇甚至可以直接作为单词型术语纳入军事术语词典,可直接列入关键词词表。根据统计结果显示,在三类术语词典中均有使用的单词,其领域属性与使用频次紧密相关,即单词相對使用频次越高则领域属性越强,相反则越弱,比如,单词ke if(侦查)在军事术语词典中出现的次数为43,在通信术语词典中出现的次数为2,其军事领域属性明显强于通信领域;而当相对频次相当时,即在不同领域术语词典中出现频次都很多,则证明该单词具有很强的多领域属性,比如,单词sistem(系统)在不同术语词典中出现的次数分别为115(军事)、76(航空)和161(通信),即在不同领域文本中单词sistem使用的频次都很多,我们很难仅仅通过频次来确定单词的具体领域归属。虽然如此,由于单词sistem具有很强的术语构建能力,且现实中用于术语抽取的文本数据集的领域属性大多已知,单词本身的术语属性+数据集领域属性仍可大致视为该单词属于某一特定领域。
在形态分析的统计上,我们首先对军事术语词典多词型术语的最后一个单词进行形态分析,统计结果显示noun+a3sg+p3sg+nom(名词第三人称单数领属格)是使用最為频繁的形态句法标记,紧接着是noun+a3sg+pnon+nom(名词原形),然后是noun+a3pl+p3sg+nom(名词第三人称复数领属格),三者使用频次分别为2858、1042和174,在整个形态分析结果列表中的总占比达85.52%。如果单从词性角度来看,名词性单词占比高达98.34%,符合术语大多数为复合型名词结构的这一论断,在确定关键词和抽取术语时,充分利用这一特点在一定程度上将有助于提高术语抽取的效率。在三类术语词典中,军事术语形态分析序列模式总数为1306,通信术语形态分析序列模式总数为1987,航空术语形态分析序列模式总数为591。通过军事/通信、军事/航空、军事/通信+航空三种形式两两对比发现,三者中均有的形态分析序列模式总数为430,其中,与使用最频繁的前十位形态分析序列模式相符的军事术语个数为2246,占术语总数的44.31%;军事术语独有形态分析序列模式总数为876,单个模式最高使用频次为15,使用频次为1的独有序列模式总数为760,占术语总数的14.99%。对比结果显示,基于军事术语词典构建的形态分析序列模式具有一定的领域特征,但与领域属性较强的独有模式相比,使用频次高的通用形态分析序列模式对术语抽取的影响会更大。在进行候选术语筛选时,形态分析序列模式对术语领域属性具有一定的约束性,但效果有限。
2.3 关键词选取
在关键词的选取上,本文从功能角度将关键词分为末尾关键词和非末尾关键词两大类,末尾关键词作为核心词直接用于术语抽取索引词,而非末尾关键词则作为领域关键词用于新关键词的发现。语言学家约翰·加斯特森(John Justeson)提出一种通过选择频率最高的双词词组,结合词性模式过滤“可能短语”进行短语和关键词识别的方法[10]。本文借鉴这一方法,首先通过频次获得候选词组,之后基于形态分析序列模式过滤出符合条件的候选短语,然后再使用非末尾关键词进行筛选并保留具有军事领域属性的候选短语,最后通过这些短语筛出术语词典中没有的末尾关键词。需要指出的是,军事术语词典中多词型术语名词性结构的占比高达98.34%,因此,名词短语对于识别关键词更加有用,在某种程度上多词型术语的抽取可视为对名词短语的抽取,本文在关键词的设置上也以名词为主。
2.4 停止词的选取
自然语言领域泰斗肯尼斯·丘吉(Kenneth Church)在其研究中曾提到,最常见的词通常会带来最大的麻烦[11]。通过这些常见词选取的停止词,在被用于筛选术语时往往可以起到事半功倍的效果。本文在军事领域术语停止词的选取上遵循上述理念,通过军事领域术语词典和大规模单语数据集来构建一种常见停止词词表,在选取常见停止词时,数据集中出现次数很少或较少的单词不纳入停止词范围之内。
本文选取的单语数据集总字数为5761.09万,单词个数为67.65万,为了对常见词进行区分,我们首先对词频表中频次最高的前2000个单词和词频表中频次大于1000的单词进行对比分析,结果显示,数据集中频次最高的前2000个单词总字数为3293.43万,占比达57.17%,频次大于1000的单词字数为997.53,占比达17.31%,两者相加占数据集总字数比例高达74.47%,而频次大于1000的单词在总单词中的占比仅为1.08%。为了确定常见停止词的筛选范围,本文选取了9个不同节点分别对单词个数占比和单词字数占比进行统计,结果如图4所示,在前6万个单词中,随着单词个数的逐渐增加,单词个数占比呈先陡后平趋势,单词个数占比从节点4开始明显变化。考虑到常见停止词的“常见”属性,本文通过在节点3和节点4之间取平均值的方法来设置筛选范围,即筛选范围控制在前7500个单词之内,这一数值与频次大于1000的单词个数大致相当。
停止词筛选过程共包括三个步骤:第一步使用军事术语词典词频表过滤常见词词表,保留剩余常见词;第二步使用军事术语形态句法标记表过滤剩余常见词汇,形态句法标记不同的词汇直接视为常见停止词;第三步筛除剩余候选常见停止词中的形容词和动名词词汇,利用通信术语词典、航空术语词典和军事术语名词原形词典过滤同形词,剩余词汇直接视为常见停止词,将第二步和第三步筛选的常见停止词合并之后,常见停止词个数由7500个减少至5132个。
2.5 形态分析序列模式的选取
根据统计,在土耳其语军事术语词典中长度为2~6之间的名词性术语占绝大多数,总占比约为99.25%×98.34%=97.6%,为尽量提高术语抽取的整体准确率,本文主要以军事术语词典中名词性形态分析序列为研究对象选择和构建形态分析序列筛选模式。原则上,通过对术语词典进行形态分析获取的形态分析序列可直接作为术语筛选模式,但由于一个土耳其语名词性术语在句子中往往会有多种不同的表现形式,例如,土耳其语军事术语 ate
瘙 塂
destei(火力支援)在句子中的形态同时可以有ate
瘙 塂
desteiyle(通过火力支援)或ate
瘙 塂
desteimizi(我们的火力支援)等,在不能有效进行词簇化处理的情况下,很难通过直接获取的筛选模式识别所有“可能短语”,为解决这一问题,本文采用类词簇化的做法,同时使用关键词原形、第三人称单数领属格和第三人称复数领属格抽取“可能短语”,然后再用于形态序列模式的筛选。我们通过实验对直接获取的形态分析序列模式的有效性进行了验证,结果发现在术语词典中出现次数很少的形态分析序列模式并不一定能够起到术语筛选的效果,例如,军事术语kar
瘙 塂
ate
瘙 塂
(火力反击)的形态分析序列模式为后置词+名词(Postp Noun),后置词nce和sonra与关键词ate
瘙 塂
同时出现的概率也很高,通过上述形态分析序列很难过滤掉类似的字符串,但考虑到符合这一模式的术语总体占比很小,且大部分类似术语已在词典中给出,因此,直接从列表中删除具有类似特点的形态分析序列,可有效提高形态分析序列模式筛选效果。
2.6 基于统计方法的候选术语筛选
经过关键词、停止词和形态分析序列模式等方法过滤筛选之后,为进一步提高剩余候选术语的准确率,本文采取设置点互信息和左右信息熵阈值的方式,排除一些单词间凝合度低的“候选短语”。
1)点互信息
在语言信息处理领域,通过点互信息和平均点互信息来度量单词间相关度是一种非常常见的方法[12]。互信息(MI)来自于信息论,表示两个随机变量X,Y共享的信息量,是针对随机变量计算得出的一个平均值,在已知任一变量的情况下,对另外一个变量的不确定性会相应减少,互信息的计算公式为:
MI(X,Y)=∑x∈X,y∈Yp(x,y)log2p(x,y)p(x)p(y)
相对互信息的随机变量,点互信息(PMI)则是计算两个具体事件之间的互信息,其计算公式为:
PMI(X,Y)=log2p(x,y)p(x)p(y)
为了更加直观地理解上述公式,在点互信息计算公式中,本文将x,y直接视为文本中相邻出现的两个单词,p(x,y)指的是单词x和单词y相邻出现的概率,p(x)和p(y)分别为单词x在文本中出现的概率和单词y在文本中出现的概率。根据统计结果,可直接通过公式计算得出单词x和单词y之间的互信息,当单词x和单词y相互独立的情况下,单词x和单词y相邻出现的概率p(x,y)=p(x)p(y)=0,PMI=0。p(x,y)相比于p(x)p(y)越大,表示两个单词之间的聚合程度越高。据此,在需要对两个以上单词间的聚合程度进行计算时,公式中的分子则变为多词串在文本中出现的概率,分母则变为多词串全部拆分形式出现概率之和的平均值,此时计算结果即为平均点互信息,其计算公式如下:
PMI(w1…wn)=log2(p(w1…wn)Avp)
Avp=1n-1×∑n-1i=1p(w1…wi)p(wi+1…wn)
上述公式中,n代表多词串中单词的总个数,p(w1…wn)是词串w1…wn在本文中出现的概率;i为非负整数,i从1开始取值,一直到n,p(w1…wi)p(wi+1…wn)表示拆分后字符串p(w1…wi)和字符串p(wi+1…wn)在文本中相邻出现的概率。本文研究对象针对长度为2~6之间的名词性术语,因此,i和n的取值范围分别为6>i≥1,6≥n≥2。
2) 左右信息熵
通常判断一个多词字符串可以成词的一个条件是这个字符串会在很多语境中出现。信息熵就是用来衡量字符串所处语境丰富程度的一个指标,熵越大则无序程度越高,字符串越具有独立性。对于任一字符串X,其信息熵可表示为:
H(X)=-∑x∈Xp(x)log2(p(x))
其中,p(x)是字符串x出现的概率。我们设任意字符串S=w1w2…wi,称w1为字符串w2…wi-1的左邻接词,wi为字符串w2…wi-1的右邻接词。如果字符串w2…wi-1的左右邻接词丰富多样,即在很多语境中出现,那么该字符串成为一个术语的概率就大,如果左右邻接词单调贫乏,即出现语境不够丰富,那么该字符串成为一个术语的概率就小。基于上述原理,本文通过字符串w2…wi-1的左右邻接词出现频次来计算左右信息熵,设左信息熵为Hl,右信息熵为Hr,两者的计算表达式则可表示成:
Hl(w1w2…wi-1)=-∑x∈Xp(w1w2…wi-1)log2(p(w1w2…wi-1))
Hr(w2…wi-1wi)=-∑x∈Xp(w2…wi-1wi)log2(p(w2…wi-1wi))
其中,p(w1w2…wi)≈f(w1w2…wi)/∑f(wl),且w1∈wl;p(w2…wi-1wi;f(w2…wi-1wi)/∑f(wr),且wi∈wr。如果左右信息熵達到一定的阈值,则我们认为字符串w2…wi-1可以是一个完整的术语。
3 实验与评测
3.1 实验数据
为了保证实验数据具有更强的军事领域属性,我们首先利用网络爬虫从多家网站抽取了500万土耳其语单语语句,然后,再以军事领域术语词典为基础从上述语句中筛选了9.5万个相关语句,并将其定义为对比实验熟语料(W-data)。其次,为了增加实验验证效果,我们还通过土耳其国防工业网构建了一个包含3400个单语语句的小规模生语料文本(N-data),内容主要涉及武器装备研发现状与未来发展方向,用于对比不同文本对术语抽取效果造成的具体影响。
3.2 评价指标
为了验证筛选术语的效果和性能,论文采用查全率(precision)、查准率(recall)和F值(F-Measure)三个常见指标来进行评测:
查准率(P)指的是通过算法选定的候选术语(TP+FP)中,预测正确的术语(TP)所占百分比:
P=TPTP+FP×100%
查全率(R)指的是通过算法预测正确的术语(TP)个数,在真实情况下所有正确术语中(TP+FN)所占的百分比:
R=TPFP+FN×100%
F值(F)是查准率和查全率之间的加权调和平均值,这一数值越大,筛选方法的效果就越好:
F=2×P×RP+R×100%
3.3 结果分析
在自动抽取术语时,受背景文本的影响,查全率和查准率经常会产生动态变化,为尽量减轻人力负担并保持术语的领域属性,本文将军事术语词典的查全率视为随点互信息阈值变化的近似查全率,F值的大小仅由点互信息阈值和查准率决定。在W-data测试集中,统计结果显示军事术语的点互信息值最小值为-2.11,最大为19.45,随着点互信息数值的不断增大,召回率呈先平稳后急剧下降的趋势,而准确率则呈逐渐上升趋势,根据计算,当点互信息阈值超过5时召回率与准确率乘积最大,阈值为10时F值达到峰值;左信息熵最大值为8.03,右信息熵最大值为7.49,当左右信息熵阈值为3时召回率与准确率乘积最大,同时F值也达到峰值。考虑到右临接词缀的影响,我们将点互信息阈值设置为10,左右信息熵阈值设置为2.5,两者取交集时共筛选出151个候选项,其中116个为词典内术语,23个为词典外术语,术语自动抽取实际正确率达92.05%,抽取的部分词典外术语实例如表3所示。
术语抽取本质上是一项检索任务,在面向此类任务时,通常需要在保证召回率的情况下尽量提升准确率。为了尽可能快速全面地获得术语,一般做法是根据不同参数的阈值各抽取一次候选术语,合并之后去重再进行人工筛选。考虑到互信息、左右信息熵和右临接词缀之间的互补性,本文在合并前分别筛除右信息熵小于0和右临接词缀频次为1的候选项,在通过点互信息阈值提取的候选术语中筛除了485个候选项,其中包含11个军事术语,根据计算此时召回率为31%,F值为0.27,相较未删除前F值提高了4.4个百分点;在通过左右信息熵阈值提取的候选术语中筛除了76个候选项,其中包含11个军事术语,此时召回率为39.95%,F值为0.27,相较未删除前F值提高了0.8个百分点。两者合并之后,共抽取候选术语1636个,术语抽取召回率增至57.47%,这一结果很好地证明了点互信息和左右信息熵的功能互补性。
在不同数据集中,点互信息和左右信息熵的阈值会伴有一定的变化,由于N-data数据集规模较小,因此在设置阈值时我们仍选择参考词典术语的分布规律,以尽量保证实验具有较好的召回率,根据统计结果,我们将点互信息阈值设置为4,左右信息熵阈值设置为2.5,同时在点互信息筛选结果中删除左信息熵小于0.5和右相邻词缀小于0的候选项,对经阈值筛选得到的候选术语进行人工标注后,术语抽取结果如表4所示。根据实验结果我们发现,在N-data中,点互信息筛选的候选术语可完全覆盖通过左右信息熵抽取的术语,即当实验数据规模较小时,受到字符串出现频次较小的影响,左右信息熵的筛选效果远小于点互信息,但因具有較高的筛选准确率,在减轻人工筛选工作量方面仍能发挥一定作用。在抽取的正确术语中,除了非短语和军事术语之外,还包括科技、航海、航空、通信、机械和电子等多个专业领域的相关术语,通过领域术语占比来看,N-data数据集具有明显的军事领域属性,本文提出的土耳其语军事术语抽取方法具有一定的准确性和实用性。
4 结语
针对土耳其语丰富的自然语言特征,本文提出一种基于语言学规则与统计技术相结合的军事领域术语抽取方法。该方法通过语言学家构建的军事术语词典构建术语筛选关键词、停止词和形态分析序列模式列表,发掘土耳其语军事术语在背景语料中的分布规律,并以此为基础设置单词点互信息和左右信息熵阈值,结合候选项邻接词缀频次,在大小不同的两种数据集上展开实验,最终成功实现了土耳其语军事术语的有效抽取。在实验过程中,我们发现术语抽取结果与背景语料本身、筛选列表设置和统计数据阈值的设定关系紧密,当实验数据规模较小时,一般很难通过统计学特征有效抽取低频术语,尤其是低频候选长术语。因此,在背景语料规模受限的情况下,如何优化停止词、关键词和形态分析序列模式列表,进而提高低频术语识别和抽取的效果,是我们需要进一步研究的方向。
参考文献
[1] 吴俊,程垚,郝瀚,等. 基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J]. 情报学报,2020,394(4):409-418.
[2] 孙甜,陈海涛,吕学强,等. 新能源专利文本术语抽取研究[J/OL]. 小型微型计算机系统, 网络首发时间:2021-05-12 08∶31∶22.
[3] SZLK T[S]. Ankara: Türk Dil Kurumu Yaynlar, 2011.
[4] DORU G. Automatic Term Extraction from Turkish to Engish Medical Corpus[J]. EUROPHRAS, 2019: 157-166.
[5] WENDT M, BUSCHER C,HERTA C. Extracting Domain Terminologies from the World Wide Web[C]. Proceedings of Fifth Web as Corppus Workshop(WAC5), 2009.
[6] 董洋溢,李伟华,于会. 文本特征和复合统计量的领域术语抽取方法[J]. 西北工业大学学报,2017,35(4):729-735.
[7] CHATZITHEODOROU K, KAPPATOS V. Hybrid extraction of multi word terms: an application on vibration-based condition monitoring technique[J]. Mathematical Models in Engineering. 2021,7(2):1-9.
[8] SONG X Y, FENG A, WANG W K, et al. Multidimensional Self-Attention for Aspect Term Extraction and Biomedical Named Entity Recognition[J]. Mathematical Problems in Models in Engineering. 2020: 1-6.
[9] 冯志伟.现代术语学引论[M].增订本. 北京:商务印书馆,2011.
[10] JUSTESON J S, KATZ S M. Principled Disambiguation: Discriminating Adjective Senses with Modified Nouns[J].Computational Linguistics. 1995,21(1):1-27.
[11] GALE W A, CHURCH K W. A Program For Aligning Sentences In Bilingual Corpora[J]. Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics.1993,19(1):75-102.
[12] 耿升华.新词识别和热词排名方法研究[D]. 重庆:重庆大学计算机学院硕士论文,2013.
作者简介:张贵林(1982—),男,博士研究生,战略支援部队信息工程大学洛阳校区学员,研究方向为语言信息处理,主要从事形态学、术语学、语料资源构建和机器翻译等方面的研究。通信方式:guilin_1982@163.com。
易绵竹(1964—),男,战略支援部队信息工程大学洛阳校区教授、博士生导师、语言信息处理方向研究生教学指导组组长,兼任中国中文信息学会理事、国家社会科学基金项目和教育部学位与研究生教育发展中心学位论文通信评审专家等职,曾在俄罗斯伊尔库茨克国立大学和普希金俄语学院访学,获俄联邦语文科学博士学位,享受博士后待遇,主要从事计算语言学、本体语义学及术语学研究,主持完成国家级和部委级重点科研课题10余项,在国内外学术期刊发表论文近百篇,出版著作、译作和辞书8部,获省部级以上学术奖励和荣誉称号10余项。通信方式:13373781261@163.com。
李宏欣(1983—),男,博士,战略支援部队信息工程大学洛阳校区副教授,研究方向为量子信息与基础数学,在国内外学术期刊发表论文数十篇。通信方式:lihongxin830@163.com。