姜鳗书 钱星敏
摘 要:本文基于欧盟电动汽车国际安全标准文本,采用SDL Multiterm Extract软件提取电动汽车术语,并分析术语差异的原因。提出了解决中文术语抽取不准确的方法以期完善术语提取方法,提升术语提取数量和质量,促进电动汽车类机辅翻译的标准化,为中国电动汽车走出去铺平道路。
关键词:术语提取;英汉术语提取结果差异;电动汽车;中文分词法
0 引言
互联网技术飞速发展,提取术语的技术也在不断进步,21世纪初《中文信息报》上已有对于术语抽取的比较成熟的研究,研究高质量的双语术语库可以提高计算机辅助翻译的效率。如今电动汽车行业作为全球新兴发展行业,发展前景广阔,但对于相关电动汽车国际安全标准的翻译存在诸多问题,比如,术语不统一,不规范,特别是研究特定科学领域时(以电动汽车术语为例)由于缺乏相关的术语库,影响了领域内更深层次的交流,严重阻碍了我国电动汽车更好地走出去。
1 英汉术语抽取结果差异
研究基于欧盟电动汽车国际安全标准小型英汉语料库项目过程中,收集了大量权威性电动汽车安全标准相关文件,比如ECE(欧洲经济委员会汽车法规)、SAE(国际自动机工程师学会)、GB(中国国家标准)等,并使用SDL MultiTerm Extract进行术语自动抽取,结果显示英汉术语抽取结果差异较大。
术语是通过语音或文字来表达或限定专业概念的约定性符号。冯志伟先生在《现代术语学》一书中提出术语应具备以下特征:专业性,约定俗成性,单一性,简明性,能产性,系统性。此外,术语在语言结构上也有一定的特征,这一特征为术语自动抽取技术提供了条件。(周浪2010)
符合术语定义的中文术语长度,主要集中在2~6个字,大多是无意义词汇,比如“的时间”之类,这些词无法组成词组,更不符合术语特征。英文术语长度主要集中在2~4个单词左右。抽取结果较为准确,高频词汇特征与术语特征较为吻合。但出现重复的词汇较多,而且SDL MultiTerm Extract(一款桌面工具,根据现有已翻译文档创建术语表,能与现有翻译资产配合使用,无论翻译资产在基于文件的位置,还是在基于服务器的位置,都可以在子句段层面检查术语的出现频率,不必手动搜索术语,来建立项目词汇表。)但它不能够对英文的大小写进行删减,单词大写算一个术语,小写也算一个术语,造成了术语重复;也无法删减冠词the,譬如电动汽车术语中的这样一个词组,the EVSE属于术语,同时EVSE也属于一个术语。
2 术语抽取结果差异分析
2.1 语言的不同形式
造成差异的原因,要从英汉语言的不同形式进行分析,抽取单语术语时,英语语言形式较汉语言形式相比,有一个明显的优势是词与词之间用空格分隔,一个词表达一个完整的意思。而汉语词与词之间,或者字与字之间没有形式上的分隔符,这对汉语术语的单语自动抽取造成了一定的困难。
2.2 词性不对等
中英文的词性不对等问题也是造成术语提取不准确的一个重要原因。中文中不存在冠词的概念, 没有the、a之类的词,而英文中没有“的、了”这些无意义词对应的英文,这也是术语提取结果不正确的原因之一。
2.3 单词性术语的提取
中文术语提取单词性术语的效率明显不如英文。中文表达多重复,讲究韵律,经常性地對一些字词进行重复,而英文则多用代词指代,对于重复的词利用代词进行代替,导致抽取的中文高频词有不符合术语定义的词汇,而英文的词汇则较为正常一些。如下图所示:
2.4 词组性术语的抽取效率
对于中文词组型术语的抽取效率问题,词组性术语是指两个或两个以上单词共同组合而形成的术语;单词性术语则是一个单词形成的术语。汉语因其语言形式的特殊形式,一个自由语素就可以被视作一个单词性术语。相比之下,根据语言学的定义划分,英文里最小的语素单位没有实际意义,不能作为单词性的术语。因此抽取中英文术语时,英文识别不出单词性术语,而汉语大部分都是无意义的单字。
以抽取电动汽车术语的结果为例,自由语素“气”和自由语素“压”,共同组成的词语“气压”。既可以被视作为合成词,也可以视为词组,合成词与词组之间并没有明显的区分。如果一个单词性的术语由两个自由语素构成,该术语既可以视作单词性术语,也可以视为词组性术语。单词性术语的合成词与词组性术语分界模糊的情况造成了汉语文本切分困难的问题,从而导致了中文术语抽取效果不理想。
3 解决双语术语不准确的办法
中英两种语言之间的巨大差异是导致抽取双语术语不准确的主要原因,反映了双语抽取的难度之大。
3.1 抽取术语规则
解决这个问题首先要了解抽取术语是基于怎样的规则来进行的,主流抽取方法分为三种,基于语言学规则,基于统计学规则,以及两种规则混合。基于语言学规则的术语抽取结果更加准确,但也因过分强调语言学的定义,导致术语提取质量颇高,但数量较少。而基于统计学的术语提取,提取术语数量很可观,但术语质量则不差强人意,会出现很多不是术语的高频词汇。
3.2 基于专业术语提取的中文分词方法
很多专家研究过如何在统计学和语言学方法上取得平衡,譬如一种基于专业术语提取的中文分词方法,这种方法通过大量特定的专业语料库,基于互信息和统计的方法,对文中未登录词等专业术语进行提取,构造专业术语词典,并结合通用词典,利用最大匹配方法进行中文分词。结果证明,这种方法在基本完成中文分词的基础上,可以优先识别出未登录词等专业术语,具有一定的可行性。如果在我们的项目中应用了这种方法,必定会减少许多无意义词汇,增加抽取术语的准确性。(郑阳,莫建文2012:20-23)
3.3 基于词效应的中文术语提取方法
这种提取方法分析了现有的统计分词方法之后,进一步改进了互信息计算的方法,结合t测试度接续指数,提出一个综合统计量词效应,即以词效应为基础,提出了一种中文术语提取方法。实验分析同时表明,这种基于这种词效应中文术语提取方法,不仅能够提取出带翻译语料中的术语,而且不需要对干预量进行预先处理。最后的结果看来,无论是提取词语的准确度,还是覆盖语料的范围都是非常有效的。(刮俊杰,吴树国,伊胜伟2009:5)
对日常的计算机辅助翻译需求而言,这两种处理中文语料的术语提取方法,既有效,又方便快捷,响应了速度,也满足了用户的需求。如果应用在电动汽车国际安全标准的术语提取过程当中,将进一步提升术语准确性,加快提取的速度,帮助译员提升翻译术语的严谨性。当然,这两种术语提取的解决办法也存在一定的问题,并不能够完美提取出所有的术语,需要进一步完善。
4 结语
英汉语言差异的巨大是造成中文术语提取结果不准确的重要原因之一。而电动汽车的广阔前景和迫切交流需求意味着要不断完善术语提取技术。技术成熟,则提取术语的准确性提高,术语库得到补充,机辅翻译效率提高,进而译员翻译严谨性提高,方便电动汽车领域内部交流,帮助国内外电动汽车市场的交流,促进经济贸易的发展。
自动术语抽取技术虽已得到社会的广泛关注,取得了不错的成绩。但抽取技术仍处于初期阶段,离真正解决问题还有一段距离,需要进一步提升术语抽取的质量,克服许多挑战和问题。
参考文献:
[1]張冠东.英汉双语术语自动抽取工具效率对比实验报告[D].大连外国语大学,2020.
[2]张雪,孙宏宇,辛东兴,李翠平,陈红.自动术语抽取研究综述[J].软件学报,2020,31(07):2062-2094.
[3]周浪.中文术语抽取若干问题研究[D].南京理工大学,2010.
[4]靳光洒.计算机辅助翻译技术的现状与发展趋势论析[J].沈阳工程学院学报(自然科学版),2010,6(03):264-266+280.
[5]郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,
2012,14(04):20-23.
[6]张榕,宋柔.术语定义提取研究[J].术语标准化与信息技术,2006
(01):29-32.
[7]刮俊杰,吴树国,伊胜伟.基于词效应的中文术语提取方法[A].中国运筹学会智能计算分会.第三届中国智能计算大会论文集[C].中国运筹学会智能计算分会:清华大学数学科学系,2009:5.