●郑 义(南京农业大学,南京 223800)
随着21世纪信息时代的来临,政府办公也逐步走向了信息化,最具代表性的就是电子政务的发展。我国政府在“十五”计划中把电子政务建设作为今后一个时期我国信息化工作的重点,首要的工作就是建立一部比较完备的政务主题词表,可以正确、规范地对政务系统中的各类文献进行分类与管理,在政务系统中将反映文献主题内容的自然语言转换成规范化的主题词和代码。[1]
作为电子政务重要组成部分的政务词表,各国均建有不同分类体系的政务词表。与一些发达国家相比,我国电子政务的起步较晚、发展较慢。在学习、借鉴国外电子政务的先进经验与技术的发展目标下,在我国现有的电子政务词表分类体系与国外分类体系之间建立兼容互换关联就显得尤为重要。并在此基础上,可以使不同国家的用户在不熟悉其他国家政务词表分类体系和主题词表的情况下,或者在分类法和主题法不兼容的情况下,用本国的语言和熟悉的政务分类法检索、使用外国的政务网站,享受跨国服务或者实现国家间政务交流。
词表互操作是实现词表之间匹配转换的有效方法,所谓互操作,是指不同系统相互调用的功能。具体来说,情报检索语言的互操作是指不同词表、类表之间可以实现兼容与互换,即用某种词表的词汇及其构造的检索式(或标引记录),可以直接适用于或通过交换适用于多个情报检索系统。关于主题语言互操作研究,刘华梅对国外与国内的研究成果进行了总结。[2]
国外这方面的研究成果主要有以下4个:
(1) LCSH/MeSH。实施 LCSH(Library of Congress Subject Headings,美国国会图书馆标题表) 与MeSH(MedicalsubjectHeadings,医学主题词表)项目的目的是通过整合这两个受控主题词表,以解决图书馆的在线编目中因采用不同受控词表而产生的不兼容性。它是以MARC21权威记录格式来实现的,150字段用来存放源记录中的标题词,增加了750或788字段,用来存放链接款目,即目标记录中的映射标题词。
(2) CAMed。CAMed(Complementary and Alternative Medicine)是一个国际合作项目,是对医学资源的补充和选择。它包括一个集合词表管理系统和跨词表检索系统。在这个模型中,医学领域的4种叙词表经过规范化存储在一个词表知识库中。系统的跨词表检索机制允许用户输入一个检索词,可以同时检索到这个知识库中的所有或任何一个词表,以此实现语词检索在知识库的4个词表中的直接检索。
(3) MACS。MACS(Multilingual Access toSubject)项目由法国、德国、英国、瑞士的国家图书馆共同完成,其目的是将德语、法语、英语3个主题标题表中概念相等的标题词之间建立相等关系的链接,并把这种链接关系存储到链接数据库中,使检索用户可以采用自己熟悉的语言检索利用4国主题标题表所生成的书目数据,实现图书资源的共享。
(4) HEREIN。HEREIN(The European Information NetworkonCulturalHeritagePolicies) 项目是从欧洲关于文化遗产政策的报告中抽词,创建的一部国际语言的叙词表。词表的创建没有直接参照任何已经存在的词表语词或词表结构。首先是分成3个小组——西班牙、法国、英国,分别负责建立它们自己语言的叙词表。然后通过比较3个小组的语词,确定语词间关系,从而建立3种语言的叙词表。词表可以使用户更好地了解文化遗产领域的术语,有助于用户阅读专业报告及进行相关扩展检索。
有关国内的词表互操作研究以及国内与国外的词表兼容互操作研究,曾有学者提出了大词表方案和词库方案,具体的成果很少,但许多学者进行了试验。
刘华梅在她的硕士论文中提出用两种方法实现《教育主题词表》《社会科学检索词表》到《中国分类主题词表》的互操作,完成教育集成词库的建设。第一种是基于词表结构的自动匹配,第二种是基于字面相似度计算并辅助以同义词表的语词匹配。
第一种方法是借助词表之间结构的兼容性,利用3个表中都有的“用、代、属、分、参”等款目参照关系,按参照关系的匹配程度建立前两种表与《中国分类主题词表》的联系。也就是说,这种方法对词表的结构有一定要求,结构越相似,词汇相容性越高,互操作越容易。本实验是对两个范畴表进行转换,词之间并无参照关系,类目数量、收词数量、分类体系等也都有很大差别。很显然,这种方法并不适合本实验。
第二种方法是对主题词进行操作,将不同词表中的同义词进行匹配,在计算相似度后,引入同义词表;对没有字面相似性的同义词进行匹配,以提高准确度。这种方法对词表的结构要求不高,主要是对主题词进行相似度计算。计算相似度以机器操作为主,手工操作为辅。
自然语言与主题语言进行的互操作,采用的是与以上相类似的方法:一是基于词汇同现信息进行相似度计算;二是计算语词之间的相似度。词汇同现方法能够使用的前提假设是同义词或相关词经常一起出现,这种方法需要建立好关键词与主题词的对应关系,而且需要有大量的词汇对应数据。条件所限,本实验没有现成的词汇对应数据,因此仅采用语词相似度匹配计算的方法。
以上几种方法具体应用到本实验,拟以范畴表之间的互操作的方式进行。范畴表结构简单,语词之间没有列出参照关系,处理起来简便快捷。此外,全表匹配转换,计算量大,而且会出现错误匹配。因此,本实验采用细分到一级类之间的对应,1个《澳大利亚政务主题词表》(ThesaurusofAustralianGovemmentSubjects,简称《澳表》) 一级类对应1到2个《综合电子政务主题词表》(简称《中表》) 一级类,或者1个《中表》一级类对应1到2个《澳表》一级类,这个步骤由人工判断决定。对应好之后再对这些类中的语词进行相似性匹配。这样,不仅省去了不必要的计算,而且提高了匹配正确率。
实现不同语种词汇的互操作,必须将词汇统一成一种语言,这就要用到翻译,本实验拟将外文词汇翻译成中文。[3]鉴于将国外的电子政务词表的语词翻译成中文,在保证词义不变的前提下,就很难保证语词形式还像中文电子政务词表主题词那样规范。所以,对中外政务词表的主题词进行匹配转换要采用主题语言之间互操作与自然语言与主题语言互操作相结合的方式。在技术上采用计算字面相似度匹配的方式并辅助以同义词表匹配。字面相似度的计算方法是两个词相同字的个数分别除以两个词所含字的个数,所得结果相加再除以2即为这两个词的字面相似度值。用公式表示为“字面相似度=[(A词与B词相同词素的个数/A词所含词素个数)+(A词与B词相同词素的个数/B词所含词素个数)]/2”。对于无字面相似性的同义词及其他特殊词汇采用手工判断对应的方式。
笔者从英国、加拿大、澳大利亚、新西兰4国政府网站上搜集了各自的政务主题词表,这几个国家也都是电子政务发展较早也较好的国家,它们的政务词表比较有代表性。[4]由于以前都是英联邦国家,各国词表具有相似性,遂选取收词量适中的《澳表》进行转换试验。
本次试验的素材有《中表》和《澳表》。《中表》作为2004年度国家科技基础性工作和社会公益研究专项“《电子政务主题词表》编制及应用系统”开发研究中的主要部分,于2005年1月编制完成。这是我国第一部按国家标准编制的综合性电子政务主题词表,主要供国家政府部门处理政务信息时使用。它的问世,对我国政务信息管理的规范化与标准化,对我国电子政务信息资源的共建共享起到了积极的支撑与推进作用。[5]《中表》划分为21个大类,收录主题词17421条。《澳表》也称TAGS,是由该国国家信息办公室发起组织的,这一项目被称为整个澳大利亚政府高度概括的主题词表工程。其目的是建一个顶层的主题词表供政府机构使用。《澳表》编辑于2001年,2006年发布了新版,即为本实验的《澳表》。《澳表》划分为17个大类,收录主题词1786条。两表的类目构成如表1所示。
表1 《澳表》与《中表》一级类目构成
具体转换过程按照如下的步骤进行:
(1) 词表翻译。将《澳表》按主题类目显示的主题词使用“灵格斯”翻译软件按字面涵义翻译成中文。如有一词多义现象,写上全部涵义。将形容词、副词等尽量名词化,以便与中表的名词相对应。
(2) 一级类对应。《澳表》共17个大类1786个主题词,《中表》共21个大类,17421个主题词。两表主题词涵盖面基本相同,但《中表》词表更具有深度,也更详细,因此采用《澳表》向《中表》映射和《中表》向《澳表》映射两种方式对比映射结果。同时为了减少计算量,不采用全表映射匹配,在映射时细分到一级类目上。采用《澳表》类目对应1到2个相关的《中表》类目,如“BIBusinessand Industry(商业和工业)”对应“09商业、贸易,04工业、交通”,“DEDefenceand NationalSecurity(国防和国家安全)”对应“16军事、国防”,“EF Economics and Finance(经济和财政)”对应“08财政、金融,09商业、贸易”。反之,《中表》向《澳表》映射方法类似。取以上几类语词进行试验,推此及彼,借以说明情况。
(3) 部分试验,检验结果。以农业类为例,《澳表》“AGAgriculture”60个主题词对应《中表》“07农林、水利”1356个主题词,将以上两组词输入Access中,分别形成两张表单sheet1与sheet2;使用VisualC编写程序对Access数据库进行操作,将sheet1中的每一个词分别与sheet2中的每一个词进行相似度比较,返回相似度最大的3个词与sheet1中的词对应,返回结果在记事本上,如表2。
表2 《澳表》语词向《中表》语词的匹配结果
反之,将sheet2中的每一个词分别与sheet1中的每一个词进行相似度比较,返回相似度最大的3个词与sheet2中的词对应,为《中表》向《澳表》的匹配结果,如表3。
表3 《中表》语词向《澳表》语词的匹配结果
(4)经机器匹配结束后,剩下的不能匹配的词语按照以下顺序进行人工匹配:
①跨类匹配。有些词语两表所共有,但分属不相关的类,如:“Agricultural insurance”(农业保险),《澳表》分在“AGAgriculture”类,《中表》分在“08财政、金融”类。
②近似转换。人工判断其同义词或近义词。如:“态度”“合并”“竞争”等一些中性词语。大多在“21综合用语”中查找,因为在一级类目划分上,《澳表》不设综合政务类。
③取其上位类词语匹配。
④组配匹配。这种语词数量很少,如:“Marine biology”(海洋生物学)对应“海洋”+“生物学”。
在经过了以上几步的匹配后,按照完全匹配、相关匹配、上位类匹配、下位类匹配、不匹配几种情况统计匹配结果。[6,7]完全匹配是指对应的语词完全相同或意思相近。相关匹配是指对应的语词存在相关关系。上位类匹配是指语词与目标语词在词间关系上属于其下位类。下位类匹配与上位类匹配意思相反,即语词与目标语词在词间关系上属于其上位类。不匹配指目标语词不存在以上几种匹配关系的语词与之对应。
表4 《澳表》语词向《中表》语词的匹配
如果将完全匹配、相关匹配、上位类匹配和下位类匹配算作匹配成功的话,《澳表》向《中表》匹配成功率及中表向《澳表》匹配成功率如下表。
表5 《中表》语词向《澳表》语词的匹配
表6 《澳表》向《中表》匹配成功率
表7 《中表》向《澳表》匹配成功率
《澳表》向《中表》匹配平均成功率78.192%;《中表》向《澳表》匹配平均成功率58.592%。前者较高,主要是因为《澳表》词汇数量少。总体来说《澳表》与《中表》词汇相似程度还是比较高的。由此,也可推知其他国家政务词表与中国政务词表的匹配也能够达到这个结果。
由于时间仓促,水平有限,本项目还有许多不足和需要改进的地方。在生成的Access表单中,可增加一个接口,将语词用翻译软件翻译后,自动与《中表》中的词匹配,提高自动化程度,可大大增加转换的效率。另外,本实验只挑选了几个类进行试验,全表匹配尚存在一定难度。这些在理论上是可以实现的,但由于技术所限没有做成。
(本项目得到了南京农业大学教授侯汉清老师的指导,在此表示感谢。)
[1]田景熙,洪琢.电子政务系统规划与设计[M].北京:人民邮电出版社,2005.
[2]刘华梅.基于情报检索语言互操作技术的集成词库构建研究——以教育词库为例[D].南京:南京农业大学,2006.
[3]陈志新.中美两国主题词表对应转换的分析[J].情报检索,2003,22 (9):28-29.
[4]倪静,等.国外电子政务主题词表编制及网络应用的比较分析[J].情报学报,2003,22(5):565-571.
[5]《电子政务主题词表》编制与应用系统课题组.综合电子政务主题词表(范畴表)[Z].北京:科学技术文献出版社,2005.
[6]郑贵宇.我国检索语言国际兼容初探[J].情报学报,2001,20(4):478-482.
[7]李晴霞.我国电子政务目前存在的问题[J].现代商业,2007(04X):26-27.