提 要 本文叙述了国际标准ISO 7098的修订过程,指出这个国际标准修订的两大特点?:一是把汉语拼音按词连写的规则引入国际标准,二是把汉字—拼音转写的自动译音方法引入国际标准。
关键词 拼音;国际标准;单一罗马化;自动译音
Abstract This article describes the latest development of Chinese character internationalization. The first section, after a brief introduction about the promulgation of Pinyin (Romanization Scheme for Chinese character), discusses a series of academic efforts to integrate Pinyin into international standards since 1979, with a focus on recent proposals of Pinyin spelling standardization rules recommended to the annual meetings of ISO/TC (International Organization for Standardization/Technical Committee) from 2011 to 2015. The second and third sections review the two latest recommendation submitted to ISO. The second section focuses on the technical aspects of Chinese word-segmentation and disambiguation mechanism and the third section is devoted to the significance of the automatic transcription from Chinese characters to Pinyin in the international standard.
Key words Pinyin; international standard; single Romanization; automatic transcription
1979年,中国代表周有光在华沙的ISO/TC 46(国际标准化组织信息与文献标准化技术委员会)第18届全体会议上,提出把《汉语拼音方案》作为国际标准的建议。
1982年在南京召开的ISO/TC 46第19届全体会议上,正式通过了《ISO 7098 文献工作——中文罗马字母拼写法》(ISO 7098 Information and Documentation-Chinese Romanization)。澳大利亚、加拿大、法国、日本、韩国、德意志联邦共和国、苏联等国投了赞成票,英国弃权,由于技术上的原因,美国投了反对票。从此,汉语拼音成为国际标准。
一、国际标准ISO 7098的修订过程
1991年,在巴黎召开的ISO/TC 46第24届全体会议上,对国际标准“ISO 7098”进行了技术修改,成为《ISO 7098信息与文献——中文罗马字母拼写法(1991)》,简称“ISO 7098(1991)”。中国代表王均出席了这次会议。
20世纪90年代初制定ISO 7098(1991)的时候,正是世界进入信息时代的关键时刻。为了适应信息时代的要求,中国开始研制计算机汉字输入输出。使用汉语拼音,可以通过拼音—汉字转换的方法输入输出汉字。由于汉语拼音是中国初等教育必不可少的内容,每一个受过教育的中国人都会使用,这样,ISO 7098(1991)就成了汉字输入输出的一种便捷的手段。
国际标准ISO 7098(1991)是在《汉语拼音方案》的基础上制定的,为了在国际范围内进一步扩大《汉语拼音方案》的影响,有必要修改ISO 7098(1991)。
ISO 7098(1991)对于全世界的信息与文献工作具有重要的意义,为了满足国内外对汉语拼音实际应用的迫切需要,也有必要修改ISO 7098(1991)。
2011年3月,教育部成立了ISO 7098修订工作组,由语言文字应用研究所研究员冯志伟担任组长,李志江、傅爱平、黄伟、颜伟四位语言文字专家为工作组成员,启动了ISO 7098(1991)的修订工作。
2011年5月6日,ISO/TC 46第38届会议在澳大利亚悉尼召开,受教育部的派遣,我国代表冯志伟出席并在会上提出了修改ISO 7098(1991)以便反映当前中文罗马化的新发展和实际应用需要的建议。会后,我国国家标准化委员会(SAC)正式向ISO国际标准化组织提出了修订ISO 7098(1991)的新工作项目(New Working Item Proposal,简称NWIP)的提案,提案的国际编号是:N 2358。
2012年5月6日至11日,ISO/TC 46第39届全体
会议在德国柏林举行,教育部派遣冯志伟出席这次会议。会议接受了我国的N 2358号提案,并将这个提案直接作为ISO 7098的工作草案(Working Draft,简称WD),成立了ISO 7098国际修订工作组,并任命冯志伟担任国际工作组组长,由美国、俄罗斯、德国和加拿大四国各派一位专家参加,这样,ISO 7098(1991)的修订便正式列入了国际标准化组织的工作日程。
2013年6月3日至7日在巴黎召开ISO/TC 46第40届全体会议,教育部派遣冯志伟出席这次会议,冯志伟在会议上正式向ISO/TC 46秘书处提交了ISO 7098的委员会草案(Committee Draft,简称CD)。
2014年5月5日至9日,ISO/TC 46第41届全体
会议在美国华盛顿召开。教育部派遣冯志伟出席这次会议,在5月7日的第三工作组(Working Group 3,简称WG3)会议上,就ISO 7098(1991)的修订问题重申中国的立场。会后向ISO/TC 46秘书处提交了ISO 7098的国际标准草案(Draft of International Standard,简称DIS)。
2015年6月1日至5日的ISO/TC46第42届全体会议在北京召开。教育部派遣冯志伟出席这次会议,在6月2日的大会专题报告会上做了《ISO 7098国际标准及其在人机交互中的应用》的报告(Feng 2015)。6月3日的WG3会议上,冯志伟又介绍了各国对于ISO 7098的DIS稿提出的意见以及我国对于这些意见的处理情况,向与会人员出示了DIS的修改稿。
会后,冯志伟把经过修改的DIS稿正式提交ISO/TC 46秘书处,根据ISO/TC 46第41届全体会议的决议,ISO/TC 46秘书处于2015年7月27日把DIS的修改稿分发给ISO/TC 46的各成员国,进行委员会内部投票(Committee Internal Balloting,简称CIB),CIB投票于2015年9月18日结束。ISO/TC 46秘书处的N 2526号文件公布了投票结果:ISO/TC 46委员会中没有弃权的19个国家全都投了赞成票,获得全票通过。至此,ISO 7098形成了新的修订稿,叫作ISO 7098:2015。2015年12月15日,ISO总部正式出版ISO 7098:2015,作为新的国际标准向全世界公布。
2015年12月15日由ISO总部正式出版的ISO 7098:2015有两个最为引人注目的特点,一是把汉语拼音按词连写的规则引入国际标准,二是把汉字—拼音转写的自动译音方法引入国际标准。
二、汉语拼音按词连写的规则引入国际标准
汉语中大多数常用词都是多音节词,因此,在国际文献和信息工作中,有必要把按词连写的规则引入国际标准。
在汉语拼音中,单个的音节是有歧义的。如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。《通用规范汉字表》包含8105个通用汉字,一般使用中一个汉语音节平均要表示20个以上的汉字(8105/405 =
20.01),不可避免会出现歧义。如果把几个单音节连接起来构成多音节词,歧义指数就会大幅度减少。为了给拼音音节排歧,必须把不同的单音节连接起来构成多音节的汉语单词。
《汉语拼音正词法基本规则》(GB/T 16159-2012)中包括了分词连写规则,人名和地名的拼写规则,大写规则,移行规则,等等。
汉语的专有名词中,单词的界限还是相对清楚的,由于汉语中多音节的命名实体的界限根据有关的规范和标准比较容易确定,因此,把不同的几个单音节连接起来构成多音节的专有名词就不是很困难。
由于这样的考虑,国际标准ISO 7098:2015增加了命名实体(naming entities)按词进行音节连写的规定:在汉语拼音中,对于人名、地名、语言名、民族名、宗教名这五种命名实体,都要按词进行连写。这样就把“按词连写”这个重要的方法引进了国际标准中。
在中文罗马字母拼写的发展过程中,曾经使用过与《汉语拼音方案》不同的罗马字母拼写形式来拼写中文地名。威妥玛式(Wade Giles)、国语罗马字(Guoyeu Romatzyh)、耶鲁拼音(Mandarin Yale)等,根据“单一罗马化”原则,在对中文地名进行罗马字母拼写时,选择了《汉语拼音方案》。
三、汉字—拼音转写自动译音的方法引入国际标准
ISO 7098:2015还把汉字—拼音转写自动译音的方法引入国际标准,提出了在计算机辅助文献工作中,对命名实体进行自动译音(automatic transcription)的两种方法:一种是按音节全自动译音,一种是基于规则的按单词半自动译音。
按音节全自动译音的方法能够把汉字文本自动地译音为彼此之间由空白分开的单音节的拼音。使用这样的方法,“北京市”这个地名可以全自动地译音为/bei/、/jing/ 和/shi/三个音节。这种方法很容易用计算机程序来实现,但是译音出来的音节的歧义指数较高。
另一种是基于规则的按单词半自动译音的方法。在目前的技术条件下,全自动的单词切分难以达到很好的质量,可以采用基于规则的按单词半自动译音的方法。
命名实体基于规则的按单词半自动译音可以使用如下的资源:1. 一套译音规则:ISO 7098:2015提出了命名实体译音的一般规则,这些规则可以用作命名实体半自动译音的资源。2. 一个相关的译音词典:最近出版的《汉语拼音词汇:专名部分(草案)》(董琨 2015)包含了大多数的命名实体的拼音译音,可以用作命名实体半自动译音的另一个资源。
ISO 7098:2015提出,如果在按词译音过程中出现歧义或问题,后编辑人员可以根据译音词典,使用人机交互找出合适的命名实体的译音。所以,这样的方法是半自动的。这种半自动方法的译音质量很高,音节的歧义指数较小甚至可以减少到零。
24年前制定的ISO 7098(1991)把《汉语拼音方案》提高到国际标准的地位,是汉语拼音走向世界的第一步,现在我们修订的ISO 7098:2015,进一步提出了在罗马字母拼写时对命名实体按词连写的规则和自动译音的方法,迈开了汉语拼音走向世界的新步伐。
参考文献
董 琨主编 2015 《汉语拼音词汇:专名部分(草案)》,上海:上海辞书出版社。
Feng Zhiwei. 2015. Chinese Romanization and Its Application in HCI. Proceedings of 42th Plenary Meeting of ISO TC46, Beijing.
International Standadization Organization. 2015. ISO 7098: 2015 Information and Documentation: Romanization of Chinese. Geneve.
责任编辑:刘一玲