民族文字:迎接信息化时代的到来

2001-12-01 07:53
中国民族 2001年6期
关键词:藏文编码文字

江 嘎

我国的56个民族中,除汉文外,还有21个民族拥有自己的文字。

从80年代以来,在国家民委、国家技术监督局、国家科委、电子工业部等有关部门的关心支持和帮助下,集结起各方面的力量协同攻关,使民族文字的信息处理工作取得了很大的进展。

70年代起,在周恩来总理的关怀下,由当时的四机部、中国科学院、国家出版局等部门发起的“汉字信息处理技术工程”,被列入了国家科研规划,从此开始了出版印刷事业告别铅与火的攻坚阶段。1984年5月,由北京大学、潍坊计算机厂等单位研制的我国第一代实用计算机——激光编辑排版系统华光2型,通过国家鉴定,并投入使用。后来,这个系统又不断改进升级。

与此同时,国家对少数民族文字处理系统的开发也给予了极大的关注。在第七个五年计划期间,由中国计算机软件与技术服务总公司会同新疆、内蒙古等地的民族语文专家和计算机专家以及民族印刷厂、北京大学计算机研究所等单位,联合承担了“少数民族文字处理技术开发”项目,并于90年代初,先后陆续推出了蒙古、藏、维吾尔、哈萨克、朝鲜、彝、壮以及柯尔克孜、锡伯等少数民族文字的字处理系统,新疆、青海、甘肃、西藏、四川、吉林延边等地的专家学者也在国家的扶持下,开发了多种民族文字的字处理技术,在前面提到的各类系统的基础上推出了一系列少数民族文字的应用系统。迄今为止,已开发完成的主要项目有:

1.标准

开发系统离不开编码字符集标准、键盘标准、字模标准。内蒙古自治区计算中心完成了蒙古文字符集国家标准、蒙古文键盘国家标准、蒙古文字模国家标准;新疆维吾尔自治区语委主持完成了维吾尔、哈萨克、柯尔克孜文的字符、键盘、字模的国家标准;四川省民语委办公室主持完成了彝文字符集、键盘、字模的国家标准;西藏自治区藏语文工作委员会办公室牵头,西藏大学、西藏技术监督局、西北民族学院、青海师范大学共同完成了藏文编码字符集、藏文键盘、藏文字模国家标准。值得一提的是,1997年,我国提交的藏文编码字符集国际标准正式进入了国际标准化组织(ISO)制定的统一编码的国际标准,即ISO/IEC 10646这一先进的标准编码体系结构中,成了第一个进入该标准基本平面的少数民族文字,为藏文字符编码的统一作出了贡献。1999年我国内蒙古自治区有关单位和蒙古共和国有关部门共同制定了蒙古文编码字符集国际标准,四川省民委制定了彝文编码字符集国际标准。以上两个标准经国际标准化组织(ISO)审定,正式编入国际标准编码体系结构中。维吾尔、哈萨克等文的编码标准经多方面协商也得到圆满解决。为我国几个少数民族文字的计算机处理打下了良好的基础。国家标准锡伯文信息处理信息交换用七位和八位编码图形字符集也正在编制中;蒙古文、彝文、傣文、锡伯文和维吾尔、哈萨克、柯尔克孜等文字符集的补充集正在制订中。

2.操作系统和电子出版系统

蒙古文——内蒙古计算中心(以下简称“内计中”)开发了蒙古文、汉文、西文操作系统,与潍坊计算机照排研究所(以下简称“潍坊”)合作研制了华光V型蒙古文书刊、图表、报纸激光照排系统;内蒙古大学(以下简称“内大”)相继研发了IMU-I蒙古文排版系统,MPS蒙汉混合字处理系统,并实现了蒙古文、托忒蒙古文、满文、八思巴文等与蒙古文有关的文字的操作系统,能解决蒙古文多文种以及国际音标的输入和输出工作,并与北京大学计算机研究所、北京大学新技术公司(以下简称“北大方正”)合作研制了《北大方正电子出版系统》蒙古文版;在内蒙古自治区政府的大力支持下,有关单位正在研发基于国际标准的更为方便、实用、功能强大的字处理系统;

藏文——1986年由青海师范大学(以下简称“青师大”)研究开发的TCDOS2.0版藏文系统通过了鉴定。这是第一个投入实用的藏文系统,该系统经不断改进,现已升级为TCDOS2RM和基于WINDOS的藏文操作系统TCDOS FOR WIN,以上系统可挂接在CCDOS或UCDOS汉文系统上,可实现英汉藏混合处理。西北民族学院数学系(以下简称“西北民院”)研发了《兰海藏文系统》;中国藏学研究中心(以下简称“藏研中心”)和航天部701所于1988年8月推出了藏文文字处理及激光编辑排版印刷系统(该系统后来与潍坊华光合作开发出了华光书林藏文排版和激光照排系统,中国藏学出版社出版的藏文版《中华大藏经》就是用这个系统排版及进行激光照排的);中国计算机软件与技术服务总公司(以下简称“中软”)、民族印刷厂、北京大学计算机研究所、中国民族语文翻译中心联合研制并推出了北大方正藏文书版系统,北大方正1997年推出了基于WIN31的藏文维思彩色印刷系统(北大方正的藏文书版系统在藏区占有相当大的市场);西南民族学院计算机研究室开发了基于DOS平台的SPDOS汉藏文版操作系统和WIN95藏文文字平台;西藏大学在国家和自治区科技厅的支持下,正在研制基于藏文编码字符集国际标准的字处理系统。

维吾尔、哈萨克、柯尔克孜文——1989年新疆维吾尔自治区民族语言文字工作委员会(以下简称“新疆语委”)主持研发了博格达维吾尔、哈萨克、柯尔克孜、汉、英、俄多文种排版系统(该系统可对以上多种文字进行编辑,混合排版输出);北大方正和潍坊华光都有这些文字的排版系统;1997年6月新疆未来软件制作室开发了新一代多文种操作系统——《未来多文种系统UTDOS6.1》实现了民族文字、汉、俄、英一体化的多文种混合处理,其功能比较强大;新疆大学推出了维文之星Windows'95操作系统平台。

朝鲜文——北大方正推出了方正朝鲜文书版系统和维思系统;潍坊华光推出了书版朝鲜文系统。

彝文——北大方正与西南民族学院合作开发了彝文系统的书版软件;西南民族学院自行研发了UCDOS汉彝文双语平台和SPDOS汉彝文版汉字操作系统,推出了WIN95彝文文字平台。

壮文——北大方正推出的壮文书版是在英文的基础上稍加改造实现的。

傣文——北大方正开发了傣文电子出版系统。

北大方正90年代中期推出了基于WINDOWS操作系统的少数民族语言文字电子出版系统,后端是方正的RIP,字库采用了曲线字技术,采用国际标准的Postscript语言输出,向开放性、标准化又迈进了一步。

锡伯文、满文——新疆民语委主持研发了计算机锡伯文、满文文字处理和轻印刷系统;内大等单位亦有一些满文的系统;辽宁省档案馆和东北大学计算机语言工程研究室共同开发对满文进行二级编码,用以通信和显示与打印。

多文种操作系统——1991年4月由内蒙古电子计算中心课题组完成了蒙古、藏、维吾尔、哈萨克、朝鲜、满、汉文操作系统V4.0,这个系统属于七五国家重点科技攻关项目“少数民族文字处理技术开发”的子课题,可以在同一个微机上同时处理民族文字和汉、英等文。这些文字的显示和打印输出符合原各文种书写习惯,能够全屏幕编辑和混合打印、显示、存储,并支持高级语言。

3.数据库建设

中国社会科学院民族研究所完成了1994年立项的社科基金项目——中国少数民族语言文字多媒体数据库;内大蒙古语文研究所与内蒙古计算中心1987年合作完成了中世纪蒙古语文数据库;内大蒙古语研究所在1993年完成的100万次级《现代蒙古语文数据库》的基础上,又完成了《500万词级现代蒙古语文数据库》。该所还完成了《元朝秘史》拉丁标注、汉文标注和汉文旁注本的检索统计系统,对蒙古文语料库的词类标注系统——AYIMAG;内蒙古计算中心完成了《现代蒙古语词频统计》,在此基础上整理出《现代蒙古语频率词典》;内蒙古计算中心研发了MHJ-1型蒙古语言分析软件包;青海师大编成了有一万单词的藏文电子词库;广西壮族自治区语委主持开发状语词库;辽宁省档案馆和东北大学计算机语言工程研究室共同开发满文档案数据库。

4.综合性项目

西北民院承担的《藏汉双语信息处理系统》已完成《信息技术藏文编码字符集构件集》、《信息技术藏文构件集24×48点阵字型白体》、《藏汉双语格萨尔史诗信息研究系统》、《藏汉双语历算系统》、《藏文历算日月食预报系统》、《藏汉双语藏医胃病诊断系统》、《藏汉双语藏药管理信息系统》、《藏汉双语字词诗句字频统计工具软件》、《藏汉双语工农业基本数据统计系统》、《藏汉双语学校信息管理系统》等。

5.其他

内大1996年正式推出了蒙古文自动校对软件,1990年推出了蒙古文拉丁化输入方法,开发了从新蒙古文到老蒙古文的转写软件,完成了蒙古文词根、词干和附加成分的自动切分与复合词的自动识别系统,蒙古文字幕机系统,蒙汉混排图章计算机辅助设计系统,制作蒙古语卡拉OK软件系统,新蒙古文的寻呼系统,蒙汉身份证管理系统,蒙古文刻绘系统等。内蒙古计算中心完成了广播电台蒙古语文艺节目微机管理系统、微机蒙古文图书目录管理系统、微机激光蒙古文台式印刷系统、蒙医癫痫病专家系统、cscheme蒙汉英图形用户界面系统、蒙古文黑体白体文字识别技术。辽宁省档案馆和东北大学计算机语言工程研究室共同合作,初步完成满汉文辅助翻译系统以及满语语料标注的研究。

中国社会科学院民族研究所开发了藏语拉萨话语音系统;青海师大制成计算机用高精度藏文黑体字模,可生成各种大小、各种形式的黑体藏文字库;藏研中心开发了藏文分词和词登录系统,方正和华光藏文文本文件内码转换软件;西南民院开发了藏文和彝文的字幕机系统;中科院的海洋图形公司与北大方正合作开发了基于WIN NT的字幕机系统;北京怡和信科技信息发展有限公司研制了《桑布扎》藏文校对系统。

近几年还在进行的项目有——内大蒙古语研究所承担的对蒙古语文语料库的词形标注与统计;内大计算机学院承担有蒙古语语音合成系统,英——蒙机器翻译系统,曙光Internet 信息服务系统的子课题蒙古文E-mail及英——蒙——汉电子词典项目;蒙古文等五种文字的统一编码与转写研究;内蒙社科院蒙古语文研究所蒙古文整词输入法编码研究。

中国社科院民研所承担的藏文电子词频统计研究;青海师大承担的藏文词频统计;藏文识别技术研究。

新疆大学进行的维吾尔文字仿真发声的研究。

中央民族大学与延边大学、延边师范大学共同开发朝鲜文印刷体和手写体的识别技术,朝鲜文的《组合式》字处理研究。

辽宁省档案馆和东北大学计算机语言工程研究室进行满语语料标注研究。另外,中国社科院等单位的专家在国家自然科学基金及社科基金等的资助下也在诸如计算语言学、实验语言学等更深层次的领域进行多方面的研究。

为使民族文字信息处理技术有一个比较大的发展,尽快赶上先进民族的发展水平,把我国各少数民族的优秀文化送上互联网,让我国各民族的优秀文化都能同步走向世界,并让世界了解一个完整的中国,使我国各少数民族在跨入信息社会和知识经济时代的关键一环上,不至于拉得太远,不至于再一次落后,国家要加大技术开发的资金投入,把民文信息技术开发和运用提高到一个新的水平。

猜你喜欢
藏文编码文字
住院病案首页ICD编码质量在DRG付费中的应用
文字的前世今生
热爱与坚持
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
中职学校藏文教学之我见
帕奔岗,创制藏文的古堡
梦中的文字
高效视频编码帧内快速深度决策算法
种出来的“逍遥居”