我国少数民族文信息化概述

2017-12-30 09:07李小璐柳长青
电脑知识与技术 2017年21期
关键词:彝文输入法藏文

李小璐,柳长青

(宁夏大学信息工程学院,宁夏银川750021)

我国少数民族文信息化概述

李小璐,柳长青

(宁夏大学信息工程学院,宁夏银川750021)

我国是一个多元一体的多民族国家,以汉族为主体的其他少数民族密切交往、相互依存、休戚与共。当前,随着信息技术的快速发展,少数民族文字的信息化进程也随之加快。我国各少数民族文信息化程度与汉文相比还存在较大的差距。近年来,经过学者们的共同努力,我国少数民族文信息化状况有了较大的进步。该文主要通过对目前少数民族文字计算机处理平台的研究来对我国少数民族文信息化技术做一个概述。

信息化;少数民族文;西夏文献;标准化

1 概述

对少数民族文的保护、挖掘与整理是中华民族文化保护的重要组成部分,也是了解中华民族文化的基础。作为民族内部沟通的重要工具,少数民族文使民族成员之间在意识、行为、情感等各方面产生了一致性。而我国作为一个多民族、多语言和多文字的国家,除汉族以外的其他少数民族大多数有其本民族的语言和文字。

由于部分少数民族聚居于祖国边疆或内陆,经济不够发达,民族文化发展受到一定的限制。其语言文字的数字化和信息化水平普遍较低。这其中,像维吾尔族、苗族、壮族、彝族、蒙古族、藏族以及哈萨克等少数民族文字依然处在活跃的使用状态。随着计算机技术的发展及互联网的兴起,少数民族文字亟需适应新形势下传播的需要,以网络信息的方式更好的弘扬中华优秀传统文化。本文将从阿尔泰语系、汉藏语系以及已死亡的我国历史上的民族文字等三个方面对我国少数民族文字的信息化现状及其未来发展做简要概述。

2 阿尔泰语系语言的信息化

阿尔泰语系主要分为突厥语族、蒙古语族和通古斯语族三类,目前已基本实现语言文字数字化的有:突厥语族的乌兹别克文、维吾尔文、撒拉族文、哈萨克文、柯尔克孜文;蒙古语族的蒙古文、达斡尔文;通古斯语族的锡伯文和鄂温克文。这9种少数民族文具体实现的状况是:1987年新疆大学吾守尔教授领导的课题组与新疆维吾尔自治区语委会合作,起草制定了首个信息处理交换用维文、哈文三项国家标准GB、T12510-1990并发布实施。之后,新疆又制定了《古维文编码字符集》国际标准、GB13000《信息交换维哈柯文编码字符集》国家标准、《信息交换用维哈柯文(曲线)字型白体黑体》国家标准及《信息交换用维哈柯文点阵字型》国家标准。起草制定了信息技术用现代维哈柯文、新文字、古突厥文字三套ISO多八位10646国际标准,信息技术用维哈柯文TrueType和OpenType字形标准(共8种字体);1989年,内蒙古大学蒙古语文研究所和北京大学计算所、北京大学信息技术公司联合研制了在DOS环境下运行的北大华光蒙古文排版系统(后改为北大方正排版6.0)多文种系统;锡伯文有三项信息化国家标准,它们是由全国信息技术标准化技术委员会和国家质量技术监督局提出并立项的,分别是:GB36044《信息处理、信息交换用锡伯文编码图形字符集》、GB36045《信息处理、信息交换用锡伯文字母区键盘布局》、GB36046《信息处理、信息交换用锡伯文点阵字模集与数据集》[1-2]。

早在1983年新疆学者对于维吾尔文、哈萨克文、柯尔克孜文(简称为维哈柯文)进行了信息化。目前,已实现的少数民族多语言操作系统平台有Windows2000/XP系统、维哈柯Linux系统以及支持维哈柯文的Android嵌入式操作系统,并且在2010年工信部电子发展基金项目支持下,新疆大学等单位正在进行Windows 7维哈柯文化研究与开发,并积极开展产业化推广应用[3]。2002年,潍坊北大青鸟华光科技股份有限公司开发出基于Windows2000/XP操作系统的“书林”维、哈、柯、蒙古文公文版、书刊版和报版软件,适合于办公、印刷、出版单位和个人使用。

除此之外,我国对于阿尔泰语系少数民族文数字化的还有语料库、电子词典、机器翻译、双语教学以及语音变化现象自动还原等方面。2002年,新疆师范大学玉素甫等人开展“人机互助的通用现代维吾尔语自动标注语料库加工处理系统的研究”项目;2005年新疆大学吐尔根·依布拉音等人开始着手构建维汉双语对齐平行语料库,哈汉双语对齐平行语料库,柯汉双语对齐平行语料库。

2008年,由吾守尔·斯拉木教授指导新疆大学李丰军完成了维语输入法[4]。2012年4月,内蒙古大学硕士萨日娜研究并实现了基于Android平台的蒙古文输入法[5],在这一实现中,萨日娜根据Android平台的IMT(Input Method Frame)原理,详细介绍了蒙古文输入法的各个模块的实现技术,主要包括候选视图模块、输入视图模块以及蒙古文匹配模块。2007年,北京语言大学博士生赵小兵在中国云南西双版纳傣族自治州开展的第十一届全国民族语言文字信息学术研讨会中提出了构建《蒙古语及三少数民族语言语料库资源管理平台》[6],该平台中具有蒙古语、鄂伦春语、达斡尔语以及鄂温克语的语料库。在构建该语料库的过程中,主要包括三个部分,具体有:蒙古语语料库语言资源管理平台、蒙古语语料库语言资源宣传与发布平台以及蒙古语语料库语言资源加工与研究平台。2010年新疆大学和安徽科大讯飞信息科技股份有限公司联合建立了新疆大学讯飞语音及语言联合实验室,该实验室的成立将进一步提高了维语在语音识别核心技术方面的研究水平。2016年,帕提古丽_艾合买提对基于乌兹别克语进行了语音变化现象的自动还原技术研究[7]。该技术是为了提高词干提取的准确率,通过分析乌兹别克语中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合词干库配对方法来实现自动还原。2016年5月,苏佩佩在导师哈力木拉提.买买提教授的指导下完成了基于Android移动终端的手写维吾尔文单词特征提取研究[8]。

3 汉藏语系语言的信息化

汉藏语系主要分为汉语族、藏缅语族、苗瑶语族以及壮侗语族四类,目前已实现信息化处理的语言有:藏缅语族的藏文、彝文、土家文,苗瑶语族的苗文、瑶文,壮侗语族的侗文、水文、壮文和傣文等9种文字,这些语言文字均已有相应的计算机处理系统。2009年,洛藏对于藏汉英电子词典硬件产品中的键盘以及编码进行了设计与实现[9-10];2013年,中国民族语文翻译局研发了《壮文电子词典及辅助翻译软件》[11];1990年5月,中央民族大学教授张永祥主编的《苗汉词典》由贵州民族出版社出版;2016年,胡刚、王嘉梅等人合作完成了基于Visual C++6.0和Access 2003的傣文-汉文互译有声电子词典[12]。该字典支持Unicode字符集模式下的傣文与汉文的同屏混合显示。

2013年,莫礼平、周恺卿、蒋效会等人以苗文的字型结构分析为基础,提出了基于Unicode标准的方块苗文编码方案设计思想并开发了OpenType苗文字库[13-14];2011年,戴红亮教授在第七届全国语言文字应用学术研讨会中提出了傣文语料库建设的想法;2005年,董芳等人对水书文字的规范标准进行了研究工作,并制订了《水书文字字符总集》、《水书文字形体规范标准》以及水书文字编码字符集方案[15];2011年,李昀姗采用彝文字特殊的字形结构[16],设计了规范的彝文字形编码,并制作了彝文标准字库,为高质量输出彝文提供了保证。

2014年,莫礼平在结合Windows、IMM-IME结构分析,以IME转换接口和IME用户界面的实现为重点,实现了Windows平台下的苗文键盘输入法。2011年,冯浩基于之前输入法的重码率高的缺点,实现了一种基于自由拆分模式的彝文输入法[17]。同年,李昀姗设计完成了彝文字库,并实现了彝文标准输入法。2015年,胡刚采用Unicode编码标准,在Windows操作系统下实现了滇南彝文输入法。网络下的彝文信息化工作已经实现了彝文版的人民网以及网页版的彝语在线等网页应用。其中,“彝语在线”中有彝文字表,彝文拼读以及彝文词典等功能,能为更好的学习彝文提供方便;2009年10月,西双版纳傣族自治州建立了第一个西双版纳傣文网站,该网站是一个多语言网站,包括新傣文、老傣文、汉文、英文和泰文;2011年,殷建民在中文信息学报中提出了对于西双版纳傣文新闻网站的研究,在该文中,重点介绍了西双版纳傣文版的新闻网站以及该网站所使用的关键技术[18]。除此以外,计算机学者在傣文语音合成系统、自动分词系统上有所研究。2013年,高延丽在傣文语料库的基础上,将中文分词方法应用到傣文中,结合傣文的特点,设计了一个基于音节序列标注的傣文分词系统[19],经过测试该系统的分词准确率达到了95.58%。2015年,方媛等人基于HMM(隐马尔科夫模型)语音合成基本框架,设计并实现了傣语语音合成软件[20]。该软件包括:语料收集与挑选、录音、分词、文本罗马化(将文本中非标准词进行消歧和标准化的转换,然后将傣语声韵母转化为拉丁字母,即为文本罗马化)与标注、上下文属性和问题集设计以及HMM训练与合成等功能。2016年,陈志琼对该语音合成系统进行了进一步优化,完成了基于HMM的可训练傣语语音合成系统[21]。

藏文的信息化方面,1983年美国伊利诺斯大学利用PLA⁃TO计算上的一个应用软件TUTOR,实现了藏文字符的输入、显示和输出的字处理系统。1984年,上海教育学院物理系俞乐等人在VICTOR9000微机上利用Basic语言实现了一个具有输入、显示和打印功能的藏文字处理系统,并用Basic编写了藏文报表软件。1986年,青海省药品检验所、青海师范大学、青海民族学院与北京有线电厂合作,在CCDOS2.13下开发了与汉英文兼容的藏文操作系统TCDOS。2000年,西北民族大学开发同元藏文系统,并实现了网络字库;2001年,西藏大学开发了一套藏文软件——“火狐”藏文处理系统。2003年,清华大学与西北民族大学合作开发藏文多字体印刷藏文、混排汉英文档识别系统。2004年,中国社会科学院民族所与北京理工大学合作研制出藏文识别实验系统。2005年,中科院软件所与西藏大学、西北民族大学,联合开发基于Linux的跨平台藏文信息处理系统和办公套件。2016年,洛桑嘎登在其导师赵小兵教授的帮助下,完成了藏文的自动分词与词性标注研究[22],在该研究中先后构建了35.1M即10多万个词汇的分词语料和78.5M即398万词汇的词性标注语料,并利用这个语料库构建了基于条件随场(CRFs)的藏文自动分词模型和藏文词性标注模型。最后在此基础上,设计并实现了一套基于web的藏文分词标注系统。

4 西夏文的信息化

西夏文又名河西字、番文、唐古特文,是记录西夏党项族语言的文字,属表意体系,是西夏仿汉字创制的。西夏文数字化研究最早可以追溯到20世纪50年代末期,哥本哈根斯堪的纳维亚亚洲研究所研究员格林斯蒂德完成的《西夏文字的分析》研究[23]。他通过编码的形式将5819个西夏单字进行收录,但限于当时的技术水平该套系统无法真正投入实际使用。1996年由日本东京外国语大学亚非语言文化研究所学者中岛干起主持完成了第一个能够投入实际应用的西夏字库。日本文字镜研究所也制作了《今昔文字镜》字库集。该字库包括了24个TTF格式的矢量字库。1997年李范文教授和日本学者合著出版了《电脑处理西夏文〈杂字〉研究》一书。1999年11月国家自然基金项目“基于文字字形的西夏文字研究”的成果“夏汉字处理及电子词典”软件由清华大学出版社出版[24]。该成果是马希荣、柳长青等人按照四角号码和顺序号检字法对西夏字进行排列、注音和释义的在windows下运行的单机软件。2005年宁夏大学导夫研制了“基于方正书版(Founder BookMaker9.V/10.X)的西夏文字处理”[25]。该系统测试并完成了适用于PC和Mac电脑的标准字库,实现了西夏字语标准汉字及多种外文的混排。2006年,景永时借助“万能五笔”输入法实现了方正典码系统在windows XP下的西夏文输入法[26],并基于方正字库制作了一套西夏文字库。2010年,同济大学西域古文献研究所的叶建雄等学者利用计算机语言学为西夏音韵学专题设计了一个优化的、面向语音拟构的西夏文献数据库结构。2011年,柳长青研发了西夏文输入法及电子词典软件并建立了一套西夏文古籍字库[27]。该输入法可快速输入西夏文,并在录入西夏文过程中可同时显示其对应的中、英文释义,同时还能根据用户输入的字频自动调整候选框中西夏字的排列顺序。2017年,宁夏大学西夏学研究院杜建录研究员主持的“西夏文献数字化研究”项目开始全面研究工作,该项目旨在将所有西夏文献进行数字化并将数字化的文献放在网上供全世界学者共享和研究使用。

5 结束语

近年来,我国少数民族文的信息化工作取得了长足的进步,形成了一批有代表意义和里程碑式的成果。但目前仍然有一些已经不再使用或使用人数较少的少数民族文亟需数字化整理、保护与开发。这部分文字目前仍然还需要计算机和相关语言学者的共同努力来推进其数字化的进程。对于少数民族文字信息化工作,我们未来需要从以下三方面开展工作:1.创建语言文字数字化基础平台。包括标准的字体库,统一的计算机输入方法和完整的网络信息交换平台。2.少数民族文字的相关数据库及大数据挖掘和检索。对于少数民族文字和文献运用大数据挖掘技术进行文献、文物等资料的整理与数字化,并对整理的资料进一步建立相关知识库。3.培养少数民族文数字化处理的专门人才。少数民族语言数字化工作亟需大量文理交叉型人才,最好是兼具计算机专业背景知识的人文社科研究人才,他们是未来我国少数民族文数字化工作的主力军。他们既不是纯文科也不是单纯的计算机技术人员,他们能够对利用计算机技术处理的内容或对象本身有更深刻的理解,能够做出更有意义的研究成果。总之,我国少数民族文数字化研究还有很多亟待研究的领域,等待我们去发掘和填补空白,其研究前景是广阔的。

[1]嘎日迪,张主.论我国信息处理交换用蒙古文系列标准的制定原则、方法和技巧[J].中文信息学报,1989,3(3):2-3.

[2]新疆语言文字办公室.锡伯语言文字规范化、标准化、信息化 建 设 综 述.http://www.xjyw.gov.cn/ywgfbz?contentId= edb6af5b1e9a4f43aaa79e7882fbb1df&navToId= 1d09171991c04352a768543c5caf54f3,2015.

[3]吐尔根_依布拉音.新疆少数民族语言文字信息处理研究与应用[J].中文信息处理,2011,25(6):150-153.

[4]李丰军.基于WinCE的维吾尔语智能输入法的研究与实现[D].新疆:新疆大学,2008.

[5]萨日娜.基于Android平台的蒙古文输入法研究与实现[J].内蒙古大学学报,2012(1):14-22.

[6]赵小兵,达.巴特尔,嘎日迪等.构建《蒙古语及三少数民族语言语料库资源管理平台》[R].第十一届全国民族语言文字信息学术研讨会TP391.1,2007:67-72.

[7]帕提古丽_艾合买提.基于信息处理的乌兹别克语语音变化现象自动还原技术研究[J].电脑知识与技术,2016,12(32):177-178.

[8]苏佩佩.基于Android移动终端的手写维吾尔文单词特征提取研究[D].新疆:新疆大学,2016:16-28.

[9]洛藏.藏汉英电子词典硬件产品中藏文编码的实现方法[J].西藏科技,2009(7):74-75.

[10]洛藏.藏汉英电子词典硬件产品中藏文键盘的设计和实现方法[J].西藏大学学报,2009(2):61-63.

[11]覃忠群.《壮文电子词典及辅助翻译软件》语料库建设的经验[J].民族翻译,2013(2):73-76.

[12]胡刚,王嘉梅,李炳泽,等.傣泐文-汉文互译有声电子词典[J].计算机系统应用,2016(7):5-14.

[13]莫礼平,周恺卿,蒋效会.板塘苗文的计算机编码及字库创建[J].吉首大学学报:自然科学版,2013(2):31-33.

[14]莫礼平,周恺卿,蒋效会.基于OpenType技术的方块苗文字库研究[J].中文信息学报,2015(2):150-153.

[15]董芳,周石匀,郑文瑾.水书文字规范标准建设与信息化的研究[J].黔南民族师范学院学报,2005(5):61-62.

[16]李昀姗,王嘉梅,郑晟.云南规范彝文字库设计及其字符集编码研究[J].电子科技,2011(5):99-100.

[17]冯浩,王辉,王嘉梅.基于自由拆分模式的彝文输入法设计与实现[J].计算机应用,2010(S1):306-308.

[18]殷建民,刀福祥,唐金宝,等.西双版纳傣文新闻网站与数字报刊技术研究[J].中文信息学报,2011(4):12-13.

[19]高廷丽,陶建华,戴红亮,等.傣文自动分词系统的设计与实现[J].中文信息学报,2013(6):188-190.

[20]方媛,杨鉴,陈志琼等.基于HMM的傣语语音合成系统设计与实现[R].第十三届全国人机语音通讯学术会议(NC⁃MMSC2015),2015:236-238.

[21]陈志琼.基于HMM的可训练傣语语音合成系统[D].云南:云南大学,2016(1).

[22]洛桑嘎登.藏文自动分词与词性标注研究[D].北京:中央民族大学,2016(19-21).

[23]聂鸿音.重读《西夏文字的分析》.http://www.doc88.com/p-2965311269702.html,2015

[24]马希荣.夏汉字处理及电子词典[M].北京:清华大学出版社,1999.

[25]导夫.基于方正书版(Founder BookMaker9.X/10.X)的西夏文字处理技术研究[J].宁夏大学学报:人文社会科学版,2005(2):89-90.

[26]景永时,贾常业.基于方正典码之上的西夏文录入系统使用手册[M].香港:香港社会科学出版社,2005.

[27]柳长青.在线夏汉电子词典的设计与实现[J].宁夏大学学报:自然科学版,2011,32(4).

TP393

A

1009-3044(2017)21-0210-03

2017-06-11

宁夏高校重点项目资助(项目编号:NGY2014006)

李小璐,女,宁夏大学信息工程学院2016级硕士生,主要研究方向为西夏文信息处理;通讯作者:柳长青,男,博士,教授,主要研究方向为自然语言处理。

猜你喜欢
彝文输入法藏文
彝文经籍《祭龙经·祭彩虹经》中的敬畏自然观研究
要命的输入法
西藏大批珍贵藏文古籍实现“云阅读”
黑水城和额济纳出土藏文文献简介
贵州彝文信息技术研究概述
藏文音节字的频次统计
百度被诉侵犯商标权和不正当竞争
现代语境下的藏文报刊
黔西彝文文献中的孝道故事
你最想要的输入法—QQ输入法