文|刁毅刚 赵东岩 贾爱霞
新华社少数民族语言新媒体工程标准规范研制综述
文|刁毅刚 赵东岩 贾爱霞
《少数民族语言新媒体工程》(一期)依托分社维文、蒙文、藏文、朝鲜文和中英文新媒体产品加工与发布中心的建设工作,以进一步繁荣和发展少数民族文化事业,推动社会主义文化大发展大繁荣,促进各民族团结与融合为目标,依托713实验室新媒体创新工作,研发面向少数民族地区民文语言处理、新媒体创新、社会维稳等应用环节的创新产品和共性技术模块,增强少数民族地区、周边中亚、东南亚和东亚邻国地区的新闻信息集成服务能力,配合新疆、西藏、内蒙古、吉林等地方政府做好地区维稳工作。
《少数民族语言新媒体工程标准规范研制》是《少数民族语言新媒体工程》(一期)的一个子项,它是基于我国少数民族语言应用越来越广泛、相关应用研发缺少统一规范的现状,按照“需求主导、标准先行”的指导思想而提出的。本子项主要研制《少数民族语言新媒体工程》的标准体系和重要技术标准规范,开展民文新媒体标准体系和重要标准的编制工作,为研发面向少数民族地区民文语言处理、新媒体创新、社会维稳等应用环节的创新产品提供坚实基础,形成数据共享、应用复用的良好环境,提高相关产品的研发和应用成本。
根据《少数民族语言新媒体工程》(一期)的规划和新华社新媒体应用的具体情况,本子项的主要目标是,建立《少数民族语言新媒体工程标准规范》的标准体系表,并选择维吾尔文、藏文、蒙文和朝文四种影响力较大、应用较广的少数民族文,研制需求较为紧迫的四种规范,并对少数民族语言的语音合成研究状况进行调研。
基于以上背景,《少数民族语言新媒体工程标准规范研制》子项的具体研制内容如下:基于维吾尔文、藏文、蒙文和朝文,编制《少数民族语言新媒体工程标准体系表》、制定《少数民族文字的新媒体终端显示拼字符规范》《少数民族文字新媒体跨平台编码转换规范》《少数民族文字新媒体系统界面术语规范》和《少数民族文字新媒体终端文字显示规范》四项技术标准,并对《少数民族文字语音合成技术》形成调研报告。
《少数民族语言新媒体工程标准规范》的研制原则为采纳国内外最新的相关研究成果,结合少数民族语言在国内外信息系统中的应用情况,与现行的国内外技术标准尽量接轨,方便国内少数民族语言信息系统、特别是新华社少数民族语言新媒体工程的应用。
《少数民族语言新媒体工程标准规范》的研制根据工程建设总体框架及相关技术,结合国内外相关研究成果,提出我国少数民族语言新媒体工程建设的标准体系表,归纳总结工程建设中需要引用,制定和剪裁使用的标准规范,以保证今后在工程的建设和运维过程中正确配置和使用少数民族语言标准。
《少数民族语言新媒体工程标准体系表》根据少数民族语言新媒体工程建设总体框架及相关技术,结合国内外相关研究成果,研制维、藏、蒙、朝四种少数民族语言在新华社新媒体应用环境下的相关软件规范,归纳总结工程建设中需要引用、制定和剪裁使用的标准规范,并根据标准规范之间的内在联系,形成科学的有机整体,对新华社少数民族语言新媒体工程的相关应用起到规范、统一的作用,以期使相关少数民族语言的应用研发有章可循。本标准体系适用于新华社少数民族语言新媒体工程标准和规范的规划、编制和修订。
《少数民族文字的新媒体终端显示拼字符规范》《少数民族文字新媒体跨平台编码转换规范》《少数民族文字新媒体系统界面术语规范》和《少数民族文字新媒体终端文字显示规范》四项技术规范,主要关注少数民族语言新媒体工程中最为基础的文字编码、系统界面术语、文字显现等问题,研制相关规范。
随着少数民族语言应用的深入,语音合成也逐渐引起人们的关注。鉴于该项技术尚不够成熟,本课题在进行技术调研的基础之上,形成《少数民族文字语音合成技术》调研报告。
4.1 《少数民族语言新媒体工程标准体系表》
《少数民族语言新媒体工程标准体系表》将新华社少数民族语言新媒体工程中特有的、目前和未来可能涉及到的软件规范,如《少数民族语言新媒体工程终端显示拼字符规范》《少数民族语言新媒体工程跨平台编码转换规范》《少数民族语言新媒体工程界面术语规范》《少数民族语言新媒体工程终端文字显示规范》《少数民族语言新媒体工程语音合成规范》等按照一定形式排列起来的图表。该图表目前涉及维吾尔文、藏文、蒙文和朝鲜文等四种语言的相关规范,具有一定的逻辑结构,反映各规范之间的关联关系。该图表还具有一定的扩展性,未来可包括更多少数民族语言、更多其他相关软件规范,并形成有机逻辑整体。
《少数民族语言新媒体工程标准体系表》具体规范了体系表的范围、参考模型、结构与层次、标准体系框架及框架明细表。
4.2 《少数民族文字新媒体跨平台编码转换规范》
《少数民族文字新媒体跨平台编码转换规范》规定了维吾尔文、藏文、蒙古文和朝鲜文的跨平台编码转换方法和规定,适用于新华社少数民族语言新媒体系统中维吾尔文、藏文、蒙古文和朝鲜文的信息处理。
维吾尔文跨平台编码规则:“新华社少数民族语言新媒体工程”中维吾尔文字符采用《信息技术 维吾尔文、哈萨克文、柯尔克孜文编码字符集》(GB 21669-2008)中规定的编码。采用其他编码的内容进行交换时转换为上述规定的编码。
藏文跨平台编码规则:“新华社少数民族语言新媒体工程”中的藏文字符采用《信息技术 信息交换用藏文编码字符集 基本集》(GB 16959-1997)、《信息技术 藏文编码字符集 扩充集A》(GB/T 20542-2006)、《信息技术 藏文编码字符集 扩充集B》(GB/T 22238-2008)中规定的编码。其他藏文编码的内容进行交换时应转换为上述规定的编码。信息检索等系统应能够处理信息交换用藏文编码字符集基本集与扩充集A、B中不同编码表示的字符。
蒙古文跨平台编码规则:“新华社少数民族语言新媒体工程”中蒙古文字符采用《信息技术 通用多八位编码字符集(UCS)》(GB13000-2010)中规定的编码,变形显现表示应符合《信息技术 蒙古文变形显现字符集和控制字符使用规则》(GB/T 26226-2010)中的规定。其他蒙古文编码的内容进行交换时应转换为上述规定的编码。
朝鲜文跨平台编码规则:“新华社少数民族语言新媒体工程”中朝鲜文字符采用《信息技术 通用多八位编码字符集(UCS)》(GB 13000)中规定的编码。采用《信息交换用朝鲜文字编码字符集》(GB 12052-1989)编码和其他编码的内容,进行交换时应转换为上述中规定的编码。
4.3 《少数民族语言新媒体工程界面术语规范》
本规范规定了新华社少数民族语言新媒体工程系统中维吾尔文、藏文、蒙古文和朝鲜文应用软件应使用的界面术语。
本规范依据软件操作的类别,从逻辑上将常用系统界面术语分为9个类别,即操作系统类、通用类、文档编辑类、WEB类、邮件类、电商类、音视频类、阅读类以及社交网络类。每个类别还包含多个子类别,形成一个多层次的逻辑结构。本规范依次说明每个类别所包含的系统界面术语。对于每一个术语,给出其中、英文名称和含义,然后以维、藏、蒙、朝次序依次给出对应文种的规范术语。
4.4 《少数民族语言新媒体工程终端文字显示规范》
本规范规定了新华社少数民族语言新媒体工程系统中维吾尔文、藏文、蒙古文和朝鲜文的字符终端显示字形的要求。本规范适用于新华社少数民族语言新媒体工程系统中维吾尔文、藏文、蒙古文和朝鲜文的信息处理。
终端显示字形的基本要求:本规范规定了对显示字库、终端显示字型质量和点阵尺寸的要求。
不同文种的混排:本规范规定了不同文种混排时对字符大小和字符相对位置的要求。
字体修饰效果:本规范规定了对维、藏、蒙、朝文字进行修饰处理(如空心字、沟边字等)时的要求。
4.5 《少数民族语言新媒体工程终端显示拼字符规范》
本规范规定了新华社少数民族语言新媒体工程系统中维吾尔文、藏文、蒙古文和朝鲜文的组合字符的字形拼字方法和规定。本规范适用于新华社少数民族语言新媒体工程系统中维吾尔文、藏文、蒙古文和朝鲜文的信息处理。
维吾尔文拼字规则定义了维吾尔文字母各种显现形式连接的方法:按照GB 21669-2008《信息技术 维吾尔文、哈萨克文、柯尔克孜文编码字符集》中的规定,使用词首、词中、词末等显现形式显示字符。字母变形显现形式的字形应符合GB13000、GB 21669-2008以及相应的维吾尔文字型国家标准。并对组成词时的拼接质量提出了要求。
藏文组合字符拼字规则:定义了藏文字母纵向组合的方法,规定了前导符与组合字符的纵向组合字的规则、组合字的基线位置、多字母组合的质量要求,以及与组合字符的要求。
蒙古文组合字符拼字规则:按照GB 25914-2010《信息技术 传统蒙古文名义字符、变形显现字符和控制字符使用规则》中的规定,使用词首、词中、词末的显现形式显示字符,字母变形显现形式的字形应符合GB13000、GB 25914-2010以及相应的蒙古文字型国家标准;并对组成词时的拼接质量提出了要求。
朝鲜文字符拼字规则:一般不需要拼字。
4.6 《少数民族语言新媒体工程语音合成技术调研报告》
少数民族语音合成技术在文本分析、韵律分析、语音合成、语料库建立等方面进行了广泛的探索和研究,取得了可喜的成绩,但是由于缺乏少数民族语言语音合成的通用技术规范,业界缺乏比较通用的针对藏语、蒙语、维语、朝鲜语等少数民族语言的语音合成软件和技术,语音合成效果难以量化。本次少数民族语言新媒体工程项目对维、藏、蒙、朝等少数民族语言的语音合成形成了调研报告,如何研制针对少数民族语言的语音合成规范、如何对语音合成效果进行量化表示、如何开发业界通用的语音合成软件这也是少数民族语言语音处理领域未来的重要研究方向之一。
本次研制的新华社《少数民族语言新媒体工程标准规范》搭建了少数民族语言新媒体工程标准体系的框架,为今后的相关标准研制提供了顶层设计依据。
本次研制的多项标准规范,可应用于新华社少数民族类应用平台的相关软件设计和研发过程中。《少数民族语言新媒体工程跨平台编码转换规范》可用于规范基础数据的编码,防止旧编码数据进入新系统,带来数据的不一致性和数据处理的复杂性,影响系统性能,加大系统研发成本。《少数民族语言新媒体工程界面术语规范》可用于规范相关少数民族类应用平台的界面术语,使之具有更好的辨识性,降低用户学习成本,提高生产效率。《少数民族语言新媒体工程终端文字显示规范》和《少数民族语言新媒体工程终端显示拼字符规范》可用于规范少数民族类应用的终端显示和显现效果,使之遵循专业和经典的呈现效果,有利于少数民族语言的有效传承,也同时提高相关信息应用的专业化程度和品牌影响力。
需要指出的是,此次研制的《少数民族语言新媒体工程标准规范》只是研制了较为基础、应用急迫的几个规范。随着少数民族语言应用和信息技术的逐步发展,其他规范的研制可能会逐渐凸显(如《少数民族语言信息搜索技术标准规范》等),有些规范还需要进行技术更新。
为了使此次研制的相关规范能够适应并促进新华社的相关应用的研发,我们初步建议以下的推广计划:
(1)调研新华社提供的相关少数民族语言应用和平台,列出类别和数量。
(2)从上述应用和平台中选择一定比例,初步判定其中符合《少数民族语言新媒体工程标准规范》的情况,总结出实施《少数民族语言新媒体工程标准规范》的难度级别。
(3)选择一些新的少数民族语言类应用,使之遵循《少数民族语言新媒体工程标准规范》,并跟踪应用新标准的具体情况,如难度、对研发进程的影响,并进行综合应用效果评审。
(4)根据试点应用情况,确定《少数民族语言新媒体工程标准规范》改进计划和全面应用计划。(作者单位:新华社通信技术局 北京大学计算机技术研究所)
(作者单位:新华社通信技术局北京大学计算机技术研究所)