西双版纳傣文新闻网站与数字报刊技术研究

2011-02-18 14:08殷建民刀福祥唐金宝玉康龙
中文信息学报 2011年4期
关键词:西双版纳键盘编码

殷建民,刀福祥,唐金宝,玉康龙

(1. 潍坊北大青鸟华光照排有限公司,山东 潍坊 261061;2. 云南省西双版纳报社,云南 西双版纳 666100)

1 前言

1996年以来,潍坊北大青鸟华光照排有限公司和云南省西双版纳报社在傣文信息技术领域开始了长达15年的密切合作,双方联合开发了“西双版纳新傣文计算机组版系统”、“西双版纳新老傣文计算机组版系统”和“基于ISO10646的傣文电子出版系统”。目前,西双版纳报社使用傣文电子出版系统编排的《中国贝叶经全集》100卷已全部出版。

但是,傣文电子出版系统仅仅解决了傣文书、报、刊的印刷出版问题,并未解决傣文网站以及与其相关的傣文数字出版等问题。2008年起,双方利用中央补助地方文化体育与传媒事业发展专项资金,开始了西双版纳傣文新闻网站和数字报刊系统的研发工作。

西双版纳傣文新闻网站和数字报刊系统包括以下四个系统:

(1) 西双版纳新老傣文网站管理系统;

(2) 西双版纳新老傣文数字报刊系统;

(3) 西双版纳新老傣文新闻采编系统;

(4) 西双版纳新老傣文多媒体共享稿件平台系统。

2009年11月2日,双方成功开通了我国第一个傣文网——西双版纳傣文新闻网站,创建了我国第一张傣文数字报纸,创建了我国第一个傣文新闻采编系统平台,创建了我国第一个傣文网络视频平台和第一个傣文网络声频平台。

2 研究内容与关键技术

2.1 西双版纳新老傣文编码、显现字符集研究

西双版纳傣文,也称傣泐文,诞生于公元1277年(傣历669年),原用于刻写佛经,后发展为西双版纳傣族的统一文字,至今已有700多年的历史。1953年,西双版纳自治州第二届各族各界代表会决定改革原有的老傣文。1954年,有关部门提出了西双版纳傣文改进方案。1955年,中央人民政府批准了这一方案。改进前、后的傣文分别称为新、老傣文。1989年,西双版纳州人代会决定恢复使用传统的老傣文。

2005年,西双版纳新傣文编码字符集方案获得通过,被收入ISO/IEC 10646: 2003的第一补充集(Amendment 1)[1],共收入80个字符(后补充为83个字符),编码空间为U1980-19DF。

2008年,西双版纳老傣文编码字符集方案获得通过,被收入ISO/IEC 10646: 2003的第五补充集(Amendment 5)[2],共收入127个字符,编码空间为U1A20-1AAF。

新傣文的编码字符集与显现字符集是一致的,而老傣文的编码字符集与显现字符集相差较大,主要表现在两个方面:

(1) 新老傣文的许多辅音字母都可以作为“韵尾”使用,但辅音字母的独立形式与其韵尾形式在显现时有着明显的差别。新傣文中可以作为韵尾使用的辅音字母不是太多,在其编码字符集方案中,辅音字母的独立形式与其韵尾形式是分别编码的。而老傣文中可以作为韵尾使用的辅音字母非常多,为节省编码空间,辅音字母的韵尾形式没有单独编码,而是引入了一个控制符号SAKOT(U1A60)。当SAKOT之后紧跟一个辅音字母时,显现时需将SAKOT之后的辅音字母变为其韵尾形式,并且与SAKOT之前的其他字母组合成一个整字[3]。

(2) 新老傣文中都有一些组合字,新傣文中的组合字不多,在其编码字符集方案中,组合字单独编码。而老傣文中的组合字非常多,编码方案中没有为组合字单独编码,实现时需要采用“预组合”与“动态组合”技术。

由于ISO/IEC 10646中仅对老傣文的名义字符进行编码,而没有类似于蒙古文那样的“编码系统实现的用户协议”(Users’ Convention for Encoding System Implementation),尚需研究老傣文的显现字符集以及名义字符与显现字符的对应关系。

根据《中国贝叶经全集》和其他傣文出版物的出版实践,结合傣文网站与数字报刊的实际需求,我们制订了“西双版纳老傣文显现字符集草案”,并规定了编码字符集与显现字符集的对应关系。在充分听取各方专家意见之后,我们将向国家标准化主管部门提交尽快制订“西双版纳老傣文显现字符集与控制字符使用规则”国家标准草案。

2.2 西双版纳新老傣文输入法研究

在西双版纳新老傣文编码字符集国际标准制定之前,西双版纳报社和潍坊北大青鸟华光照排有限公司的语言文字专家与计算机专家曾于2002年一起根据傣文的声母、韵母的音序规则制定了新老傣文的键盘布局,并开发了相应的新老傣文输入法——纳鸟傣文输入法。西双版纳报社在日常的报纸排版和贝叶经排版中一直使用该输入法。

纳鸟傣文输入法是针对新闻出版单位的傣文专业录入人员研发的,主要目标是提供最大的输入效率,但由于需要一定的记忆和学习时间,不易于在非专业人员中推广应用。目前,傣文数字化应用技术已从专业的电子出版转到了面向大众的网站等领域,迫切需要一种面向非专业人员、易学易用的新老傣文输入法。

2009年,傣文信息技术标准国家工作组制订了基于傣文编码字符集国际标准的西双版纳新傣文键盘布局国家标准,该标准采用键盘分级的技术思路,将新傣文编码字符集分布在1个主键盘和2个辅助键盘上。根据规则性与灵活性相结合的原则,标准只规定了键盘布局而没有规定输入法的具体实现。

2010年,我们在深入了解傣语言学知识的基础上,研究确定了基于傣文编码字符集国际标准的西双版纳老傣文键盘布局。

老傣文键盘布局的确定原则为:

(1) 由于老傣文字符远多于通用键盘的键位,键盘设计采用分级的方法,用四级键盘分配所有西双版纳老傣文字符。

(2) 根据老傣文字母读音,把傣文字符放在与英文字母对应音标读音相似的键位,以减轻使用者的记忆强度;傣文元音字母尽量对应英文元音字母,傣文辅音字母尽量对应英文辅音字母。

(3) 有相同或相近英文字母读音的元音和辅音放在对应的键位,重辅音放在一级键盘,轻辅音放在二级键盘;短元音放在第一键位,长元音放在第二键位。

(4) 辅音字母的“韵尾”形式放在第三键盘。

(5) 与英文读音差异大或相似音字符较多的字母中使用频度少的放在第四键盘。

在充分听取各方专家意见之后,我们将向国家标准化主管部门提交尽快制订“西双版纳老傣文键盘布局”国家标准草案。

新老傣文键盘布局确定之后,我们开发了对应的新老傣文输入法。

为方便普通傣族群众使用,我们还研发了一种完全依据国际标准的傣文语音而不进行键盘分级的傣音输入法,这种输入法无需学习、无需记忆,只要输入傣文字母的读音字母,就可根据软件的提示选择所要输入的傣文字母。

2.3 西双版纳新老傣文嵌入式字库研究

当前流行的操作系统中很少有傣文字库,也不可能要求每个用户都在自己的电脑中安装傣文字库。而用户浏览西双版纳傣文网页时,没有对应的字库就无法正常显示网页,因此需要研究自定义字库显示技术,让用户打开西双版纳傣文网页和打开其他网页一样,不需要安装任何傣文软件,就能够正常浏览。

嵌入式字库(EOT)技术允许字库嵌入到网页并可以在需要时动态下载浏览。嵌入式字库的优势是动态加载,不需要安装,客户端可以直接打开网页,保证浏览效果,可以复制、输入和检索等。研究西双版纳新老傣文嵌入式字库技术是解决网站IE浏览、动态下载的关键。

2.4 西双版纳新老傣文版面数字化技术

西双版纳新老傣文数字报刊系统集信息提取、制作、管理、发布和检索于一体,面向数字报刊处理的全过程,为数字报刊提供一体化解决方案。

印刷版面转换成可用于网上传播的数字化信息,包括版面布局、各文章内容、相关图像等,通过版面略图的热区文字块点击,显示出具体的数字化文章内容。

报纸排版使用排版软件来形成版面的文章、图片分区,最终形成PS结果供后期照排制版印刷,排版软件只用排版软件自定义的中间结果文件(YJ文件)来保存版面信息,其中大量的信息可以直接利用来形成网页形式的数字报纸,相比用于照排制版的PS文件而言,信息量大,更加方便快捷。YJ文件转换为数字报纸依然有很多工作要做,比如标题和文章的对应,多个文章块的关联等,因此要有专门的标引软件实现对用于纸介报纸的文件的标引、反解工作,来转换收集成可用于网上发布的数字报刊的完整数据,实现纸介版面的数字化。

利用标引等手段对提取的XML文件中的版面信息进行合并、归整等操作,建立标题、文字、图片、表格等对应关系,自动提取日期、标题、文字、作者等,自动或手工对标题、文字稿件、图像稿件、表格、EPS/S2等进行关联,设置稿件之间的顺序,设置版面信息、文章信息、图片信息、规范化文字的格式,自动合并转版稿件,形成完全可再利用的见报XML资料,可以供给后期多种系统的再次使用,包括电子报刊、稿酬计费、新闻采编的见报稿件库等,深度挖掘报刊稿件的再利用价值。

标引操作的所有编辑窗口和其他控件窗口显示和输入都要适合所有文种的阅读顺序,这是和汉文很大的区别。由于现在很多使用旧编码体制的西双版纳新老傣文输入法,编辑控件还要能够接受旧输入法的输入,然后控件内部自动转换为Unicode编码输入到系统。系统采用OCX控件的方式解决这一问题,控件的本质是对象链接和嵌入(OLE)标准,由于其充分利用了面向对象的优点,使程序效率得到了很大的提高。系统把少数民族文字显示及接受输入的转换工作都放在OCX中进行,最大程度地和原有的汉文标引软件系统兼容。

2.5 西双版纳新老傣文网站发布技术

西双版纳新老傣文数字报刊系统简化了发布工作,实现了“入库即发布”的功能,真正体现了新闻内容的时效性。

报纸版面经过数字化以后,形成可以再次发布的规范化完整数据,有很大的利用价值,要使用动态模板发布技术,实现数据的动态转换,发布为外部网站的网页、内部网站的评报、进入检索数据库、进入考评系统、进入稿酬系统等,而动态模板发布技术是实现宝贵的数字化版面到其他形式转换的关键。因此,动态模板发布技术要实现旧数据的任意组合、转化、提取、格式整理、再次生成等。

系统通过把XML经过入库等处理,直接发布成电子报刊的形式,自动化程度高,无须人工干预。发布管理系统实现版面文章上接下转内容处理,实现多个版面同时呈现的版面导航管理。可以有多种表现形式提供给用户选择,用户可以通过模板等方式插入自己独特的内容,可以发布为HTML格式和Flash等多媒体电子杂志形式。

2.6 西双版纳新老傣文新闻信息多渠道采集技术

传统的报社新闻信息主要包括文字稿件和图片稿件,信息的采集主要依靠记者投稿及作者投稿。投稿方式以纸面投稿、电子邮件投稿相结合,现在有的报社也有了远程投稿系统,可以通过Web浏览器界面实现远程投稿,这个主要是针对报社记者使用的系统,投的稿件可以直接进入新闻采编系统,责任编辑直接进行编辑。

当前的这种信息采集投递方式,限制了报社的信息来源,无法适合数字报业大规模信息采集、加工、出版的需求。当前网络原创内容极大丰富,博客等Web2.0网站的兴起,改变了原先的信息传播方式,作者投稿,编辑编稿,然后出版发布的传播模式已经彻底改变。现在经常是作者首先将自己的稿件在网络上发布出来,然后传统媒介才进行采集编写,完成纸面出版。而且许多新闻现场的当事人和目击者经常在第一时间将新闻信息发布到了互联网上,传统的记者采访、投稿、编辑出版的工作模式已经无法保证新闻的时效性。

在数字报业战略中,报社不能再被动的等待新闻信息,或者主要依靠有限的记者,采编人员采集信息。报社必须根据自己的需要大规模采集网络上的相关信息,进行信息的规模加工,批量加工。引入互联网新闻自动采集系统,可以帮助报社主动获取新闻信息,以便全面的收集新闻信息资源。

(1) 网络信息自动采集系统

采用B/S浏览器模式,结合当前网络先进的搜索引擎技术,以及网站内容搜集技术,根据预设的搜集条件,实现指定内容的自动、手动搜集,搜集信息可以是精确搜集,也可以泛规模搜集,并将收集的信息自动存入数据库。

搜集的信息加工编辑功能,记者或责编等相关内容搜集编辑人员利用系统提供的信息资源加工、编辑功能,对搜集的信息进行初始分类、加工,并将这些资源转存到报社新闻待编数据库中,进入新闻采编工作流程,以便完成信息深加工以及出版发行。

(2) 多媒体新闻信息多渠道投递系统

包括文字稿件,图片稿件、音频、视频等新闻信息的多渠道投递子系统,现在的信息发布渠道越来越多,报社必须广开言路,增加面向全社会的新闻信息投递渠道,利用互联网或者手机网、手机短信等众多信息采集手段,实现多媒体新闻信息的定向、定目标的投递和采集。

网络信息自动搜集虽然可以扩大信息规模,但是由于不是定制型的信息,所以需要大量的整理和初加工才能进入报社的信息加工流程。而投递系统主要是征集性的信息采集,社会根据报社发布的新闻信息需求,进行准确的内容投递。多媒体新闻信息多渠道投递系统将解决内容定向投递需求。

投递包括多种渠道,电子邮件投稿,网络浏览器投稿,其他网络化投稿,以及手机投稿等新闻信息多渠道采集功能。所有的采集到的新闻信息按照标准结构分门别类输入到新闻采编的待编新闻数据库中,责任编辑等相关稿件处理人员从这个数据库中获取原始的原创内容,通过稿件编审子系统纳入报纸或网络以及电子报等稿件处理环节,进行深入加工。

2.7 多媒体共享稿库技术

西双版纳新老傣文多媒体共享稿库平台系统基于西双版纳报社的实际业务需要,着眼于报社新老傣文数字内容产业的发展趋势,同时借鉴以往其他应用系统的开发经验,充分利用了新平台、新工具和新技术:

(1) 采用先进的智能客户端模式既能满足用户个性化界面要求,又支持智能部署和更新。运用WPF技术使用户能获得绚丽的界面体验,界面设计与业务逻辑设计分离。

(2) 突破报社固有新闻信息类型限制,支持文字、图像、图表、音频、视频、应用、复合等各种类型新闻信息,并且可动态设定支持其他类型新闻信息。本项目全面支持Unicode,突破语种限制,支持西双版纳新老傣文等多语种混合新闻。

(3) “组新闻”的特色管理,涵盖了专题新闻、栏目新闻、新闻关联、背景资料等管理,支持流媒体复合新闻显示。

(4) 非结构化、半结构化、结构化的多媒体新闻信息与结构化数据采用不同存储方式,实现各种数据之间的关联及一致性处理。

(5) 引入面向服务架构模型,系统扩展功能以及与其他应用系统之间的交互通过标准的WebService服务进行,支持和应用CNML标准。

(6) 应用场景和流程定制,适用于不同需要、不同规模的报社或报业集团。

2.8 中文新闻信息标准的应用

从稿件的采集,到稿件的编辑,到报纸版面的排版,报纸版面的管理,一直到报纸版面的输出,整个过程得到统一集中的管理,形成了一个流畅的电子业务流水线。西双版纳新老傣文新闻采编系统,支持《GB/T 20092 中文新闻信息置标语言》[4]和《GB/T 20093 中文新闻信息分类与代码》[5]标准,使系统的开放性和互操作性程度很高、兼容性更强。

《中文新闻信息置标语言》(CNML)规定了新闻行业中文新闻信息的元数据和结构,以实现新闻信息的内容描述、交换和再利用。《中文新闻信息分类与代码》则规定了中文新闻信息分类的原则、方法、体系和类目代码。CNML总体技术路线涵盖了四方面内容。第一,标准突出体现了CNML的两个重要主体,一为用于交换的数据,二为数据之间的语义关系。标准结构上将数据对象和语义关系分开表示,在数据层定义了便于进行数据交换的数据内容,在语义层对数据层所表达的信息对象进行语义关系的解释。标准本身的定义以XML Schema形式为主。同时,为了充分突出标准描述信息的语义特征,借鉴RDF的数据建模思想,课题组提出了融合语义特征描述功能且基于XML Schema语法的CNML标准。这在国内现有XML标准制定中是一个创新。第二,通过建模方法构建了一个统一的标准概念模型,在此概念模型的基础上,采用XML和RDF两种技术方法设计两套标准Schema,两套Schema在设计上要充分考虑各自技术特点,以便将来在应用中实现相互之间的转换和融合。第三,CNML中的通用新闻对象采用了一种抽象的表示形式,真正的新闻对象只在实例化时才进行替代,以实现标准良好的扩展性;第四,在标准中要充分地分析数据层和语义层所表达信息的结构和内容,将可能出现的稿件与稿件、内容项与内容项之间的逻辑关系提取出来,定义出标准中可能出现的信息结构和语义逻辑关系,以实现对标准的元数据和标准的逻辑语义关系进行方便描述。

CNML概念模型具有如下特点: 1)CNML概念模型和NewsML1.x概念模型对应的现实对象模型是一致的,都可以方便地表达富含各种不同类型的内容实体和内容组合的新闻信息稿件结构;CNML概念模型继承了NewsML概念模型中独立于各种具体内容表达方式的优点;2)CNML概念模型中取消了新闻组件这样一个中间层次,消除了由于新闻组件引入导致的各种复杂嵌套的物理结构,通过引入新的关系元素来表达新闻稿件之间、新闻稿件包含的多个不同内容实体之间的结构和组合关系;可以在一定程度上方便对内容项、稿件进行内容存储和信息资产的管理;3)在CNML概念模型中,稿件和内容项均作为抽象类型存在,分别只包含稿件和内容项的公共特征,不同类型的稿件和内容项都可以从抽象的稿件和内容项类型继承扩展,在具备共同元数据特征和结构特点之外,可以拥有自己的元数据特征和自有结构;较好地解决了共性和特性的表达矛盾。

CNML标准采用了数据建模思想和面向对象的设计方法,有效地确立了标准的基础研究方法。首先,对标准中涉及到新闻对象进行建模,然后,通过面向对象的设计方法定义标准中新闻对象的基本类和扩展类,通过类的继承方法逐步从基本类扩展出新的子类。广泛采用了抽象类实例化技术,将反映具体新闻对象特征的抽象类实例化为具体的新闻数据对象,解决了共性和特性的问题。

CNML除了可以在稿件或者内容项的元数据描述部分提供对稿件中的各类主题信息的描述以外,还提供了一组可以内嵌在稿件正文内容中标识主题词的内联智能标记。内联智能标记规范中预定义了一个复杂类型和八个智能标记元素。通过这组标记可以对稿件正文中出现的人物、职位、机构、事件、行业、地点、对象名、分类等信息进行标记,便于大家使用各种自然语言检索或者知识管理引擎对稿件进行主题检索、专题制作、自动分类、自动聚类等智能化处理。

3 存在的问题和改进意见

本项目已完成中国第一个傣文网站和网络平台的傣文数字报刊系统,还将进一步研发移动平台的傣文数字出版系统。

[1] Asmus Freytag. Summary of repertoire for FDAM1 and FPDAM2 of ISO/IEC 10646(ISO/IEC JTC1/SC2/

WG2 N2924R)[EB/OL]. [2005-02-08]. http://anubis.dkuug.dk/jtc1/sc2/wg2.

[2] Michael Evenson. Summary of repertoire for FDAM 5 0f ISO IEC 10646: 2003 (ISO/IEC JTC1/SC2/WG2 N3465)[EB/OL]. [2008-04-24]. http://anubis.dkuug.dk/jtc1/sc2/wg2.

[3] Michael Everson,Martin Hosken. Proposal for Encoding the Lanna Script in the BMP of the UCS(ISO/IEC JTC1/SC2/WG2 N3121R)[EB/OL]. [2006-09-09]. http://anubis.dkuug.dk/jtc1/sc2/wg2.

[4] 新华通讯社,等.GB/T 20092-2006,中文新闻信息置标语言[S].北京: 中国标准出版社,2006.

[5] 新华通讯社,等.GB/T 20093-2006,中文新闻信息分类与代码[S].北京: 中国标准出版社,2006.

猜你喜欢
西双版纳键盘编码
你知道手机拨号键盘上为什么要有*和#吗?
西双版纳 一个与冬天背道而驰的地方
键盘猫
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Cлово месяца
ikbc R300机械键盘
Genome and healthcare
YUNNAN