●王曙光(新疆维吾尔自治区图书馆技术部,乌鲁木齐830011)
新疆少数民族语言资源数字化建设与检索平台建设研究
●王曙光(新疆维吾尔自治区图书馆技术部,乌鲁木齐830011)
少数民族语言资源;检索平台;数字化建设;资源库建设
新疆少数民族语言资源丰富,但数字化仍处于起步阶段。文章探讨了资源数字化建设过程中存在的一些问题,使用何种标准开展数字化建设,同时剖析了资源检索平台在新疆维吾尔自治区图书馆实践的基础、主要建设内容、功能构成以及关键技术,以切实保障检索平台成功实施。
在文献资源数字化建设中,少数民族语言数字化资源数量相对匮乏,仍是一片蓝海。虽然标准和技术方面已不存在问题,但在少数民族语言的录入、显示、检索、非图片索引、拷贝、版权以及平台对接等方面存在一定的障碍,这种情况在新疆尤为普遍。
其一,为解决好文字编码问题,教育部、国家语委早在2004年11月发布了《民族语言文字规范标准建设与信息化课题指南》,[1]对民族语言文字术语数据库、语料库、知识库等资源库建设给予了重点资助。如今,我国民族文字编码标准已基本成型,为各民族语言的信息化处理提供了基础。
其二,经调研发现,新疆少数民族文字软件处理系统主要包括维文、哈文、柯文排版系统,锡伯文、满文文字处理和印刷系统,阿拉伯文及多文种排版系统以及多语种版本的Windows操作系统,这些软件已广泛应用于出版业,但在电子资源领域仍未涉及。
其三,国内外已研发出图书馆数字检索资源平台,但大多针对大语种的使用,少数民族语言类的资源库则是凤毛麟角,极为少见。这是因为资源的数字化需要投入大量人力与物力,而少数民族语言文字电子资源应用范围较小,且缺乏统一的加工标注规范,至今未形成一个统一的电子资源检索加工与发布的平台。[2,3]
因此,加强少数民族语言资源数字化建设与检索平台建设,对于提高少数民族语言资源共享与处理技术,保护优秀而珍贵的少数民族语言资源,实现信息资源的文化传承,具有现实意义。国家非常重视这方面的研究与建设工作,2011年,新疆维吾尔自治区图书馆成功申报了文化部文化科技提升计划中的少数民族语言数字资源建设与检索平台[4]项目。希望通过该项目研究,填补图书馆界这一空白,使优秀的少数民族语言资源得到弘扬,维护民族精神,推动新疆各民族的进步,构建和谐社会。
2.1 资源数字化建设
文献资源的数字化建设是少数民族语言资源数据库建设的重要内容,具体包括资源的选题、调查与征集、加工与译制、审核与发布等。在数字化过程中要始终贯彻“藏以致用”和标准化的原则,即以“用”为出发点、以标准为准绳来建设少数民族语言资源库。
在馆藏资源数字化建设中,需要严格遵守我国数字图书馆标准规范之数字资源加工标准,对图书、报刊、图片、胶片、录像带、录音带等进行加工。对不同载体形式存贮的民族文献信息进行数字化,需要采用不同的数字转化方式。可以通过扫描将纸质文献以图像形式存放,并借助OCR识别系统对图像进行处理,诸如版面分析、纵横校对、版面还原,再把图像还原成文字,然后再进行编辑、排版、标引等深加工,以保持少数民族文献的原貌风格,真实反映出新疆地方文献的民族特色。另外,在标引数据制作过程中,需要严格按照国家有关文献著录和标引原则,确立统一的著录标准、标引方式。
2.2 数字资源标准化建设
标准规范是数字资源库建设的基石,少数民族语言数字资源库建设首先要建立统一的标准规范。多年来,我国由于数字资源库建设标准不统一,再加上传统的条块管理体制,数据资源很难形成有效的流通和共享,建成后的数字资源库大多处在分散管理、封闭使用状态,有悖于新疆少数民族语言数字资源库建设的初衷,也不利于新疆少数民族语言数字资源检索平台建设。
在数字资源建设的标准规范方面,新疆少数民族语言数字资源库建设平台选用了目前国内外主流的建设标准,主要体现在字符编码、对象标识、数据格式、元数据、检索服务、长期保存等方面。
目前,新疆少数民族文字出版物大多以维、哈、柯等语种为主,这些语种字符在Unicode 4.0版本中都分配有相应的Unicode编码,它们是计算机处理少数民族文字信息的前提,也为新疆少数民族语言数字资源库建设奠定了基础。
3.1 实践基础
新疆少数民族语言数字资源检索平台是在新疆维吾尔自治区图书馆丰富的少数民族馆藏资源的基础上搭建起来的多语种电子资源加工和发布的管理平台。自治区图书馆现有藏书184万册(件),形成了以少数民族文献及新疆地方文献为特色的藏书体系,特别是少数民族文献中包含有维吾尔文(老文字、新文字)、哈萨克文、柯尔克孜文、蒙古文、斯拉夫文等,都是新疆维吾尔自治区图书馆珍贵馆藏。自治区图书馆以此为基础,建设了《新疆农牧区实用技术资源库》(维语)、《新农村社会主义文明建设资源库》(维语)、《新疆影视资源库》(维哈语)、《新疆舞台艺术资源库》、《新疆非物质文化遗产资源库》、《新疆少数民族少儿“双语”及基础教育资源库》(维汉双语)、《新疆风光资源库》、《新疆红色资源库》等多个资源库。自治区图书馆拟通过少数民族语言数字资源检索平台建设,实现新疆少数民族语言文献的加工、录入、存储、检索、管理、发布与查看等功能。
3.2 主要建设内容
新疆少数民族语言数字资源检索平台主要建设内容包括:(1)开放的跨平台资源加工管理系统;(2)资源的在线全文检索和阅览系统;(3)至少三种或以上(包括中文、维文、哈文)的文字录入系统。
通过该平台,可以在Ⅰnternet网络或城域网络上将少数民族语言文字电子化、数字化、网络化,形成一个立体信息空间,提供民文文献的录入、存储、检索和查看等功能,提高图书馆资源、人才、财力、技术和服务优势,增强图书馆资源管理的水平和效率以及信息传递能力,改善当前少数民族文献数据库稀缺的现状,为图书馆储备和保存多语种文献,并满足不同读者的需求。
3.3 平台功能构成
新疆少数民族语言数字资源检索平台采用JAⅤA技术进行开发设计,符合J2EE标准体系要求,具有高可移植性和可跨平台性。这是因为J2EE平台提供了多层的分布式的应用模型、组件再用、一致化的安全模型以及灵活的事务控制,不会被束缚在任何一个厂商的产品和APⅠ上,利用成熟的中间件技术可方便灵活地配置Web应用服务器。图书馆无需采购高性能服务器,无需安装专用系统软件,无需专业的计算机维护人员,大大降低投入成本,为平台大面积推广应用提供了可行条件。
平台采用B/S架构,可以运行在业界任何主流操作系统平台上。图书馆通过浏览器模式,利用该平台就可以实现少数民族文献资源在线检索和阅览、资源采集加工以及少数民族文字录入等工作。平台在搭建过程中注重各种格式、多文种文献资源检索与阅览。全部采用图片格式和国际化编码标准,从而保证数字资源多种操作系统下的正确显示。
平台采用多层体系结构的模式设计,实现了网络层、数据层、应用层面的互联互通和资源共享,并在此基础上可对海量且种类繁多的信息资源进行科学地收集、筛选、分类、存储、检索、及时更新和有效利用,真正发挥电子化、网络化优势,最大程度地提高信息资源的利用率。
由于少数民族文字具有一定的特殊性,例如,维文与中英文的阅读和书写方向不一致。因此,少数民族语种文献的录入、检索和显示就成为平台需要解决的重点与难点问题。平台底层支持Unicode(国际统一字符编码),可以全面解决多语种录入问题,允许多语种混排、检索。
3.4 所采用关键技术
为实现上述功能,新疆少数民族语言数字资源检索平台在建设过程中主要采用了下述关键技术。
(1)模型-视图-控制(MⅤC:Model-Ⅴiew-Controller)。MⅤC是一种交互界面的结构组织模型,可以分离数据访问和数据表现。采用该技术可保持交互操作界面相对稳定,并能根据需要改变和调整显示内容和形式。
(2)三层体系结构。平台设计了数据库核心层、逻辑业务层、Web用户界面层,三层体系结构极大地提高了平台的伸缩性和安全性。
(3)负载均衡。频繁的检索与阅览将消耗较多的服务器资源,负载均衡将根据负载情况自动调整Web服务器负担,当构建多台Web服务器作为应用服务器时,如其中一台机器负载过重则会自动把相应的请求转发到其他机器上去。
(4)B/S体系架构。平台采用XML、XSLT技术,具有良好的可伸缩性,适合以网络为中心的计算模式和Ⅰnternet应用,用户只需要浏览器连通网络就可以登录平台开展工作。
(5)Java设计与开发。平台采用Java设计,可以运行于PC机到小型机等多硬件平台,同时支持跨操作系统平台,包括Windows家族、Linux和各种主流的UNⅠX操作系统。
(6)标准的APⅠ接口。平台采用开放的设计思想,提供标准的APⅠ接口,方便用户二次开发。
(7)Unicode(国际统一字符编码)。平台最底层支持Unicode,全面解决多语种录入问题,允许多语种混排、检索。
[1]关于印发《民族语言文字规范标准建设与信息化课题指南》的通知[EB/OL].[2014-01-09].http: //www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s235/ 200412/3902.html.
[2]纪照霞,缪建梅.论新疆民族地方文献的开发和利用[J].边疆经济与文化,2011(2):59-60.
[3]张次第.少数民族文献资源建设研究[J].中国图书馆学报,2011(5):115-119.
[4]自治区图书馆召开“国家文化科技提升计划项目——少数民族语言数字资源建设与检索平台”开题报告会[EB/OL].[2014-01-11].http://www. xjlib.org/44ebc19e-760b-48f9-83b4-44eb6e134e851. htm l.
G250.74;G253
B
1005-8214(2014)09-0097-02
王曙光(1970-),女,副研究馆员,新疆维吾尔自治区图书馆技术部主任,发文10余篇,合编出版著作2部。
2014-02-11[责任编辑]王岗