彝语言语料资源数据库的设计与共享的实现

2016-05-04 00:59王成平
中文信息学报 2016年1期
关键词:彝文彝语信息处理

王成平

(西南民族大学 民族语言文字信息处理实验中心,四川 成都 610041)

彝语言语料资源数据库的设计与共享的实现

王成平

(西南民族大学 民族语言文字信息处理实验中心,四川 成都 610041)

该文以收集整理翻译的彝语言语料为基础,在SQL Server 2008数据库环境下,通过ODBC,利用VC++ 6.0编写彝语言语料入库程序,实现了彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自动入库,完成了彝语言语料资源数据库的设计;通过编写WEB服务端的查询和统计程序,利用C/S方式实现了彝语言语料基于WEB浏览器的访问和远程共享,同时也为其他少数民族文字信息处理中的类似问题提供了一个可参考的解决方案。

彝语言;语料库;数据库设计;共享

1 引言

近年来,随着我国加大民族语言文字信息化建设的力度,彝语言文字信息处理的规范标准工作取得了很大进展,为进一步开展彝语言文字信息化建设奠定了基础。但是,要推进彝语言文字信息化研究向更高层次和领域的发展,还有许多基础工作亟需开展,其中至关重要的一项就是彝语言资源库的研究与建设。无论从彝语言文字材料的收集、整理、研究角度来看,还是从彝语言文字的计算机信息处理角度来看,彝语言资源库都有着极为重要的价值,同时也是彝语言文字信息处理的一项基础性关键资源,具有重要的学术价值和实践意义[1]。

目前大多数的彝语言语料都是以文本录入形式进行收集、整理,而且由于计算机彝文信息处理技术起步晚、信息处理编码标准还不完善等方面的原因,造成了不同来源的彝语言语料在格式、编码上的不统一,而且种类也比较多,这给彝语言语料的分类统计和查询带来了许多困难。目前常用的彝语言语料数据格式主要有U文件(Unicode彝文,采用2005年西南民族大学与北大方正合作研制的Unicode彝文系统编辑的语料文件,Unicode编码位于BMP彝文专区A000-A4BF)和Y文件(YIWIN彝文,采用2000年西南民族大学研制的基于Windows平台的YIWIN彝文系统编辑的语料文件,Unicode编码位于BMP用户自定义区E000-E4C5),把这些彝文语料文本整合成语料资源数据库,一方面可方便对彝语言语料进行查询和统计,也可通过WEB服务端为彝语言语料资源库的数据共享提供可行的网络技术支持。

本文利用VC++ 6.0,通过ODBC编写彝语言语料的入库程序,实现彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自动入库。采用目前数据库开发常用的C/S结构体系,通过Web网络服务端技术实现了以数据库为后台模式的语料Web发布和共享,构建了一整套从语料入库、查询、统计、分析到下载、管理维护的实现流程,这样既保证了彝语言语料资源的规范性、有效性,也实现了语料资源库的后期维护简单、使用方便快捷,提高了彝语言语料资源的使用率。

2 彝语言语料资源数据库的设计

2.1 彝语言语料的收集整理、标注、入库

语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理技术研究者和系统开发者的共识[2]。本文以“广泛的客观定义的文本类型”为依据来进行初始语料的采样,然后根据库存语料的“影响力”、随机采样以及可访问性等指标来进行彝语语料选择[3],主要以西南民族大学彝学学院、民族文字信息处理实验中心、图书馆、西南民族研究院等单位所收集整理翻译的政治、法律、经济、科学、文化、教育等领域内的1 000多万彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)作为基础,建立了彝语言语料资源库。

U文件的Unicode彝文是依照ISO/IEC 10646(Unicode)BMP编码标准,遵循彝文编码字符集国际标准,彝文字符范围在A000-A4FF,共1 165个彝文字,55个彝文字根;Y文件是YIWIN彝文,其编码位于Unicode用户自定义区(EUDC)E000-F8FF,彝文字符范围E000-E491,共1 165个彝文字符。虽然U文件和Y文件都属于Unicode字符,两者所采用的编码和范围不相同,两者之间并无直接的对应和联系,但因为都属于Unicode字符,VC++程序语言就很容易识别和调用。

为方便语料库的管理与共享,所用语料需按照统一的标准进行编码、标注,这样的语料库就不会仅限于某个具体的应用程序和软件平台,语料数据才会具有更强的共享性。XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识,它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言[4],因此采用基于XML语言的编码、标注体系的语料库才能获得更多软件平台和应用程序的兼容与支持。考虑语料标记集的可操作性、全面性,以及语料的实用性、共享性,本文采用XML格式完成彝语言语料的编码、标记工作,这样不仅方便VC++程序语言定义语料的数据结构,还可以方便地把彝语言语料入库,同时为了入库的方便和保持彝语言语料的完整性,彝语言语料库按照不同体裁来进行分类和存放。由于标注后的彝语言语料格式U文件和Y文件都有良好的结构特性,就可以通过对入库语料结构的分析、参考入库文件的标准,从而编制语料文件的入库程序,实现彝语言语料的自动入库。

2.2 彝语言语料资源数据库设计与数据表的结构

语料数据Web发布、在线浏览、查询、下载等功能的实现是数据库建设的基础核心部分,但由于数据检索方式具有很强的伸缩性,为了能更好地满足彝语言语料检索者的需求,那就需要按照彝语语料库建设的相关标准和规定[5],建立彝语言语料共享数据库,构建彝语言语料入库的自动化流程,实现彝语言语料数据的自行追加。彝语言语料资源数据库采用SQL Server 2008数据库实现与管理模式,在综合考虑彝语语法、语料数据格式、标注等特点的基础上,设计了语料库中各数据表的相应结构,建立彝语言语料资源数据库。具体的数据库表结构如表1所示。

表1 彝语言语料要素数据表

此外彝语言语料资源数据库采用了XML格式统一标注语料,以方便数据库软件的调用,常用要素标记如表2所示。

表2 彝语XML标记集

续表

2.3 彝语言语料数据更新时对特定数据的过滤和表的同步

语料数据库中语料要素都设定了特定形式,对于语料使用者而言,他们更关心的是语料是否规范、真实,但语料的原始数据又不能随意改变,这样就必须在原始语料库中有一个表同步和表的数据订正更新的机制,没有同步机制,新插入的记录就不能自动反应在常用要素表中,没有数据订正更新的机制,语料要素表就不能用简单的SQL语句进行统计与分析[6];调用SQL Server 2008管理中的触发器功能来解决语料库中表的同步和数据的过滤问题,对各要素表定义插入、删除和更新的触发器,当有新的记录插入要素表的时候,与触发器相关联的程序就会自动执行,把相关的要素插入常用的要素表中去,同时可以对特定数据进行更新和过滤[7]。这样语料库中设定了题材、语体、领域的数据都是可以统计与分析的语料,同时通过编程,触发器还可以维护数据库中的完整性和标准性。

3 彝语言语料资源数据库共享的实现

为适应当前语料库语言学、计算语言学等领域在大数据时代的研究需求,利用网络和数据库技术平台,通过Web网络服务端实现了彝语言语料资源发布、管理、检索、统计、分析,极大地提高彝语言语料资源的使用效率,为进一步建设各种彝语语料资源库提供了技术支撑,对彝语言、彝语言信息化建设的研究具有重要的学术价值和实践意义。

3.1 彝语言语料资源的检索

随着互联网的迅猛发展,大量的信息以电子文档的形式出现在人们面前, Web已经成为了一种非常重要的信息资源,人们所需的知识几乎都可以在Web中检索到[8]。彝语言语料资源数据库是面向广大研究、学习彝语言的用户,因此数据库所提供服务的客观性取决于数据库的具体组织实现方式。彝语言语料资源数库针对用户对语料格式、存储方式的不同需求,提供了以下两种检索彝语语料的方式和途径:

1) 以Web中常用的交互方式直接把入库的常用原始语料、初加工语料供检索用户。

2) 对于需要有注音、分词标注、语法树库等详细标注信息的用户,可按需对分语料要素存储的原始语料和标注资料进行浏览和检索。

3.2 彝语言语料数据的在线浏览与下载

3.2.1 面向用户视图的语料数据的检索与下载

针对不同语料检索与下载的用户,在彝语言语料资源数库管理中可用三个常用语料要素表定义不同的只读性用户界视图。语料库管理员对库中所有的语料数据都有上传、查询、统计、修改、下载的权限,其他用户只有查询、检索的权限。因此可以根据与数据相对应的不同用户类别,对三个常用的语料表为各种不同语料类别定义不同的视图,视图里只有用户所在权限内的语料数据;同时对不同类别用户进行不同的管理与授权,用户只有经过身份认证后,才能根据设定的语料数据检索方式调用具体的检索信息,然后发送到后台数据库实现语料数据的检索和查询,具体的实现流程如图1所示。

图1 面向用户视图的语料数据的检索与下载流程

3.2.2 基于拆分方案的批量语料数据的检索与下载

在彝语言语料资源数库的设计过程中为了方便用户在线批量检索、下载语料数据,制定了语料数据文件分级别、分类别的拆分方案,对基础语料、标注语料按不同的用户级别进行了分类,具体的实现流程如图2所示。

图2 基于拆分方案的批量语料数据的检索和下载流程

4 彝语言语料资源数据库的结构与功能

从总体结构看,彝语言语料资源数据库主要由以下五个平台构成。

1) 网络平台:通过网络技术平台实现彝语言语料资源库的网络化管理与共享。

2) 数据处理平台:对彝语言语料数据在形式上进行编码与格式检查,在内容上实现分类入库,将经过分类甄别的语料自动添加到数据库中,确保了入库语料的规范性、准确性。同时将数据库中新增的语料自动追加到文件服务器中。

3) 服务平台:是语料数据的查询、检索、统计、分析与下载。

4) 开发平台: SQL Server 2008,VC++6.0等集成开发环境。

5) 后台管理: 通过Web控制端实现数据库的日常管理。

此外,彝语言语料资源库还具有以下两个方面功能:

1) 检索方式多样化(有日期、领域、题材、作者等),能对多要素按条件查询,还能进行动态SQL查询。

2) 能面向彝语言的教学科研、信息处理、机器翻译、跨语言信息检索等领域提供强大的语言数据支持和快捷的Web在线服务。

彝语言语料资源数据库的实现参考借鉴了目前网络技术和数据库建设方面的主流技术,搭建了一个基于Internet C/S结构的可动态显示、查询、浏览、统计、下载的彝语言语料资源信息数据共享系统,并根据实际运用需要制定了一整套保障系统持续高效运行的工作流程,具体流程如图3所示。

图3 彝语言语料资源数据库的业务流程

5 结语

本文以收集整理翻译的政治、法律、经济、科学、文化、教育等领域内的500多万彝语文本语料为基础,通过ODBC,利用VC++ 6.0编写彝语言语料入库程序,实现了彝语言语料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自动入库,通过SQL Server 2008进行后台管理,利用基于浏览器/服务器的架构,实现了能针对不同用户的需求,合理、科学组织数据是实现其入库、共享和广泛应用的关键,本文以数据库为中心,利用SQL结构化查询语言进行查询和统计,既方便了程序的编制,又方便了用户进行查询和统计,通过对彝语言语料资源库数据进行共享,方便了相关学科的研究者对彝语语料的检索,是提高彝语语料使用效率的有效途径,同时文中涉及到的开发思路和原理对其他民族文字信息处理中的类似问题也提供了一个可参考的解决方案。

[1] 王成平.彝语言信息处理的现况分析与发展前景探讨[J].西南民族大学学报(人文社会科学版),2011.(2): 60-63.

[2] 俞士汶.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5): 1-10.

[3] 王成平.信息处理用彝、汉、英三语平行语料库的建设与语料对齐技术研究[J].科技通报,2012(1): 131-134.

[4] 周从军.XML程序设计[M],天津: 天津大学出版社,2010:9-12.

[5] 沙马拉毅.彝文信息处理技术三十年发展历程与展望[J],中文信息学报,2011,25(6): 170-174.

[6] 胡百敬.SQL Server 2008管理实践[M].北京: 人民邮电出版社,2009:36-48

[7] 董如根.历史地面气象资料库的设计及共享[J],软件导刊,2012.(1): 98-99.

[8] 曹馨宇,曹存根.从Web获取部分整体关系语料的方法,中文信息学报[J], 2011,25(5): 17-23.

[9] 林政,吕雅娟,刘群,马希荣.Web平行语料挖掘及其在机器翻译中的应用[J],中文信息学报,2010,24(5): 85-91.

[10] 常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].计算机辅助术语研究,2003,(1):28-31.

[11] 雪艳.关于用XML语言组织蒙古语语料库的设想[J]. 内蒙古大学学报(人文社会科学版),2006(1):13-16.

[12] 陈小荷.现代汉语自动分析[M].北京: 北京语言文化大学出版社,2000: 35-80.

[13] 李康熙,杨勇.平行语料库对齐技术的语言学思考[J].合肥工业大学学报(社会科学版),2009(6):83-86.

Database Design of Yi Language Corpus and Its Web Access

WANG Chengping

(The Experimental Center of National Language Information Processing, Southwest University for Nationalities,Chengdu,Sichuan 610041, China)

This paper describes the design of Yi language corpus database on SQL Server 2008. This system can store the Yi language corpus U (Unicode Yi characters) and Y (YIWIN Yi characters) automatically. A C/S style access module is also implemented, which enable remote access via web browser. The report practice can contribute to similar tasks in other minority languages.

Yi language;corpus;database design;Web access

王成平(1979-),博士,副教授,主要研究领域为彝语言文字信息处理技术及计算语言学。E⁃mail:wangchengping@126.com

1003-0077(2016)01-0129-04

2013-05-08 定稿日期: 2014-02-26

国家自然科学基金(71373216);国家社科重大招标项目(13&ZD142);西南民族大学创新团队建设计划项目(13TD0058)、学位点建设项目;国家民委重点人文研究基地中国彝学研究中心项目(YXJDZ1503);四川省重点研究基地彝族文化研究中心项目(YZWH1203)

TP391

A

猜你喜欢
彝文彝语信息处理
东营市智能信息处理实验室
纳苏彝语越南语亲属称谓特征及其文化内涵异同研究
彝文经籍《祭龙经·祭彩虹经》中的敬畏自然观研究
访大凉山悬崖村
基于Revit和Dynamo的施工BIM信息处理
新中国成立以来的彝语研究概述
楚雄禄丰大三家村彝语语音系统及其特征
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
贵州彝文信息技术研究概述