扎西加,高定国
(1. 西藏大学 工学院计算机科学系,西藏 拉萨 850000;2. 西藏大学 藏文信息技术研究中心,西藏 拉萨 850000)
据目前相关报道: 西北民族大学建立了1.3亿字节的大型藏文语料库,用于藏文词汇频度和通用度的统计;中国社会科学院民族学与人类学研究所建立了 500 万藏语字符的藏语语料库,进行词语切分和标注的研究;青海师范大学建立了100万字的藏语语料库;西藏大学也建立了规模较大的藏语文本语料库和语音语料库,语料库的收集范围比较广泛,并且正在不断地扩充,丰富了藏语语料库的内容和应用范围。
“语料库不是任意文本的随意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标相关”[1]。经过不同阶段的语料库加工处理,语料库所携带的信息也不断地增加和完善,最终将成为一个名副其实的语言知识库。这样的知识库可以为藏语统计分析、机器理解和机器翻译提供丰富的资源。
藏文编码的不统一问题导致语料分散,资源无法共享。目前有北大方正、华光、同元、班智达、桑布扎等近10种编码不同的藏文字处理软件,各种语料资源编码不一,互不兼容。因此,便于语料库的管理、处理、共享和交换,我们将不同编码的语料资源全部统一为藏文ISO/IEC10646的小字符集编码。TEI(Text Encoding Initiative)语言作为编码的元语言,它是目前在信息处理界普遍使用的置标语言,TEI所订规范的应用范围广,标记的层次高,通用度强,软件支持好,因此对藏语语料库采用TEI语言来标记。
“TEI适用于对电子形式的全文的编码和描述。TEI元数据标准同时也规定了可供数据交换的标准编码格式,使用SGML作为编码语言”[2]。TEI 格式具有很大限度的灵活性、 综合性、可扩展性,能支持对各种类型或特征的文档进行编码。TEI元数据标记可以对语料库的文本属性信息与文本结构信息进行规范的标记。
TEI文档,也是一个SGML文档,一般有四个部分: teiHeader(题名), front(文本前的信息), body(正文), back(文本后的信息)。其含义分别是:
TeiHeader: 对电子文本对象的描述。front: 对正文前的信息描述,包含位于文件最前端的项目 (标头、题名页、前言、献词等)。body: 对正文信息的描述,单篇文章的整体部分,不包含正文前及正文后信息。back: 对正文后的信息描述,包含附录等。
TEI标头的第一层可以包含
TEI元数据标准规定了描述文本的书目信息所需要的标记,主要在fileDesc部分,有6个复合元素;在此6种元素的基础上,为了便于对语料搜索和统计,可自定义语料的标题、作者、来源、领域、体裁、语言层次、文类、语式、年代、译者、编者、本次、版本、出版、日期、语言、国家、性别、年代、创作时间、记录者等18项属性信息,具体如下:
1)标题属性信息
2)作者属性信息
3)来源属性信息
4)领域属性信息
5)载体属性信息
6)语言种类信息
7)语式属性信息
8)年代属性信息
9)译者属性信息
10)编者属性信息
11)版本属性信息
12)地方属性信息
13)出版属性信息
14)语言属性信息
15)国家属性信息
16)作者性别属性信息
17)时代属性信息
18)记录者属性信息
以上18项属性信息比较全面地反映了一个文本的总体信息,在实际标注时,按照文本收集的具体情况和文本使用的具体情况,可以进行一定的附加属性的标记,也可以只标记其中部分属性。
“任何文件或专著都有其自身的结构。如: 书信由发信人、收信人、信件本体等部分组成,公文由发文单位、收文单位、题目、文号、公文本体等部分组成[3]”,一般学术著作是由文本前的信息(出版说明等)、序言、目录、正文、后记、文本后的信息(如: 参考文献等)等组成。比如: 学术专著的结构可以用下面的树形图来表示。
图1 学术专著树形图
树形图上的每一个非终端节点叫做“元素”,一个元素的子节点,叫做这个元素的“内容”。例如,在学术著作的树形图结构中,“章”是“著作本体”的内容,“节”是“章”的内容,“段”是“节”的内容,“句”是“段”的内容,“词”是“句”的内容。树形图上的每一个终端节点没有内容,这些没有内容的终极节点,叫做“数据”。此树形图可以用来仿造书籍的传统结构。书籍的传统结构可依照层次分解为许多单位。普遍来说,TEI文件都符合这个简单的层次模式。正文中“章”与“节”的标记可以简单用章节号和相应的标题来进行标记,其“段落”、“句”和“词”的标记可以采用如下的标记方式。
…
,该标记必须有一个属性,属性的名称是ID,ID的值即为该段落的序号。在标记规范中规定: 对于文中出现的标题、子标题等均作为特殊的段落加以标记。加入了段落标记的文本体部(含有n个段落)形状一般如:......
......
......
......
内部。例如在某个藏语文本第20个段落中出现了4个句子,标记情况如下:
如果建立双语对齐语料库,还可以增加对齐标记。
词汇标记用来标记文本中词汇的开始边界和结束边界。无论是汉语文本还是藏语文本,一个句子都是由若干个词组成的。在语料库中词汇标记用TEI标记,标记中还需要标记分词和词性规范,其中有一个pos的属性,用来记录词性属性。例如:
......
至此,语料库就详细标记到了词的层面。有了该层面的标记,就可以按照需求开展相应的很多工作了。
以上探讨了语料库整体框架的标记。下面对《更敦群培文集》进行一个整体框架的标记,供大家参考。
< /titleStmt>
以上范例中描述了电子文本的标题、作者、来源、语式、载体、语言、出版日期、修订、编码等属性,对藏语语料库框架标记提供一个参考。 本文由于篇幅所限,不再赘述藏语料库结构标记的实例。
本文结合我们建设语料库和使用语料库的实际情况,提出了藏语语料库框架标记、结构标记规范及标记方法,并尝试用一定的实例表述我们的标记方法。藏文语料库的建设比较滞后,并且规模也不大。希望我们提出的藏语语料库的标记方法对藏语语料库的建设起一个抛砖引玉的作用。
[1] 常宝宝,柏晓静. 北京大学汉英双语语料库标记规范
[J].汉语语言与计算学报,2003,13(2): 197-214.
[2] 中文元数据标准研究项目组. 国外元数据标准比较研究报告—中文文献元数据标准系列报告之一[R]. http://www.idl.pku.edu.cn/pdf/metadata1.pdf.2000.
[3] 冯志伟.标准通用置标语言SGML及其在自然语言处理中的应用[J].当代语言学(试刊). 1998,(4):1-11.
[4] 鲁·伯纳,麦克·苏宝麦昆,马德伟著,谢筱琳,黄韦宁译.TEI使用指南—运用TEI处理中文文献[OL].http://ablogtags.info/2011/tei-chinloc-2ndprinted-gjba/.
[5] David Mertz博士.TEI—文本编码规范[OL]. [2003 年 10 月 01 日].http://www.ibm.com/ developerworks/cn/xml/x-matters/part30/.
[6] 扎西加,顿珠次仁.自然语言处理用藏语格助词的语法信息研究[J].中文信息学报,2010,24(5):41-45.
[7] Roma:制作TEI的文件模型档[OL].http://www.tei-c.org/Roma/.
[8] 圣才学习网.图书馆资源描述标准[OL].[2010-10-19 11:49].http://www.100bjcb.com/HP/20101019/OTD 246998.shtml.
[9] 吴守用,古丽拉·阿东别克.哈萨克文语料库XML格式标注规范初探[C]//中国少数民族语言文字信息处理研究与发展.民族出版社, 2010.