信息检索系统中藏文自动提示的研究与实现

2014-08-14 18:41武强边巴旺堆
电脑知识与技术 2014年19期
关键词:藏文信息检索分词

武强+边巴旺堆

信息检索系统中藏文自动提示的研究与实现

武强,边巴旺堆

(西藏大学 工学院,西藏 拉萨 850000)

摘要:在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。

关键词:藏文;分词;信息检索;相关词提示;编码;网页

中图分类号:H214 文献标识码:A 文章编号:1009-3044(2014)19-4378-03

Research and Implement of Tibetan Term Suggestion in Information Retrieval System

WU Qiang, BianBa Wangdui

(College of Engineering, Tibet University, Lhasa 850000, China)

Abstract: Information retrieval has become a part of people work in todays information society. As one ancient language, Tibetan has blended in with todays information age. There are more and more web pages, e-mails etc. in the form of Tibetan. The paper mainly discusses the structure, encoding, term segmentation of Tibetan and implementation mechanism and method of Tibetan term suggestion, and analyses deeply the Tibetan word segmentation and Tibetan sort, finally implements the function of Tibetan term suggestion based on the value of a Tibetan word in documents. From testing, the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.

Key words: Tibetan; word segmentation; term suggestion; information retrieval; encoding; Web page

1 概述

目前,随着互联网和个人电脑的发展,信息量每天都以指数级增长,信息检索[1]成了一种人们获取日常信息的主要手段。藏文,作为一种古老的书写文字,其历史可以追溯到1400多年前。迄今为止,以藏文记载的古典著作浩如烟海,这些书籍在藏民族的传承和发展上发挥着重要的作用。随着信息时代的到来,以藏文形式记载的各种网页、文档也越来越多,利用检索系统对藏文进行检索,可以更快地获取信息,同时也促进了藏文的发展。

相关词的自动提示功能(Term Suggestion)在一些常用的网站上可以看到,比如搜索网站谷歌,百度,电子商务网站淘宝,易趣等。相关词的自动提示功能优化了搜索结果,通过系统来猜测检索人需要的搜索词语,为检索人在信息检索时提供了更多的便利和较准确的检索结果。图1显示了百度搜索引擎上相关词的提示功能。从该图我们可以看到,相关词的提示功能即提高了检索书写速度,又延长了检索词的长度,为进一步返回更准确的结果提供条件。

图1 百度上汉语自动提示功能

2 藏文的构成、编码及分词

2.1藏文的构成

藏文字是一种拼音文字,可以被看做由基本字符且基本字符通过纵向叠加和横向连接而成[2][3]。藏文字主要由现代藏文和一些梵音转写体和反写体组成。现代藏文是由三十个辅音字母和四个元音字母组成,它是藏文字的主要组成部分。加上梵音的转写体和反转体,藏文共有四十一个辅音字母和十三个元音字母。图2给出了一个藏文字的各组成构件,藏文字看起来虽然复杂,但每一个藏文字并不是随意构成的,它有一套严格的构字规则和文法体系,违犯了构字体系,该字就不能被视为藏文,既不能拼读,也不会有实际意义。

图2 藏文字的组成构件

2.2 藏文编码

由于藏文信息处理技术的起步较晚,在发展的前期还没有形成统一的编码,各个公司在开发藏文软件时都使用自己开发的编码系统[4],这必然导致各个藏文软件的不兼容,容易形成乱码。1997年,国际标准化组织通过了藏文国际编码标准,藏文有了一个统一的编码标准体系。信息检索系统在对检索词进行检索之前,首先要从互联网或本地磁盘系统抓取要被检索的网页或文档,然后对文档进行分析和建立索引,最后文档才被检索。在这个过程中,识别被检索的网页或文档的编码是一项非常重要的工作,只有识别正确,返回的检索结果才不会形成乱码。在本系统的开发测试期间,我们的网页和文档主要采用藏文的国际编码标准,即Unicode编码。当然,我们也可以对具有不同编码的藏文网页或文档进行统一编码,然后再进行文档的分析及索引,这个过程主要涉及到藏文的编码及转换[5],从文献[5]可以看出,通过合适的途径,我们可以把目前不同的藏文编码统一为国际编码。

2.3 藏文分词

藏文词语之间是用分隔符来划分的,类似英文中的空格,横向上又和中文有一定的相似,藏文分词是进行藏文信息处理的一项基本工作,文献[6]提出了基于格助词和接续特征的藏文自动分词方案,该方案参考藏文词语的特点和汉语在分词方面已经做出的一些成绩。在本系统的设计中,藏文分词主要考虑在以下几个方面:

1) 藏文检索词本身应具有实际意义

在信息检索系统中,用户想要得到的是满足需要的实际内容,所以输入的检索词也必具有实际意义,这样的检索词在语意和构成上应该符合藏文的相关规范。对这样的检索词进行分析、建立索引应该能满足检索系统的要求。

2) 藏文词典是实现相关词提示的一个很好参考模型

在信息检索系统中,词典是进行词句分析的一个参考模型。藏文词典本身就具有良好的藏文分词功能,且能帮助用户纠正检索词输入中的文法错误,结合藏文词典和检索词,可以更好地满足藏文分词需要。

3) 藏文词语的权重是实现相关词提示排序功能的重要指标

词语的权重是实现相关词提示的一项重要指标。在信息检索的过程中,大家都关心的词可以赋予更高的权重。在藏文相关词提示系统中,依据藏文词语的权重进行排序,权重高的排在前面,以此类推。

3 藏文自动提示功能的实现及测试

3.1 藏文相关词提示的实现

在藏文相关词提示的具体实现中,限于提示词的数目,相关词的提取和排序就变得非常重要。设计合理的相关词提取和排序可以使用户得到更好的体验。

1) 藏文词典排序算法

藏文词典排序算法按照现有藏文词典的排序方法,即所有藏文词语按照藏文基字的先后顺序分组排列,每组中各个词语按第一个音节为独体字、有后缀(后加字和再后加字)、有元音、有下加字、有上加字(逐步从简单到复杂)的顺序排列,对于具有元音的词语也与前者相同,即从基字加元音、有后缀、有下加字、有上加字的顺序排列[7][8]。排序的一种实现方法是:首先,把所有的藏文词语按照基本辅音字母分类成四十一个组,并保持国际编码标准中辅音字母的先后顺序;然后,在同一个组内,根据该字所具有的构件元素及构件元素之间的优先级来排列藏文词语;其次,每一个构件元素内部的所有字符要有序;最后,整体藏文的优先级最大者先排[9][10]。根据文献[7],藏文词条大约常用的是1.4万余条,那么,怎样从这1.4万余条词语中选取数量有限的相关提示词,选取的这些提示词是否与用户搜索的信息有关联,这是藏文相关提示词设计时要考虑的。考虑到从词典抽取出的一系列相关词本身和用户输入的检索词的相关度并不是很大,所以在本系统的设计中我们只用藏文词典来进行纠错和藏文分词。

2) 基于查询日志的藏语相关词的实现方法

用户通过信息检索系统输入检索词时,检索系统会自动记录用户的查询词和点击的相关文档,记录的文件称为查询日志[11]。通过查询日志,可以清楚地分析出用户使用频率最高的藏文查询词。通过信息检索中的聚类技术[1],对查询词进行聚类,这样就可以得到相关度较高的一系列藏文相关词了。当用户输入检索词时,系统根据用户输入的检索词的相关字母,选取其中以同样字母开头的一些权重较高的词组,利用权重的大小,进行排序,最后通过检索系统用户界面,以下拉列表的方式,返回给用户一组相关提示词。其实现框图如图3所示。

图3 藏文相关词提示的实现框图

3.2 测试结果

本系统使用了940篇藏文文档,为了说明测试结果,只选择了其中的五个藏文词语用于相关词提示,词语及权重如表1所示,本系统的搜索引擎采用开源Lucene系统。通过表 1可以看出,我们选取的藏文词语的第一个字母是一样的,也就是说,本系统的藏文聚类是按照藏文的实际书写顺序,而不是其具体实际语意。

表 1 藏文在不同文档中的权重

图4 显示了输入检索词后具体的实现界面,从该界面可以看出,系统会自动列举权重比较高的5个藏文相关词并根据权重进行排序,且这些相关词具有确切的语意。用户可以从中选取检索的关键词或继续检索以满足自己的需要。

图 4 信息检索系统中藏文相关词提示的实现界面

4 结束语

藏语作为一个民族语言,其信息处理技术起步较晚,但已经有了很大的发展。鉴于藏文文体的复杂性,藏文在信息检索方面的研究与国际上还存在着一定的差距,但随着网络的发展,更多的研究人员将投入到藏文信息化的领域上来,藏文在信息检索方面将会有更进一步的发展。该文相关研究成果获得西藏自治区自然科学基金项目《西藏实施电子政务平台网络信息安全及应急预案研究》资助。

参考文献:

[1] Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010.

[2] 江获,董颖红.藏文信息处理属性统计研究[J].中文信息学报,1995,9(2):37-44.

[3] 才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272.

[4] 刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[C].中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文.北京:清华大学出版社,2006:573-580.

[5] http://tools.ietf.org/html/rfc2781

[6] 陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003,1:75-82.

[7] 东噶洛桑赤来.东噶藏学大辞典[M].北京:中国藏学出版社出版,2002.

[8] 格桑居冕,格桑央京.实用藏文文法教程[M].成都:四川民族出版社,2004.

[9] 边巴旺堆.基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现[D].拉萨:西藏大学,2009.

[10] 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定[J].计算机应用,2009,29(7):2004-2008.

[11] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599.

2.3 藏文分词

藏文词语之间是用分隔符来划分的,类似英文中的空格,横向上又和中文有一定的相似,藏文分词是进行藏文信息处理的一项基本工作,文献[6]提出了基于格助词和接续特征的藏文自动分词方案,该方案参考藏文词语的特点和汉语在分词方面已经做出的一些成绩。在本系统的设计中,藏文分词主要考虑在以下几个方面:

1) 藏文检索词本身应具有实际意义

在信息检索系统中,用户想要得到的是满足需要的实际内容,所以输入的检索词也必具有实际意义,这样的检索词在语意和构成上应该符合藏文的相关规范。对这样的检索词进行分析、建立索引应该能满足检索系统的要求。

2) 藏文词典是实现相关词提示的一个很好参考模型

在信息检索系统中,词典是进行词句分析的一个参考模型。藏文词典本身就具有良好的藏文分词功能,且能帮助用户纠正检索词输入中的文法错误,结合藏文词典和检索词,可以更好地满足藏文分词需要。

3) 藏文词语的权重是实现相关词提示排序功能的重要指标

词语的权重是实现相关词提示的一项重要指标。在信息检索的过程中,大家都关心的词可以赋予更高的权重。在藏文相关词提示系统中,依据藏文词语的权重进行排序,权重高的排在前面,以此类推。

3 藏文自动提示功能的实现及测试

3.1 藏文相关词提示的实现

在藏文相关词提示的具体实现中,限于提示词的数目,相关词的提取和排序就变得非常重要。设计合理的相关词提取和排序可以使用户得到更好的体验。

1) 藏文词典排序算法

藏文词典排序算法按照现有藏文词典的排序方法,即所有藏文词语按照藏文基字的先后顺序分组排列,每组中各个词语按第一个音节为独体字、有后缀(后加字和再后加字)、有元音、有下加字、有上加字(逐步从简单到复杂)的顺序排列,对于具有元音的词语也与前者相同,即从基字加元音、有后缀、有下加字、有上加字的顺序排列[7][8]。排序的一种实现方法是:首先,把所有的藏文词语按照基本辅音字母分类成四十一个组,并保持国际编码标准中辅音字母的先后顺序;然后,在同一个组内,根据该字所具有的构件元素及构件元素之间的优先级来排列藏文词语;其次,每一个构件元素内部的所有字符要有序;最后,整体藏文的优先级最大者先排[9][10]。根据文献[7],藏文词条大约常用的是1.4万余条,那么,怎样从这1.4万余条词语中选取数量有限的相关提示词,选取的这些提示词是否与用户搜索的信息有关联,这是藏文相关提示词设计时要考虑的。考虑到从词典抽取出的一系列相关词本身和用户输入的检索词的相关度并不是很大,所以在本系统的设计中我们只用藏文词典来进行纠错和藏文分词。

2) 基于查询日志的藏语相关词的实现方法

用户通过信息检索系统输入检索词时,检索系统会自动记录用户的查询词和点击的相关文档,记录的文件称为查询日志[11]。通过查询日志,可以清楚地分析出用户使用频率最高的藏文查询词。通过信息检索中的聚类技术[1],对查询词进行聚类,这样就可以得到相关度较高的一系列藏文相关词了。当用户输入检索词时,系统根据用户输入的检索词的相关字母,选取其中以同样字母开头的一些权重较高的词组,利用权重的大小,进行排序,最后通过检索系统用户界面,以下拉列表的方式,返回给用户一组相关提示词。其实现框图如图3所示。

图3 藏文相关词提示的实现框图

3.2 测试结果

本系统使用了940篇藏文文档,为了说明测试结果,只选择了其中的五个藏文词语用于相关词提示,词语及权重如表1所示,本系统的搜索引擎采用开源Lucene系统。通过表 1可以看出,我们选取的藏文词语的第一个字母是一样的,也就是说,本系统的藏文聚类是按照藏文的实际书写顺序,而不是其具体实际语意。

表 1 藏文在不同文档中的权重

图4 显示了输入检索词后具体的实现界面,从该界面可以看出,系统会自动列举权重比较高的5个藏文相关词并根据权重进行排序,且这些相关词具有确切的语意。用户可以从中选取检索的关键词或继续检索以满足自己的需要。

图 4 信息检索系统中藏文相关词提示的实现界面

4 结束语

藏语作为一个民族语言,其信息处理技术起步较晚,但已经有了很大的发展。鉴于藏文文体的复杂性,藏文在信息检索方面的研究与国际上还存在着一定的差距,但随着网络的发展,更多的研究人员将投入到藏文信息化的领域上来,藏文在信息检索方面将会有更进一步的发展。该文相关研究成果获得西藏自治区自然科学基金项目《西藏实施电子政务平台网络信息安全及应急预案研究》资助。

参考文献:

[1] Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010.

[2] 江获,董颖红.藏文信息处理属性统计研究[J].中文信息学报,1995,9(2):37-44.

[3] 才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272.

[4] 刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[C].中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文.北京:清华大学出版社,2006:573-580.

[5] http://tools.ietf.org/html/rfc2781

[6] 陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003,1:75-82.

[7] 东噶洛桑赤来.东噶藏学大辞典[M].北京:中国藏学出版社出版,2002.

[8] 格桑居冕,格桑央京.实用藏文文法教程[M].成都:四川民族出版社,2004.

[9] 边巴旺堆.基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现[D].拉萨:西藏大学,2009.

[10] 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定[J].计算机应用,2009,29(7):2004-2008.

[11] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599.

2.3 藏文分词

藏文词语之间是用分隔符来划分的,类似英文中的空格,横向上又和中文有一定的相似,藏文分词是进行藏文信息处理的一项基本工作,文献[6]提出了基于格助词和接续特征的藏文自动分词方案,该方案参考藏文词语的特点和汉语在分词方面已经做出的一些成绩。在本系统的设计中,藏文分词主要考虑在以下几个方面:

1) 藏文检索词本身应具有实际意义

在信息检索系统中,用户想要得到的是满足需要的实际内容,所以输入的检索词也必具有实际意义,这样的检索词在语意和构成上应该符合藏文的相关规范。对这样的检索词进行分析、建立索引应该能满足检索系统的要求。

2) 藏文词典是实现相关词提示的一个很好参考模型

在信息检索系统中,词典是进行词句分析的一个参考模型。藏文词典本身就具有良好的藏文分词功能,且能帮助用户纠正检索词输入中的文法错误,结合藏文词典和检索词,可以更好地满足藏文分词需要。

3) 藏文词语的权重是实现相关词提示排序功能的重要指标

词语的权重是实现相关词提示的一项重要指标。在信息检索的过程中,大家都关心的词可以赋予更高的权重。在藏文相关词提示系统中,依据藏文词语的权重进行排序,权重高的排在前面,以此类推。

3 藏文自动提示功能的实现及测试

3.1 藏文相关词提示的实现

在藏文相关词提示的具体实现中,限于提示词的数目,相关词的提取和排序就变得非常重要。设计合理的相关词提取和排序可以使用户得到更好的体验。

1) 藏文词典排序算法

藏文词典排序算法按照现有藏文词典的排序方法,即所有藏文词语按照藏文基字的先后顺序分组排列,每组中各个词语按第一个音节为独体字、有后缀(后加字和再后加字)、有元音、有下加字、有上加字(逐步从简单到复杂)的顺序排列,对于具有元音的词语也与前者相同,即从基字加元音、有后缀、有下加字、有上加字的顺序排列[7][8]。排序的一种实现方法是:首先,把所有的藏文词语按照基本辅音字母分类成四十一个组,并保持国际编码标准中辅音字母的先后顺序;然后,在同一个组内,根据该字所具有的构件元素及构件元素之间的优先级来排列藏文词语;其次,每一个构件元素内部的所有字符要有序;最后,整体藏文的优先级最大者先排[9][10]。根据文献[7],藏文词条大约常用的是1.4万余条,那么,怎样从这1.4万余条词语中选取数量有限的相关提示词,选取的这些提示词是否与用户搜索的信息有关联,这是藏文相关提示词设计时要考虑的。考虑到从词典抽取出的一系列相关词本身和用户输入的检索词的相关度并不是很大,所以在本系统的设计中我们只用藏文词典来进行纠错和藏文分词。

2) 基于查询日志的藏语相关词的实现方法

用户通过信息检索系统输入检索词时,检索系统会自动记录用户的查询词和点击的相关文档,记录的文件称为查询日志[11]。通过查询日志,可以清楚地分析出用户使用频率最高的藏文查询词。通过信息检索中的聚类技术[1],对查询词进行聚类,这样就可以得到相关度较高的一系列藏文相关词了。当用户输入检索词时,系统根据用户输入的检索词的相关字母,选取其中以同样字母开头的一些权重较高的词组,利用权重的大小,进行排序,最后通过检索系统用户界面,以下拉列表的方式,返回给用户一组相关提示词。其实现框图如图3所示。

图3 藏文相关词提示的实现框图

3.2 测试结果

本系统使用了940篇藏文文档,为了说明测试结果,只选择了其中的五个藏文词语用于相关词提示,词语及权重如表1所示,本系统的搜索引擎采用开源Lucene系统。通过表 1可以看出,我们选取的藏文词语的第一个字母是一样的,也就是说,本系统的藏文聚类是按照藏文的实际书写顺序,而不是其具体实际语意。

表 1 藏文在不同文档中的权重

图4 显示了输入检索词后具体的实现界面,从该界面可以看出,系统会自动列举权重比较高的5个藏文相关词并根据权重进行排序,且这些相关词具有确切的语意。用户可以从中选取检索的关键词或继续检索以满足自己的需要。

图 4 信息检索系统中藏文相关词提示的实现界面

4 结束语

藏语作为一个民族语言,其信息处理技术起步较晚,但已经有了很大的发展。鉴于藏文文体的复杂性,藏文在信息检索方面的研究与国际上还存在着一定的差距,但随着网络的发展,更多的研究人员将投入到藏文信息化的领域上来,藏文在信息检索方面将会有更进一步的发展。该文相关研究成果获得西藏自治区自然科学基金项目《西藏实施电子政务平台网络信息安全及应急预案研究》资助。

参考文献:

[1] Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010.

[2] 江获,董颖红.藏文信息处理属性统计研究[J].中文信息学报,1995,9(2):37-44.

[3] 才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272.

[4] 刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[C].中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文.北京:清华大学出版社,2006:573-580.

[5] http://tools.ietf.org/html/rfc2781

[6] 陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003,1:75-82.

[7] 东噶洛桑赤来.东噶藏学大辞典[M].北京:中国藏学出版社出版,2002.

[8] 格桑居冕,格桑央京.实用藏文文法教程[M].成都:四川民族出版社,2004.

[9] 边巴旺堆.基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现[D].拉萨:西藏大学,2009.

[10] 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定[J].计算机应用,2009,29(7):2004-2008.

[11] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599.

猜你喜欢
藏文信息检索分词
分词在英语教学中的妙用
西藏大批珍贵藏文古籍实现“云阅读”
结巴分词在词云中的应用
结巴分词在词云中的应用
黑水城和额济纳出土藏文文献简介
藏文音节字的频次统计
医学期刊编辑中文献信息检索的应用
现代语境下的藏文报刊
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施