仁青东主++安见才让
摘要:随着科技的发展,各类电子产品的日益增多,藏文文字的使用量也日益得到扩大,藏文输入法、藏文各类电子词典等软件的问世,这就迫使藏文文字需要结构化、数字化、规范化,做这些工作要了解藏文字母的信息熵。本人用扩大容量的方法统计了藏文字母的信息熵,并用zipf定律进行了理论上的说明。
【关键词】信息熵 藏文信息处理 藏文字母zipf
信息熵的一个重要应用领域就是自然语言处理。熵是反映语言的数学面貌的一个重要的信息论参数,信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。本人把藏文字母分为30个字母与4个元音共计34个字符,用扩大容量的方法统计了藏文字母的信息熵。
1 扩大藏字容量的方法计算藏文字母信息熵
如果随机试验有n个结局,而这些结局是不等概率的。设第r个结局的概率为Pr,那么,这个随机试验结局的熵H用下述公式计算:
在公式(1)中,因对数以2为底,故熵的单位是比特。且H>O。在相当长的文句中,藏文字母出现概率n近似地等于它的出现频率。例如,在文句的总次为28427个字次时,“?”字出现的次数为2691次,那么,“?”率为pr=2691/28427=0.0947。我们把藏字出现的总次数称为文句长度,用N表示,在文句出现了不同的藏字称为藏字容量,用n表示。根据公式(1)计算出在不同文句长度、不同藏字容量时,34个藏文字母在不计空格与结束符时的熵如表1。
从表1我们可以看出,随着藏字容量n的扩大,熵值H相应增大,而当藏字容量n继续扩大2644时,熵值H的增加就变得比较迟缓了。
下面,我们画出藏语文句中包含一个藏文字母中的熵H随着藏字容量n的增加而变化的图像。横坐标表示藏字容量n,纵坐标表示包含在一个藏文字母中的熵H,如图1所示。
随着藏字容量的扩大,文句中常用藏文字母的出现概率逐渐趋于稳定,不会有明显的增大。例如,常用藏文字母“?”在不同的藏字容量中由公式pr=fr/N计算出的出现概率如表2。
从表2中可看出,当藏字容量较小时,随着藏字容量由1244扩大到4813,“?”字出现概率由0.0844增加到0.1035,在区间(O,0.1035)内,-prlog2Pr随着pr的增加而增加。
我们可以借助于数理语言学中著名的Zipf定律来求出藏字容量达到某个值时,使熵值稳定的藏字容量n。把文句中的字母出现概率递减的顺序排列起来,并且顺次从1到L编上号码,造出这个文句的字母表。如表3所示。
随着字母表中编号数目r的增大,相应的字母在文句中出现概率pr逐渐减小,r由1增大到L,pr就由Pl减小到PT。
pr与r之间的关系,可用公式
pr=k/r
(2)
式中,r表示词在此表中的号码, pr表示号码为r的词的出现概率,由实验测出,k=0.11824。藏文字母出现概率情况如表4。
在根据公式(1)求熵时,各个字母的出现概率 pr应该满足条件∑n=l pr=1,把Zipf定
2 总结
本人使用扩大藏字容量的办法计算了30个藏文字母与4个元音的信息熵,得出了当藏字容量达到2644时,包含在一个藏文字母中的熵为4.437615。并且从理论上证明了,如果再进一步扩大藏字容量,这个熵值不会再增加。通过这个结论,进一步求出藏文字符的音节熵及藏文字符的冗余度,这些数据更能反映藏字的一些固有的属性,对藏文字符研究工作者有更好的参考价值。
(导师:安见才让)
参考文献
[1]冯志伟.语言与数学,世界图书出版公司北京公司,2011.
[2]冯志伟,齐普夫定律的来龙去脉[J].情报科学,1983 (02).
[3]昌台·降洛.藏文文法汇编[M].四川民族出版社,2010.
[4]高定国,藏丈信息处理的原理與应用[M].西安交通大学出版社,2014.[5]完么扎西,尼玛扎西,藏文信息熵与输入法键盘设计[J].北京大学学报(自然科学版),2016.endprint