摘 要:首先,本文对记忆量予以定义。在此基础上,本文通过初步的计算说明,与任意码相比,矢量码能够有效改善自身的學习性能。
关键词:任意码 记忆量 矢量码
中图分类号:G434 文献标识码:A 文章编号:1003-9082(2018)02-0-02
学习性能是汉字及其编码一项极其重要的性能。在汉字输入方面,有的编码看似简单,仅仅是因为学习难而无法推广。
例如,我们曾经用过的汉字电报码,是中国最早的汉字编码,每个电报码只有四位数,信息量却是充足的,能够一一对应出所需的汉字。
假如有人能够把电报码记熟,用于计算机,无需动用26个字母键,每个手指只需分管一个数字键,不看键盘,不看屏幕,双手盲打,就可顺利地输入汉字。实际上,由于输在学习性能上,汉字电报码根本无法推广。
经验告诉人们,在制定汉字编码的过程中,编码的学习性能是重于片面的简短性的,必须顾及到,只有记得熟,才能打得快。
本文主要分两部分,第一部分,任意码与记忆量的定义。第二部分,矢量码改善学习性能的原理。
一、任意码
任意码是一种部件没含义的编码,优点是组成简短,缺点是学习难。
本文之所以把这种编码称之为任意码,原因是,由于部件没含义,因而一个标的物对应哪个编码,就不受标的物特性的约束,是可以任意规定的,如抓阄式的任意规定。
——这里所说的标的物,既可以是汉字,也可以是事物。如电报码的标的物就是汉字,如果把形声字作为编码,其标的物就是事物。
1.记忆量的定义
记忆量有两种性质。(1)记忆量是某标的物对应某编码概率的单调递减函数。换言之:某标的物对应某编码的概率小,则该编码的记忆量大。反之,某标的物对应某编码的概率大,则该编码的记忆量小。(2)记忆量有可加性。
本文根据记忆量的两种性质,参照《基础信息论》[1] 一书所用的方法,把记忆量定义为
记忆量 = -log2p
式中,p是某标的物对应某编码的概率。
这里的记忆量只是某个标的物对应某个编码的记忆量,需要两个前提:即不考察对应关系,标的物是学习者已知的,也能写出所有的编码。
例如,不考察对应关系,学习者既能写出所需的汉字,也能写出所有四位数的电报码。
一点说明
在《基础信息论》一书中,作者根据信息量的两种性质,把信息量定义为
信息量 = -log2p
式中,p是消息所示事件出现的概率。
信息量的两种性质是,(1)信息量是事件出现概率的单调递减函数。(2)信息量有可加性。 [1] (日 藤田広一,1982年 ,页6—11)
2.任意码记忆量的算例
设某花店有一批盆花,分四种花色,又分四种盆型,共16种互不相同的盆花。此时可以有两种编码可供选择,一种是任意码,一种是矢量码。以下是这批盆花任意码记忆量的计算。
16种互不相同的盆花,需要16个互不相同的任意码。若用二进制,每个编码需要四位数,即0000 0001 …… 直至1111,共16个编码。
当学习者学习第一种盆花编码的时候,编码表内共有16个编码可供选择。由于盆花与编码的对应是任意规定的,所以16个编码中的任一编码都有相同的概率,即1/16的概率,是第一种盆花对应的编码。
设第一种盆花编码的记忆量为m1,根据记忆量的定义,于是有
m1 =- log2 ( 1/16) = log2 16(比特)
当学会了第一种盆花编码之后,该编码应该从选择范围内剔除。因此,在学习第二种盆花编码的时候,编码表内只剩下15个编码可供选择。设第二种盆花编码的记忆量为m2、于是m2减为
m2 = log2 15(比特)
依此类推。
设16种盆花任意码的平均记忆量为m,根据对数运算法则,有
m=( m1+m2+……+m16 )/16
=( log2 16+log2 15+……+log2 1 )/16
= log2( 16×15×……×1 ) /16
= log2( 16﹗) /16
= 2.77(比特)
能够看出,当记忆第一种盆花编码的时候,选择范围最大,记忆量也最大。当记忆最后一种盆花编码的时候,选择范围为一,记忆量为零。这一规律与人们记忆过程中先难后易的经验是吻合的。
我们把这种在一个编码表的范围内,既认识标的物,又能写出所有的编码,仅仅是记忆一个标的物对应哪个编码的记忆量,称之为编码表内的记忆量。
值得强调的是,记住一个编码所需时间,不仅与该编码的记忆量有关,而且还与其它因素有关。至少,改善记忆技巧,调动大脑的更多部位参与记忆,也会明显地加快记忆速度。
记忆量的意义在于,在可比因素相同的条件下(例如,同为十进制的编码,或同为二进制的编码,而且记忆者利用同样的记忆技巧),记住一个编码所需的时间,与该编码的记忆量大致是成正比的。
二、矢量码
英国学者W.R.艾什比写过一本书,中文译名为《控制论导论》[2](英 W.Ross.Asbby,中文版1965年出版),是一本利用初等数学讲解控制论的书,给了笔者许多宝贵的启迪。书中介绍了一种矢量,至少由两个分量的值组成,分别记录了同一事物至少两个方面的特性。各个分量的取值可以是数字(或数字加量词),更多的是文字。
简单的矢量,如灯泡的规格,由两个分量的值组成,如220V,60W。
复杂的矢量可以有多个分量,以班组的员工登记表为例,姓名分量,取值范围为成千上万个可能的姓名。年龄分量,取值范围为数十个两位数的数字。性别分量,取值范围只有男、女两个值。根据需要,还可以有籍贯,学历,工种,特长等多个分量。
本文所说的矢量码也是一种矢量,这种矢量至少由两个分量的值组成,分别记录了同一标的物至少两個方面的特性。
矢量码中每个分量的取值范围至少有两个值,本文把这些值称之为部件。每个部件都有含义,这些含义就是标的物的特性(包括标的物的名称)。因而本文所说的矢量码,还可以说成是部件有含义的编码。
1.矢量码的组成
仍以二进制的盆花编码为例,这批盆花的矢量码可由两个分量组成。
其中,花色分量的取值范围为四个花色部件 00 01 10 11 ,并规定, 00 的含义是红色花,01 的含义是黄色花等。盆型分量的取值范围为四个盆型部件 00 01 10 11 ,并规定,00 的含义是圆口盆,01 的含义是方口盆等。
然后规定两个分量的排序,如花色部件在先,盆型部件在后,二者并在一起,就可以形成0000 0001 …… 直至1111,共16个四位数的矢量码。
2.矢量码改善学习性能的原理
由于矢量码是一种利用有含义的部件,记录了标的物特性的编码,因而每个标的物对应哪个编码,都是由标的物的特性确定的。在已知部件含义的基础上,如果把标的物的特性作为知识 A,把该标的物对应哪个编码作为知识 B,那么 A 与 B 之间有着一举二得的记忆关系。
换一种简单的说法就是,学习者借助已有的,关于标的物的特性知识,能够把大量的,复杂编码的记忆,变成少量的,简单部件的记忆。
——为了使问题得以简化,这里还假设盆花矢量码所用的八个部件都是任意码,即八个部件各自对应的含义都是任意规定的。
参照16种盆花任意码记忆量的计算方法,四个花色部件的记忆量之和为
log2 ( 4﹗) = 4.58(比特)
同理,四个盆型部件的记忆量之和也为4.58比特。由于四个花色部件与四个盆型部件能够组成16个矢量码,平均每个矢量码的记忆量为
(4.58+4.58)/ 16 = 0.57(比特)
矢量码的记忆量少,比任意码容易学习,所用的学习时间也少,这是可以用试验进行验证的。
利用“和与积”做比喻
我们知道,当两个数足够大的时候(例如,各为数十,或数百的时候),两个数的和与积之间,数量可以有十几倍,上百倍的差别。
两个分量部件数的和,数量少,而且部件都是小编码,因而是容易学习的。两个分量部件数的积,数量多——预示着矢量码的数量多,因而有能力区分更多的标的物。
3.文字中的矢量码
矢量码是人类为了适应自己的记忆特性而发明的编码,矢量码是本文赋予的新称谓,但其应用历史却非常古老,早已在各种文字中层层叠叠地大量使用了。而且,文字系统中有些矢量码,及其分量还拥有自己的专用名称。
例如,较小的矢量码有形声字,其分量是形旁和声旁。大些的矢量码有偏正式合成词,偏正式词组,偏正式会意字(如“尘”),其分量是偏和正。更大的矢量码是句子,其分量是主语、谓语、宾语等。
另外,汉语拼音或注音字母的音节也是矢量码,其分量既可以分为声母,韵母,也可以分为声母、介母、韵母。
三、矢量码的缺点
在一种文字,或一种编码自身的各项性能之间,往往有此消彼长的置换关系。矢量码有容易学习的优点,但是矢量码又有一个很大的缺点,那就是矢量码会变得冗长,经济性能会变得很差。
1.矢量码的冗长效应
矢量码之所以变得冗长,其主要原因是,矢量码专顾了标的物的特性,却不能兼顾高频简化的原则。
在实际编码的过程中,极端的情况是,往往有大量的矢量码会因为没有相应特性的标的物而被浪费了,而其余的编码为了避免同码不得不变得更冗长,我们把这一现象称之为矢量码的冗长效应。
矢量码冗长效应的后果是,用于计算机,必然降低输入速度。如果矢量码是文字,用于书写,必然降低书写速度,用于印刷,则必然占用更多篇幅和纸张,这些都可归结为经济性能变差了。
2.四角号码与电报码的对比
矢量码的冗长效应可以在字典用的四角号码,和汉字电报码的对比中反映出来。四角号码与电报码一样,都是由阿拉伯数字构成的编码,它们的标的物都是汉字。不同的是,四角号码是矢量码,而电报码是任意码。
四角号码中的数字是有含义的,所以每个编码都是由汉字四个角的笔形所确定的。尽管四角号码字典已经用了五位码(加了一位小注码),仍然有大量的汉字重码。
而电报码中的数字是没有含义的,每个汉字对应哪个编码,可以不受汉字笔画的限制,是可以任意规定的,可以不浪费任何一个四位码。因而在通用汉字范围内,仅需四位码,就能一一对应出所需的汉字。
结语
任意码是一种部件没含义的编码,优点是组成简短,缺点是学习难。
矢量码是人类为了适应自己的记忆特性而发明的编码,在借用已有知识的基础上,矢量码能够显著地减少记忆量,是一种非常容易学习的编码。
参考文献
[1](日)藤田広一 .基础信息论[M].魏鸿骏等译.北京:国防工业出版社,1982.
[2](英)W.Ross.Asbby.控制论导论[M].张理京译.北京:科学出版社,1965.
作者简介:高其海(1946-),男,山东青岛人,所学专业:工业企业电气化自动化专业。