关于中文拼音输入法键盘字母布局的探究

2010-06-05 07:07黄金文陈斌宏何泳姝陈晓伟林庆文黄晓明
中文信息学报 2010年6期
关键词:常用字右键工作量

黄金文,金 华,王 凡,陈斌宏,何泳姝,陈晓伟,林庆文,黄晓明

(华南师范大学 数学科学学院,广东 广州 510631)

键盘布局设计的研究由来已久,在最初阶段,键盘来源于打字机,而键盘键位是按照字母顺序排列的,但是如果打字过快会出现卡键问题,为了解决卡键问题, Christopher Latham Sholes发明了QWERTY键盘布局,最大限度限制敲键速度。此后由于键盘系统相关硬件的不断发展,相继出现了August Dvorak的DUORAK键盘系统和Lillian Malt的MALT键盘,两者都不同程度地提高了工作效率,但由于种种原因,都没有得到广泛应用。

现有键盘的字母布局都是根据英文字母的使用情况而设计的,这对于汉字拼音快速输入有一定的阻碍作用,而且其本身的字母布局就是不合理的。本文的主要工作是要找出现用键盘对汉字拼音输入的不合理性,根据汉字拼音输入的特殊性和人手功能,设计一个能够使拼音输入汉字科学、高效的键盘。早期周志农先生的《自然码》键盘设计使用的是双拼方案,即每个汉字声母、韵母用一个字母来表示。汉光码汉字输入法键盘布局则使用的是形码,通过字根的统计和位置的优化设计一个新的键盘布局,而藏文通用键盘布局的设计也与此类似。本文选用的是全拼方案,全拼方案侧重的是单个字母的统计数据和使用情况,其已经包含了大部分双拼方案中字母的统计数据。因此,本课题具有极其重要的研究意义和现实意义。

1 文本资料的采集与统计

本文采用对各种题材、体裁的文本资料进行随机抽样统计的方法,以选取的文本资料最大限度地接近我们日常使用的情况为标准。同时为使所选取的文本资料更加全面,本文对最近两年(2007年、2008年)的电子版文本资料中的日常报刊新闻材料、文学著作、学术论文三大类进行随机抽取,并把随机抽取部分作为此次研究的文本资料来源。

第一类,日常报刊新闻材料。本文选择政治、经济、文化、科技、娱乐、体育等与我们日常生活密切联系的材料约254.79万字,占全部文本资料的53.37%。

第二类,文学著作。本文选用各种体裁的文学作品,节选自长篇小说、中篇小说、戏剧等,以及篇幅完整的短篇小说、散文,并且以白话文为主,约181.88万字,占全部文本资料的38.10%。

第三类,学术论文。本文选用有关数理化、信息、材料、生物、医药等自然科学及文化、教育、经济、法律等人文科学的论文材料约40.75万字,占全部文本资料的8.54%。

2 文字与拼音字母的统计

2.1 字数统计

本文利用第三方软件对选取的文本资料进行统计,所得结果为:文本总字数为4 774 226个,包括5 690个不同汉字。

2.2 常用字划分标准

本文根据现有资料和研究成果,采用以下两点作为常用字的划分依据:

(1) 根据文献[5],可以利用常用字出现频率不低于10-5的先验假定,即在十万文本资料中至少有一次出现机会,此时若再增大一个数量级,即选取百万文本资料,对于本文是适度的。

(2) 《现代汉语常用字表》中常用字的个数为2 500个。

根据5 690个不同汉字的使用频数、频率的统计结果研究发现,频数排在第2 869位与排在第 2 870位汉字的使用频率相差一个数量级,分别为10-5和10-6,与上述划分依据相符,且其在文本资料中的覆盖率已达到99.29%,故可判定常用字个数为2 869,而此数据与《现代汉语常用字表》中常用字个数相近,因此判定成立。因此根据以上统计及多方面分析的结果,本文将使用频率排在前2 869的汉字划分为常用字,其余为非常用字。

2.3 拼音字母统计

本文利用第三方软件及自主开发的程序,对所选取的文本资料进行转换和拆分处理,统计得出26个字母的使用频数、频率数据如表1所示。

表1 全部字字母使用频数频率表

由于常用字各字母使用频率与全部字字母使用频率相差不大,且其使用频率的大小排序一致,故后文用到的数据以全部字字母使用频率为准。

表2 常用字字字母使用频数频率表

续表

3 有关名词的定义

定义1设某一个汉字的拼音为a1a2…ai…an,其中ai∈{a,b,c,…,z},拼音长度|a1a2…ai…an|<7,i=1,2,…,n,n∈N+,则ai在某一文本T中出现的次数称为ai在T中的使用频数,又称工作量。

定义5设某一个汉字的拼音为a1a2…ai…an,其中ai∈{a,b,c,…,z},拼音长度|a1a2…an|<7,ai在拼音a1a2…an中的排列序号为K,i=1,2,…,n,K∈N+,n∈N+,若K为奇数,则称ai出现在奇位置,若K为偶数,则称ai出现在偶位置。

4 键盘字母排布

4.1 排布原则

确定科学有效的键盘字母排布原则,对随后的字母排布方案的确定具有重要的指导意义,是键盘字母排布的关键一环。根据大量的文献资料,国内外的实验数据和实验结果,结合本文所研究的项目的实际情况,我们确立了如下排布原则:

(1) 依频率优先原则,频率高者放在键盘中易敲打区域;

(2) 根据理论和实践结果,结合文献[3]中的数据表(见表3),对于各排,根据其所能承受的的负荷量及出现频率的高低,按中排、上排、下排进行排序;

表3 各手指每分钟最多连续敲击的次数

(3) 对于各手及各个手指,根据其灵活度及所能承担的负荷和出现频率高低,按食指、中指、无名指、小指排布;

(4) 根据工程心理学实验数据,同一手指敲击键盘运动的间隔平均为0.09s,同一手的不同手指之间敲击运动的间隔平均为0.03s,不同手的手指之间敲击运动的间隔平均为0.02s,左右手交替敲击键盘的效率高于单手连续敲击键盘的效率,且此种情况手指更不易疲劳,因此要尽量使敲击动作在左右手中交替进行;

(5) 避免某一手指负荷过重。

4.2 排布过程

(1) 本文对拼音字母依据其出现频率进行排序处理,并对总文本资料获得的拼音字母的相关数据做进一步分析。由于拼音字母在奇、偶位置出现的频数是判断交替率的最主要的数据,因此本文运用程序获得各拼音字母在奇、偶位置出现的频数数据,得出表4。

表4 各拼音字母在奇偶位置出现频数表

(2) 对拼音字母按其使用频率的大小先排中排,同排中先排右键区,再排左键区,对于局部键位,依据前文所述排布原则进行最优化处理;

(3) 上排和下排的排布也遵循过程(2);

(4) 由表4知,26个拼音字母中,16个只出现在奇位置,1个只出现在偶位置,9个在奇偶位置都有出现,因此为了提高左右手的交替率,本文把出现在偶位置上的拼音字母尽可能排在同一键区,考虑到右键区可排布的键位数少于左键区,因此把有出现在偶位置上的拼音字母根据实际情况排在右键区,即在(3)排布的基础上作微调;

微调后的最终键盘字母排布结果如下:

图1 最终键盘字母排布图

5 键盘的测试

本文重新设计键盘字母排布的目的,就是为提高拼音输入法输入汉字的效率,而汉字输入的效率在排除输入法后,最主要的就是敲击键盘的效率,而敲击键盘的效率又主要体现在手指负荷和敲击键盘速度的合理性、科学性上。提高敲击键盘的效率核心在于键盘的工作量,其次是交替率等指标。而工作量中又以动态工作量这一指标最为重要。因此,本文以工作量和交替率来比较新旧键盘在使用拼音输入法情况下输入汉字效率的高低。

5.1 新键盘的相关数据

(1) 由于在能够承受的负荷上:右手>左手

理论上右键区的工作量应大于左键区,但实际是右键区可排布拼音字母的键位数为11个,左键区为15个,而根据图1的排布用程序计算出的左右键区静态工作量由表5、表6表示。

表5 左右键区静态工作量

表6 左右键区动态工作量

因此,在工作量上左键区大于右键区是合理的,但不宜超过太多;

(2) 用程序计算出中排上排下排的静态和动态工作量,详见表7、表8。

表7 各排静态工作量表

表8 各排动态工作量表

因此,在工作量上:中排>上排>下排是合理的;

(3) 由于各手指工作量的大小直接关系到我们敲击键盘的效率,为此,本文利用程序计算出了八个手指的静态工作量和动态工作量,得出表9和表10,同时可见图2和图3。

(4) 左右手都放宽条件下总共符合左右手交替进行的汉字有4 258个,其交替率为:0.748 33。

表9 八个手指的静态工作量

图2 各手指静态工作量对比图

表10 八个手指的动态工作量

图3 各手指动态工作量对比图

5.2 旧键盘的相关数据

(1) 本文利用程序计算出旧拼音字母排布键盘的静态动态工作量,见表11和12,同时可见图4和图5。

表11 旧键盘排布静态工作量

图4 旧键盘排布静态工作量对比图

表12 旧键盘排布的动态工作量

图5 旧键盘排布的动态工作量对比图

(2) 左右手都放宽条件下总共符合左右手交替进行的汉字有4 261个,其交替率为:0.748 858;

(3) 旧键盘的不合理性

旧键盘动态工作量中,其不合理之处表现为:

① 右手负责的键位数为11个,左手负责的键位数为15个,右键区总工作量为7 969 143,远大于左键区的6 407 230;

② 右键区右手工作量为4 791 085,左手工作量为1 656 131,两者之比为2.89,比值过大;

③ 右键区小指工作量为54 662,与相同键区的无名指工作量之比为1∶19.55,与左键区小指工作量之比为1∶38.36,比值过于悬殊;

④ 左键区小指工作量为2 097 153,大于所在键区其它任一手指的工作量;

⑤ 左键区中指工作量为1 792 673,大于食指工作量1 656 131。

旧键盘的静态工作量中,其不合理之处与动态工作量中的①,②,③,④相同。

5.3 新旧键盘的比较

(1) 右键区中,食指中指无名指小指负责的键位数分别是6,2,2,1,因此它们理论上的最大工作量比值为:

max(食指∶中指)=3∶1

max(无名指∶中指)=1∶1

max(无名指∶小指)=2∶1

左键区中,食指中指无名指小指负责的键位数分别是6,3,3,3,因此它们理论上的最大工作量比值为:

max(食指∶中指)=2∶1

max(无名指∶中指)=1∶1

max(小指∶无名指)=1∶1

从上述分析及前文数据可知,新键盘符合上述条件,而旧键盘则不完全符合。

(2) 由于食指所能承受的负荷大于中指的负荷,则对于总工作量来说,食指大于中指是合理的,但我们以上计算的只是各手指的显式工作量,并未计算手指在各键位之间频繁移动所产生的隐式工作量,而食指由于移动范围大,其隐式工作量是大于其余各手指的隐式工作量的,因此,右手食指与中指的最大显式工作量之比max(食指∶中指)应远小于3∶1,同样,无名指与小指最大显式工作量之比max(无名指∶小指)也应小于2∶1,而中指所能承受的的负荷大于无名指的负荷,则中指与无名指最大显式工作量之比max(中指∶无名指)应大于1∶1。

对于左手,食指与中指最大显式工作量之比也应小于2∶1,其余手指之间最大显式工作量之比约为1∶1即为合理。

从上述分析及前文数据可知,新键盘符合性较旧键盘好。

(3) 根据前文数据,得出新旧键盘工作量对比图,见图6和图7。

图6 新旧键盘静态工作量对比图

图7 新旧键盘动态工作量对比图

从上述图表分析可知,旧键盘各手指间的工作量与实际负荷偏差过大,而新键盘工作量与各手指实际负荷的符合性则相对较好。

(4) 虽然新键盘左右手都放宽条件下的交替率为:0.748 33,并未高于旧键盘的0.748 858,但旧键盘的字母排布具有随机性,而这种随机性使得字母在键盘上的分布更均匀,反而可能会使交替率更高。即便如此,新键盘左右手都放宽条件下的交替率已经达到比较高的水平了。

5.4 测试结论

从相关数据及图表分析得知,现用键盘在静态和动态工作量方面都未能很好的符合各个手指的实际可承受负荷量,左右键区和一部分手指工作量之间的比值过大,而新键盘布局依食指、中指、无名指、小指呈线性递减关系,较好地符合各手指实际可承受负荷量,并且左右手放宽条件下的交替率为0.748 33,已经达到较高水平。

综合以上数据,我们可以确定新的键盘字母排布比旧的键盘字母排布在使用拼音输入法输入汉字方面更为合理。

[1] 卢亚军.藏文计算机通用键盘布局与输入法研究[J].中文信息学报,2006, 20(2):78-86.

[2] 杨道沅,董小国,董红,陈丹.《自然码》双拼键盘设计合理的研究[J].中文信息学报,1994, 8(1):1-14.

[3] 张泽全.汉光码汉字输入法的键盘分布研究[J].河南师范大学学报(自然科学版),2001. 29(3):83-87.

[4] 汤步洲,王晓龙,王轩,张强.语句级汉字拼音输入技术评估方法的研究[J].中文信息学报,2008, 22(5):52-55.

[5] 北京语言学院教学研究所.现代汉语频率词典[M].北京.北京语言学院出版社,1986.6.

[6] 国家语言文字工作委员会汉字处.现代汉语常用字表[M].北京. 语文出版社,1988.1.

[7] 杨道沅,李棣.汉字输入键盘设计方法的研究——兼论标准汉字双拼键盘的设计[J].中文信息学报,1997, 11(3):1-12.

[8] 王永民.计算机汉字键盘设计“三原理”——论计算机中文键盘的设计,计算机学报,2005, 28(5):870-881.

猜你喜欢
常用字右键工作量
嵌入式系统软件工作量多源线性估算方法仿真
轻松整理Win10右键菜单
关于常用字覆盖率统计算法的研究
自定义“开始”右键控制菜单
用右键菜单管理右键菜单
思科发布云计算市场发展报告
给Windows 10右键菜单做“手术”
谈常用字词的选取及其等级划分
网上互动教学工作量管理的困境及对策
常用字辨正——“己-巳-已”