键盘汉字输入法国家标准现状及对策研究

2015-03-25 13:03许烨婧武利红周文迪
河南科技 2015年9期
关键词:码长易学输入法

刘 永 许烨婧 武利红 周文迪

(1.郑州航空工业管理学院;河南 郑州 450015;2.河南省信息智能处理工程技术研究中心;河南 郑州 450015;3.郑州大学;河南 郑州 450015)

1 键盘汉字输入法国家标准现状

1.1 汉字输入法

汉字输入法主要有自然输入法和键盘输入法。自然输入法是指手写、听、听写、读听写等方式。目前主要是使用手写笔、语音识别、手写加语音识别、手写语音识别加OCR 扫描阅读器等。键盘汉字输入方案是运用标准(QWERTY)键盘录入汉字的各种方法。

1.2 键盘汉字输入法国家标准

对键盘汉字输入法的规范,我国在1980年至2003年先后颁布4个国家标准。

①1980年我国颁布了第一个汉字编码字符集标准,即GB 2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6 763个汉字及常用符号,奠定了中文信息处理的基础,并应用至今[1]。

②1993年国际标准化组织发布了ISO/IEC 10646-1-1993《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,相当于是对GB 2312-80标准中的字集进行扩充[2]。

③信息产业部和原国家质量技术监督局于2000年联合发布了GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》和GB/T 1803l-2000《信息技术数字键盘汉字输入通用要求》,这两个标准是科学实用的评测标准,规定了输入法必须达到的性能指标,对如何规范输入法起到重要的指导作用。目前,GB18030有两个版本:GB18030-2000 和GB18030-2005。GB18030-2000是全文强制性标准,市场上销售的产品必须符合,但它仅规定了常用非汉字符号和27 533个汉字(包括部首、部件等)的编码。2005年发布的GB18030-2005 在GB18030-2000 的基础上增加了42 711个汉字和我国多种少数民族文字的编码。GB18030-2005的主要特点是在GB18030-2000 基础上增加了CJK 统一汉字扩充B 的汉字。GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。

④2003年信息产业部又颁发GB/T 19246-2003《信息技术通用键盘汉字输入通用要求》,对原有标准进行完善和丰富。

1.3 键盘汉字输入国家标准规范内容

在上述四个标准中,GB2312-80、GB13000.1-1993和GB18030-2005应该说是对基本汉字的范围进行规范,在对输入法的规范性和评测方面GB18031-2000 和GB/T 19246-2003 起着重要作用,如对输入法的系统评测可以从易学性、汉字输入平均码长和重码字词键选率三个方面进行评测。GB18031-2000 和GB/T 19246-2003 对输入法的规范作用表现在以下几个方面:

1.3.1 对平均码长和重码字词键选率的界定

GB18031-2000和GB/T 19246-2003都认为平均码长(average code length)为“在输入给定的测试样本时,测得的输入每个汉字的平均击键次数”。平均码长=输入测试样本的击键次数/测试样本总字数(键/字)(其中,上式中的“击键次数”包含编码输入、选字输入及其他辅助操作的所有击键操作)。认为重码字词键选率(coincident code key selecting rate of Chinese character and word)指“在输入给定测试样本过程中,通过重码选择键确认的汉字字数与测试样本总字数的百分比。重码字词键选率=(重码选择键确认的字数/测试样本总字数)X100%(其中,采用轮换单个显示重码字、词人工确认输入的汉字计入“重码选择键确认的字数”)。

1.3.2 对易学性的界定

GB18031-2000认为易学性指“学会使用汉字数字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯,做到上手能用”。GB/T 19246-2003认为易学性主要指“学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯”。

1.3.3 对汉字输入平均码长的规范

GB18031-2000 认为“逐字字段输入平均码长应小于6 键/字。字、词混合输入平均码长应小于4 键/字”。GB/T 19246-2003 认为“通用键盘汉字输入系统采用汉语拼音(双拼除外)或以笔画为主的简易编码方式输入现代汉语常见文本时,平均码长应小于3.2 键/字。通用键盘汉字输入系统采用汉语双拼、部件编码或以部件为主的编码方式输入现代汉语常见文本时,平均码长应小于2.2键/字”。

1.3.4 对重码字词键选率的规范

GB18031-2000认为“逐字字段笔画码输入重码字键选率应小于8%,字、词混合笔画码输入重码字词键选率应小于10%;逐字字段部件码输入重码字键选率应小于8%,字、词混合部件码输入重码字词键选率应小于10%;逐字字段拼音输入10 键位重码字键选率应小于13%,8键位重码字段选率应小于15%;字、词混合拼音输入10键位重码字键选率应小于12%,8键位重码字段选率应小于14%”。

GB/T 19246-2003 认为“通用键盘汉字输入系统采用汉语拼音(全拼、双拼)或以笔画为主的简易编码方式输入现代汉语常见文本时,重码字、词键选率应小于6%。通用键盘汉字输入系统采用以部件为主的形码、音形码等方式输入现代汉语常见文本时,重码字、词键选率应小于1.5%。”

2 现有键盘汉字输入法国家标准存在问题

从上文可以看出,虽然GB2312-80、GB13000.1-1993和GB18030-2005应该说是对基本汉字的范围进行规范,在对输入法的规范性和评测方面GB18031-2000 和GB/T 19246-2003 起着重要作用,如对输入法的系统评测可以从易学性,汉字输入平均码长和重码字词键选率三个方面进行评测。但是在执行这些标准和规范时仍存在一定问题,缺乏通用的输入法评价体系,汉字编码设计人员缺乏程序化的指导,对汉字进行编码的主观成分居多,具体可阐述如下:

2.1 易学性界定模糊

GB/T 18031 中对易学性的第一个要求是“学会使用汉字编码输入系统的时间应尽量短”,这是一个很模糊的说法。学习的对象不同,测试结果也不一样,学习者的年龄、文化水平、地域不一样,结果也将不同。所以对易学性的第一个要求判定性不强,感性成分较多。

2.2 未定义量化标准的评测条件

原有规范对平均码长和重码字是量化评价,但没有对量化标准的评测条件做出定义,如字库的大小、类型,导致各输入法在评测时并不规范。虽然2009年出台的GF0013现代常用独体字规范对不能拆分字作补充,但很多细节仍需完善。

2.3 文字拆分时应保留本身含义

原有输入法评测标准与规则没有考虑文字在形码拆分时要保留文字本身含义,才导致很多输入法在拆分时各自为政的局面,如不加以规范,我国的文字财富的传承与发展将会受到影响。

因此,亟需完善旧标准和增加新标准。从而指导编码设计人员设计符合用户需求、符合国家需求的优秀输入法,为输入法系统设计人员提供标准和依据,促进输入法市场的健康发展。

3 对策与建议

3.1 进行理论和方法研究

在我国输入法标准的发展中,各个标准都为其时代需求发挥了应有的作用,为汉字输入法的逐步标准和规范起到了重要作用,因此,在课题组的研究中,一方面要分析各个标准的时代特点和贡献,另一方面,要结合当代汉字输入的发展需求,拟定新的评测标准与规则。

通过对输入法发展历史上有影响的几种输入法如微软拼音输入法、搜狗拼音输入法、QQ 拼音输入法等的分析与测试,分析原有国家标准中的部分性能指标存在的不合理和不完善之处,寻求更为合理的输入法评价指标,为修订现行国家标准和增加新的国家标准提供依据。

3.2 对易学性的评价标准加以量化

由于GB/T 18031 对易学性的要求是学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯,“做到上手能用”。没有一个量化的评价指标,使得在具体执行过程中,形同虚设。因此,在本项目的研究中,要对该标准的评价指标量化,制定出一个可操作的指标,让其在具体的评价中发挥应有的作用。

首先,对如何抽样得到被测试的人群进行选择,比如,对被测人群的年龄、文化程度、地域分布、性别比例等做出具体规定;其次,被测人员的学习时间和达到的水平做出具体规定,比如,应该经过多少时间的学习,利用给定测试样本对被测人员进行测试达到何种输入速度或正确率其易学性达到国家标准;再次,对测试文本给出具体说明,比如,是随机抽取GB2312/GBK/GB18030 中的多少汉字进行测试,还是随机从网上抽取何种类型和大小的文本进行测试。

3.3 确立GB/ T 18031、GB/ T 19246的评价环境

由于GB/T 18031在对输入法评价的三个标准:易学性、汉字输入平均码长和重码字词键选率方面,对汉字输入平均码长和重码字词键选率是两个量化的指标,但是如何测试这两个指标,在怎样的测试条件下进行测试,GBl803l中并未说明。

由于测试文本不同平均码长也会不同,如测试文章类型不一样,测试结果也会不一样。输入法研究人员在测试自己输入法的平均码长时,无据可依。因此,国家标准应该对测试文本的类型、大小具体说明,建立如字库的大小、类型,字频、词频、分级词库、专业词库等国家标准。

3.4 具体规定输入法性能指标测试的方式

对输入法的性能指标方面,有关性能指标测试的方式应该具体加以规定。例如,首先,对测试各性能指标所采用的字库、词库大小明确规定,不同的字库、词库不同的性能指标;其次,对测试样本,包括测试样本的来源、类型、大小做出具体的规定;再次,对输入系统采用的输入方式做出明确的规定。

3.5 建立输入法功能的国家标准

明确输入法中应具备哪些基本功能、可选哪些功能、标点符号的输入方式、字母、数字的输入方法的规范和标准等。

3.6 建立规范的文字拆分标准

目前输入法发展的趋势是:简单易学变得越来越重要。为了达到易学,各形码输入法拆分汉字的方式不一,但有些拆分,明显失去汉字本身意义,与中小学基础教育中汉字规律相违背,不仅造成要重新学习输入法的高成本,更重要的是,在中国文化传播的过程中,会使我们变得更“忘本”。因此,研究和建立规范的文字拆分标准势在必行。

[1]道客巴巴.信息交换用汉字编码字符集基本集(EB/OL).http://www.doc88.com/p-6324178319021.html,2015.

[2]道客巴巴.信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面(EB/OL).http://www.doc88.com/p-7048386049440.html,2015.

猜你喜欢
码长易学输入法
基于信息矩阵估计的极化码参数盲识别算法
要命的输入法
双路连续变量量子密钥分发协议的有限码长效应分析*
清初学者对“图书易学”的再认识
找回微软拼音输入法设置
输入法顺序听我使唤
环Fq[v]/上循环码的迹码与子环子码
近二十年来朱熹易学思想研究述评
百度被诉侵犯商标权和不正当竞争
简单易学的口水巾