从指尖上的舞蹈到脑电波的飞扬

2015-08-18 05:31刘宗凡
中国信息技术教育 2015年13期
关键词:输入法键盘语音

刘宗凡

编者按:如果时光倒流到二十年前,五笔字型和WPS就代表了计算机。在当时网络还不普及的时代,能在计算机上打出一串串文字,就代表了你是一个计算机高手。现在我们整天在键盘上敲敲打打,把心里的想法变成文字。可是我们可能没有想过,为什么敲击键盘可以输入文字呢?除了键盘,有没有其他办法输入文字呢?甚至意识是不是能控制计算机呢?在此,主持人和嘉宾将分两期对这一问题进行深入探讨。

● 遥远的穿孔纸带

也许我们觉得计算机配置一个键盘,是天经地义的事。但实际上,计算机在上世纪80年代中期,还普遍是用穿孔纸带或穿孔卡片来向计算机输入信息的。如果我们追溯到更古老的计算机,如第一台计算机ENIAC,要让它进行一项计算,只能重新连接线路!图1为穿孔纸带。

为什么要用这么奇怪的纸带来输入信息?我们首先要了解计算机的工作原理。我们使用的计算机千姿百态,除了常用的微机,还有小型机、大型机、巨型机、嵌入式计算机以及各种智能设备,如手机、平板等,但无一例外都是使用存储程序思想进行工作,我们称之为冯·诺依曼体系计算机。冯·诺依曼体系计算机的一个重要特点是使用二进制进行设计。呈现在我们面前丰富多彩的多媒体信息,如动听的音乐、优美的动画、漂亮的图片、绚丽的视频……在计算机内部都是冷冰冰的“0”和“1”。一个“0”或“1”我们称之为一位(bit,比特),8位组合在一起称为一个字节(Byte)。字节是计算机存储的基本单位。

既然计算机内部是用二进制表示,那么要计算机理解我们的思维,自然使用二进制是最直接的方式。打孔纸带一行有8个位置可以打孔,如果某个位置打孔,代表这是一个“1”,否则代表这是一个“0”。一行8个位置,刚好组成一个字节。计算机通过纸带阅读机(纸带输入机)来识别信息,从而输入计算机。

当然,要在纸带上打孔,是一件非常麻烦的事情。打孔时用一个特制的钢夹子把纸带夹住,夹子上有八个孔。根据预先约定的位置,用一个钢顶针在给定的孔位把计算机一条指令在纸带上钻成几个孔。一个程序少说也有几百上千条指令,穿在纸带上后纸带足有好几米长,没有个三五天是穿不完的。所以这个时期,计算机只是少数科研机构及少数计算机专家才能使用,和普通老百姓几乎没有什么联系。

● 熟悉的键盘

键盘的发明,是要远远早于现代计算机的。1714年,英、美、法、意等国家发明了各种形式的打字机,最早的键盘就是那个时候开始应用在打字机上。1868年,克里斯多福·萧尔斯设计了现在使用的键盘,即使用QWERTY键盘布局,一直使用至今。

上世纪80年代初,IBM在XT/AT计算机推出M型键盘,是现代键盘史上的巅峰之作。随后计算机上使用键盘输入信息越来越普及,穿孔纸带走入博物馆。

键盘由一组开关矩阵组成,包括数字键、字母键、符号键、功能键及控制键等。每一个按键在计算机中都有它的唯一代码。最初的键盘为84键,后来出现了101键的键盘。在Windows 95出现以后,104键的键盘又出现了,它和101键的键盘相比,多了几个快捷键,用来快速调用Windows 95里的菜单。微软的Windows 98流行后,市场上又出现了一种108键的“Windows 98”键盘,区别是多了Windows 98的功能键:Power、Sleep和Wake Up。之后的键盘键数就越来越多了,主要提供一些多媒体的功能,如CD播放、互联网应用等。

当按下某个键时,键盘接口将该键的二进制代码送入计算机主机中,并将按键字符显示在显示器上。当快速大量输入字符,主机来不及处理时,先将这些字符的代码送往内存的键盘缓冲区,然后再从该缓冲区中取出进行分析处理。键盘接口电路多采用单片微处理器,由它控制整个键盘的工作,如接上电时对键盘的自检、键盘扫描、按键代码的产生、发送及与主机的通讯等。

● 汉字的输入与显示

英文输入和打字机基本一致,每个键对应唯一的二进制码,基本上不用经过什么处理,非常简单。但汉字常用的就有好几千个,《中华字海》收录的汉字更是超过八万个。这么庞大的字库,用一一对应的键盘是无法想象的。汉字从输入到输出这一过程,要经过一系列复杂的编码—汉字的输入:输入码→交换码(国标码);汉字的机内表示:机内码;汉字的输出:字形码。图2为汉字编码的关系。

1.输入码

区位码:区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。在区位码中,01-09区为特殊字符,10-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列),在区位码汉字输入方法中,汉字编码无重码,在熟练掌握汉字的区位码后,录入汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字母等。

音码:音码是按照拼音规定来输入汉字,不需要特殊记忆,符合人的思维习惯,只要会拼音就可以输入汉字,非常简单直接,是现在种类最多的输入码。但拼音输入的缺点也非常明显:一是汉字同音字太多,所以重码率特别高,有时要输入一个不太常用的汉字往往要翻很多页,输入效率比较低;二是对于普通话不太标准、拼音不太精确的人来说,输入是有一定困难的,往往要反复尝试;三是有些不认识的字无法输入。虽然缺点很多,但音码学习成本近于零,所以对输入速度要求不高的普通用户来说,音码成为了首选输入法。

入门级用户常用全拼输入法,以单字输入为主。智能ABC以词组输入提高输入速度,微软拼音以句为目标输入,能在输入过程中自动调整输入过的字词,从而减少选择汉字的操作,以提高效率。搜狗拼音输入法是基于搜索引擎技术的、特别适合网民使用的、新一代的输入法产品,用户可以通过互联网备份自己的个性化词库和配置信息。与整句输入风格的微软拼音不同的是它偏向于词语输入特性,为中国国内现今主流汉字拼音输入法之一。

形码:形码是按汉字的字形(笔画、部首)来进行编码的。汉字是由许多相对独立的基本部分组成的,在汉字编码中称为字根或字元。形码是一种将字根或笔画规定为基本的输入编码,再由这些编码组合成汉字的输入方法,其中赫赫有名的就是五笔字型输入法。

五笔字型输入法是王永民在1983年8月发明的一种汉字输入法。因为发明人姓王,所以也称为“王码五笔”。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。五笔是目前中国以及一些东南亚国家如新加坡、马来西亚等国的最常用的汉字输入法之一。

和音码相比,形码的重码率相当低,可以实现盲打;根据汉字的使用频率,每个汉字只要通过两三次,最多四次击键就可以打出来;常用词组都只需要四次击键就可以打出来,减少了击键次数,大大提高了输入效率;只要掌握了编码规则,即使碰到了不认识的字也可以轻松打出来。当然,形码的缺点也非常明显,就是要投入比较大的成本来进行学习才能熟练使用。所以现在除了对打字速度要求比较高的场合,很少会有人去专门学习五笔字型了,五笔字型在输入法市场逐渐成了小众的选择。

音形码:音形码吸取了音码和形码的优点,将二者混合使用。常见的音形码有自然码、郑码等。其中自然码是目前比较常用的一种混合码。这种输入法以音码为主,以形码作为可选辅助编码,而且其形码采用“切音”法,解决了不认识的汉字输入问题。这类输入法的特点是速度较快,又不需要专门培训。音形码既有音码和形码的优点,又同时有它们的缺点,从理论上来说是一种不错的选择,但实际上因为它讲速度比不过五笔字型,讲简单拼不过音码,基本上没有什么人使用了。

2.交换码

交换码是指不同的具有汉字处理功能的计算机系统之间或记录媒体之间在交换汉字信息时所使用的代码标准。

GB2313码:全国信息技术化技术委员会于1981年5月发布的《信息交换用汉字编码字符集·基本集》(代号GB2312-80),共收录了6763个汉字和682个图形符号。6763个汉字按其使用频率和用途,又可分为一级常用汉字3755个,二级次常用汉字3008个。其中一级汉字按拼音字母顺序排列,二级汉字按偏旁部首排列。采用两个字节对每个汉字进行编码,每个字节各取七位,这样可对128×128=16384个字符进行编码。这是现在最常用的汉字编码,称为国标码。

Big5码:即“大五码”,是繁体字常用的编码,共收入13060个繁体字,普遍使用于台湾、香港等地。

GBK码:两字节编码的国标码只收录了6763个汉字,在日常生活中经常捉襟见肘。1995年12月1日,我国发布了《汉字内码扩展规范》,即GBK码,以四字节进行编码,收入了21886个汉字和符号,大大方便了我们的使用。

Unicode码:这是由国际组织设计,可以容纳全世界所有语言文字的编码方案,解决了传统的字符编码方案的局限,以满足跨语言、跨平台进行文本转换、处理的要求。

3.机内码

汉字机内码是汉字在信息处理系统内部最基本的表示形式,它是计算机内部对汉字进行存储、运算、传输时所使用的代码,通常是对汉字交换码做出某种标识之后得到的内部码,与交换码之间有对应关系。

4.字形码

每一个汉字都是一种象形文字,可以看成一个特定的图形。这些图形可以用点阵、向量等方式表示,其中最基本的是用点阵加以表示,称为字形码。一般的点阵规模有16×16,24×24,32×32,64×64等,每一个点在存储器中用一个二进制位(bit)存储。在相同点阵中,不管其笔画繁简,每个汉字所占的字节数相等。

为了节省存储空间,普遍采用了字形数据压缩技术。所谓的矢量汉字是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形的数字化信息。图3为“你”字的中文字模、位代码及字模信息。

● 成长的语音输入

没有经过专门训练的人,用键盘输入汉字,每分钟可能就20~30个。而我们一般讲话时语速能达到每分钟160个汉字左右。如果能直接把语音变成文字,这是多么大的诱惑!

当然,中国地域广大,各地汉语发音千差万别,识别难度很高,这一直是人工智能领域未完全攻克的难点。IBM、微软、苹果、谷歌等国际大公司都曾投入非常多的精力来提高语音识别率,国内科大讯飞、搜狐、触宝、百度等公司也投入巨资来进行研究。现在虽然说语音识别不能达到百分之百的准确率,但已经迈入了实用的阶段。特别是在移动端,苹果个人语音数字助理Siri可称得上移动应用的里程碑,引领了语音输入的潮流。

我们来体验一下微软在Windows7里提供的语音输入。

①打开“控制面板—语音识别”(如下页图4)。

②点击“启动语音识别”,进行麦克风设置。然后要设置是否启用文档审阅来让计算机学习字词和短语,以便改进计算机识别话语的能力;选择激活模式等。最后可以启动语音教程,来学习一下如何进行操作。在此之前,要保证麦克风已经能正常录音。

③下面的“设置麦克风”和“学习语音教程”是为了在第二步没有做好时可以重新设置或学习。

④点击“训练您的计算机以使其更了解您”,进行一段十分钟左右的训练。虽然这不是必需的,但建议你把它做完,只要对着麦克风把相应的内容大声朗读完就可以。里面的内容对如何使用语音识别有非常贴切的建议。

Windows7提供的语音识别不仅可以输入文字,还可以用来控制计算机。比如可以说:“打开记事本”,系统将自动为你打开记事本程序。我们可以通过“打开语音参考卡片”来了解那些命令列表。

如果你的普通话比较标准,麦克风质量过关,使用得当,那么语音识别的效果还是不错的,经过一段时间使用之后,正确率可以达到95%左右。

语音识别虽然在计算机文字输入上还有很长的路要走,但在移动设备上正风生水起,特别是在聊天等对正确率要求不是很高的场合,完全可以用语音识别来解放自己。可以想象,当语音识别技术得到突破的一天,可能键盘就不再是像现在这样成为计算机的标配了。

● 简易的手写输入

部分特殊的人群,如一些老年人,既不会拼音,也背不下五笔字型字根,中文输入成为使用计算机的一道难题。但购买一块几十块钱的手写板,就可以解决这个问题。手写板一般是使用一只专门的笔,或者用手指在特定的区域内书写文字。手写板通过各种方法将笔或者手指走过的轨迹记录下来,然后识别为文字。只要会写字,就能输入汉字。

手写输入还有一个好处,如果某个字你不会读,也不会用五笔来拆分,那手写输入就能帮上大忙了。如果只是偶然碰到不会输入的汉字,可以不用专门买手写板来解决,在一些输入法上就可以启用手写输入,用鼠标来书写这个字,输入法会进行识别。如果你用的输入法不提供手写输入,还可以在网上搜索在线手写输入,网页会弹出一个窗口给你用鼠标进行书写(如下页图5),再识别你写的字,你只要把识别出来的字复制到要使用的地方就行了。

手写输入因为速度太慢,只在一些特殊的人群范围内使用,但对偶然解决一下输入中的问题还是很有用的。

● 快捷的文字识别

我们可能经常碰到要把某些书籍杂志报纸或手写稿的内容进行数字化,也就是将其存储在计算机里。最快捷的办法是先将其扫描保存成图片,然后用OCR软件进行识别。

所谓OCR(Optical Character

Recognition光学字符识别)也就是图像文字识别技术,是计算机输入技术的一种,它通过模式识别将文字的图像文件转化为可编辑的文本文件,彻底改变了计算机纸介质资料输入的概念。OCR是使用电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,最终获取文字及版面信息。

早在上世纪六七十年代,世界各国就开始进行OCR的研究,我国在上世纪70年代末开始进行汉字识别的研究,到1986年进入一个实质性的阶段,不少单位有很多成熟的中文OCR产品推出。

和语音识别类似,OCR也还做不到百分之百正确识别,因为书写者的习惯或印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本等都会影响其正确率。经过多年的研究,国内OCR识别简体汉字差错率为万分之三,如果要求更高的精度需要投入更大的人工干预,可以说是非常实用的了。

汉王是国内比较优秀的OCR软件公司,我们以汉王PDF OCR为例简要说明文字识别的过程:①单击菜单“文件—扫描”,对纸质文件进行扫描。如果已经有文字的图片文件,单击“文件—打开图像”,选择相应的图片文件,也可以是由图片转换而来的PDF文件。②如果打开的图片有些倾斜,单击“编辑—自动倾斜校正”,校正完如果效果不好,单击“编辑—手动倾斜校正”,将图片调整好。③单击菜单“识别—版面分析”,软件将自动对图片中的各个元素进行分割,将元素分类为图像、横栏、竖栏、表格四种。如果不准确,可以拖动鼠标修改区域,或者增删区域。④单击菜单“识别—开始识别”,软件将对图片上的各个元素自动识别。⑤对比识别结果和图片处的异同,修改识别错误的文字。⑥单击菜单“输出—到指定格式文件”,将文本输出到纯文本文件(TXT)或富文本文件(RTF)。如果是单纯的表格,也可以输出到电子表格文件(XLS)。其界面如图6所示。

● 神奇的脑电波输入

如果一个人手脚不能动,不能说话,还能操作计算机吗?答案是肯定的。我们来看看最传奇的科学家霍金是如何使用计算机输入的(如图7)。

霍金在21岁时就患上肌萎缩侧索硬化症,1985年因患肺炎做了穿气管手术,被彻底剥夺了说话的能力。霍金最初使用的是Waltosz开发的软件Word+,计算机安装在轮椅上,他使用一种特制的开关来输入内容。使用Word+软件,光标会在屏幕上一行一行扫描,经过某个单词或字母时,霍金按下开关,单词或字母就会出现在屏幕下方,反复进行,就可以输入整个句子和文章。

2008年,霍金的手已经无法按下开关,于是在他的眼镜上安装了负责侦测肌肉活动的红外线发射器及侦测器。他动下脸上的肌肉,前面的屏幕上就会出现字幕,当他需要字母时,再动下,屏幕上就会出现这个字母开关的单词。这和用手控制开关类似,每分钟可以输入5~6个单词。

2012年,霍金的肌肉已经不太灵活,眼睑下垂,连眼球也无法追踪。美国的脑神经科学家设计了一款脑电波读取设备iBranin。字母在屏幕出现,当霍金想选中单词时,停止大脑的反应,设备就可以监测、提取出来这个字母或单词。当然可以想象,这种方式输入文字,速度和正确率是很低的。但是,只要动动脑子就可以使用计算机,将使得无数残疾人受益。Wadsworth Center的脑损伤研究者Jonathan Wolpaw最近正在开发计算机-大脑用户界面系统。这套系统可以让瘫痪的人,通过计算机屏幕与亲朋好友沟通,操作也极其简单:第一步,戴上类似泳帽一样的脑波信号收集器;第二步,让他在一堆字母中,集中注意力于其中一个,于是一个字母就会显示在屏幕上。虽然现在打字速度还比较慢,但这也代表了交互越来越简单、越来越自然的趋势。

科技是如此神奇。我们不妨狂想一下,在将来用于脑电波进行输入可能会在普通人中普及。在头皮中植入一个小小的芯片,意念有多快,输入就有多快。意念可以控制计算机,以后我们也许不再需要血肉之躯,每个人都可以像变形金刚一样,可以自由选择身体的形状。如果意念可以转移,人也就可以永生了。这也许是科技的终极梦想。

猜你喜欢
输入法键盘语音
要命的输入法
微信语音恐惧症
键盘裤
魔力语音
Magic Phonetics魔力语音
ikbc R300机械键盘
背带键盘
对方正在输入……
找回微软拼音输入法设置
输入法顺序听我使唤