放学回到家,小明从书包里取出作文本,开心地对姐姐说:“今天下雪了,风景特别美,我写了篇作文,快帮我看看。”姐姐认认真真从头到尾读了一遍,连连点头:“写得可真好,情感真挚,描写也很细致。要不你把它‘敲’进电脑里,保存起来,怎么样?”
“可是我打字太慢了,这篇作文有600字,要花好长时间呢。”小明很不情愿花太多时间在打字上。这时姐姐灵机一动,出了个主意:“你可以用语音输入呀!我的电脑里有一款语音输入软件,能把语音变成文字,比键盘输入要省时省力多了。”
“语音输入软件?好像很厉害的样子啊!”小明充满好奇,接着问,“姐姐,我知道你正在大学里读人工智能专业,你能跟我说说,语音输入软件是怎么把语音变成文字的吗?”
姐姐拉着小明坐到电脑旁,一边打开电脑一边神秘地说:“其实,这是人工智能语音识别技术在施展‘魔法’!”看着一脸疑惑的小明,姐姐接着耐心地解释:“语音识别,就像是给计算机装上了超级灵敏的耳朵,能把我们说的话快速记录下来,然后像一个聪明的‘翻译官’,把语音转化成文字。”
从姐姐的电脑里找到语音输入软件,小明刚想开始读自己的作文,不禁又开始琢磨:电脑到底是怎么听懂语音,还把语音“翻译”成文字的呢?带着这个问题,小明开始上网查资料。哇,不查不知道,原来从语音到文字的转化过程,有很复杂的环节呢!
首先,当我们对着计算机说话时,计算机通过麦克风收集我们的声音,也就是模拟信号。
接着,计算机将采集到的语音转成声波文件,也就是将模拟信号转换成数字信号。
然后,计算机对声音进行预处理,提取特征。
最后,将提取到的声音与数据库中的声学模型进行匹配,输出匹配度最高的文字,就完成了语音识别。完成这一步的前提是在机器内已经存储了大量的语音数据,这些数据构成了“单词库”和“语法库”。
日常生活中还有哪些语音识别的应用?
当你对智能音箱说“打开客厅的灯”,它能控制连接的智能设备,让客厅灯亮起来;当家长在开车时说“导航到附近的超市”,车载语音系统能准确理解并规划开车路线;当你出国旅行时对着翻译机说“请问洗手间在哪里”,它能快速识别并翻译成当地语言展示或播放……
趣玩探索站
不一会儿,小明就把自己那篇洋洋洒洒的作文用语音转化成了文字,可是他发现,有个别字与自己真正想要写的字相比,音同字不同。这是怎么回事呢?小明请教姐姐。这一次,姐姐带着小明玩起了探索游戏——
他俩打开微信里的“语音输入”功能(用讯飞语音或豆包智能体都可以),尝试多次说单个字“凝”,结果出来的字五花八门,除了“凝”“宁”,甚至还有“零”“牛”……他们又说了一些包含多个字的词语和句子,发现语音识别的成功率高了很多。
姐姐对小明解释这其中的原理:“计算机识别声音,就像我们猜谜语,线索越多越容易猜中。单个字的信息太少,它可能对应很多不同的意思。词语和句子信息较多,计算机就能更准确地做出判断。因此,单个字的语音识别率没有词语、句子的语音识别率高。”
原来是这样啊!小明再看自己经过计算机“翻译”的作文,发现确实如此,出错的字基本上都是因为前后信息少被计算机理解错了意思。
作者单位北京市东城区灯市口小学
知识链接
机器怎样识别语音?
声音是信息的重要载体,也是生物感知外界的重要途径。我们能够听到声音,是因为声源振动引起空气的振动,进而引起我们的耳膜振动,传至耳内,最终通过听觉神经传送到大脑。
计算机记录声音,主要通过声音的数字化来实现——计算机里有一个部件叫声卡,声卡就像是耳朵,能感知声音。当有声音传进来时,声卡会在瞬间测量声音的高低、强弱等信息,然后把这些信息转化成数字代码。