语音识别：看见你的声音

2025-01-12 00:00:00刘畅

光明少年 2025年1期

放学回到家，小明从书包里取出作文本，开心地对姐姐说：“今天下雪了，风景特别美，我写了篇作文，快帮我看看。”姐姐认认真真从头到尾读了一遍，连连点头：“写得可真好，情感真挚，描写也很细致。要不你把它‘敲’进电脑里，保存起来，怎么样？”

“可是我打字太慢了，这篇作文有600字，要花好长时间呢。”小明很不情愿花太多时间在打字上。这时姐姐灵机一动，出了个主意：“你可以用语音输入呀！我的电脑里有一款语音输入软件，能把语音变成文字，比键盘输入要省时省力多了。”

“语音输入软件？好像很厉害的样子啊！”小明充满好奇，接着问，“姐姐，我知道你正在大学里读人工智能专业，你能跟我说说，语音输入软件是怎么把语音变成文字的吗？”

姐姐拉着小明坐到电脑旁，一边打开电脑一边神秘地说：“其实，这是人工智能语音识别技术在施展‘魔法’！”看着一脸疑惑的小明，姐姐接着耐心地解释：“语音识别，就像是给计算机装上了超级灵敏的耳朵，能把我们说的话快速记录下来，然后像一个聪明的‘翻译官’，把语音转化成文字。”

从姐姐的电脑里找到语音输入软件，小明刚想开始读自己的作文，不禁又开始琢磨：电脑到底是怎么听懂语音，还把语音“翻译”成文字的呢？带着这个问题，小明开始上网查资料。哇，不查不知道，原来从语音到文字的转化过程，有很复杂的环节呢！

首先，当我们对着计算机说话时，计算机通过麦克风收集我们的声音，也就是模拟信号。

接着，计算机将采集到的语音转成声波文件，也就是将模拟信号转换成数字信号。

然后，计算机对声音进行预处理，提取特征。

最后，将提取到的声音与数据库中的声学模型进行匹配，输出匹配度最高的文字，就完成了语音识别。完成这一步的前提是在机器内已经存储了大量的语音数据，这些数据构成了“单词库”和“语法库”。

日常生活中还有哪些语音识别的应用？

当你对智能音箱说“打开客厅的灯”，它能控制连接的智能设备，让客厅灯亮起来；当家长在开车时说“导航到附近的超市”，车载语音系统能准确理解并规划开车路线；当你出国旅行时对着翻译机说“请问洗手间在哪里”，它能快速识别并翻译成当地语言展示或播放……

趣玩探索站

不一会儿，小明就把自己那篇洋洋洒洒的作文用语音转化成了文字，可是他发现，有个别字与自己真正想要写的字相比，音同字不同。这是怎么回事呢？小明请教姐姐。这一次，姐姐带着小明玩起了探索游戏——

他俩打开微信里的“语音输入”功能（用讯飞语音或豆包智能体都可以），尝试多次说单个字“凝”，结果出来的字五花八门，除了“凝”“宁”，甚至还有“零”“牛”……他们又说了一些包含多个字的词语和句子，发现语音识别的成功率高了很多。

姐姐对小明解释这其中的原理：“计算机识别声音，就像我们猜谜语，线索越多越容易猜中。单个字的信息太少，它可能对应很多不同的意思。词语和句子信息较多，计算机就能更准确地做出判断。因此，单个字的语音识别率没有词语、句子的语音识别率高。”

原来是这样啊！小明再看自己经过计算机“翻译”的作文，发现确实如此，出错的字基本上都是因为前后信息少被计算机理解错了意思。

作者单位北京市东城区灯市口小学

知识链接

机器怎样识别语音？

声音是信息的重要载体，也是生物感知外界的重要途径。我们能够听到声音，是因为声源振动引起空气的振动，进而引起我们的耳膜振动，传至耳内，最终通过听觉神经传送到大脑。

计算机记录声音，主要通过声音的数字化来实现——计算机里有一个部件叫声卡，声卡就像是耳朵，能感知声音。当有声音传进来时，声卡会在瞬间测量声音的高低、强弱等信息，然后把这些信息转化成数字代码。