技术宅
人类可以轻松地通过耳朵辨别出男女声,是因为男女声音有比较显著的不同。比如我们到了12岁~13岁以后,男孩的喉结增大,声带变得比较长,声音就逐渐变粗了;女孩的声带仍然又短又窄,所以发出的声音高而尖。
当然这只是我们的主观感觉,如果要让Al机器人也能对男女声进行识别,就必须将男女声的不同点作数字化处理,这就需要从本质上对声音进行分析。男女声音的不同大致有以下几点:
音高不同,一般女生的音高比男生高4度—6度,这样在听觉上女生的声音听起来就更高亢。
亮度不同,女声普遍更“亮”、“尖”,穿透力更强,这是由于女生高频泛音丰富而形成的。
糙度不同,一般来说男声天生低,泛音之间的间距更小,所以听起来显得更“糙”(图1)。
因为Al机器人只能分辨出数字化的区别,所以科学家们在为人工智能建立声音感知模型时,需要提取出声音中具备数字化特征的元素。首先声音的频率是可以数字化表示的,通过频率来辨别声音效果就很不错。我们可以为男女声音制定一个分辨标准,一般男性的声音频率在50Hz—250Hz之间,女性声音则在100Hz—500Hz之间(图2)。
接着科学家们会准备大量的语音数据让这个感知模型进行学习,再借助其他科学家已经开发好的算法函数进行数据特征的提取(一个开源的R语言函数包,就可以提取出声音的20个特征)。通过大数据学习后,这个模型就可以对大部分的男女声进行识别了(图3)。
为了提高学习和处理的效率,Al机器人还会根据人耳结构通过仿生的神经元进行音频处理。人的耳蜗核可以对听觉神经收集到的神经信号进行编码,它包含许多有着不同特性、能够完成声音特征初步处理的神经元,从而对获取的音频进行高级的处理。Al机器人配备类似的神經元后,就可以更精准地实现对音频的识别和处理。
当然因为男女声频率会有重复的部分,比如生活中有些女人的声音可能偏男性,为了提高识别率,在实际的训练中,人工智能还会结合人类男女对话的不同来进行性别的识别,很多男孩喜欢使用“酷、棒、帅”的口头禅,女孩则爱用“比心、很好哦、难怪”之类的口语,人工智能通过这些大数据的学习,再结合上述男女声的不同点进行识别,最终生成一种算法部署在服务器中。以后只要我们在数据模型中输入人类的音频,Al机器人就可以很精准地识别出男女声了(图4)。
Al机器人能够精准地识别男女声,这个应用可以给我们的生活带来什么影响呢?
若由Al机器人充当客服,可以给我们提供更加人性化的体验。首先Al客服根据用户来电或者语音输入精准识别出男女客户,如果是男生来电,Al客服就切换到温柔的女声输出,反之则切换到男声输出,这样就能够和客户进行相对有效的沟通了(图5)。
声音识别还可以解决当前智能产品只能识别用户所说的内容,而不能区分说话人身份的问题。随着人工智能语音识别技术的提高,Al机器人不仅可以识别男女声,还可以识别同一性别不同身份的人们,比如识别出是家里的奶奶还是小孙女。在区分出不同的角色后,让系统有针对性地对每个人提供不同的内容与服务,从而使得人机交互更加简单(图6)。