AI技术：让听障人士感受真实世界的声音

2022-05-23 22:51李叙瑾

风流一代·TOP青商 2022年5期

关键词：耳蜗噪声人工

李叙瑾

随着计算机每秒几亿次的高速运算，总有一天，冰冷的技术会更加善解人意，并让听障人士以不同方式接触到无限接近真实的所有声音。

正常人耳中拥有1.5万个听觉细胞，它们直接与大脑相连，由此人类能从几十种环境声音中自觉捕捉到需要放大的那一项。听障者耳中却仅存几百个听觉细胞，为了让大脑获得听觉刺激，它们会拼命放大包括噪声在内的一切声音。

如今普遍使用的辅听设备——无论是放大声音的助听器，还是将外界声音转换成电信号的人工耳蜗，在面对复杂的声学场景时，都不太能从嘈杂的环境中直接还原出自然的声音。即使戴上动辄十几万元的人工耳蜗，听障者也无法感受到千奇百怪的虫鸣鸟叫。

世界卫生组织发布的《世界听力报告》显示，目前全球有15亿人受到听力损失影响;到2050年，预计至少7亿人需要听力康复服务。

让听障人士“听”到声音

腾讯天籁实验室研发出一款人工智能（AI）降噪算法，它会吸收环境里的众多声音，筛选出环境噪声和与会者的话语，然后消除前者，针对性地增强后者。这款降噪算法目前主要搭载在腾讯会议上，与会者即使置身于各种场景——高铁、超市、咖啡厅乃至自家厨房中，终端另一侧的人也基本不会感知到他们所处的嘈杂环境。

天籁实验室有一个专门的被吸音棉包裹的消音室，这里充斥着研究员用录音笔和声卡捕捉到的各种噪声——键盘声、关门声、纸巾的摩擦、杯子碰撞桌面的声音……研究员会将这些声音交由AI算法。通过学习，AI能像人耳一样分辨它们。

天籟实验室的研究员一直在思考如何将这种AI降噪与场景识别技术运用到其他领域。该实验室的技术曾搭载在腾讯一款针对听障用户居家问诊需求的线上测听调音小程序上，这让研究员产生了将其放到人工耳蜗上的想法。他们找到耳蜗厂商诺尔康合作，进一步帮助听障人士克服噪声给他们带来的困扰。

然而在具体执行时，天籁实验室发现，人工耳蜗给AI算法带来的挑战远大于AI算法应用在诸如腾讯会议这样的在线会议软件中的困难。

由于佩戴者在实际生活中面临的环境比开会时复杂得多，人工耳蜗不能只是做到“减少噪声、增强人声”。“不是人声越大、环境声音越小越好，比如日常出行，在地铁上就要听到报站以及适当的过往车笛声。”天籁实验室研究员肖玮说：“我们所做的事情并不是为了抑制噪声，而是为了增强我们想听的声音。”肖玮在音频技术行业拥有15年经验，专注于语音增强、心理听觉建模等研究。

肖玮所在团队的解决方法是：先找到算法的普适能力，即尽可能还原人耳所能覆盖的各种场景，再让AI通过深度学习学会区分场景，并根据不同环境给出相匹配的反应——日常单人对话、安静场合聆听音乐、纯噪声场景的马路和市场，以及带有噪声的语音场景。

最终，诺尔康的试验检测数据显示，天籁技术与人工耳蜗结合后，语音平均识别率达到96.28%，其中带噪语音识别率为93.38%，环境噪声中声音识别率达到94.24%。

在提高识别率之外，更重要的是植入带有AI技术的人工耳蜗，这能让听障者“听”到此前无法感受到的丰富声音。比如佩戴普通人工耳蜗的听障者是无法欣赏音乐的，因为从声学角度看，相比人声，音乐的振动与噪声更加接近，所以常被人工耳蜗视为需要“去除”的部分。

经过学习的AI算法解决了这个问题：纯音乐的场景中，它能完整保留音乐旋律;在比较敏感的频段，它还会增强音乐旋律和音色。

让听障人士“看”到声音

除了让听障人士能更清楚地“听”到声音，AI技术其实还可以帮助他们通过“看”到声音，与外界更好地沟通。成立8年的增强现实（AR）眼镜公司亮亮视野，正尝试在产品上搭载AI字幕翻译系统。

2020年年初，在与相关公益组织的一次交流中，亮亮视野的产品设计总监刘天一了解到，很多先天失聪的孩子因为无法有效接触外界信息，甚至连肢体发展都出现了障碍，这让他很受触动。

来自外界的被动信息有时会比听障人士自主接收的信息提供更多的内容，比如走在街上路人随口一句“天快下雨了”，对于听障人士来说，这个重要内容就很可能被遗漏。

所以，刘天一决定改造团队于2020年年底发布的一款面向企业端的AR眼镜。这款眼镜镜片采用亮亮视野自主研发的双目光波导AR技术，即便在阳光下，呈现在佩戴者眼前的内容也可以清楚地被显示;镜腿略宽，下接一根可以连接手机的电线，手机提供电池供应，并与一款名为“可译”的翻译APP自动连接。

这款专门服务于听障群体的助听眼镜，搭载了字节跳动旗下的火山引擎，而火山翻译是火山引擎的核心AI能力之一。它通过神经网络机器翻译技术开展模型训练，可以让语音识别、自动断句和机器翻译等功能表现得更加优异。

对于助听翻译眼镜来说，很重要的一点是实时性。为此，亮亮视野的这款产品配备了AI处理芯片，以尽可能接近“音字同步”的效果。“字幕显示至多半句话延迟。”刘天一说。

不过这枚算力强大的芯片也给刘天一团队带来了一些困扰。安装到AR眼镜上时，它出现了散热、耗电不匹配的问题，这让团队不得不从各方面尽可能降低延时与耗电。“就像做加减法，减掉我们原先面向B端时成熟但不合适的地方，再针对听障人群的需求做一次加法。”刘天一说。比如，为了更方便听障人士使用，团队通过调研，在保障语音翻译足够准确、字体观看效果足够清晰的前提下，对文字选择、字体大小、显示位置都做了调整。

此外，这款AR助听眼镜还有环境音智能识别、人名唤醒等功能。“听”到佩戴者的名字后，它能自动给出提示，这让听障人士在医院、民政窗口等公共场所可以更方便地办事。

道阻且长

目前，天籁实验室的AI音频技术免费开放给公益开发者、设备厂商及相关行业。这意味着，这一技术不仅可以应用于人工耳蜗，未来还有可能植入手机、耳机中，服务对象也可从听障人士扩展至听力逐渐衰退的老年人群体。

亮亮视野的第一代AI助听眼镜原本是专为研究而开发的，因为测试时不少听障人士表示它的确在生活中帮了大忙，亮亮视野决定将其推向市场。听障人士拿着国家认证的听力障碍残疾证明，就能以3999元的价格购买——产品的成本大约是1.2万元。

当然，无论是腾讯和诺尔康的AI人工耳蜗，还是亮亮视野的AI助听眼镜，目前都远非完美产品。

肖玮和他的团队如今每一至两周就要迭代出一份新版本的程序，但仍有一些当前技术还无法解决的难题。

比如这款人工耳蜗可以让听障人士欣赏纯音乐，但面对一首由人声演唱的歌曲时，它依旧无法展现歌曲的原貌——器乐和人声混杂在一起，超出了当下算法的处理能力。

另外，听障人士的病因和病情各不相同，对人工耳蜗的适应性也存在着差异。有的用户佩戴人工耳蜗时可能突然就听不到了，降低人工耳蜗的电刺激强度后声音才“回来”——人的神经系统藏着各种医学专业人士至今都未彻底揭开的奥秘。

对于刘天一团队来说，如今稍显笨重的助听眼镜怎样做到和普通眼镜没有区别，是他们下一步要解决的问题。目前，它还只能连接安卓设备，苹果手机因为接口标准不同暂时不支持。“大概今年还会推出新一代的助听眼镜，它会是无线的一体机，能支持的机型更多，而且佩戴感受也会提升不少。”刘天一说。

在AI算法上，助听眼镜也仍有许多提高的空间。更好地适应复杂环境背景，进一步拓展语料库，引入手语识别、助听技术，并提供除交流以外的更多使用场景等，刘天一都列入计划表了。

肖玮和刘天一都相信，随着计算机每秒几亿次的高速运算，总有一天，冰冷的技术会更加善解人意，并让听障人士以不同方式接触到无限接近真实的所有声音。

（编辑宦菁 huanjing0511@sohu.com）