天猫精灵智能声学：一台有情绪的歌词音箱背后的设计

2023-01-17 04:07:29壹零社

电脑报 2023年2期

壹零社

如何定义锚定“松驰感”？

天猫精灵（以下简称猫精）智能悬浮歌词音箱上用到一个词：锚定“松驰感”，听起来很虚，但大多数音箱厂商都有类似的形容词汇。“松驰感”是大家买音像产品的一种期待，通过背景、歌词、声音综合营造了喜欢的环境，实现一个很轻松的体验。

如何实现这个更沉浸的体验？回归到音箱的本质，实现更好的重放效果，重放效果的好与坏是与音箱的设计密切相关，音腔的作用即是要隔离扬声器前后的声波，类似一个空气弹簧，它的容积直接影响到这个弹簧的钢度，适当的空气弹簧是可以保障扬声器以最优的状态工作，可以得到更好的低频表现、更低的失真。

新品沿用猫精一体腔的设计思路，使得音腔达到最合适的12.21L的容积，保证了整体设计扬声器在高顺性下的一个工作。市场上的同等产品大部分都是采用2.0全频的声学方案，声音的层次感略显欠缺。猫精的设计可能是需要跟常规的产品不太一样，重新开发了6英寸的低音扬声器单元，然后把整个厚度减薄了30%的条件下，性能依然保持了16毫米长冲程的效果，还有56Hz的F0（扬声器在低频频段具有一个固有的共振频率点），并且还能做到低失真。

调音的秘密

为了解决音乐播放场景扬声器播放的振动干扰，通过材料传导，会引起整机的共振，特别是前后面大面积的玻璃材料传导共振，还有悬浮屏显示的时候，因为共振产生的不稳定。猫精调试过程中，采用了能量迁移技术，还有多段共振抑制调试技术，经过多达122次的专业调试，精细打磨，突破了材质干扰，达成了智能音效的音质要求。

同时，结合猫耳算法的升级，硬件层面采用了4麦的阵列方案，算法层面升级了多通道立体声回声消除的技术，实现了更好的语音交互，同时结合深度学习，形成习惯个性化的推荐，从环境、习惯、内容方面形成千曲千面、动态歌单。

语音交互层面延续猫耳算法

最初的设计想法，是希望天猫精灵音箱和猫一样，听到各种方向来的语音，同时保持猫非常灵敏的反应。即使音箱最大音量播放音乐的时候，只需要正常呼唤就能轻松唤醒。针对不同音量的歌曲，产品增加了一个自适应环节，增强听歌体验。猫耳算法包括了三个方面，也是语音交互的痛点，比如说回声消除、声源定位还有降噪。传统的回声消除算法，主要还是通过线性滤波器，去掉音箱本身的线性回声。

在这个基础上，增加了NAC模块，通过深度学习的方法，能够消除音箱的非线性回声，它会综合利用人声和非人声之间的差异，作为非线性回声消除的方案。同时结合歌词音箱它的扬声器特性和声学的结构特性，还有通过神经网络对回声进行后处理，所以我们会采集歌词音箱的数据，针对性进行优化和训练。

此外，在声源定位上，传统的声源定位可能主要是获取声音的方向，它只是一个检测的机制。我们在声源定位的地方，增加了唤醒词的信息，包括唤醒词的边界，以及唤醒词上每个频点人声的比例。这样的话，综合利用语音特征和声学信息同步结合，来提高最终的循向检测率。

在悬浮歌词音箱项目上，猫耳算法的升级还有多达3个通道的优化，多通道立体声回声消除算法，结合神经网络和悬浮屏歌词音箱的数据，对回声消除进行了后处理，从而提升了整个播放场景下的唤醒灵敏度。

读懂音乐推荐系统

天猫精灵作为场景设备，通过声纹自然人的技术，可以在家庭场景、多人使用的情况下，做到精准识别自然人，识别他们不同的听歌体验，让老人、小孩和男女主人都可以有自己专属的听歌体验。

具体音乐推荐引擎的各个子模块会通过各种各样的方式，获取用户专属的候选歌单内容，有基于家庭、设备、自然人三层的长期和实时偏好的强个性化内容的召回。这里面比如说你之前收藏过的相似歌曲，还有跟你相似人群喜欢的歌曲，都会通过用户的行为反馈来动态地变化这些歌单的内容。

数据包括实时的数据反馈链路，以及离线的用户对于歌手风格等音乐属性的一些偏好特征。有了歌单之后，下一步会根据目前识别到的场景和用户指令意图的强弱，来决定当下具体要给用户播放的歌曲，系统会使用多目标的深度学习模型，同时考虑用户即时对于歌曲的完播情况和歌曲多样性及新颖性，进行不同歌曲的编排，带给用户长期的活跃应用。

歌词音箱的“能量迁移技术”是怎样一种技术？

黄沛雄：这个点是基于调音的。因为从歌词音箱整个设计来看，它其实是层叠式的结构，玻璃、屏幕后面背光，再到下一块玻璃。这里就会牵扯到一个问题，喇叭单元本身就是装在玻璃上，声音在播放的时候它會产生一些振动，振动会通过金属框的外壳进行传导，会干扰到里面的屏。整个屏特别薄。为了解决共振迁移干扰到屏幕这个效果，实现能量的分配，需要让中高音和低音之间的分配达到最合理的位置，让这个屏幕包括整机的一些共振降到最低。所以，才会想到这样一个技术点的应用。这是针对2.1声道的应用调试。

音箱会理解我们的心情，它是怎么去判断我自身的场景和状态？

李文杰：第一部分，语音是带一些情绪的，猫精通过语音去识别声纹自然人，就是识别你是不同的人。但其实在语音里面也一定程度上能反应你当前的情绪，你是兴奋还是悲伤？这块如果被我们的声纹算法感知到的话，就会有相应的一些TTS+适合的歌曲推送出来。

第二部分是上下文的场景，前面也提到的那些极端的天气，或者说一些时间，或者历史行为体现出来的这个场景。你如果是有正向反馈，那其实是一个比较好的案例，我们会强化这个场景感知。如果你的反馈是相对差或者接受程度不高，我们也会弱化这个场景的感知。所以这些场景服务的提供，对于不同用户来说，感受是不太一样的，跟这个用户的接受程度有关系。

歌曲的个性化推荐的功能与传统有何不同？

李文杰：有两种方式可以快捷地完成新设备上个性化推歌能力养成。第一种，假设你之前使用过天猫精灵，新设備配网时使用老设备相同的天猫精灵账号，那在后台会自动进行旧设备历史行为的迁移，会自动在新设备上形成你听歌的长期偏好。我们完整的个性化推歌是建立在猫精账号、设备、声纹自然人三个层次上的，新设备上也可以迁移得到自然人的听歌喜好。

第二种，你如果有在使用的TME或者网易云音乐账号，在APP上操作绑定这些账号后，可以进行收藏歌单、历史行为的导入，这样也可以在音箱上迁移你之前的听歌习惯，而不用从零开始。而且你如果绑定多个账号，我们在这里面其实是会有一些聚合的，我们会做得更准一些。

猫精声学团队的“金耳朵”是一群什么人？

黄沛雄：“金耳朵”是对一类技术人的一个统称，做“金耳朵”它是经过很长时间的训练，包括听音的训练，再加上音乐的一些体验，长时间训练去熟悉一些音频频点的细节，这首音乐里面的一些差异，去做技术类的判断。“金耳朵”最终的目的是为了让我们生产或者我们设计出来的音箱能更真实地还原这个声音的效果。

其实“金耳朵”它还有一类是艺术类，艺术类就是有更好的鉴赏性，对于音乐这种调教，他们是从这个角度出发，而我们还是属于设备端还原的角度，属于技术类的“金耳朵”。

团队未来如何深化产品的迭代？

黄沛雄：我这边的整个团队主要还是为天猫精灵的产品的硬件声学做服务，类似自研的智能音箱，包括创新的一些品类，还有类似IOT这些方向的产品。我们会从整个产品的产品调研到技术定义，到后面的全链路开发，包括从硬件端的器件、架构设计到调试，到硬件的预先测试，再到后端的智能交互，全链路参与进去做开发的。

李文杰：我这边是偏软件或者云端的算法工作，目的是持续打造一个智能交互系统，不仅是自研设备，还包括IOT设备的一些支持，通过语音交互，还有一些视觉的手段，能够让用户真的在家居的环境中走进一个智能化的时代。