大多数语音通话采用语音编解码器而非音频编解码器,而语音编解码器仅能合理再现人的声音及传输有限的音频带宽。现在,全高清语音(Full-HD Voice)技术的出现能够显著提升语音通话体验,并将通话质量提升至大多数数字媒体的水平。该项技术将为我们带来更加让人惊叹和优质的通信体验。
全高清语音技术应用的是增强型低延迟AAC(AAC-ELD)系列编解码器,其中包括AAC-LD,AAC-ELD,AAC-ELDv2,经过优化的低延迟算法对自然的实时通信至关重要。与普通语音编解码器不同的是,AAC-ELD系列编解码器将应用领域从单纯的语音拓展至各种音源素材(包括语音、歌曲、音乐及环境声)。鉴于其强大的技术优势,AAC-ELD系列产品迅速应用于各类通信领域(包括OTT服务、视频电话、视频会议、视频和远程监控以及广播服务)。苹果公司大获成功的FaceTime就是基于AACELD实现的视频电话应用的成功案例。此外,iOS,Android,Mac OS X系统中也自带了该编解码器。
AAC-ELD系列的三种产品可视为各自的超集,它们使用的是相同的核心编码,且各自均增设了新型编码工具。AAC-ELD编解码器系列产品可实现完全向后兼容,能够处理单声道、立体声道以及多声道信号,并将延迟控制在15毫秒内,具有范围较广的比特率(低至24kb/s)和采样速率。
AAC-ELD可满足全高清语音应用的不同需求,得益于灵活性,AAC-ELD可在以下三种不同操作模式下使用,所有模式均与标准兼容解码器完全兼容。
一是AAC-ELD内核。该模式适用于所有高比特率应用,例如比特率达到96kb/s甚至更高的立体声信号。
二是具有SBR的AAC-ELD。该模式是最为灵活的AAC-ELD模式,由于其比特率和采样速率范围较广(每声道的比特率约为32~64kb/s),因此颇受诸如苹果公司FaceTime等视频电话类应用的青睐。由于在整个比特率范围内所出现的延迟均一致,即使动态地切换比特率也不会导致延迟差异。在MPEG格式的文件中,这一模式通常被称为“下采样模式”,它将频谱带宽复制(LD-SBR)技术的优化延迟版本应用于AAC-ELD内核模式中。LDSBR可在降低比特率的同时保持极佳的音频质量。此外,较低的音频频谱使用了AAC-ELD内核,而较高的频谱则采用了LD-SBR工具编码。LD-SBR是一种参数化方法,可利用自然音频信号的谐波结构,它能够基于高低频谱之间的关系对信号的整个音频频谱进行引导性再现。
三是双速率SBRAAC-ELD。双速率SBR模式适用于更低数据速率的应用需求(如现场直播),该模式可提供效率最高的比特率,相较于其他两种模式,它可在增加一定延迟的情况下使每信道的比特率降低至24kb/s,它仍然使用LD-SBR工具编码。然而,AAC-ELD内核编码实际上是按照采样速率的一半进行的,因此,该模式能在极低的比特率下产生最佳的音频质量。
所有标准兼容的AAC-ELD解码器在上述三种模式下均可运行,因此编码器工程师可自由选择最适合目标应用场景的模式。AAC-ELD的音频质量已在多项独立测试中得到证实。
为了在接近单声道比特率的情况下获得立体声效,AAC-ELD v2增加了参数化立体声扩展功能,该参数化扩展是基于可进一步降低比特率的双信道低延迟MPEG Surround技术(LD-MPS)而进行的。LD-MPS编码器并非旨在传输两个信道中的信号,而是提取空间参数重构解码器侧的立体声信号,并使用AAC-ELD对其他的单声道混音进行编码。LD-MPS数据和SBR数据均通过AAC-ELD比特流传输。AAC-ELD解码器重构单声道信号,而LDMPS解码器能够重塑立体声像。通常情况下,频率为48kHz时,立体声参数所需的比特率为3kb/s。这使得AAC-ELD v2能在远低于离散式立体声编码的比特率速率下对立体声信号进行编码。
在面对面交谈中,延迟回复可归结为下述原因:犹豫不决、需要时间思考或不想给出答案。然而,若另一方回应很快,但由于技术缺陷而产生延迟,则会产生一些误会,交谈也会变得尴尬和令人沮丧。因此,应将此类端到端延迟控制在150~200毫秒以内。
VoIP通话的端到端延迟主要是由于一些处理步骤和组件(如回音消除、噪声抑制、自动增益控制、路由器、抖动缓冲及语音/音频编码)导致的。因此,能够将总体延迟控制在较低水平变得尤为重要,这也要求每个元件都必须合理地利用资源。由于AAC-ELD可根据比特率和采样速率将延迟控制在15~32毫秒范围内,因此能够成为一个理想的解决方案。
AAC-ELD系列产品的技术优势使全高清语音技术成为塑造优质音频的理想之选。现有通信系统中的语音应用包括OTT服务、视频和远程监控以及广播电视内容服务。
全高清语音技术在改变通信格局方面已取得很大进展,而网络技术也在不断的变革(如向LTE和固网宽带网络的演进趋势)。全高清语音技术与许多新兴趋势都密不可分,作为一项重要的技术储备,全高清语音技术可以创造出其他技术无可比拟的业务发展机遇。
LTE网络需要部署全IP语音服务或VoLTE,并以此开创了将所有语音服务移至IP网络的局面。全高清语音技术的发展,将促使服务供应商摆脱包括音频带宽和语音编解码器在内的使用限制。
固网宽带和移动领域的LTE网络类似,固网领域也正在发生着翻天覆地的变化。目前趋势就是将语音服务移至全IP网络(如光纤网络、xDSL或DOCSIS网络)。全高清语音技术为新型综合应用集成至宽带连接设备(如电脑、电视机、机顶盒、平板电脑和手机)奠定了基础。■