视频会议与会场音视频技术发展概述

2023-01-16 18:51张利滨
电视技术 2022年8期
关键词:音视频话筒会场

张利滨

(中国电子科技集团公司第三研究所,北京 100015)

0 引 言

近几年,在云计算、人工智能、5G和大数据等技术的推动下,视频会议呈现出爆发式增长趋势。从各级政府、大型企事业单位、公安、军队,到金融证券、能源交通和医疗教育等行业,视频会议均有广泛应用。本文从云视频、会议终端、波速话筒以及一体化摄像机等方面介绍视频会议技术发展现状,从会场音视频整体技术发展趋势、会场音频系统网络化发展以及会场视频系统技术发展方面介绍会场音视频技术的最新发展成果。

1 视频会议技术发展

1.1 云视频会议

云视频会议以云计算为核心,结合新一代音视频编码技术(H.265/H.264 SVC柔性分层编码标准),以公有云、专有云、私有云等交付方式,支持大规模、高弹性、高可用连接。云视频会议服务提供商建设云计算中心,用户企业无需购买多点控制单元(Multipoint Control Unit,MCU),无需大规模改造网络,就能实现在会议室、个人电脑或移动状态下进行多方视频会议沟通,并能实现与传统会议室的互联互通[1]。云视频会议具有以下优势。

(1)平台云化。云视频会议面向互联网架构,支持分布式部署,支持系统灾备,能够实现多中心业务备份,方便灵活。

(2)弹性服务。云视频服务的规模可快速伸缩,可以跨平台共享和协作,随时入会连接到世界的每一个角落,进行视频面对面的沟通。

(3)接入多样化。平台支持公有云、专有云、私有云部署模式,终端部署简单快速、易使用,可以接入多种形式的终端设备,如云视频会议终端、传统硬件视频会议终端、电脑、智能手机以及智能大屏等。

(4)功能多样性。云视频会议具有会议记录、语音转写、文档资料实时分享等功能,并具有多种高效便捷的会议功能,如会议预定、通知、签到、录音、录像、投票、控制、分组讨论以及协同办公等。

1.2 会议终端

近几年,视频会议终端技术水平不断提升,终端产业得到强有力的发展,主要表现在如下方面。

(1)SVC柔性编码技术发展成熟,一次编码可以产生多层不同分辨率、帧率、质量的视频码流,让每个视频会议的使用方都可以根据自己的网络带宽、设备性能、屏幕分辨率获得适合自己的视频流。这种更为高效先进的编码算法为新一代智能云视频会议发展奠定了技术基础。

(2)目前正在兴起的H.265编解码器具有压缩效率高、图像质量好的特点。随着4K超高清视频会议的发展应用,H.265标准的编解码器将成为视频会议的应用主流[2]。

(3)智能编码技术也称“内容感知编码”,是通过使用深度学习方式,对每个场景的视频图像进行智能分析,来确定优质图像所采用的最低比特率编码,达到智能图像编码。

(4)发展高质量4K超高清视频编解码器,支持10 bit、4∶2∶2@4K P60、超低延迟、高可靠性或国产AVS2、AVS3高性能编解码器。

基于技术的发展,视频会议终端的功能越来越丰富,目前主要有以下主流的功能与特性:

(1)流畅的超高清视频,提供4K超高清双流体验,视频图像清晰流畅,细节呈现更全面、更生动,能够带来极致视频体验;

(2)清晰的音频享受,支持多种宽带音频编码技术,采用回声消除(Acoustic Echo Cancelling,AEC)、噪声抑制、增益控制及语音增强等技术,可提供清晰纯正的高保真声效;

(3)强大的网络适应性,能够根据网络质量和应用需求优化图像质量,支持超强纠错、丢包重传、视频前向纠错、动态调速、自动QoS设置、自动码流平滑调整等网络传输技术,优化各种网络环境下的视频会议效果;

(4)完善的安全机制,内置硬件加密芯片,支持国密算法,内置128/256位AES等多重安全加密措施,充分保证会议内容的安全性和保密性,具有本地登陆认证与授权机制,并支持对用户权限分级管理,保障视频会议系统安全稳定运行;

(5)智能的会议操控,内置智能语音助手,提供便捷的会议操控服务;支持同声字幕、会议纪要;内置协作模块,可外接触控屏幕,采用图形化触控界面,可轻松完成视频会议操控。

1.3 波束话筒

波束成形话筒是近几年视频会议设备中发展较快的产品之一,其功能特点是:使用简单,只需放置在桌面上或固定到天花板上,连接好话筒电缆即可开始使用;某些型号的话筒具有自动校准功能,简化了系统参数配置,并可使用管理软件通过网络进行话筒参数设置;参数设置简单,管理集中,无需单独供电[3]。波束话筒的主要技术特点如下。

(1)波束成形技术。将使用会场设定为多个区域,每个区域(约有5~10 m远拾音距离)采用波束跟踪技术主动跟踪并拾取讲话人声音信号,通过使用高性能数字信号处理技术与语音处理算法相结合,输出所需要的声音信号。

(2)增益控制。如果讲话人与话筒之间发生小距离移动,话筒自动增益控制可调节输出信号的电平值,在一定范围内保持声音信号输出一致。

(3)智能降噪。波束成形话筒均具有背景噪声降噪处理算法,能明显减少会场环境噪音。

(4)回声抑制。话筒具有AEC处理模块,能够有效抑制视频会议的回声。

(5)自动校准。话筒会产生一个音频测试信号,并由会场内的扬声器发出,通过话筒内置数字音频处理器计算并自动配置会场音频系统参数,获得较佳的声场拾音效果。

(6)网线或USB传输。话筒可通过一根网线或USB接口与第三方设备连接,支持Dante或AES67协议和有源以太网(Power Over Ethernet,POE)供电。

1.4 一体化摄像机

摄像机在视频会议领域的发展趋势是小型化、4K超高清、与会议话筒和扬声器集成为一体化。一体化摄像机正成为视频会议中小型会议室的主流产品,其具有以下技术特点。

(1)超高清成像技术,采用800万~1 240万高品质图像传感器,最大分辨率可达4K,呈现清晰逼真的视频效果。

(2)AI视频处理技术,如弱光补偿、视频降噪、自动对焦、自动白平衡等,摄像头能自动跟踪拍摄、减少背光和眩光影响,并保持画面亮度。

(3)EPTZ电子云台,电子云台没有可见的机械转动部件,通过在摄像机内部控制镜头的视角和变焦,从而清晰捕捉远处的景物。图像被放大时,可进行模拟水平旋转/俯仰的裁切输出,为不同角度的拍摄提供最大的灵活性。

(4)图像剪切输出。使用4K超高清分辨率拍摄的图像既可以完整输出,同时还可以对这些图像的某些局部进行同步裁剪输出。裁剪输出可通过摄像机控制器进行控制,简便快捷。

(5)视频输出接口丰富,支持高清多媒体接口(High Definition Multimedia Interface,HDMI)、数字分量串行接口(Serial Digital Interface,SDI)、USB3.0以及局域网(Local Area Network,VLAN)等多种方式输出视频。

一体化摄像机的人工智能(Artificial Intelligence,AI)功能与视频会议室结合,显著提高了中小型会议室的智能化程度,实现了以前只有某些高端会议室才具有的独有功能,具体如下。

(1)自动唤醒。当有人走进会议室时,系统会“自动唤醒”,并可通过参会人员的随身移动设备识别其身份。

(2)智能会议。自动取景和发言者跟踪,按需自动拍摄,屏幕亮度智能显示,话筒自动跟踪,音质出色。

(3)双屏体验。双屏幕、双内容源、无线共享和两个屏幕同时显示不同的远端会场。

(4)会议室人数统计,帮助会议管理者充分了解会议室的利用率并优化资源分配。

(5)同时支持云部署和本地部署,硬件面向云平台运行环境,可提供出色的共享会议室和共享空间体验。

2 会场音视频技术发展

2.1 会场音视频系统整体发展

近几年,视频会议会场音视频系统发展迅速,出现了一些具有代表性的发展趋势,主要有以下特点。

(1)简洁化。会场设备追求简单实用,硬件设备越来越少,设备和线缆网络化;使用功能简洁易用,让会议变得更高效;安装灵活便捷,对空间的依赖性没有那么强,更能适应现代工作的快节奏。

(2)标准化。标准化主要表现在四个方面,即产品标准化、设计标准化、施工标准化以及服务标准化。标准化已贯穿会场设计、实施和售后服务的全过程。采用标准化的系统方案,能使施工工艺统一,施工进度能得到保证,工作量会大大降低。标准化能够优化工程管理方式,为用户提供更加科学、高效的培训服务、售后服务及设备维修等。

(3)智能化。随着会场智能化水平逐步提升,会议系统在使用时,屏幕可自动调节亮度、摄像头自动跟踪拍摄、话筒自动拾音、语音指令能控制设备、远程可检测诊断故障等,这些智能功能让用户的使用越来越方便,维护也越来越自如。

(4)网络化。随着越来越多的数字音视频设备具备IP功能,专业音视频系统的物理架构发生重大变化。目前已经出现一大批带有IP接口的数字调音台、功率放大器、有源扬声器等,而且发展呈上升趋势。一根超五类或六类网线可以容纳数以百计的高质量、无压缩、低延迟音频通道。如果将这些IP设备通过网络交换机连接到一起,便组成了一个规模巨大的音视频系统。网络化音视频系统都已具备了主备冗余的功能,通过成熟的网络备份技术,就能应对安全性要求极高的会场。将音视频、控制等诸多信息元素全部数字化、网络化,传输方式采用标准的IP网络,减少大三芯、卡侬头等专用接口的使用,使物理连接大大简化,给工程设计者和使用者提供了一个全新的音视频网络化整体解决方案。

(5)数据化。会场音视频设备在整体网络化架构中,会成为大数据产生、搜集、分析的节点。大数据是智能化、智慧化的基础,当足够多的数据被搜集、分析和使用,这些数据将成为优化会场系统的重要支撑。例如,依靠数据化建立的一体化运维管控平台,可以把系统所有运行设备在线集中监控管理起来,将设备的状态与用户使用情况相结合,分析设备及用户的有效规律,配合智能化算法和人工智能模型进行趋势分析及预测,掌握预防性维护的规律,将传统的会场音视频系统进化为一个集管理、操控、监测、运维于一体的智能化运维管控平台,确保系统稳定可靠运行,并提供一套有效的科学维护管理方法。

2.2 会场音频系统网络化发展

随着会场音频网络化技术的发展,在一根以太网线中可以传输数百路音频信号,采用多播路由就可以省掉大量音分设备,使用商用交换机和管理软件即可替代传统的音频矩阵。网络化音频系统将设有统一的运管平台,经运管平台集中完成设备在线参数配置、路由、监测、诊断等管理任务,能够通过软件来定义各类会议场景的应用,以前只能对单一设备进行场景的预设和加载,而今后则可以对整个音频系统所有设备进行统一的参数设置和功能切换,通过运管平台能集中监测系统内各设备的实时工作状态,并具备故障自动报警,系统应急切换等功能[4]。下面介绍几种具有代表性的音频网络化技术。

2.2.1 Dante

Dante是Audinate公司定义的网络音频解决方案,是基于3层的IP网络技术,能提供一个简化的、自配置和即插即用的使用百兆或千兆互联网协议的数字音频网络化技术。Dante技术具有延时小、采用IEEE1588精密时钟协议进行时钟同步、采用zeroconf(Zero Configuration Networking)协议、网络具有高兼容性、传输模式可以是单播或是多播模式等优势,可应用于专业音响、公共广播、视频会议等系统。产品经历了从早期的模块化产品到后来的芯片化,到现在的软件化方向发展。

2.2.2 AVB

AVB的全称是以太网音视频桥(Ethernet Audio/Video Bridging)技术,是一项新的IEEE 802标准。其在传统以太网络基础上,通过保障带宽,限制延迟和精确时钟同步,提供完美的服务质量,来支持各种基于音频、视频的网络多媒体应用。AVB是一种架构在以太网二层网络基础上传输专业非压缩音频、视频信号的协议技术,能够支持目前大多数的专业视频信号格式,支持多达512通道的无压缩音频信号。

2.2.3 Q-LAN

Q-LAN是美国QSC音频产品公司为Q-Sys音频网络处理平台开发的第三代IP化音频(Audio over IP,AOIP)专有技术,相关产品包括Q-SysCore核心处理单元、I/O接口单元以及管理软件等,主要应用场合是会议扩声、视频会议、会控中心以及大型游乐场地等。

2.2.4 AES67

音 频 工 程 协 会(Audio Engineering Society,AES)在2010年12月启动了一项多个音频网络协议可互通的项目,以实现不同厂商AoIP设备之间的互操作。该标准于2013年9月正式颁布,此后又经过了一次修订,现在的版本是AES67-2015。AES67标准从同步、媒体时钟、传输、码流、会话描述、发现服务及连接管理等方面阐明并规范了AoIP的机制和具体细则,特别是对基于IEEE 1588 v2的同步机制和RTP流的单组播传输方案作了明确的定义,使得不同厂商的AoIP设备和系统之间的时钟对接和音频数据流对接成为可能。目前世界主要的AoIP体系均支持AES67标准。

2.2.5 AES70

AES于2016年1月发布了AES70-2015标准,它的全称是《面向网络音频应用的开放式控制架构》,以IP方式在入网的数字音频设备及非音频设备之间传递各类控制信号,以达到监测、控制及管理的目的。AES70标准提供了一个非常完备的基于IP网络的音频系统监管框架,具备良好的安全性、可用性、鲁棒性、兼容性、可扩容性以及可分析性。AES67、AES70两者的结合,成就了一个完美的AoIP音频网络系统。

2.3 会场视频系统技术发展

随着4K超高清视频技术、视频网络化技术以及设备软件定义功能等技术的不断发展,会场4K超高清视频系统有以下几种技术可供选择[5]。

2.3.1 HDBaseT接口技术

HDBaseT技术是高清数字传输的全球标准之一。它通过普通的CAT5e/6网线进行无压缩传输,支持最高20 Gb·s-1的传输速率,采用RJ-45接头连接,传输距离可达到100 m。此外,它还提供以太网功能,具备100 W的供电能力(PoE)和控制信号通道,支持HDMI 1.4,HDMI 2.0及HDMI 2.1接口协议,同时完全兼容高带宽数字内容保护(High -bandwidth Digital Content Protection,HDCP)技术。对于常用的点对点使用方式,它具有低功耗、易于使用等特点,已被许多的音视频制造商广泛应用。市场上采用此技术协议接口的产品很多,如视频会议终端、摄像机、视频多格式混合矩阵等,通过HDBaseT接口设备与视频多格式混合矩阵相结合的方式,实现会场4K超高清视频系统的功能。

2.3.2 12G-SDI技术

随着12G-SDI技术在广播电视领域的广泛应用,12G-SDI系统具有系统架构熟悉、设备性能稳定、施工方便等优势,被认为是目前4K超高清会场视频系统的最佳解决方案。12G-SDI是电影电视工程师协会(The Society of Motion Picture and Television Engineers,SMPTE)制定的基于SDI传输4K超高清视频接口标准(SMPTE ST-2082),其定义是12 Gb·s-1的传输速率,带宽是3G-SDI的4倍,能够支持高达4K p60分辨率,兼容HD/3G-SDI等之前的标准。12G-SDI只要1根传输线缆,就能直接传输4K超高清显示信号。这样的传输方式,之前的SDI架构不变,系统升级改造更方便。目前支持12G-SDI接口的4K超高清设备日益增多,基本能够满足会场4K超高清系统的使用需要。

2.3.3 NDI网络化技术

网络设备接口(Network Device Interface,NDI)协议是NewTek公司推出的开放式IP网络设备接口协议。它以一种全新的网络应用层,通过IP网络进行超低延时、无损传输、交互控制,使系统的构建以及系统内各种信号的传输、调用变得简单。该协议产品具有高质量、低延迟、精准同步的特点,非常适合在会场视频系统中进行调度切换使用。NDI使系统设计和应用变得简单和灵活,协议支持4K@60视频信号,并支持网络时钟协议(Network Time Protocol,NTP),可在多部设备之间同步。NDI协议分为全NDI和NDI/HX两种协议版本,NDI/HX协议支持H.264/H.265编码,两种协议的产品具有广播级的视频图像质量,既可以应用在会场视频系统,也能进行远距离传输。目前支持该协议的产品种类有摄像机、切换控制台、多画面分割器、矩阵以及转换器等。

2.3.4 SDI网络化(SDI over IP)技术

SMPTE ST2022是SMPTE(电影电视工程师协会)于2007年公布的SDI网络化(SDI over IP)视频传输标准的一部分,并一直不断完善。2017年9月18日,SMPTE宣布批准SMPTE ST2110内的第一批标准。ST2110标准系列从根本上改变了处理和传输专业媒体流的方式,用IP替代SDI,利用IP网技术协议和基础框架为载体,传输音频、视频和辅助数据流,并且可实现音频、视频和辅助数据流同步。IP化视频系统采用IP化基础架构和IP化承载网络,可完全取代SDI基础架构,IP化承载网络可采用10/40/100 Gb·s-1带宽的以太网,IP化基础架构支持IP化视频数据流,兼容非压缩基带视频数据流和压缩视频数据流,可实现全IP交互,支持软件定义网络(Software Defined Network,SDN)控制,具备SDI与IP互转的能力。IP化系统架构的关键技术有无缝帧精度净静视频切换技术、前向纠错(Forward Error Correction,FEC)、冗余路径、双网络切换、网络带宽保证技术、高精度时间同步协议(Precision Time Protocol,PTP)以及 Internet组管理协议(Internet Group Management Protocol,IGMP)等。这些技术都为IP化系统架构的方便性、可靠性、精准性建立了坚实的基础。广播电视行业SDI over IP技术架构的逐步推广应用,必将会对高质量会场视频系统起到示范引领作用。

3 结 语

随着云计算、人工智能、5G和大数据等技术的广泛应用,视频会议会场的体验也随之全面提升,个性化需求越来越强烈,从“以设备为中心”的模式,进入“以人为中心”的模式。视频会议与会场音视频系统必将形成终端设备多元化、行业应用定制化、解决方案个性化趋势,并逐步形成具有我国特色的视频会议与会场音视频系统发展模式。

猜你喜欢
音视频话筒会场
把话筒传给鹏鹏特
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
小话筒
3KB深圳市一禾音视频科技有限公司
简易无线话筒扩音系统设计及实现
WIFI音视频信号传输的关键问题探究
来自十九大会场的福建女代表心声
会场内外
高速公路整合移动音视频系统应用
开会呢,严肃点行吗?