一、全民艺术普及工作及视音频服务
为贯彻落实中办、国办《关于加快构建现代公共文化服务体系的意见》中关于加快推进公共文化机构数字化建设的精神,2015年起,中央财政面向文化馆行业开启了数字化专项投入。目前,全国已有超过120家文化馆得到中央财政数字文化馆项目经费支持,累计投入经费1.74亿元。随着在第五次全国文化馆评估工作中数字化服务评分项比例的提升,数字化服务正成为全民艺术普及工作的重要组成部分,全国副省级以上数字文化馆启动率达到了97%。为整合数字化全民艺术普及资源,提供一体化、一站式服务,公共文化云服务项目在文化和旅游部的推动下应运而生。该项目以看直播、享活动、学才艺、订场馆、赶大集、读好书等服务栏目为核心,面向基层,提高整体公共文化供给能力,整合对接国家公共文化云与基于数字文化馆服务的各省级全民艺术普及云资源、服务和数据,形成以国家公共文化云为主入口,各省级云联合服务的公共数字文化服务新模式。截至2020年11月,国家公共文化云累计组织数字资源12万余条,(其中,视音频类资源45642条,占比37.94%),访问量5.6亿余人次(其中视音频类资源访问量占比81.01%)。可见,视音频服务在数字化全民艺术普及服务中占据核心地位。对视音频技术的了解,将有助于在5G时代进一步占领服务制高点。
二、视音频服务的技术实现过程
为进一步梳理、把握数字化全民艺术普及的视音频技术服务,首先结合国家公共文化云就视音频服务用户端的技术实现过程进行重点分解。
目前,国家公共文化云提供的互联网服务无论是面向电脑端(PC)、移动端(APP、微信公众号)还是大屏端(EPG),从技术上讲,核心用户交互界面均使用HTML5方式进行构建。一条视音频资源,通过互联网传输到用户端,通过播放器并呈现给用户时,大体要经过四个步骤:
(一)解协议。流媒体协议的核心在于在统一规则下进行数据传输。解协议是将遵循流媒体协议所传输的资源分解还原为标准的封装资源和信令数据,封装资源为需要具体解码内容信息的集合包。
(二)解封装。封装工作是将视频、音頻和描述文件形成统一的集合包。解封装相当于打开集合包,将解协议后独立出来的封装资源分离成视频编码资源和音频编码资源。
(三)解编码。解编码的作用在于将传输过来的压缩视频和压缩音频资源进行还原,根据编码规则的不同,有些资源在压缩还原后会有一定损失,但通常不影响视听效果。编码和解码工作是整个资源文件从传输到播放最核心也是最复杂的环节。力图寻求高效传输与高质量视音频内容上的平衡。通过解码,视频资源最终转化为非压缩的图像数据信息,音频资源转化成为非压缩的音频抽样数据信息。
(四)视音频同步。视音频同步的核心是根据共同认可的时间信息,对视频内容和音频内容进行同步播放。
国家公共文化云用户端解析视音频文件的技术过程参见下图1所示:
图1.国家公共文化云用户端解析视音频文件的技术过程
三、视音频播放服务的技术对比
国家公共文化云视音频播放服务过程,对应的关键技术为流媒体技术、视音频封装技术,视频、音频压缩编码技术以及视音频同步技术。
(一)流媒体技术。流媒体技术主要通过规范服务器与用户端之间通信实现,这些规范形成了不同的流媒体协议。不同的应用场景通常使用不同的流媒体协议。当前互联网主要应用的流媒体协议如下表1所示:
由上表可以看出,互联网视频服务通常采用TCP作为流媒体传输协议,因而像RTMP、MMS、HTTP以及基于HTTP协议扩展形成的HLS协议广泛应用于互联网视音频服务中。尽管RTSP+RTP是国际标准,然而由于互联网环境的不稳定性,RTP这种采用UDP作为传输层协议的流媒体协议容易产生丢包等现象,视频的质量在传输过程中容易受到影响,因此并未广泛应用于互联网视频服务。
值得关注的是HLS(HTTP Live Streaming),该协议是苹果公司推出的直播协议,通过将视频流切片成文件片段进行传输。用户端在接收文件时首先会寻求索引文件(m3u8),里面会有不同码率的文件流资源,亦或索引文件中直接给出ts文件列表,用户端通过给出的ts文件地址依次进行播放。在直播的时候,用户端会不断请求索引文件(m3u8),检查ts列表是否有新的ts切片。因此,HLS因其既可用于直播也可用于点播而被广泛应用。
(二)封装技术。封装技术主要用于将视音频文件、字幕等信息按照一定的方案存储在一个文件中。用户端的播放器根据封装格式将文件按照既定方案进行解封装即可得到封装前的文件。一般来说视音频文件的后缀名称就是其封装格式。目前,互联网视音频主要封装格式如表2所示:
由表2可见,除AVI外,多数的封装格式都支持流媒体播放,能够应用于互联网视音频服务使用。其中,考虑播放器普及程度等因素,RMVB方式没有在互联网视音频网站中广泛使用。被较多采纳和应用的封装技术主要为MP4、FLV、TS等。随着普通用户互联网带宽的不断提升,特别是4G、5G无线技术的广泛应用,TS技术因其解封装后进行播放视频的过程中,不会出现因流媒体片段跳转而产生的黑帧现象,而被互联网视频服务广泛采用。
(三)视音频编码技术。视频和音频的编码技术是互联网服务中最重要的技术之一。其中,视频码流的数据量占了互联网视音频总数据量的绝大部分,视频编码用于将视频像素数据压缩成为视频码流,以降低视频文件总的数据量,高效率的视频编码在同等的码率下,可以获得更高的视频质量。音频编码用于将音频采样数据压缩成音频码流,以降低音频文件的数据量,高效率的音频编码技术在同等码率下,可以获得更好的音质。互联网视频、音频编码技术如表3所示:
在视频编码中,H.264凭借其高效压缩算法及在户联网适应性方面的显著优势,成为当今视频编码领域的主流标准。HEVC(High Efficiency Video Coding)和VP9属于较新的编码技术。值得一提的是,第一版的HEVC视频压缩技术于2013年4月被ITU-T(International Telegraph and Telephone Consultative Committee,国际电信联盟)接受为正式标准。HEVC可以显著提高压缩效率、内容的鲁棒性和出现错误的恢复能力。HEVC预期可以实现利用2Mbps的传输速度传送分辨率1280*720普通高清视频。根据实验结果,同等的码率下不同视频压缩编码标准的视频质量有如下关系:HEVC(H.265)> VP9 >H.264 > VP8 > MPEG4 > H.263 > MPEG2。
而对于音频编码,由于编码技术已经基本可以满足现有带宽下人们的需要,因此近年来并未推出全新的音频编码方案。当前音频编码技术大部分的改动,都是在MP3的继任者——AAC的基础上完成的。根据实验结果,在低码率的情况下(48kbps),不同音频编码标准的音频压缩质量如下:AAC+>MP3PRO > AAC > RealAudio > WMA > MP3。
(四)视音频同步技术。视音频同步技术通过分别读取封装文件内的视频和音频时间戳,并基于基准时间,解决视音频播放时的画音同步问题。在视音频解码后,播放器以帧数据为单位进行播放。由于媒体流本身视音频播放起始帧的差距,视频的非线性播放与音频的线性播放之间的偏差,以及解码及渲染的耗时偏差,播放器需要不断通过文件中的时间戳进行动态的时序同步,确保用户视听的良好体验。视音频同步技术主要使用的DTS(Decoding Time Stamp)和PTS(Presentation Time Stamp)。DTS为解码时间戳,用于告诉播放器该在什么时候解码这一帧的数据。PTS为显示时间戳,用于告诉播放器该在什么时候显示这一帧的数据。
四、当前主流服务平台采用的视音频技术
为进一步了解当前社会互联网视音频主流平台使用的技术规范,针对当前部分点击率较高的平台视音频参数进行了研究。鉴于国家公共文化云是提供视音频一体化服务,因此本次调研仅限于提供视音频一体化服务的平台,未包括仅提供音频服务的互联网平台。当前视音频服务主要包括两种方式:直播和点播。直播即互联网视音频平台直接将视频内容实时发送给用户,目前还处于发展阶段。国家公共文化云的“看直播”频道即提供该项服务。点播即根据用户的需要播放相应的视频节目,这是互联网视音频服务最基本的服务方式,大部分视音频网站都提供点播服务。
(一)直播。主流互联网视音频平台直播服务及公共数字文化服务平台参数对比如表4所示:
以上各直播平台基于互联网进行视频流传输并通过浏览器进行观看,大部分采取了基于HLS(HTTP Live Streaming)协议的直播方案。HLS协议基于HTTP访问,通过读取动态变化的m3u8索引文件,对TS文件进行动态读取和播放,从而完成视频直播流的有序接收。
(二)点播。主流互联网视音频平台点播服务及公共数字文化服务平台的参数对比如表5所示:
综上,当前互联网点播普遍采用的流媒体协议为TTP/HTTPS,采用的封装格式有TS、MP4等,普遍采用的视频编码为H.264,普遍采用的音频编码为AAC。
五、5G时代全民艺术普及视音频服务采用技术建议
5G时代已经到来,其高带宽、低延时的特性必然会对全民艺术普及视音频服务产生深刻影响。以下将结合公共文化云平台、数字文化馆等公共数字文化服务重点项目采纳的标准和现实成果,对5G时代下视音频服务应选择的技术方向提出建议:
(一)流媒体技术应用建议
随着技术的进步,流媒体传输技术会向着更稳定、更效率、更便捷的方向前进。随着HTML5在用户端的日益普及,以及观看视频的终端由PC+浏览器到手机端+App的转变,视音频直播应考虑脱离Flash的场景开展服务。(Adobe公司已于2021年1月1日起不太提供对Flash的维护支持,微软公司给Windows 10系统发布了补丁KB4577586用来卸载系统已安装的Flash插件,各大主流浏览器包括Chrome、Edge、Firefox等都宣布将终止对Flash技术的支持,浏览器默认把Flash功能设置为禁用。国家公共文化云播放器也于2021年起对播放器进行了重新设置,不再使用RTMP和RTMFP等技术标准。)基于这样的考虑,HLS(HTTP Live Streaming)以基于HTTP流协议之上的高性能、高适配集成,且支持IOS、Android、Html5等用户端播放器的原生兼容等优势,被优先推荐应用。点播服务推荐继续使用HTTP协议,主要好处是可以减轻服务器压力。当视频文件完成下载后即可以断开链接,从而节省出服务器资源为其他用户请求服务。此外,在提供视频服务时可以直接使用普通的Web服务器而不必花费有限经费额外购买流媒体服务器,从而可以大幅节省费用。着眼于未来,全民艺术普及直播服务流媒体技术应用建议:HLS(HTTP Live Streaming)、RTMP、RTMFP(Real Time Media Flow Protocol,实时媒体流协议)。
点播服务流媒体技术应用建议:HTTP/HTTPS。
(二)对封装格式应用的建议
封装格式相比流媒体协议和压缩编码来说,不能算作一个非常关键的技术,且不同封装格式之间的差别很小,很多推出比较早的封装格式(例如AVI,RMVB)和相对推出较晚的封装格式(例如MKV)都在视音频服务中占有一定份额。就互联网视音频来说,封装格式可以分为支持流媒体的格式和不支持流媒体的格式两种。支持流媒体的格式包括TS、FLV、MP4、MKV等,其特点是可以“边下边播”。不支持流媒体的格式如AVI等,需要在下载完整个文件后才能开始播放。尽管5G时代的高带宽可以在一定程度上加速文件下載,考虑到并发、存储等限制条件,今后全民艺术普及的互联网服务仍需要以支持流媒体的封装格式为核心应用。全民艺术普及直播服务封装技术应用建议:TS。点播服务封装技术应用建议:MP4。
(三)对视音频压缩编码技术应用的建议
视频数据占据了互联网视音频数据总量的绝大部分比例,因而其压缩编码技术是互联网视音频服务中最关键的技术之一。从现有市场占有率、发展趋势判断,在未来的3—5年内,H.264依然会是主流的視频压缩编码标准。在5G网络时代,网络带宽进一步加大,需要考虑在视频的传输效率和视频的编解码效率之间做动态平衡。可能的场景是视频压缩标准的推进步伐减缓,以适当提高码率的方式增加视频的清晰度。这样,通过5G网络的高带宽来平衡高码率带来的视频文件加大对传输效率的影响,同时不会增加播放终端CPU对视频文件解码带来的计算负担和工作效率。当然,面对视频应用不断向高清晰度、高帧率、高压缩率方向发展的趋势,当前主流的视频压缩标准协议H.264的局限性也将逐渐凸显,但是随着时间的推移,HEVC将最终成为主流的视频编码标准。全民艺术普及视频压缩技术应用建议:H.264,HEVC/H.265。
音频数据占据了互联网视音频数据总量的小部分比例,不会对互联网视音频的总数据量产生太大的影响。因此音频压缩编码技术的进步的需求并没有视频就压缩编码技术的需求那么大。在目前来说,MP3不仅有广泛的用户端软件支持,也有很多的硬件支持。AAC是MP3格式的接替者。就目前的调查看,网络视音频平台已经普遍采用AAC作为其音频压缩编码的标准。鉴于其优秀的性能,在不久的将来,AAC应该也会在硬件等其他领域超过MP3成为市场上最主流的音频压缩编码格式。全民艺术普及音频压缩技术应用建议:AAC。
(四)对视音频同步技术应用的建议
视频和音频都拥有各自的DTS和PTS数据,它们是在编码时由编码器依据参考时钟的时间生成。要实现视音频同步,需要在播放时读取文件中的时间戳,同时设立参考时钟进行播放。可选择的参考时钟包括:同步音频到视频,同步视频到音频,同步音频和视频到外部时钟几种。全民艺术普及视音频同步方式建议:同步音频到视频。
参考文献:
[1]魏雪飞,周祥.HLS流媒体技术在广播电视网络直播系统的应用[J].广播电视信息,2020,27(09):38-40.
[2]周向,李薰春.5G网络音视频传输标准概述[J].数据与计算发展前沿,2020,2(04):65-79.
[3]辛齐.多媒体视频文件格式研究与应用[J].数码世界,2017(07):76.
[4]侯峰.浅析高清视频的编码与封装技术[J].科学之友,2011(18):10-11.
[5] 徐剑烈.H.264向H.265的数字视频压缩技术升级研究[J].数字通信世界,2017(07):6+16.
[6]罗云川,姜秀华,刘平.互联网视音频技术现状与展望[J].上海文化,2014(04):72-78.
[7]毕建华,范健康,刘春华,宋杰.音视频同步方法和装置[P].江苏省:CN111954064A,2020-11-17.
[8]陆小华.媒体融合运作体系构建方法与实现路径——以新华社全球视频智媒体平台与相关运作体系为研究样本[J].现代传播(中国传媒大学学报),2019,41(10):1-11.
[9]陈银凤.浅析音视频同步传输研究与实现[J].西部皮革,2016,38(10):7.
[10]贺海玉.基于5G技术的移动视频直播系统设计及应用[J].电视技术,2019,43(Z2):62-64+69
[11]刘平.公共数字文化融合背景下的数字文化馆建设与发展思考[J].大众文艺,2020(07):13-14.
(作者单位:文化和旅游部全国公共文化发展中心)