俸永焘
(来宾市广播电视台,广西 来宾 546100)
随着5G、深度学习、大数据以及云计算等现代计算机行业基石技术的不断发展,许多行业都在用这些新型技术去改造自身业务,以期提高效率或探索行业发展规律,掀起了新一轮的信息系统“新基建”浪潮。
来宾市广播电视台将目前的融合媒体业务场景与5G、深度学习相关技术进行有机结合,在当前的传统业务基础上,开展利用新技术提升日播新闻以及新媒体内容生产的尝试,利用5G网络进行远程高清素材回传,结合公有云深度学习服务中的人脸识别、语音识别、画面识别等技术进行台内部分栏目的媒资智能化管理,并通过语音转文字方式快速进行成品新闻节目的定位与拆条。
第五代移动通信技术(5th Generation Mobile Communication Technology,5G)是最新一代蜂窝移动通信技术,是继4G(LTE-A、WiMax)、3G(UMTS、LTE)及2G(GSM)系统之后的延伸。5G的性能目标是提高数据速率、减少延迟、节省能源、降低成本、提高系统容量以及连接大规模设备[1]。5G的峰值速率、空口时延、网络容量以及频谱效率都远远优于4G。媒体新闻生产业务对于带宽、延迟以及抗干扰性都极为敏感。因此,传媒行业是5G落地场景中的一个典型。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(Artificial Intelligence,AI)[2]。相对于人工智能这样宏大的命题,深度学习更能体现这种技术的本质。目前,视频、语音以及图片的识别本身就是深度学习的主要训练模式之一。在实际应用场景中,深度学习已经在媒体处理等方面取得了相当多的成果。
本系统主要基于来宾市广播电视台现有节目生产平台,增加了5G传输资源以及公有云深度学习处理平台,为台内开拓了5G回传、低延时直播以及5G云编辑的新型业务场景,并应用神经网络的计算机视觉、语音识别以及自然语言处理等特性,实现对台内媒资系统内的素材进行智能化识别,实现素材入库的自动化收录及拆条、智能标签处理以及语义文本分析,为多屏生产提供高效的内容和检索支持。根据安全等保的需要,所有增加的业务均与制作内网隔离,增加的业务运行与否不影响台内业务的正常运行。整体采用从基础设施即服务(Infrastructure as a Service,Iaas)到平台即服务(Platform as a Service,PaaS)再到软件即服务(Software as a Service,SAAS)的3层结构,逐渐从硬件资源抽象到业务层,系统架构如图1所示。
图1 基于5G+深度学习技术的融合生产业务系统架构图
IaaS基础资源层主要提供存储资源、计算资源、网络资源以及5G传输设备资源,为上层PaaS提供硬件基础支撑。
PaaS层服务层主要提供数据库、Web以及资源管理等基础后台服务,媒体处理相关合成、转码、校验等基础后台服务以及智能媒资服务,为上层SaaS层业务工具提供全面的服务支撑。其中智能媒资服务的能力来自于公有云提供的深度学习智能服务。
SaaS应用工具层主要提供新闻、文稿、串联单以及协同生产工具,实现5G直播、5G回传以及5G跨网域协同编辑等,为台内日常新闻生产以及内容生产提供具体的业务支撑。
由于在该架构下,台内的业务需要对公有云服务进行调用,并且涉及到互联网的回传和直播等业务,因此所有具体业务服务器都建设在台内的私有云平台上,与互联网通过安全等保设备进行连接。网络拓扑如图2所示。
图2 基于5G+深度学习技术的融合生产业务系统网络拓扑图
平台通过5G信号接收外来直播信号或记者回传的素材,在接收的同时,平台进行录制采集。录制采集后交由公有云提供的智能化媒资服务进行处理,将素材内的语音识别为对应的文本字幕,同时标记出人物信息。编辑可利用识别出的文本字幕进行文稿编辑,同时对于带标记信息的素材,编辑可以进行挑选使用。在编辑的过程中,互联网端的云编辑客户端可以就正在编辑的工程进行协同编辑,生产面向新媒体方面的内容。
2.4.1 5G技术特性带来的多种应用场景改善
目前广电行业常用的4G远程回传设备,其设计受限于4G网络带宽限制,均采用多卡聚合绑定的方式。由于户外网络连接存在环境复杂和网络阻塞等因素,画面仍然会出现卡断和延时较大的情况。而目前普及的5G技术NSA阶段,设备对基站的理论速率可达到20 Gb·s-1,实测数据显示,实际应用中的5G速率下行稳定在870 Mb·s-1,上行能够稳定保持在95 Mb·s-1,单卡完全满足高清视频信号低压缩甚至无压缩的传输带宽需求,并且在覆盖满足的情况下,还可以实现长时间的移动直播。
2.4.2 深度学习提升生产效率
通过在日常的新闻汇聚、生产及发布业务流程中加入深度学习的各种智能处理能力,大幅度提升了新闻内容生产的敏捷性,并且使前端工作人员的编辑方式发生了巨大的变化。例如,新闻汇聚过程中的图像识别、语音识别以及人物识别,可以使编辑人员不再需要从头到尾浏览一遍素材,直接从识别出来的人物标签或语音转换的字幕即可定位到所需场景,打点之后即可进入时间线编辑,大大减轻了编辑人员的工作量,使编辑人员有时间和精力专注于内容的创作,提高了媒体生产力和传播力。
2.4.3 跨网域的云编辑业务
5G与媒体融合的关键是基于5G网络的网络能力和边缘云平台等特性,实现媒体业务的移动化、远程化及云化[3]。基于5G的云非编可以帮助广电用户快速构建多种形式的混合云编辑平台,在家里、办公网及异地都能够实现节目的编辑,工程文件、字幕文件及模板文件可以相互调用,实现随时随地的编辑,同时,不同的终端还可以基于同一个素材进行不同传播方向上的内容生产。
5G技术将在下一阶段进入SA独立组网阶段。届时,5G单卡数据上传速率能够达到现在95 Mb·s-1的数倍,完全达到超高清直播的带宽要求,并且可以加入H.265编码方式进一步压缩超高清直播所需的码率。目前基于TCP的直播传输技术主要有HLS和RTMP/HTTP-FLV两种协议,其中,HLS直播的延迟一般在10 s以上,HTTP-FLV直播的延迟一般在6~9 s。但基于TCP的直播传输协议完成一次建连需要进行9次会话,且始终难以实现带宽自适应以及针对于数据包的拥塞控制。而基于UDP的安全可靠传输协议(Secure Reliable Transport,SRT)是一种开源互联网传输协议,凭借强大的数据恢复机制,配合UDP协议自身速度快和开销低的特点,可以实现安全、可靠及低延迟的传输效果,结合5G自身的带宽和低延迟特性即可实现超高清视频的低延时直播。目前国内测试的场景延迟可低至数百毫秒,大大提高了用户体验[4]。
随着对本地大量音视频素材的累积,广播电视台可以直接将自身的智能化影音资料查看与检索作为服务对外输出。智能化影音资料库应当以内容管理为核心,将各种视、音频资料及生产过程需要的图片、文档、图表及工程文件等按照存储策略的设置有序地保存到各种存储设备中。系统在为内部提供存储设备管理和存储策略定义等基础服务模块的同时,向外提供素材上载、关键帧抽取、挑选整理、资料检索、编目、转码、资料交换以及版权管理等应用软件供资料加工使用,可以同时满足各个单位对于本级行政单位影音资料的存储与再利用需求,为各单位提供简洁、高效的资料检索与再利用服务。
来宾市广播电视台在现有内容生产平台上搭建的5G+深度学习的服务接入属于该方面的初步尝试。实际应用验证了5G技术对于高码率直播回传和云编辑的促进作用,同时,公有云提供的深度学习智能化服务也为台内的生产和媒资管理提供了非常积极的经验,能够为台内后期的融媒体平台提供一定的帮助。基于5G+深度学习技术的融媒体业务的应用,需要深挖5G、人工智能、大数据和云计算等新技术,建立策、采、编、发融合业务流程,实现新闻、资讯及信息的一次性采集、多媒体呈现以及多渠道发布,完善全媒体传播架构,早日实现智能化内容生产传播体系建设的目标。