广播电视节目制作中的深度学习和智能剪辑技术

2022-02-10 08:42
电视技术 2022年12期
关键词:音频电视节目广播

刘 超

(吉林广播电视台,吉林 长春 130033)

1 相关概念阐述

1.1 广播电视节目

广播电视节目也称广电节目,指电视台和广播电台所播出内容的基本组织与播出形式。从时间段角度来看,广播电视节目是一个多层次的系统,按时间段划分,表现内容的方式是线性结构传播的方式,根据节目的时间长短顺序来播放节目。广播电视台主要播送音频,而电视台主要播送视频节目。近几年,网络、科学技术发展迅速,也为广播电视台的音视频节目制作提供了技术帮助。

1.2 深度学习

深度学习的英文是Deep Learning,简称DL,是机器学习(Machine Learning,ML)领域一个新的研究方向。可以这样理解:深度学习融入机器学习,也就是人们所说的人工只智能(Artificial Intelligence,AI)。人工智能的范围较大,其本质可以通过深度学习表现出来。当前,深度学习的主要训练模式就是识别音频、视频、图片等[1-2]。在现实生活中,深度学习已经被应用在媒体处理等方面,也取得了一定的成就。

1.3 智能剪辑概述

智能剪辑是通过丰富的剪辑手法,自动让视频呈现不同风格,一般用于照片、录音、视频等的剪辑,以去掉不需要的、留下精彩的部分。细分智能剪辑,其过程可以分为四个步骤:视频采集、特征提取、关键帧提取以及视频生成,即根据数据库的主题,提取视频片段的特征,对视频片段的关键帧进行提取,通过将相关片段进行拼接,最终生成视频[3-4]。

2 深度学习在广播电视节目制作中的应用

2.1 在音频节目制作中的应用

音频信号具有时序性、语义性等特征,计算机不能直接对音频信号进行处理,但是可以通过对信号进行评估和预测,实现对音频的处理加工。

2.1.1 语音识别

很早之前,人工智能技术就应用在语音识别领域,主要应用在音频识别和自动朗读等方面。应用深度学习模型,可以准确地识别出目标音视。例如,不同地区方言不同,利用深度学习模型可以准确识别方言、合成方言等,也可以区别音频中的音调、音色等物理指标,并学会对其进行判断[5]。

2.1.2 说话人识别与合成

说话人识别与合成的应用广泛,可以在很多方面加以应用。当前,深度学习的重点研究领域为通过计算机建模判别音频信号,以此来分辨声音的来源。例如,各种声音一同发声时比较混乱,此时可以通过深度学习来辨别声音,根据声音的独有特色,自动识别出某个特殊人物的讲话或者有特点的背景声音等[6]。这些操作可以提升广播电视台在音频制作方面的效率,再配以快编、媒体资产编目等模块,使得音频信号的处理实现智能化、自动化。

2.1.3 语义识别

在音频节目制作中,语义识别是一个具有挑战性的项目,在节目制作中是难度较大的部分,在音频制作生产中有非常重要的作用。语义识别是人类等高级动物所特有的,需要大脑参与,是一项较智能的活动,其大致过程如下:通过深度学习模型对音频信号的内容、来源等进行掌握,对音频信号进行整体的把握,理解音频信号,并对音频信号的内容进行想象、推理。众所周知,信号相对音频来说较为抽象,因为其没有画面性,人们根本不能通过肉眼的观察来了解人物的情绪、心理活动等。但事物都具有两面性,也正是因为信号较抽象,也就使得其传递出的语义较为丰富,人们便可通过音调、语调节奏等对音频进行区分,也可以通过音频来判断人的需求、情绪、喜好。根据相关实验可知,深度学习模型是具有时序处理的能力的,当前已经应用在语义识别、预测、合成等方面[7-8]。

2.2 在视频节目制作中的应用

深度学习技术已经在音视频中广泛应用,但由于音频信号较抽象,因此在视频制作中,深度学习技术的应用更加广泛[9]。目前,在视频制作过程中,视频内容的合成主要使用计算机来完成。国外对这方面的研究较早,有很多研究成果值得借鉴学习。在我国,深度学习技术的应用也逐渐广泛。随着媒体融合越来越深入,无论是新兴的自媒体,还是传统的广电节目制作等领域也都将人工智能技术融入其中,不断提高制作效率、产品质量。

2.2.1 场景与人物识别

场景与人物识别在广播电视节目制作和生产中非常重要。最早的场景与人物识别工作是由记者、编辑人员来完成的,由于识别量大,所以需要花费相关工作人员很多时间。现在,工作人员可以借助成熟的深度学习技术来进行视频的智能处理,使整个过程自动化。应用计算机,可以自动地对视频中的画面和人物进行打点、分割,对周围环境、特殊镜头等的捕捉也可以实现自动化。智能化的操作,很大程度上提高了节目的制作效率,减轻了工作人员的压力,可以使工作人员有更多时间和精力去研究剪辑、创作等。

2.2.2 字幕识别与处理

字幕识别与处理是广播电视节目制作中,制作人比较关注的一个步骤。由于技术水平优先,一般情况下,字母与视频素材往往是重叠的,如果要去掉字母,就需要使用图像处理工具,或者使用马赛克等将字母遮掉。这样处理给工作人员带来巨大的压力,而且处理后视频的质量也会大不如前。利用深度学习技术,可以解决这一问题,在对画面质量不产生影响的前提下,可以自动识别字母与视频,将字母提取出来,还可以在去掉字母之后增强视频效果。这些智能化的技术对电视广播节目制作意义重大。

2.2.3 自动合成

在广播电视制作中,自动合成具有重要作用。随科学技术的发展,深度学习模型应用越来越广泛,目前已经实现了根据节目的主题、素材、类型等,智能化地合成节目的音频、视频、字幕及特效等,自动变换音频的节奏、镜头等,还可以根据预设情境自动渲染气氛。这种自动合成水平不亚于广播电视制播人员的水平,可以称得上有专业水准。

3 智能剪辑在广播电视节目制作中的应用

广播电视的后期制作需要投入大量的人力、物力,而需要耗费人力、物力最多的要数视频剪辑过程,后期人员需要认真观看视频的内容,选出有代表性的片段。随着人工智能技术的不断发展,智能剪辑技术已经能够自动预测摘要片段,而且准确性高。后期制作时,利用人工进行视频剪辑效率较低,而且花费的时间较长,智能化剪辑的使用可以大大提高剪辑效率,节约剪辑需要花费的成本。由于智能化剪辑的种种优点,人们开始逐渐重视并深入研究它。当前国内外的观点较多,其中有关智能视频摘要算法的成果显著,应用范围广泛。根据输出内容的形式进行分类,智能视频摘要算法可分为动态和静态两种。动态摘要算法的定义是,将从视频中抽取的精彩片段以串联组合的形式生成摘要视频并向用户展示;静态视频摘要的定义是,向用户展示在视频中抽取的关键帧。目前,各大网站门户与短视频生成平台已经应用智能视频摘要技术,如生成视频让用户快速预览频、生成新闻片段发布等。智能视频摘要算法助力广电制作人员提升工作效率,帮助后期剪辑快速且高质量完成。在广播电视行业与人工智能融合发展的形势下,探究人工智能在广播电视后期制作中的应用尤为重要,利于后期制作的发展。

3.1 有监督动态视频摘要

与图片不同,视频帧之间具有相关性。有专家学者提出一种基于监督学习的动态视频摘要技术,该方法使用长短期记忆(Long Short-term Memory,LSTM)网络预测视频结构,对视频帧间的可变范围时间相关性进行建模,输出具有代表性的片段和时空相关性紧密的片段,如图1的 vsLSTM网络结构所示。

图1 vsLSTM网络结构图

3.2 无监督动态视频摘要

有专家学者提出了基于无监督学习的深度摘要网络(DSN)实现动态视频摘要,视频摘要转化为顺序决策过程,其结构如图2所示。在频率分布的确定上,DSN首先预测每帧被选择的概率,其次通过系统解析,确定所选择的视频帧率,并以此为依据,选取关键帧,最终形成视频片段。如此看来,如何提高DSN的解析水平,便成为广大编辑工作者主要的研究课题,因此有必要建设一个端对端的学习框架平台,从而使DSN生成的视频摘要片段更具多样性和代表性。MAHASSENI等人提出的无监督学习的动态视频摘要方法,通过选择最具代表输入视频的视频帧动作为析出子集以生成片段,如图3所示。这种方法学习一个摘要网络时,不需要人值守监督,能够缩短训练视频和摘要之间的距离,并且生成了一种新的对抗式网络。这个新的网络包括摘要器和鉴别器,在进行视频摘要的时候使用的是自动编码器长短期存储网络。在甄别原始视频与摘要视频时,使用的则是LSTM网络。

图2 DSN网络结构

图3 基于无监督学习的动态视频摘要方法网络结构图

3.3 探 究

前文提到过,基于深度学习技术的动态视频摘要片段生成的过程可以分为四个步骤:视频采集、特征提取、关键帧提取以及视频生成。这四步中的关键是有效的时序特征和语义特征提取方法。由于不同帧之间信息量不同,人们常常通过特征聚合的方法来进行优化。受限于传统视频摘要方法准确度不高的状况,后来慢慢地被基于深度学习技术的视频摘要算法替代,基于GAN网络的动态视频摘要算法性能较高,也常常用来替代部分人工参与视频剪辑的过程,这些都是目前视频摘要中性能较好的算法。

4 结 语

音视频的优点有很多,如时间短、娱乐性强、内容丰富、制作简单、传播迅速等,但音视频在快速发展的同时也暴露出了一些问题,只有妥善处理这些问题,灵活运用技术手段,才能创作出更优秀的音视频,为用户提供更好的体验。当前,我国在各个领域都已应用深度学习关键技术,创造的商业价值非常大,广播电视行业应该抓住机会,不断创新,在广播电视节目制作中充分利用深度学习关键技术,制作出更多人们喜爱的音视频节目。

猜你喜欢
音频电视节目广播
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
广播发射设备中平衡输入与不平衡输入的转换
音频分析仪中低失真音频信号的发生方法
周五广播电视
周三广播电视
电视节目
网络在现代广播中的应用
论交警广播直播室的构建
Pro Tools音频剪辑及修正
电视节目的移植与创新