王洪艳,孟祥利,谈鹤然
(1.沧州广播电视台,河北 沧州 061000;2.日照广播电视台,山东 日照 276826;3.辽宁广播电视集团(辽宁广播电视台),辽宁 沈阳 110820)
5G时代,人工智能、大数据、物联网等新一代信息技术与千行百业的融合进一步深入,以人工智能为代表的重大关键技术正向创新驱动、应用深化、规范发展新阶段迈进。《广播电视和网络视听“十四五”科技发展规划》回顾了“十三五”期间广播电视和网络视听发展成果,人工智能技术与广播电视领域的融合不断深化,在广播电视内容生产、分发传输、监测监管等方面都有融合应用,如智能处理、智能识别、智能分析、智能生成以及智能传输等。本文以5G时代AI智能剪辑平台的建设与应用为探讨重点,为人工智能助力广播电视和网络视听内容制作提供参考。
5G(第五代移动通信技术)商用三年多以来,网络设施加速覆盖。截至2022年9月末,我国5G基站总数达222万个,相关融合创新应用也在不断深化,以5G、人工智能为代表的新一代信息技术在重点行业和典型场景的应用持续深化。2022年,中国信息通信研究院发布《人工智能白皮书(2022年)》,指出,自2016年起,先后有四十多个国家将人工智能发展上升为国家战略,我国“十四五”规划纲要明确提出大力发展人工智能产业,陆续批复北京、上海、深圳等十五个国家新一代人工智能创新发展试验区[1]。人工智能向创新驱动、应用深化、规范发展新阶段发展,在算法方面,超大规模预训练模型成为重要方向;在基础算力方面,单点算力不断提升,并向算力定制化、多元化方向发展;在数据层面,数据服务向精细化和定制化发展。
5G时代,人工智能与广播电视的融合持续深化,在超高清制播、融媒体演播、内容生产、智能主播以及监测监管等领域有深入的应用。如《广播电视和网络视听“十四五”科技发展规划》提出“加快媒体深度融合,建设智慧广电新平台”发展目标。5G时代,人工智能在广播电视领域有更加全面的应用,也推动了智慧广电建设。例如,AI推荐算法优化技术,能优化广播电视和网络视听的智能推荐算法;智能数据标签与结构化技术,应用于广播电视和网络视听内容、用户数据标签的自动化识别、命名,可提升广播电视行业大数据资源的质量。AI字幕、AI无障碍播报、虚拟主播以及人物档案数字化等技术推进制播体系技术升级与智慧制播的发展。人工智能在语音识别、多模态语音识别、降噪、断句等关键技术的突破,使AI字幕能够更广泛地应用到直播类与非直播类节目制作中[2]。AI无障碍播报中使用人工智能情感分析、语义分析、手语动作驱动及表情驱动等技术,能够为广播电视节目提供手语、表情、唇语等多种表达方式[3]。虚拟主播技术发展迅速,目前已被广泛应用于新闻、综艺、体育、财经及气象等广播电视节目中,以短视频主播、数字网红、直播带货等虚拟形象为主。以2022年两会为例,央视网推出《两会C+时刻》节目,运用实时面部+动作捕捉、实时渲染、深度学习等人工智能技术,实现虚拟数字人小C与真人互动。人工智能与广播电视制作剪辑的结合,进一步提升了广播电视节目制作剪辑效率。依托5G高速率、低时延、大连接特点,AI智能剪辑平台的运行更加流畅,能够更好地为广播电视节目服务。
5G时代,视频剪辑的发展面临新的形势。4K/8K、3D、VR/AR/MR、高帧率(HFR)、高动态范围(HDR)、广色域(WCG)视频迅速发展,视频剪辑难度随之提升[4]。5G时代,媒体融合的深度与广度进一步拓展,在此背景下产生庞大的视频资源。视频素材分散、重复性工作耗时费力,仅依靠传统剪辑软件与人工剪辑,很难在短时间内完成剪辑工作,造成视频资源浪费、优质资源埋没、剪辑时长增加以及人工成本增加等问题[5]。人工智能技术在智能识别、智能分析、智能生成及智能决策等方面的发展,能够有效提升视频剪辑的效率与质量,通过视频标签、视频指纹、图像搜索及内容审核等应用,提升广播电视与网络视听节目的智能化剪辑能力,促进广播电视和网络视听行业高质量、创新性发展。
AI智能剪辑平台系统框架主要分为四大部分,包括媒资管理、视频内容理解、视频内容检索以及视频内容生成,如图1所示。媒资管理模块包括电影、电视、短视频及广告等多种媒介资源,满足融媒体时代多样化的视频剪辑要求。在视频内容理解层面,从视频数据帧、镜头和场景三个层次进行视频理解与解析,结合不同层次的特点,通过图像、语音、文字以及视频切片完成跨模态视频内容识别。在视频内容检索层面,通过跨模态检索实现自然语言、语音或者图像的视频检索模式,实现关键词、自然语句、视频帧及视频镜头等多粒度内容快速检索。在视频内容生成层面,能够实现依据创作剧本的视频内容生成、学习剪辑师或顶流短视频的剪辑方法[6]。
图1 AI智能剪辑平台系统框架图
AI智能剪辑平台的技术框架主要分为CDL数据库、智能语义分析以及智能剪辑三大板块,如图2所示。CDL数据库负责大量视频的存储,智能语义分析包括特征提取、语义分类两个方面,智能剪辑流程包括采集视频图像、特征提取、关键帧提取以及生成视频。
图2 AI智能剪辑平台技术框架
AI智能剪辑平台的功能模块包括业务系统、视频分析及基础资源三大模块,如图3所示。业务系统中主要有新闻网、制作网、媒资库等,视频分析包括智能审核、智能识别及智能编辑等功能,基础资源包括主机、存储、网络及数据库等模块。智能审核功能能够实现对视频声音、图像、文字的涉黄、涉暴、涉政识别和定位。智能识别功能中,人脸识别与语音识别是基于大数据深度学习方案,实现视频人物人脸及语音的识别。文字识别、物体识别能够帮助剪辑工作者快速定位文字与物体在视频中的位置。帧标签识别能够自动识别截图画面标签,完成物体、场景、动物等万种标签的自动识别工作。智能编辑实现精彩锦集、智能拆条、视频分类、智能封面、数字水印及片头片尾等功能。以精彩集锦为例,通过AI智能剪辑平台,能够实现视频关键点的智能识别分析,并自动生成体育赛事、游戏活动等精彩集锦。以智能封面为例,AI智能剪辑平台通过视频内容理解与海量用户行为数据分析,能够智能化地选出最优关键帧和关键片段作为视频封面。
图3 AI智能剪辑平台功能模块
AI智能剪辑平台在广播电视与网络视听领域有广泛的应用,如央视网推出的原创融媒体节目《春晚进行时》应用索贝AI智能剪辑,AI智能剪辑系统能够获取6路摄像机画面并通过人脸识别、画面清晰度识别、景别识别等功能进行智能化剪辑,推动了互动综艺类节目全自动、实时、智能输出成片的发展。又如湖南卫视《我是歌手》节目通过5G高新视频AI智能剪辑平台完成节目的剪辑工作,有效解决了节目云录制、直播视频实时采集、实时监控、1080P视频回传等关键性问题,配备大众评审团脸部识别系统,提供定制表情AI识别功能。5G高新视频AI智能剪辑平台完成《我是歌手》节目九期云录制,处理时长超过3 821 h,切图识别超过560万张,生成拆条视频超过38万段,精选视频超过15万段,为节目后期制作提供了丰富的视频资源。2021年,首届广播电视和网络视听人工智能应用创新大赛中,智能剪辑类奖项有17个,其中一等奖有三个,包括智能语音转写系统、5G高新视频AI智能剪辑平台以及基于深度学习框架的智能视频内容生产平台。人工智能与剪辑技术的结合,能够有效提升广播电视与网络视听节目的制作效率,推动广播电视高质量、创新性发展。
5G时代,人工智能、大数据、云计算等技术与广播电视的融合更为紧密。基于人工智能技术的AI智能剪辑平台能够有效提升剪辑效率,降低剪辑成本,提高视频资源的利用效率,推动广播电视从业人员创作出更多优质作品,满足受众日益多样化、大众化、个性化的视听需求。