孙 荣
(大连新闻传媒集团,辽宁 大连 116022)
人工智能(AI)已经走入电商、教育、安防、医疗、汽车等各个领域,使各行各业飞速发展,改变社会的生产、生活。当然,人工智能也在走入广电领域。国家广播电视总局发布的《广播电视人工智能应用白皮书(2018版)》中提到,“广播电视终端趋于智能化,亟需探索实践人工智能与 广播电视行业的深度融合,推动人工智能在广播电视内容生产、制作播出、分发 传输、终端消费、运行维护、监测监管、网络安全等领域的广泛应用,加快广播 电视从数字化、网络化向智能化发展,提升广播电视行业生产效率,开发新业态、 提供新服务、激发新动能、引导新供给、拉动新消费,推动国民经济发展”[1]。
从广电、网络传播所辐射的视频市场来看,传统的电视媒体、网络视频、移动终端视频、户外媒体视频,这些海量视频的消费已成为新的全民生活方式。
截止到2019年底,中国网络视频(含短视频)用户达7.59亿,网络视频(含短视频)是中国第二大互联网应用,仅次于即时通信,市场规模达1871.3亿元[2]。
如此旺盛的视频市场,让广电充盈的视频素材库和优异的制作技术有了充足的发挥舞台。将人工智能与视频素材、制作技术结合,还会创造出新的增长点。
除此之外,版权市场的日趋成熟,“加强版权保护”、“推进文化体制机制创新”和“以激发全民族文化创造活力为中心环节”是发展文化产业的根本之策。激发创作活力和建设公平的市场竞争环境的关键手段是加强版权保护[3]。在此基础上,电视台庞大的正版内容有了保障,精良的制作有了发展空间,形成了视频市场的良性循环,也成为广电在新时代、新技术下发展的优势。
具备了这些优势,如何利用人工智能等技术手段将广电行业中积累的庞大素材库盘活,并发挥其更大的效用,成为重要课题。
大连新闻传媒集团根据国家广播电视总局指导要求,结合自身发展特点,用渐进的方式实现人工智能在整个集团的应用落地。
大连新闻传媒集团约在5年前全面停止了标清设备的使用,正式迈入了纯高清时代。但是标清素材有三十万小时之巨,而且其中大部分极具历史价值。让老素材在高清系统中使用是要解决的问题。
一种方式是直接利用上变换设备进行转换,要把素材用录像播放,用SDI或分量接口接入上边换器,经信号采集、图像变换处理后输出高清信号。由于画面比例问题,会采取两侧加黑边、上下裁剪或拉伸等变换处理方式。这些处理方式的问题是,变换只能按照一比一的时间进行,变换后的图像往往只是1 920×1 080的格式,不能满足放大观看。
第二种方式是非线上变换。现有的非线基本都具备上变换功能。由于算法不断改进,基于插值运算的上变换效果还不错。这种方式的问题在于现用现算不能规模化解决问题。广电的发展如此快,刚刚步入4K时代,8K便随之出现。非线上变换在算法迭代和规模化处理方面显然已跟不上超高清的要求。
对于上述显现的问题,解决方案聚焦到人工智能。对于图像的放大是最常见、也是最基本的需求,图像是像素构成的,决定图像的清晰度,不能无限放大。人工智能则可以应对这一问题,通过人工智能的图像超分辨率技术,可以使标清上变换为高清甚至4K,同时保证足够的清晰度。
图像超分辨率技术在低分辨率图像生成高分辨率图像的过程,可以根据已有的图像信息重构出缺失的图像细节。视频超分辨率技术则更加复杂,不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性。超分辨率重建是要得到一张超高分辨率的图像,先准备一系列的低分辨率图像,然后将这些图像通过算法进行组合[4]。TecoGAN就是一种新的超分辨率重建算法,类似功能的算法还有很多,都可以让有历史价值或经典电视剧、电影等老素材焕发新的生命力。
SRCNN是第一个超分辨率的神经网络模型;ESPCN超分辨率神经网络模型是基于小图进行训练,对实时视频进行超分辨率处理的实验结果也非常理想。对 1080 HD 格式的视频进行3倍放大,SRCNN每帧需要0.435 s,而ESPCN则只需0.038 s。
大连新闻传媒集团与国内研发团队合作,参考VDSR、DRCN、DRRN等算法,在内部存储系统中增设了可进行超分算法的服务器。这样即使升级到4K或者更高分辨率时,也无需增加上变换硬件;同时,还避免了依赖非线算法迭代。利用算力完全可以脱离现有制作设备,构建高清、4K甚至8K的历史素材库,也无需人为干涉,不再需要为老旧素材复用投钱、投精力。
众所周知,新闻中会因各种原因需要对人像进行处理,如果完全靠人工审核,难免漏检,造成事故或引起纠纷。人工智能则可以很好地解决这一问题。
人脸识别、标识过滤等是人工智能图像分析领域的分支,很多人对人工智能的认识就是从人脸识别开始的。在后期制作系统中,增添对特定人物、标志的识别和标识功能,在调用素材时进行识别和标注,类似防火墙的作用。在实际使用中,还可以设置识别的报警阈值,把相似报警阈值调低,即可相应提高检出的报警数量,在标注点再进行人工审核。这样的好处是不至于漏检,也不至于因阈值拉高导致可用素材减少。
人脸识别功能不仅仅是识别人像,同样可以用于物体的识别。全台没有统一的媒体资产管理系统(简称“媒资系统”),原因在于,建设媒资系统后还要投入更多的资源进行素材的编目工作,以及对兄弟台经验的考量。广电的编目标准有专用的白皮书,仅是把一组图像里的元素与编目标准对应就很让人头痛了。况且,在互联网上搜寻内容基本是模糊搜索,而且用图像搜目标也不是新技术。因此,广电制作系统需要更新技术,以使用为导向,找出既可解决问题又能减少工作量的方案。
联合研发团队对人脸与物体识别重新规划应用方式,先对常用的人物与物体做提炼,形成新的训练标签;同时对不同部门的制作存储系统重新规划,形成全台的分布式存储系统;在总机房设立人工智能服务器,提供两项功能:第一,根据已形成的标签对全台分布式存储系统扫描形成检索路由表,第二,对所有制作网终端提供检索服务。
这一解决方案具有以下几个优点。其一,相对与传统的编目方式,人工智能的工作量主要在前期的标签训练,一但训练结束,后期的标注索引工作也可以交给计算机完成,不再需要大量的人力去做编目。全台每年素材量的增长是7 000 h,可想而知传统编目方式的人力、时间成本,而使用人工智能人脸与物体识别技术后可以有效减少此类资源的浪费。其二,搜索方式更接近现在的互联网使用习惯,有不错的使用体验。其三,对于需要添加新的编目类型,需要做的是用现有的算法训练神经网络认知新物体,不需要像传统方式那样重新看一遍素材。
大连是一座具有足球底蕴的城市,大连足球队创造的辉煌至今令人记忆犹新,有体育部门希望提供过往比赛的视频资料,并提出了进行慢动作回放等技术处理的要求。但在后期非线制作中,进行慢动处理后,整个动作失真,像木偶剧一样一顿一顿的,令需求方困惑。
其实,业内都知道,现场的慢动做都是高速摄像机拍摄,再由专用的慢动作设备回放,并非是将录好的素材做慢动作处理再回放。
针对这个需求进行了技术调研,寻求解决方法。2019NAB(2019美国广播电视展)展会上的“AI智能慢动作”解决方案,利用深度学习算法,模拟生成中间帧,可以制作10倍的超级慢动作视频,但该算法只支持自己的硬件。而基于cuDNN 加速的PyTorch 深度学习框架,给出了一种将普通视频“慢动作化”的新方法,实现任意视频慢动作,通过该人工智能框架,结合NVIDIA Tesla V100 GPU处理能力,它可以将任意一段视频拉长,从而实现类似电影特效的慢动作。利用AI算法处理视频,能将普通30帧录制的视频进行智能的插帧计算,从而获得240帧或480帧的慢动作视频。
技术层面的问题确定后,基于PyTorch开源算法,用现有素材构建慢动算法。经过两个月的训练,获得的成果可以初步给足球视频做四倍速慢动作,更好的效果还需要更大的样本量训练。虽然这是一个很小的应用,却让大家感受到了人工智能的魅力所在。
大连新闻传媒集团运用人工智能的相关技术进行媒资管理、节目制作等初级的探索。通过这些实践可知,人工智能只是在现代机器学习算法的基础上,让计算机在某种程度上具备了把问题与答案形成映射的能力,可以担负在已有的训练模型下大量的重复工作,有助于提升广电行业生产制作等方面的工作效率,为其高质量发展提供新动能。
但在现阶段,计算机还不能像人类一样思考,不能完全取代人工,只能有限地模拟人类的某些行为。现有的神经网络还有一些未解决的问题,比如人类可以通过视觉分辨烟、雾气、流水、火、玻璃等流体和半透明的物体,但是计算机还没有能力很好地解决这些问题。
对于广电,或者说视频行业,人工智能的应用远远不止于文中提到的这些,还有图像的处理、短视频智能拆分、内容在网络的智能分发等更多的应用。随着广电迈入与网络融合的时代,人工智能的应用一定会从特殊解决方案成为成为常规解决方案。