孟繁亭
(中国互联网新闻中心 北京市 100089)
随着社会的发展和技术的进步,人类的生活节奏也加快了,相应地带动着简洁高效的短视频领域的快速发展,与传统的较长时长的视频相比,短视频更能满足当代人的零散阅读习惯,因而发展迅速,且未来发展前景广阔。正是由于这样的良好前景,视频与人工智能技术的融合也逐渐成为了业内研究者的研究重点和方向。目前视频创作者在制作视频的过程中已经用到了相关的AI 技术,比如视频创意脚本创作、视频编码解码过程、视频智能推荐等等,通过结构化的形成视频来促进视频领域的发展,解放人类编辑剪辑视频的大量重复操作,同时净化短视频市场的抄袭重复等不良现象,不仅带来了视频质量的提高,而且也降低了低质量视频带来的流量消耗,替代了传统的人工技术,使得视频结构分析越来越准确。
本文提出人工智能助力视频生产的实践,主要根据其视频生产的不同阶段,各个阶段涉及到的主要技术概括为四个部分:自然语义分析处理、语音合成、图像滤镜渲染、视频编码合成。以下将从这四个角度进行技术介绍。
自然语义分析处理的应用场景有很多,在我们的方法中,首先需要通过对文章进行摘要读取,然后根据读取的结果进行语义理解,以摘要为基础选择视频所需的素材。为了从文章中捕获结构化信息,有必要在语义上有意义的标签上标注自由文本。在这项工作中,我们选择了一种称为“浅层语义解析”的方法,该方法能够将句子分解为简单的内容,从而结构化的概述文章描述的事件:何时,何地,为什么和如何发生这样的事件,从而为视频生成提供基础的脚本。通过自然语义分析处理获得视频创作的脚本信息,通过对这些脚本信息进行分析得到视频的整体结构,对整体结构拆解和研究能够得出在视频创作过程中,可能出现的角色、以及角色出现的时间、位置、视频的字幕图像、甚至视频的核心关键词等等,帮助我们在不观看视频的情况下就能够了解视频讲述的大概内容,得到视频的整体概述信息。
通过将字幕文件转换成带语音播报的音频文件,并合成到视频中,从而形成带有配音的视频。在这一阶段我们采用了语音合成技术,根据字幕文件,采用了一种新颖的方法来合成逼真的语音。使用字幕文件作为输入,我们的方法按照阅读流程为每个视频中的人物合成语音。采用级联策略在两个阶段合成语音:视频视觉分析和视频语音合成。在第一阶段,分析输入的字幕文件以识别角色的性别和年龄,以及每个角色讲话的文本和相应的情感。在第二阶段的分析指导下,我们的方法为每个角色合成了逼真的语音,与视觉观察结果保持一致。通过几次的测试结果,我们发现,所提出语音合成方法可以针对不同类型的字幕文件合成逼真的语音,从而作用于视频的生成过程中。对多个字幕文件的合成结果进行的感知研究证实了我们方法的有效性和准确性。
通过图像滤镜渲染技术来进行视频生成的阶段,这一阶段通常需要将滤镜与通道和图层结合使用,以实现最佳的艺术效果。如果要在最合适的时间将滤镜应用于最合适的位置,除了通常的艺术技巧外,还需要用户对滤镜的熟悉和操纵,甚至是丰富的想象力。这样,给我们手工操作带来了很大的难题,基于人工智能的方式可以实现自动化的图像渲染技术,从而解决了人工操作模式下很大的难题,为短视频快速自动的智能化生成扫清了障碍,促进了短视频自动化生成的发展。
所谓视频编码就是将处理好的视频素材、剪辑好的视频文件等通过固定的压缩格式,形成统一的文件,从而便于视频的传输。视频编码目前有很多的标准,比如国际电联的H.264、M-JPEG、MPEG 系列标准等等。本文针对视频编码合成阶段,提出了一种新的视频编码方法,其中将视频场景分类为具有主观相关和不相关细节的纹理。通过使用纹理分析器和纹理合成器将这一思想应用于改善视频编码。分析器识别没有重要主观细节的纹理区域,并在解码器侧为合成器生成粗糙的蒙版以及辅助信息。合成器通过将合成纹理插入到已识别的区域中来替换与细节无关的纹理。纹理分析器和合成器基于MPEG-7 描述符。该方法已集成到H.264/AVC 编解码器中。对于半自动纹理分析仪,在没有提出方法的情况下,主观质量与H.264/AVC 编解码器相似,显示出高达19.4%的比特率节省。
本文提出的AI 视频生成过程简单,形成的AI 视频在很多测试后被证明这一结构化的短视频生成过程的高效性。生成过程主要分为以下几个阶段:通过语义识别提取文章摘要以及文章标签,对原有的文章进行语义的提取和整合;然后通过标签从素材库提取图片、视频等相关素材,通过上一阶段提取出的关键词来进行素材的筛选,根据获得的摘要选择合适的视频、音频、图片等媒体素材,最后把素材拼接成一个短视频。在人工智能短视频生成过程中所用到的技术如上文所述,主要有:自然语义分析处理、语音合成、图像滤镜渲染、视频编码合成等。
AI 视频生成过程具体流程主要可以概括为以下几个方面:
(1)预设一些图片动画效果,如:放大、缩小、平移、旋转等等。由于素材库中存在部分图片需要调整,所以可以通过预设图片效果来对素材进行初步的调整,方便后期的直接应用。
(2)基于预设动效设置视频模板,模板内容包括:①背景图设置:就是图片动画运行的背景,用户可以基于自身情况上传背景图,并进行设定,从而确定自己生成的短视频使用的背景图片。这一设置功能可以满足不同用户的需求。②动效设置:用户上传样例图片,然后可以针对每张样例图片进行动画效果设定,同时可以对图片与图片之间的过度状态(转场)进行设定,通过设置动效实现静态图片的整合,形成短视频的基础部分,而且满足了用户的个性化需求,增加了AI 短视频的多样性。③文字效果设定:用户可以对一个视频的标题和正文(语音字幕)文字效果进行设定,包括是否有标题、是否有语音字幕、以及文字样式、大小等。可以结合对文章的语义摘要分析结果,以及视频最终生成的内容来设置视频的语音和字幕文件,借助语音合成技术,智能化的生成视频配音。④语音播报设定:内设多种语音播报风格,用户可以根据情况选择合适的风格,然后自动将字幕文件转换成带语音播报的音频文件,并合成到视频中去。⑤背景音乐设置:用户可以自行上传背景音乐,并可将音乐设置为视频的背景音乐,为用户带来方便。⑥片头/片尾设置:用户可以上传片头片尾,并可以选择合适的片头片尾合成到视频模板中去。
(3)基于视频模板生成视频:用户可以根据实际情况选择合适的模板风格,然后输入文章链接解析素材内容。通过语义识别技术,将文字素材体现成文章摘要,同时提取文章的标签,并基于标签内容到素材库提取相关图片和视频素材,然后把素材内容以及对应的模板中的参数设置传到视频生产引擎进行编码合成。针对视频创作过程中的不同素材内容,可能会存在很多类似的图片,音频等素材,我们需要使用有监督的学习来对这些图像、音频等进行分类和回归任务。通过这些技术来得到图像,音频等不同素材的标签。比如一个人物图像的标签有可能是人体或者角色;一本书的标签可能就是一个实体,通过这些分类任务对素材进行识别,这些任务之间都是相关的,利用卷积层实现这些任务。在卷积层之后加上Mask 层进行主干网络的剪枝操作,且这些任务之间是共享神经元的,但每个任务都拥有独立的卷积通道层。
(4)审核发布:生产出的短视频经审核后可以一键发布到短视频平台。目前快手抖音等短视频平台大火,通过简单的操作用户便可以实现视频的上传。这就带来短视频资源的泛滥问题,上传到各个社交媒体的短视频就可能会存在一些质量问题,对于短视频平台就加大了审核和监管的难度。AI 识别技术在这一方面大有所为,通过AI 技术来识别视频图像中的敏感标志、或者违规图像,进而帮助我们审核、筛选出违规的视频。同时由于短视频平台缺乏严格的监管力度,有很多人为了获取流量而盗窃他人的视频拍摄创意,导致视频原创者的利益受到损害,为了保护视频产权,净化媒体产业环境,可以运用视频DNA 做相似性溯源,对视频内容关联关系进行挖掘,对视频内容制作路径溯源,强制删除盗版视频,保护创作者产权。
视频智能化自动生成是未来媒体行业发展的趋势和研究方向,不仅涉及到的领域较为广泛,应用范围也十分宽泛。本文提出的针对视频自动化生成的方式还仅仅停留在简单的实现部分,部分阶段依然存在可以改进的可能,这同时也是未来AI 应用在视频生产领域的发展前景和巨大潜力。
首先针对自然语义分析处理这一阶段,本文仅仅通过语义识别提取文章摘要以及文章标签,从而实现对文章的大意理解,并根据提取的文章摘要和标签选择相应的视频或者素材,尽管这些方法在部分文章的摘要提取过程中取得了很好的效果,但是对于开放领域的文章摘要提取以及噪声相对较大的文章中进行语义分析还是存在着很多的现实问题,依然望尘莫及。如何能够实现计算机真正的看懂我们的视频,从而正确的理解语义,这一目标在短期内依然无法实现。所以,未来通过使用深度学习视频自动描述方法的去噪和时序信息压缩等技术,对于视频自动化描述仍然有着广阔的研究空间,值得进一步探讨。
其次,在视频生成的过程中,存在着关于视频中人物动作识别的问题,对于短期的时序信息,如光流,密集轨迹和三维卷积神经网络特征(C3D)等,已经有研究者提出了更优秀的解决方案。但是,建模长达数十秒甚至数百秒的长期时序信息仍然面对着很大的问题。从现有的基于深度学习的视频自动描述方法来看,有效的视频信息特征表达将大大提高系统性能,同时大大提升人工智能视频生成的准确率和高效性。
本文基于的AI 视频生成都是单事件视频的描述,针对多事件和多事件视频的描述还处于起步阶段,没有足够的经验,还缺乏相应的视频数据集和理论方法。基于语义的事件分离,目前只针对每个事件的描述以及事件之前和之后的依存关系和关联的考虑,尚未开始对整个视频进行描述的探索。所以,未来对于整个视频的完整描述也是研究的热点和方向。
最后,本文提出的AI 视频主要试图通过自动化质量控制来改善视频制作过程。这是为了减少执行相同任务所需的人工干预。从字面上讲,经过训练的AI 软件可以在观看者会发现令人反感的图像中寻找事物。“就像是正在训练一台机器,以发现原来没有被发现的事物,这就是AI 启用视频编码的局限性所在。专家试图用软件最好地表现人类视觉系统几乎是不可能的。”原爱立信媒体解决方案投资组合管理副总裁卡尔·弗格森说,人们针对这个问题的研究,一直在尝试,二三十年都没有成功,而且他认为没有人会永远获得人类视觉系统的精确映射。出现这一问题的主要原因是,与基于度量的AI 观看模型相比,人类观看的主观性质比较强烈,在人们认为现实中更好的图像质量以及测量工具没有一个统一的标准之前,研究只会始终得到不同的结果。但是,AI 视频生产即使有其局限性,AI 也将成为未来压缩引擎不可或缺的一部分。直到该技术能够真正匹配人类视觉系统的复杂性和细微差别,人类干预仍将是高质量视频压缩的必要要素。充其量来说,当人类不得不介入以固定图像质量时,人工智能将不断降低实例的百分比。
本文提出了基于人工智能的视频辅助生产系统应用和实践尝试,尽管在实际应用中还存在着很多需要改进的地方,但是从整体上看,基本上实现了预期的效果,提出了一种结构化的视频生成操作,从视频语义理解、视频智能化创作、视频编码处理等不同方面分别提出了具体的方法,为之后的研究提供了思路和方向,之后的研究也将围绕这些问题展开,不断在原有算法和功能的基础上进行算法的迭代和优化操作,同时在纵向领域不断探索不同行业及领域的最佳实践,以期在人工智能视频+5G 时代全面来临之际,为传统媒体产业升级换代底层技术提供了业内领先的生产力工具和稳定高效的服务能力。