视频智能生产与生成的内涵、应用及发展

2023-06-26 18:22:49姜楠

无线互联科技 2023年8期

姜楠

摘要：文章通过提出视频智能生产与生成的主要问题，追溯视频智能创作发展的领域，通过调研发现国内几种视频智能生产生成平台App的现状、模式和主要特色，概括分析了视频智能生产的智能采集、智能剪辑、智能内容生产、智能模板、智能拆条、智能分发、智能反馈、智能审核和智能虚拟主播9种主要应用，对视频机构和视频从业者提出了发展对策建议，旨在通过人工智能使得视频生产与生成形成价值共创态势，推动视频媒体融合纵深发展。

关键词：视频；智能生产；智能生成；发展趋势

中图分类号：TP311中图分类号文献标志码：A文献标志码

0 引言

人工智能已经成为当下科技和产业变革的重要力量，随着人工智能技术的不断成熟，视频生产生成与之结合后得到了进一步的发展，也促使了各类人工智能视频生产与生成平台和App的快速发展。目前，视频智能生产与生成在人工智能的影响下具有以下特点：（1）平台众多，行业竞争不断加大；（2）产品众多，服务意识不断增强；（3）模式众多，用户体验不断提高。人工智能对视频生产与生成的影响由原来的“专业生产”转变为“专业生产+智能生产+AI生成”。本文总结了人工智能时代影响下视频智能生产与生成的发展、应用及未来趋势。

1 问题研究

1.1 视频主体上：引发视频生产职业生存的危机

视频生产生成在人工智能的加入后不仅大大提高了视频制作效率，同时也提高了更多视频生产生成算法。然而，这样的方式容易导致视频制作者的职业生存主体性危机，原来以人为主的地位受到严重威胁，取而代之的是以机器制作、创作视频内容，不仅让纯技术人员受到了严重挑战，同时也侵占了视频创作者产生视频价值的权利，削弱了其专业性。这种被打破的视频生产生成的模式将对视频筛选、视频把控以及视频价值输出产生極大的影响。

1.2 视频内容上：引发视频内容原创文本的失衡

视频算法的机器性容易导致视频内容千篇一律、千差万别或是偏离视频文本的起初意图，这就使得智能生产生成的视频缺乏深度思考和认知价值。当视频智能生产生成的内容存在信息偏差甚至是伦理问题，就会失去人工生产时的价值标准，从而失去了视频内容原创文稿的实际意义。

2 视频智能生产与生成的内涵及发展

2.1 智能视频生产平台的概念

在人工智能时代，视频行业飞速发展，互联网内容的视频化是大势所趋。视频内容以及视频创作逐渐成为一种新型信息交流的方式。作为新型媒介载体，相比传统的图文类创作，视频内容创作具有一定的门槛。随着AI技术和传统技术的结合，更多普通用户和企业用户可以便捷生产大批量的高清视频。智能视频生产平台可以大大降低视频制作的门槛，并提高视频编辑效率［1］。这种机器生产内容（Machine Generated Content，MGC）的原理就是根据文字内容自动配图制作视频。这类视频会对已有文章的内容生成解说词和配音，通过提取文章中的关键信息，实时获取内容相关的图片和视频素材，通过匹配技术，自动对齐素材与解说内容，合成自然流畅的短视频内容。这种由机器生产的视频最大的特点就是速度快、效率高，平均生成1个视频耗时2～3分钟，每天可以生产500～1 000条视频。通常MGC的内容是依靠机器抓取而生成的，其视频内容往往缺乏逻辑性，如果不经过精细化调整、打磨，观看者在浏览或者运用的时候难以分辨其创作动机，内容质量会大打折扣。

智能视频生产平台主要解决的是视频内容的生产问题，通常分为4个模块：智能拍摄、智能剪辑、智能包装、智能模板。这些不同模块的关键点在于智能标签。智能标签的识别是整个智能视频生产平台的基石。智能标签可以分为环境类、物体类、场景类、人物类等几十个分类或者几千个标签，这些标签构成了AI智能剪辑标签的系统。系统从视频的视觉、听觉以及自然语义等不同维度，自动识别用户所需素材。根据视频内容智能推荐模板，通过素材标签、模板标签智能匹配对应。

2.2 智能视频生产生成的发展进程

2.2.1 人工智能进入新闻领域

人工智能指由机器等人造物展现出的智能，即人造物对环境、信息等进行感知并在此基础上采取相应的符合其设计目标的行动［2］。近年来，人工智能技术开始进入新闻领域。由人工智能技术所推动的智能新闻写作浪潮通常被称作“机器人新闻”或“算法新闻”，指在没有人工干预的情况下，使用计算机软件或算法自动生成新闻稿件的过程［3］。国内最先出现的写稿机器人是腾讯研发的 “DreamWriter”（写作机器人）。此后，国内媒体陆续开发写稿机器人，如“快笔小新”“DT稿王”等，机器写作在不同领域得到了广泛应用。

2.2.2 智能生成视频

智能视频最初是由PPT制作生产视频样式并播放。随着剪辑工具的不断开发和出现，如千巴库AI剪辑工具开发了“去重混剪”功能，它可以控制不同短视频中相同出现的片段次数。在真人秀节目中，这项功能发挥了重要作用。真人秀节目拍摄过程中产生了超长时间拍摄时长素材，通常为1小时以上的视频或者更长，通过AI智能剪辑，无须手动分割镜头，直接使用智能混剪进行处理，通过设置镜头分割时长和视频时长，程序自动将所有导入视频按等秒分割成一个镜头集，根据特定算法计算出该视频集的最大合成视频数，再中度去重、高度去重以及完全去重。智能混剪技术在电视、新闻栏目中使用的频率大大提高。

2.3 视频智能生产的主要模式

2.3.1 模式一：单视频+文案

一个视频配一个文案，平台或软件自动把文案转化成字幕以及真人发音，把视频和字幕同时添加到视频上，此模式适合电影解说、新闻讲解等。系统根据所提供的文字稿件采集文字和视频，从而把采集到的文字和视频自动生成配音和字幕，采集到的视频也会进行分割处理，并抓取片段进行合成，生成新的视频。

2.3.2 模式二：多视频+文案

多个视频随机合成一个视频，把文案转化成字幕以及真人发音，同时将视频和字幕添加到视频上，此模式适合抖音等。

2.3.3 模式三：多图片+文案

多个图片会根据预设的条件随机合成一个视频，并把文案转化成字幕以及真人发音，同时将视频和字幕添加到视频上，此模式适合大批量且视频素材不足的情况。

2.3.4 模式四：单视频

从视频中提取文案，用户随时可修改文案，软件会把修改后的文案转化成字幕以及真人发音，同时将视频和字幕添加到视频上，此模式适合视频加工。

2.3.5 模式五：图文生成视频

根据所提供的文字，快速生成符合文字的视频，实现图文到视频的智能合成，自动对输入的文字进行关键信息提取，合成解说词和配音，同时获取内容相关的视频素材，基于语义视觉理解和匹配技术完成素材选择和解说视觉内容自动对齐，完成视频创作。以新闻视频制作为例，将从原来的时间制作成本压缩为秒级，人力成本也几乎降为零。

2.4 国内智能生产视频的平台（App）一览

视频资源的智能生产与动态生成是在大数据处理、智能算法的基础上将视频资源精准筛选，对海量信息进行比对，根据数据算法智能推送，后期快速智能化剪辑，针对不同用户实现精准化、场景化、个性化的智能推送。如表1所示，智能视频生产生成的平台（App）大致分为以下几种：一是由Magic（魔法）、智影、GliaStudio（集雅制作）为代表的智能视频生产生成平台，对媒资进行智能分析或是直接使用直播视频源，即时完成人脸识别，并剪辑生成短视频，实现视频自动化。二是由来画、美摄、巨量引擎等为代表的以数字人、虚拟主播为特色的，实现AI换脸、一键图文转视频、AI批量化生产视频。三是类似Remotion（移动）使用编程和算法较为复杂的实现视频智能生產生成。四是数美科技主打通过智能标签实现智能审核，降低人工审核成本。

3 智能视频生产与生成的主要应用

3.1 智能采集

智能采集即利用人工智能和大数据，快速获取视频相关数据，通过视频智能生产平台自动获取视频相关的信息素材，经过平台一系列算法，采集视频热点；输入预设视频片段相关需求，平台自动算出时间线索。例如：新浪自主研发的“鹰眼”平台就是利用这样的原理，同时结合大数据、人工智能算法对新闻进行筛选，采编团队进行建模，从而第一时间发现潜在热点并向用户实时推荐。

3.2 智能剪辑

智能剪辑主要是对视频不进行人工干预，设定剪辑策略后由AI自动识别视频内容，识别检测视频素材、智能选取剪辑、自动添加字幕、自动音乐节奏、二次编辑、自动添加滤镜等功能。（1）对视频进行智能AI识别，识别风格化场景，从不同维度构建识别内容体系，对视频片段进行裁剪。经过评分系统挑选出视频的精彩片段，根据精彩片段自动导入内容。（2）挑选出不同的包装方案，这些包装方案会生成不同效果，根据评分系统模拟用户的设想并组合出成品。（3）通过识别内容，在字幕库内选择符合场景的特效作为包装元素添加到视频里面，包括滤镜、音乐节奏的自动打点，从而实现智能剪辑的高效创作。

智能剪辑也可以根据客户的定制化需求进行创作，以《王者荣耀》为例，根据游戏中主角的特技识别他在游戏中的主要功能，是防还是守，并通过击杀动作来区分不同的场景片段，组合这些精彩片段并赋予包装效果，例如音乐卡点、字幕滤镜贴纸，包括火光或是光轮等效果，便可以达到简单的预想效果，大大减少了视频制作时间。

3.3 智能内容生产

智能内容生产根据特殊场景自动输出画面，尤其应用在突发性的新闻事件中［4］。在2022年两会期间，解放军强军网智能生产生成视频并获得好评。具体内容是智能软件自动识别航天英雄杨利伟语音和对话，并利用绿幕等效果达到观众与杨利伟现场对话的效果。观众可以根据自己的喜好进行AI换脸互动，这样让新闻人物与观众大大拉近了物理距离。

3.4 智能模板

智能模板和智能剪辑的区别在于，智能剪辑是一个完全智能化的场景，不需要人工干预，而智能模板更灵活，它可以在运用模板之前由用户根据识别内容、识别标签和模板标签做标签匹配，产生模板推荐，这样就可以灵活选择符合内容创作意图的模板。

3.5 智能拆条

智能拆条主要应用于传统的电视台、企业宣传的新闻类拆条。会议报道或者体育类、晚会类的节目后期制作都是目前正在研究的方向。将智能拆条和云剪相结合，根据原始素材筛选，并通过不同维度在时间上粗略的切割，再根据识别到的素材筛选与之合并，从而达到智能分割、拆条的效果，有利于新闻编辑的再利用以及开发重组。

3.6 智能分发

智能分发依赖于高效的智能算法，大大改变了信息传播链和传播结构，通过深度机器学习算法将用户的偏好、行为等数据进行分析、计算、建模、评估以及推测出用户的潜在需求，通过算法自动抽取、整合、编排信息，最终实现个性化、定制化的内容推荐。以Facebook为例，其采用边际排名算法并紧扣用户社交关系进行新闻分发，最大化发挥了社交关系优势和流量优势。

3.7 智能反馈

媒体通过实时评估与综合评价海量数据和超大规模计算，使内容生产者可以对各个环节进行调整和反馈，提升运营效率，同时为舆情管理、虚假信息治理、版权保护提供依据。大数据挖掘、语义分析等智能技术可以对网络舆情进行深度分析，准确把握当前舆论态势，提高舆情预测、预警和研判效率。

3.8 智能审核

从现阶段的AI智能视频审核上看，完全依赖人审或机审并不能完全满足不同视频平台的各类审核要求。尤其对于大型直播平台，审核要求和审核方式的多样化与标准度维度更高。因此，通过各种算法研究，结合各类视频审核的落地场景进行技术分析，最直接有效的方法就是利用“人审+机审”的审核方案进行智能视频内容识别，添加智能标签进行直接分类，不仅能够大大减少视频平台的人力成本，还能大量减少重复性审核工作。

3.9 智能虛拟主播

用户通过登录主播制作后台，只需输入文字内容，通过智能语音合成、AI面部驱动及专业视频编辑能力，自动生成一个逼真的虚拟主播视频，大大提高新闻播报生产效率，实现灵活部署、智能合成、唇音同步的特点。近几年，这项功能在卡通类、3D、仿真人的虚拟主播应用广泛，通过AI学习驱动任务的嘴部，结合输入的文字转音频，形成虚拟主播的演示。

4 AI技术赋能视频生产生成的对策

4.1 视频机构：加快技术联合和目标切分

视频生产生成是一个不断技术攻坚的过程，随着AI的不断发展和算法提高，对该市场的技术联合和加速推进，不断完成目标切分，使得众多以视频为主的技术公司投入更多的精力和实力在自己擅长的领域。

4.1.1 素材结构化

视频素材，即非结构化的数据，例如图片、视频、音频、文字等，通常情况下不打开文件并不能像文本可以搜索定位。而智能视频生产的第一步就是将素材内容非结构化的数据进行结构化的处理，方便智能识别分类，业务打包或者细分，将是未来发展的一种常见路径。

4.1.2 数据标签化

结构化的数据，将其输入标签，有利于机器检索。例如一些火灾场景可以快速打上突发事件标签；还有一些新闻视频可以根据标签快速将视频中的语音转成文字等。这些利用标签匹配实体的做法，可以快速被识别、调取、组合，进行精准搜索，实现精准定位视频中人物出现的位置、一键上字幕等操作。数据标签是视频AI生产生成的基础，这部分内容如果形成数据联网或者规模化，将使得视频数据更加丰富和避免重复。

4.1.3 场景可视化

智能视频创作可以将需要展示的数据，例如股票走势图等信息的场景，自动进行数据可视化，从而将数据转变为视频或者图像，增加了用户跟踪、观看的黏性。

4.1.4 视频模板化

视频可以匹配不同的视频模板，例如新闻开头的严肃模板、娱乐综艺节目的活泼样式，均可以形成模板供用户使用。模板中的转场、字幕效果、特效等也可以自主定义或自行修改，通过模板的应用，用户只需修改文字或标题就可以一键生成精美视频。

4.2 视频从业者：拓展业务适应和策略调整

视频AI生产生成打破了传统的视频内容生产创作方式，对视频制作和技术人员产生了很大的影响，从角色定位、工作流程、价值碰撞再到职业认同都必须做出业务上的适应和调整。目前，AI视频创作和生产在创新环节上还有待进步，这方面就需要视频创作者利用自己的优势和经验在创新发展上做更多的研究。

5 结语

人工智能的快速发展使得视频生产与生成越来越智能。人工智能引入视频生产生成之后，实现了内容生产的模块化、自动化甚至是创新性。本文总结了视频生产生成的发展、构成及未来趋势，整体上概括了视频智能生产生成的具体模式及方式。AI人工智能融合视频生产与生成大大提高了视频产出的效率，节约了人力、物力，突破了传统的平台、内容、渠道等的限制因素，让机器协助生产内容、突破内容生成方式、有效将视频资源整合、生产发布业务创新、智能应用视频场景、释放技术能力，从而让媒体从业者聚焦更核心的创新能力，取代标准化的体力劳动。这为以后视频智能生产生成应用于教学、广电等提供了思路，也为视频生产与生成的产品和应用带来新的前景和转型，进一步实现智能升级、交互升级，更好、更快、更准赋能媒体工作者和相关机构。

参考文献

［1］李平，杨政银.人机融合智能：人工智能3.0［J］.清华管理评论，2018（增刊2）：73-82.

［2］傅丕毅，徐常亮，陈毅华.“媒体大脑”提供了怎样的深度融合新模式［J］.新闻与写作，2018（4）：11-15.

［3］李琳娟.人工智能时代下的视频新闻发展及思考［J］.传媒，2019（7）：62-64.

［4］叶芷，马彩虹，戴兵.百度智能云视频AI技术助力媒体行业产业升级［J］.人工智能，2020（2）：73-82.

（编辑王永超）

Connotation， application and development of video intelligent production and generation

Jiang Nan

（Guangdong Open University， Guangzhou 510091， China）

Abstract： This paper puts forward the main problems of video intelligent production and generation， traces the development field of video intelligent creation， and finds out the current situation， mode and main characteristics of several domestic video intelligent production and generation platforms （Apps） through research， and summarizes and analyzes the intelligent collection， intelligent editing， intelligent content production， intelligent template， intelligent strip splitting， intelligent distribution， intelligent feedback nine main applications， including intelligent audit and intelligent virtual anchor. It puts forward development countermeasures and suggestions for video institutions and video practitioners， aiming to create a value co-creation situation for video production and generation through AI， and promotes the in-depth development of video media integration.

Key words： video; intelligent production; intelligent generation; development trend