沈 浩 卢 伟
中国传媒大学,北京 100024
基于深度学习等算法,通过文本、图片、视频等数据进行训练而得到的能够生成全新内容的模型,我们称之为生成式人工智能(Generative AI),同时为了区别于专业生产内容(Professional Generated Content,PGC)和用户生产内容(User Generated Content,UGC),我们将这种新的生成式网络信息内容称为人工智能生成内容(Artificial Intelligence Generated Content, AIGC)。[1]2022 年11 月,基于问答的文本生成模型ChatGPT(Chat Generative Pre-trained Transformer)发布测试,很快火遍全网,瑞银集团当地时间2 月1 日发布的一份研究报告显示:短短一周之内ChatGPT 用户量便超一百万,两个月活跃用户就达到了上亿级。
ChatGPT 以问答的形式,融合聚拢了众多的自然语言处理技术,这类模型被称为大语言模型(Large Language Model)。大语言模型是在大规模语料上进行训练后得到的深度学习模型,可以理解输入语言文本的含义,生成自然语言文本。它能够更好地理解对话主题和用户需求,可以给出更加真实、生动和自然的回答,更好理解语言的结构和上下文,使用户的交互体验更加完善。
由此,像GPT 这样的大语言模型在各领域的应用也逐渐吸引了学术界更多的目光。GPT、Midjourney 以及AudioLM 是分别在语言生成、图像生成及音频生成方面表现较为优秀的模型或工具。
生成式预训练Transformer 模型(Generative Pre-Trained Transformer,GPT)进化至今,已成为千亿级别参数量的大语言模型[2],在学习和理解人类语言的同时,以积累的大量知识为基础,分析对话的上下文并能够给出自然、流畅且质量较高的回答。简而言之,它以积累的大量知识储备为支撑,能够进行更符合人类常识和价值观的对话。图1 为OpenAI 官方对ChatGPT 原理的介绍。
图1 ChatGPT 训练思路①
于2022 年3 月问世的Midjourney 是一款仅凭输入文字就可以利用人工智能产出图片的AI 绘图工具。其实质是利用Discord 机器人处理用户与AI 服务器之间的请求和响应,将用户编写的参数传入官方模型中,并将生成的图片结果返回给用户。2023年更新的Midjourney v5 版本凭借逼真的出图质量成功获得了广泛关注。图2 是Midjourney 生成的名为“中国情侣”的图片。
图2 Midjourney 生成的图像②
AudioLM 是一款音频生成框架,用于生成长时间连贯的高质量音频。其通过将输入的音频映射成离散的标记序列,使用Transformer 模型预测序列中的下一标记,并转换成音频输出。简单来说,AudioLM 可以仅凭输入的音频为模板将其自然连贯地延续下去。图3 是Google Research 上一篇博客《AudioLM:一种音频生成的语言建模方法》中展示的训练AudioLM(音频生成模型)的过程。
图3 音频生成模型AudioLM 架构③
生成式人工智能正在改变各种行业,影视行业自然也不例外。影视行业是一个复杂的产业,其受众、发行、制作的技术和设备对于影视作品的成功与否都有着重要影响。制作环节所占比重最大,是影视行业发展的基础,包括剧本创作、拍摄、后期制作等。而生成式人工智能恰恰能够给予这些工作更高效、更准确的支持,比如自动编写剧本、自动对焦、智能剪辑、颜色校正、特效制作等。
在影视作品面向受众的环节中,其市场表现与盈利水平构成重要的价值指标。生成式人工智能可以在分析观众反馈和评价以及预测市场表现等方面给出新的思路,比如利用生成式推荐范式为用户推荐更加符合偏好的作品,从而提高影视作品的盈利能力。
总而言之,生成式人工智能不仅能够大幅度提升影视作品的生产效率,还能够影响其传播效率和市场表现,推动影视行业的发展。Gartner 预测,到2030 年,电影大片中AI 生成内容的比例将从2022 年的0%上升到90%[3]。
NAB Show 是美国广播电视协会主办的年度贸易展,是全美最大的媒体、娱乐和技术展会。在刚刚结束的NAB Show 2023 中,生成式人工智能几乎成为了最重要的主题。Adobe 和Blackmagic 推出的AI 工具已经被用于《壮志凌云2:独行侠》《阿凡达:水之道》等电影中[4]。
新技术正在改变电影的构思、开发和制作方式。生成式人工智能正在改变电影制作过程,并为创意表达提供新的机会。下面从内容生成、视觉效果、后期制作、市场优化和观众参与五个方面探讨生成式人工智能可能为影视行业带来的变化。
传统的电影剧本创作方式往往要经过一系列环节,比如创意构思、拟定故事大纲、角色塑造、情节细化、修正润色等,需要投入大量的创作时间和精力。
不同于此,生成式语言模型能够通过自然语言处理(NLP)技术和机器学习(ML)算法生成符合语法语义规则且内容相对真实流畅的文本描述,通过ChatGPT 等模型,我们可以通过对话的形式或者输入一系列关键词供模型识别参数并拟定剧本的核心要素,或提供更为精细的语料素材,供其进行加工,自动生成完整的剧本。
ChatGPT 等模型已具备高度贴近人类常识的剧本创作能力,能够根据输入的提示语生成完整的剧情。图4是作者尝试的一段示例。
图4 文本生成示例
只要给出的条件够多,生成式语言模型完全可以生产出逻辑清晰的剧本供编剧参考。
除了帮助设计场景制作和构图方案、为服装道具设计提供灵感、提供各种特效制作方法外,生成式语言模型甚至可以直接根据输入的内容提供相应制作成熟的视频片段等。
Meta AI 公司于2022 年9 月29 日首次推出的人工智能系统Make-A-Video 成功实现了文本到视频、图片到视频以及视频到视频等的生成功能。此类生成式模型带来的启发无疑为电影制作提供了更多新的选择和便利。用户输入几个单词或几行文字,或上传一段已有的图片或视频,即可生成一段新的短视频。图5 来自Meta AI 公司官网提供的一段参数“A dog wearing a Superhero outfit with red cape flying through the sky”生成的短视频。
图5 文本生成短视频示例④
传统电影拍摄过程中有些难以拍摄的场景往往需要进行前期布景和后期制作,如《变形金刚》系列电影为了达到让观众更加身临其境的效果,其制作中用到了很多特殊镜头设计、拍摄技法调整、场景布局以及新技法尝试等[5]。
而有了生成式模型的帮助,不仅可以根据一段制作好的镜头生成不同片段(图6),甚至还能将静态的图片直接转为生动的视频(图7),在拓宽作品想象力,提升观众视听效果的同时,也同样节省了大量人力物力。
图6 视频转多个变体④
图7 静态图片转视频④
生成式人工智能还可以帮助完成虚拟现实(VR)技术中的场景制作等。由于视差、拍摄环境要求严格、素材存储和传输困难、后期编辑困难等原因,VR 电影技术瓶颈主要体现在拍摄制作技术难度大和艺术创作难度大。2023 年3 月28 日,腾讯AI Lab 发布了自主研发的3D 游戏场景自动生成解决方案,为AI 生成真实度较高的3D 场景提供了实现基础[4]。
AI 驱动的算法可以分析和编辑素材、应用视觉效果,并协助进行颜色分级、声音设计和视频编辑,这加快了后期制作过程,节省了时间和精力。基于精准的自动标记和识别技术,人工智能不仅能够帮助电影制作人完成音频素材的管理和编辑,去除其中的噪音,提高音质,还能通过解析视频素材,识别其中的角色和情感等信息,完成自动剪辑、生成预告片和短视频等复杂操作。甚至可以通过学习大量的案例素材,自动生成新的特效和动画效果,大大提高电影的制作效率和质量,节省制作成本。
如“剪映”“Genny”等应用已经能够提供较为成熟、满足用户需求的智能音频生成以及智能剪辑等功能。
通过大数据分析有关制作成本、票房表现和观众参与度的数据,为具有成本效益的制作策略、营销活动和收入预测提供见解和建议。以大数据分析用户偏好为基础,通过模型解析电影作品,总结其中所包含的关键元素,如导演、演员阵容、题材、时长等,再通过总结比对历史上相似度较高的影视作品的票房数据,在一定置信度内可以预测当前作品的票房、口碑等,并给出优化建议[6]。
2013年奈飞(Netflix)通过大数据技术捧红《纸牌屋》的成功案例提供了有力的现实依据。奈飞通过收集分析大量用户的收视选择、评论、搜索、播放操作等信息,总结出广大受众客观的喜好,并以此作为依据决定成片方式、演员和导演的选择以及播出时段等,使公司当季收入同比提升了18%[7]。
这一成功案例让全世界意识到了大数据的力量,随着大模型在电影行业被提出与应用,人工智能得以助力更高效与更精准地分析用户偏好,抽象出电影作品要素,在此基础上,智能推荐与区块链技术的叠加使用,使得电影作品能够以较低的存储和传输成本、更为个性化的表现形式触达用户。
智能推荐系统为满足广大用户的个性化需求,针对不同行业的智能推荐系统给出了优秀的解决方案,即首先通过大数据收集用户的行为特征数据,构建精准的用户画像,再通过用户的历史行为数据对用户群体进行分类,最后综合这些数据并结合使用场景,按照预设的推荐策略进行个性化推荐[8][9]。
受AIGC 启发提出的生成式推荐范式为实现AI自动编辑或生成Items 以及通过交互引导内容编辑和生成活动提供了理论基础,即用户通过语言文字或按钮选项进行输入后,AI 可以自动分析用户偏好并结合当前语境为用户生成适合的选择。图8 为知乎文章《生成式推荐:迈向下一代推荐系统新范式》介绍的生成式推荐范式。
图8 智能推荐系统架构⑤
互动电影也可仿照这种范式,在智能推荐的基础上分析用户的行为特征以及群体分类等,按照一定的主题生成既匹配用户特征又契合当前剧情的选项参数,并根据用户之前的选择动态地生成更加符合用户偏好的剧情节奏和走向。
值得一提的是,基于模型创建的电影,无论是单一剧情还是互动型电影,都可以由一系列参数完成。也就是说只需要将同样的参数输入相同的模型,便可生成高度相似或相同的体验,对个性化的AI 生成电影进行共享,即二次体验。而这些数字化的参数存储与传输比媒体文件容易得多,这就为区块链技术的加持提供了可能,笔者将在下文进行进一步阐述。
总的来说,对小型工作室和独立制作人,生成式人工智能可以辅助制作者们以更低的成本和人力制作出更好的作品。而对大型影视公司,AI 则可帮助他们优化流程和预算分配,在同样的投入下获得更好的投资回报。
随着互联网的发展,对数据保密性要求逐渐提高,在网络中各节点和信道都缺乏可信度的情况下,区块链技术提供了优秀的解决方案。
区块链技术将时间戳、交易数据等一系列数据加密组装并按时间顺序划分成一个个区块再串接在一起,基于非对称加密算法、共识机制等构建出一个去中心化且可靠的数据模式,实现了一种高度独立、安全高效的自由经济。用户通过区块链技术可以放心地进行数字资产交易。
有了区块链技术的加持,AI 生成电影作品可以以封装好的参数序列形成数字资产,在互联网上实现安全、高效传输,并为实现一系列功能打下基础。
影视作品的版权保护一直受到人们高度关注,由于AI 生成电影的制作方式只需简单的参数输入,虽有一定的专业门槛,有条件者都可以使用模型或调用第三方提供的接口生成,在版权保护方面更容易引发思考。
区块链技术为版权保护提供了高效、安全的解决方案。使用区块链存储电影的数字版权信息、登记周期等,可以大大减少登记和维权的成本,同时也能够帮助提升保密性,节约交易成本[10]。近几年兴起的基于区块链技术保护数字版权的概念也已诞生了相关产品,如蚂蚁集团提供的区块链版权平台等,已经构建出了较为成熟的维权体系。
由前文总结可以得出,在引入了AI 生成电影这一概念之后,不仅电影作品本身,与之绑定的一些数据如主题、作者、版权号等信息完全可以归为一个整体,在生成电影时只需将额外绑定的参数用算法剥离出来,对电影作品本身不会构成影响,这就给AI生成电影的发行、放映以及版权保护等提供了极大的便利。整部电影包括其生成时必要的参数、署名、发行商、版权号等经打包后可以以较以往“轻便”得多的方式实现发行、溯源、维权等。
(1)偏见与歧视。由于地理环境、政治因素、文化差异等限制,供模型用于学习的数据可能有一定的局限性,存在社会偏见,进而导致了其生成的作品也在一定程度上受到影响。例如ChatGPT 在训练时更多使用的是以英语为主的西方的语料,所以其生成的内容也更多地体现了西方主流价值观。
(2)“深度造假”等技术带来的虚假内容。AI 依托生成对抗网络(GAN)技术,通过学习大量真实图像、视频和声音素材,可以生成真实人物的虚假外貌和行为,从而进行深度造假或深度伪造(Deepfakes)。人工智能被用于多起网络诈骗,对信息和财产安全造成威胁,甚至其通过面部图像、视频替换技术对个人的肖像权与名誉权造成损害。此外,随着生成式人工智能产生的作品数量和样式的积累,人们不禁发问:这些作品的归属权究竟在于输入参数创造作品的作者,还是训练模型代码的编写者,亦或是AI系统的运营者。
(3)版权与问责。在使用AI 工具生成作品的过程中,使用者可能需要提供个人数据,也引起了人们对个人信息保护的担忧。随着AI 工具越来越复杂,其内容和版权的归属问题问责难度提高,所产生的负面结果应该由谁来负责,这一问题值得深入探讨。
在各行各业,关于人工智能是否会替代人类的劳动,对原本的社会结构产生影响一直是人们热衷探讨的话题。随着ChatGPT 强大的功能在互联网上被越来越多地讨论,其是否在创作型的工作岗位中具有替代性的探讨也受到了人们的广泛关注。
在电影创作方面,人工智能可以通过大量的算法和数据,替代人工完成如字幕添加、特效制作、配乐剪辑等需要一定专业技能的工作。在节省人力、提高工作效率的同时也为电影创作者提供了更多的创作空间。
另外,人工智能可以帮助分析观众的行为和喜好并提供数据支持,创作者可以更加精准地把控作品的受众和市场,提高电影作品的质量。
虽然人工智能在一些方面可以代替人类更好地发挥作用,但由于其能力实际上是基于大量训练数据的积累,无法提供主观的结果,在创造力和想象力方面是无法完全替代电影创作者的。另一方面,人类的情感和价值观是机器无法准确理解和表达的,在创作过程中,这些必不可少的因素都需要由人类去进行创作和把控。
早在2014 年,Google 研究员就已经开始研究AI创建图像,并取得了一定的成果。AI 生成图像技术发展至今,已经能够生成出以假乱真的高质量图像。人们不由得发问:演员会不会被AI生成图像所替代?
实际上,在现有科技水平下,使用人工智能生成的高质量演员图像除了在真实感和自然度无法完全还原人类外,其语气语调和面部表情等也很难做到精确模拟。另外,专业演员需要通过一定的表演技巧和自身的情感表现将电影角色的内心世界表达给观众,不仅是面部表情和语调的变化,多层次、多维度的表演艺术是人工智能在短期内无法完全理解和再现的。
综上所述,人工智能发展至今虽已能够在很多方面代替人类完成大量复杂的计算工作,但其在短期内无法进化到完全模拟人类进行艺术创作等的水平。
当前以ChatGPT 等为代表的生成式模型在互联网上持续活跃,尤其是2023 年3 月14 日GPT-4 的发布,仅用了6个月的时间就将其给出事实性回应的可能性提高了40%,让人们看到了AI 新时代下模型的发展之迅速。而随着以GPT 为代表的大型语言模型的进一步发展,生成式人工智能技术必将带来更多变革。
(1)自主人工智能模型开发,通过强大的跨模态生成能力创建和生成自己的人工智能模型来学习和完成新任务。如在拍摄过程中针对不同场景、特效的处理,AI 可以自主收集不同类别的场景和特效素材,自主训练出新的模型,用来生成更加符合特定需求的场景和特效。例如《阿凡达》《星球大战》这样的特效电影,其中难以制作的特效便可以通过自动训练模型生成,节约制作成本。
(2)更精确地预测未来情况,通过连接来自更多模式的更多数据点,自主创建包含生态系统的整个虚拟世界,如自动生成特效场景中完整的物理规则等。在电影《星际穿越》中,制作组需要针对故事中不同星球的引力等环境因素来制定不同的物理法则,再通过天体观测、白昼交替的变化等特效镜头体现出来。有了AI 生成完整的虚拟世界之后,制作组可以将这些环境变化以及其在屏幕上的表现方式交给AI来完成,让电影更具真实感。
作者贡献声明:
沈浩:指导设计整体框架,提出论文构思及技术要点,修订论文,全文文字贡献30%;
卢伟:主导完善论文框架,负责具体技术点整合及文字陈述,撰写和修订论文,全文文字贡献70%。
注释
①图片已翻译为中文,图片来源:https://www.nolibox.com/creator_articles/principle_of_ChatGPT.html。
②图片来源:环球网百度百家号https://baijiahao.baidu.com/s?id=1761200520504483423&wfr=spider&for=pc。
③图片已翻译为中文,图片来源:https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html。
④图片来源:Make-A-Video 官网https://makeavideo.studio/。
⑤图片已翻译为中文,图片来源:https://zhuanlan.zhihu.com/p/621252860。