基于生成式人工智能的影像叙事形式研究

2024-11-10 00:00孙瑞遥
艺术品鉴 2024年10期

摘要:伴随人工智能技术的迭代发展,基于生成式人工智能的影像叙事形式同传统影像叙事相比发生了明显的改变,本文从技术更迭的角度出发,分析总结了基于生成式人工智能的影像叙事形式的三个特征:文本内容去中心化、银幕形象微小化、情节结构开放化,最后对人工智能影像下的影像未来发展提出展望与反思,从而对生成式人工智能下,影像的叙事理论研究提供了一定的认知路径参考。

关键词:生成式人工智能;影像内容;叙事形式;人机协同

2024年5月,OpenAI举办了首次春季新品发布会,在发布会现场介绍了新一代生成式人工智能(AIGC)模型ChatGPT-40,本次大模型的主要更新之处在于其交互方式,相较于ChatGPT-4,ChatGPT-40可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出,其交互方式横跨语音、文本与视觉影像,更具灵活性与理解力,同时也进一步的对传统影像的生产产生技术性的推动。自人工智能开始出现以来,生成式人工智能快速发展,技术迭代迅速,在各个领域都对人类的生产生活产生了重大影响,2023年Runway举办首届人工智能电影展,第十四届北京国际电影节特设AIGC电影短片单元,第二十六届上海国际电影节围绕“Sora”举办主题展映、专题论坛等都彰显人工智能与电影行业的深度融合,AIGC赋能影像制作已不再是噱头,电影行业及影像本身的未来形态已处于生成式人工智能的视野区域内。

AIGC作为人工智能技术的最主要分支,就其本身输出形式来说,可分为文本、图像、音频、影像,2024年发布的视频生成模型Sora突破文本输入与影像输出的壁垒,从视频编码、加噪降嗓、视频解码三个步骤实现影像输出,显著提升AIGC视频的生长长度、稳定性、分辨率,准确性,以“世界模拟器”为最终目标,驱动着电影工业的智能化进程。正如尼尔·波兹曼(Neil posiman)从媒介视角探讨技术与文化时论述“技术变革不是加法,也不是减法,而是生态上的变化”,AIGC对于影像创作的深入浸染已改变电影工业的“生态”环境,以人机协作为特征的后电影工业美学范式逐渐彰显。

电影评论家纳文·乔希(Naveen Joshi)在其访问中提出,人工智能技术对于电影制作的应用来说主要可分为以下六个方向,分别为剧本创作输出、前期制作的辅助、选角、配乐、剪辑、宣传发行。以上的分类基准主要遵循传统电影的创作流程,从垂直领域分析AIGC技术如何赋能电影的数字化应用问题,提高电影生产效率,深度挖掘电影全流程创作潜力,优化电影工业视听创作空间。然而回归电影创作本体,其最根本的目的为使用影像叙事,斯蒂芬·阿普康在《影像叙事的力量》中阐述:“通信、语言、技术以及紧随其后的文学素养的发展,不仅仅能够带动商业发展,同时也会对无休止的‘故事热’进行降温,我们用视频讲故事的新方法就像文化基因本身一样,即用影像讲故事源于人类文化基因。”影像的叙事是人类文化的本能。因此在AIGC的背景下,影像的叙事形式如何演变是研究当下影像发展的现实问题。本文以生成式人工智能技术为线索,从技术更迭的角度出发,探讨基于生成式人工智能的影像叙事形式特征,为未来影像形态的发展提供一定的认知路径。

叙事学诞生于欧洲,在形成过程中受到俄国形式主义、法国结构主义与美国芝加哥学派的影响,源头可以追溯到结构主义的开创者弗迪南·德·索绪尔的语言学,在普罗普《俄国民间故事研究》里阐明了故事的七种行为范畴。罗兰·巴特认为“任何材料都适宜于叙事,除了文学作品以外,还包括绘画、电影、连环画、社会杂闻、会话,叙事承载物可以是口头或书面的有声语言、固定或活动的画面、手势,以及所有这些材料的有机混合。”格雷马斯、茨维坦·托多罗夫、热奈特等学者也分别对叙事学做了相关的阐述。伴随不同的文化背景和社会的演变,叙事学也从经典叙事学衍化为后经典叙事学,经历了从形式主义批判到后经典叙事学的转变。在中国,叙事学研究始于改革开放后,相关学者引入的西方叙事学,结构主义和新批评、接受美学等理论成为学界关注的对象,同时,如《红楼梦》的个案研究,中国学者尝试将中国传统文艺学同西方叙事学结合,从中国传统经典著作中提取叙事元素和视角进行本土化探析。当下数字时代,就影像而言,基于生成式人工智能的影像叙事形式有以下特征。

一、文本内容:去中心化的叙事形式

从叙事形式角度出发,基于生成式人工智能的影像即代表人工智能算法对于影像内容创作的影响,同媒介变迁耦合,也就是说,人工智能技术的发展与影像创作之间双向循环交涉。伴随着科学技术的发展,媒介形式呈现多样化趋势,影像也开始通过不同的媒介展开叙事,借助AIGC,打破了媒介特异性的艺术本体观念,将媒体世界中的不同数据系统如图像系统、文字系统、音乐系统等,通过机器学习和深度算法学习,自动化的填充连接,井在两者之间形成关联。亨利·詹金斯的《融合文化:新媒体和旧媒体的冲突地带》提出跨媒介叙事的概念,指出:“跨媒体叙事是指随媒体融合应运而生的一种新的审美意境—一它向消费者施加新的要求,并且依赖于在知识社区的积极参与。”叙事的主体通过不同的媒介融合来演绎呈现,媒介的参与者也反作用于影像文本叙事的推动,如《黑客帝国》、《头号玩家》等影片。生成式人工智能对于影像文本内容的创作由工具思维拓展至叙事思维,同传统电影叙事形式相比,具有去中心化的特征。基于人工智能的技术特点,其参与影像的叙事方式以程序化生成为主,呈现出利用“数据库”的内容生成叙事模式。马诺维奇将“数据库隐喻”(database metaphor)归结是计算机技术带来的文化改变,指出“它把个体和集体文化记忆、文件或实物的集合体,以及各种现象和经验进行概念化处理”。这种电影文本内容生成方式更多依赖算法与数据,而非叙事相关方法论建构。因此基于生成式人工智能的影像内容叙事较传统影像来说更为复杂,通过个性化的组合、修改、筛选、重构,呈现出的情节排列多采用非线性、多逻辑并行模式,内置线索隐喻丰富,数字信息庞大,并不局限于单一中心媒介或情节,致力于为观众不断的提供新的视角及切入点、引导观者在非线性叙事环境中自我探索接收信息。

例如,第95届奥斯卡金像奖最佳影片《瞬息全宇宙》(如图1)采用Runway公司的技术来帮助完成电影,采用Gen-1模型生成主角“伊美琳”在多重宇宙转换中的影像碎片。导演关家永和丹尼尔·施因内特是从《黑客帝国》中获取灵感,《黑客帝国》作为一部经典数字电影,在叙事哲学及影像视觉效果上都具有巨大且深远的影响力,并衍生出一系列相关作品。上映之初,区别于传统好莱坞叙事标准,其采用了超前叙事形式,情节前后不连贯,蕴含大量隐喻,促使当时观众对影片存在一定的理解障碍,只惊叹于数字合成技术等科技特效带来的视觉冲击力。然而,伴随着数字信息大量冲击,观众对于数字化的理解加深、快速处理大量信息的能力增强,对“故事”的需求也发生改变,当我们今天在看《黑客帝国》这部电影时,观髟障碍的壁垒被打破。《瞬息全宇宙》在叙事内容上,通过每一个差异化的微小选择,创造多重平行宇宙的分支,“伊芙琳”在各个平行宇宙中是厨师、京剧演员、超级英雄、功夫巨星等等,跳出传统电影规定叙事的线性、因果规律束缚,如同单一“个项序列”单独依据某种逻辑分别建立,在不同平行宇宙中多逻辑并行叙事,信息量庞大,呈现出去中心化的叙事形式。

然而这种去中心化的叙事形式,也带来相应的模式陷阱。生成式人工智能基于算法生成内容,半自动或自动的产出符合影像主题的程序化叙事内容,如同从数据库中根据不同的要求随机排列组合出不同的个项序列,以非线性、非因果模式重新建构叙事,虽然跳出了传统好莱坞叙事标准的束缚,但又踏入数据库无序组合的随机序列陷阱,在一定程度上缺失要素、序列之间的内在状态强关联性。

二、银幕形象:微小化的叙事形式

正如“银幕上的形象表现,按其本性即倾向于叙事性的表现。”所述,叙事性表现决定银幕形象的塑造与呈现,叙事方式的不同准确而深刻的影响影像的信息传递同故事讲授。后现代哲学家利奥塔(Jean-Francois Lyotard)在《后现代的知识状况》提出后现代的本性在于知识的状况,知识状况的集中表现即为叙事方式,这种观点具体解释为,其表现为对“宏大叙事的不信任”,转向细微或微小型的“小叙事”。换句话说,相较于大故事线的统一宏观叙述,更关注于每一单独个体的微小叙事,倾向于叙述日常中具有差异性的个体特殊小故事。约翰·斯道雷总结为“人们认为后现代主义标志着享有特殊地位的各种号称有着普遍意义的元叙事的崩溃,听到了日益增强的不同呼声,这些呼声坚持求异,主张文化多样性,推崇百家争鸣,反对一花独放。”

在后现代的文化语境下,从以上叙事文化理论延伸至影像叙事,即为影像叙事方式特征由宏大化转向微小化。伴随着人工智能的快速发展,人类大脑这一接收信息与反馈处理信息中心被大量的信息流所冲击、重构,不断进化、提升,对于故事情节的信息展现及银幕形象的情感传递呈现多样化、个性化、差异化的需求。作为后现代的新的影像叙事形式并非处于现代之后,也同传统影像叙事形式不是对立关系,而是并立的另一种表述世界的手法。

在人工智能发展的过程中,数字信息流的大幅度扩张取决于其语言大模型的技术突破与应用,新一代GPT-40的训练数据量达到数万亿个参数,模型反应极快,能够充分的理解人类的情感,在视觉和音频理解方面能力提升尤为显著,同时对于非英语语种语言的文本性能明显提高。在交互方面,GPT-40可以跨越文本、音频和视频进行实时推理,实现极自然的“人机”交互。“以用户为中心”的交互方式为基于生成式人工智能的影像叙事的重点要素,实时引擎和交互引擎是其实现叙事的技术基础,引挚功能指自动生成故事脚本、窦时场景、数字影像、音频文件等,用户从沉浸式、互动性两方面在虚拟现实环境中实现人机交互。关于人工智能叙事的相关研究,研究者们普遍关注“人工智能在叙事中扮演的角色身份与功能问题,身份包括认知/情感代理(cognitive/emotional agent)、故事管理者(story manager)、虚拟代理(virtual agent)等,功能包括叙述故事、管理故事、表演故事、与用户交互等。”从认知-体验-情感三个层级的结合共同缔造沉浸式叙事环境与体验。生成式人工智能的技术特点为其影像叙事形式的微小化特征提供技术底层建构。

基于生成式人工智能的影像叙事形式具有微小化的特征,从整体叙事结构分析,如同—张大型故事网,每一个故事都是微小的个体叙事,具有个体化、差异化的特征,相互独立的要素通过相互作用,聚拢构筑为内容多样、复杂的故事网结构,通过协同作用呈现出独立要素所不具有的功能或行为,用户同影像角色进行个体独特的语言、行为互动,依托人机互动的共时性,无数生成的微小的角色、空间、事件聚集,共同搭建一种不断增值化的多样故事网叙事结构。在叙事内容方面,同人工智能交互方式匹配,多侧重于以用户为中心的角色扮演叙事,从角色的“微视角”出发,强调人物的个体化情绪感受,以观众同角色之间的宴时互动实现情绪化的内容表达,伴随简单个体的不断演化,建立叙事进程,避免以大情节为线索的线性宏大叙事,打破传统影像叙事法则。

例如,由美国底特律公司Waymark制作的AI电影《霜》(如图2),其采用了公司制作人乔什·鲁宾(Josh Rubin)撰写的剧本,并通过图像制作模型DALL-E-2生成里面的每一个镜头,电影本身不再追求宏大故事线的连贯性与准确性,而是倾向于每一个镜头、角色的微小叙事,将静止图像堆叠,通过塑造角色的荧幕形象,营造诡异、不安的情绪氟囤、完成整部电影的叙事内容,呈现拼贴风格。

三、情节结构:开放化的叙事形式

传统叙事呈现出闭合化的特征,法国理论家茨维坦·托多罗夫把叙事问题分成三个层级面向:叙事时间、叙事体态和叙事语式。从叙事时间层面分析,叙事话语的时间是一种线性时间,而故事发生的时间则是立体的,通过“时间的弯曲”、“连贯、穿插和交替”、“写作时间和阅读时间”三大粪不同的叙事时间形式,打断故事时间的自然接续,在话语时间中重新排列组合,最终完成叙事时间的闭合连贯。类比于文学叙事时间理论,髟像叙事中对于时间的把握在于故事的时序、时长及时频,通过调整事件序列顺序、事件占用的时间、事件被提及豹次数,整合构建闭合性的连续时间系统,塑造传统影像叙事情节的连续与结构的完整,其闭合性不受视角转换或叙事顺序的影响,呈现单向输出无反馈的控制模式。从影像画面内容来看,其对于素材本身的描述即展现了故事客观存在的全部内容,影像画面空间固定,叙事结构自足,意义恒定,不受观者的行为及情绪影响,无“人-机”之间的互动双向关系。

基于生成式人工智能的影像叙事形式呈现开放化的特征,开放式的叙事形式彰显出叙事主体同客体之间的内部复杂关系及深层结构,区别于角色人物之间主体与客体的视角切换,人工智能下影像叙事中的主客体分别为人物与人工智能体角色,即“人-机”之间的对话及关系。通过观者的参与,叙事时间会因为其主观性的行为而改变或停止,影像叙事时间不具闭环特征,连贯性被打破,呈偶发性的特点,从某种意义上来讲,同演员或影像创作者的即兴创作有相似之处,但根本差别在于基于生成式人工智能的影像叙事时间偶发性是因为“人-机”之间的互动产生的,面不是某一个创作者或演员主观独立决定的。叙事的时长、时频、时序伴随着观者的选择而出现不同的情况,是一个开放性的过程。从叙事画面内容来说,叙事空间较为自由,观者对叙事内容的发展走向具有选择权,主观选择差异,呈现不同的叙事结局,同一观者不同时间进入影像叙事过程,可出现不同的叙事画面,情节可在多个故事线中穿梭移动,叙事形式呈现开放式的特征。而叙事形式的开放性存在一定前提,即“叙事的本质是残缺的,应可被选择的”。人机协同的双重叙事主体在多维互动状态中,叙事内容依语境重构,依情绪变化。

例如,中央美术学院独立艺术家徐冰的《人工智能无限电影(AI-IF)》(如图3)项目,本项目始于2017年,没有导演、编剧、摄影师或演员等参与的实时电影生成系统。观者可在电脑页面上任意挑选—个电影类型,包括战争、爱情、科幻、犯罪和前卫五类,通过输入希望片长、关键词及关键句,即可生成一部由ai制作的无法复制、永不重复的电影。在电影播放中,观者还可以通过输入新词汇来改变电影中的角色或叙事情节内容。

四、基手生成式人工智能的影像未来的发展隐忧

伴随着人工智能技术及系统的高速发展迭代,影像在叙事形式和内容上和过去相比存在较大的差异,最终导致影像中的数字世界同真实世界的边界越来越模糊,人工智能的深度伪造及其非真实性不新的在伦理道德方面考验着人类。Sora作为人工文生视频大横型,其主页的宣传标语即为“作为世界模拟器的视频生成模型”,在帮助人类完成影像艺术创作的同时,制作出“深度伪造”的虚假形象,以AI数字人、AI换脸等为代表的“深度伪造”(Deepfakes)技术已经非常成熟,达到肉眼无法辨认的程度,将超现实带入了真实生活。

那么基于AIGC的影像未来是否会同约翰·奈斯比特所预测的,在这科技制造代用、代理、虚拟、假象的时代里,我们愈来愈弄不清何者为真?何者为假?从目前来看。以Sora为代表生成式人工智能技术还不能完全达到“世界模拟器”的作用,但根据其目前展现的发展趋势,当技术的革新真的足以支撑机器模拟世界,人类的认知能否跟上科技的发展速度不断进化,与之匹配?当面对一个事件,人类的认知同AI的认知不相匹配时,会发生什么事情,谁具有更为主动的定义权?

以上问题都可以归结为人工智能同人类社会的融合问题,如何从伦理道德、文化差异、隐私保护等方面完善、评估人工智能的发展与推广是我们需要考虑清楚的问题,不同社会背景与文化下的世界观、价值观差异如何在人工智能驱动下的虚拟影像中共存也是跨文化交流的重要议题之一。

同时影像作为艺术家表达自我,探索世界的一种外在表现方式,在AIGC的驱动下,其叙事形式的微小化及叙事结构的开放化,都使得个体的独特性及观点将被重点强调及放大,表达内容完全受个人束缚,促使自我意识的过度膨胀,此类现象是否会引发社会性的道德文化意识形态的变革?因此在人工智能的未来发展路径中,评估及测试是建立完善机制不可或缺的关键步骤,从而确保生成式人工智能影像的发展和应用符合社会的伦理道德标准及人类价值期望。

结语

基于生成式人工智能的影像叙事形式同传统影像叙事形式相比,呈现出文本内容去中心化,银幕形象微小化、个体化,情节结构开放化的特征,将影像的媒介融合实践从传播和消费端,前景到创意与内容生产部分,即影像叙事不再局限于线性叙事、因果叙事、叙事结构完整清晰等传统叙事形式,而是成为一个更具开放性,互动性更强,多维动态建构、信息量庞大、更为复杂的影像叙事系统。作为人类创作者,我们在追随人工智能技术发展的同时,还应考虑其应用是否符合社会的伦理道德标准及价值期望,围绕人机协同的双重叙事主体进行影像的创作,正确理解生成式人工智能同影像叙事形式的作用关系。