庞静
(浙江纺织服装职业技术学院,浙江 宁波 315211)
随着自然语言处理NLP 技术、生成对抗网络(GAN)及扩散模型(Diffusion Model)等技术迭代,利用人工智能技术自动生成内容的新型生产范式AIGC(Artificial Intelligence Generated Content,人工智能生成内容)在2023年成为全球范围内人工智能研究应用领域的热点。
我国《数字中国建设整体布局规划》中提出“2025年数字文化建设跃上新台阶,数字技术创新实现重大突破,应用创新全球领先”等主要目标。涵盖了数据、人工智能、5G、通信以及计算等工作的数字经济占我国经济比重近乎达到40%,足见创新带动数字消费在我国生产生活领域的重要性。
腾讯研究院《AIGC 发展趋势报告2023》中,将AIGC 的生态体系架构分为基础层、中间层和应用层三个层次。基础层是以预训练模型为基础的AIGC技术基础设施层,在国外以OpenAI等为代表,通过受控API、开源等方式输出模型能力[1]。中间层是在预训练模型基础上,通过训练和调试形成垂直化、场景化和个性化的应用工具层,以期实现适合按需使用的潜在商业价值。应用层是基础层和中间层垂直之上的模型层,包括图像、语音、文字生成等各种面向C 端和B端用户开放的AIGC 应用,通过降本增效满足海量用户的内容创建和消费需求。
文本生成(ChatGPT、文心一言等)和图像生成(Stable Diffusion、触手AI等)是当前AIGC应用层中用户体验人数较多的生成式智能应用。据Gartner预测,2023 年20%的内容由AIGC 所创建,至2032 年AIGC的市场规模将从当前的5%提升约至20%[2]。艾媒咨询《2023 年中国AIGC 行业发展研究报告》中预测2028 年中国AIGC 行业核心市场规模将达2767.4 亿元,超九成用户看好AIGC发展前景。
当前内容创作领域普遍面临产能不足的困境,AIGC海量内容生成实现降本增效的优势,使动画、影视、游戏等数字文化产业在2023 年积极投身AIGC 研发。2023年6月8日在上海举行的“2023‘影视+’产业大会”中,动漫影视文创产业普遍看好AIGC 应用前景,并预测AI 技术与内容创作结合将进入实质阶段,继而引发数字文化产业重大变局。
周葆华的研究表明,当前生成式智能应用作为对象(obect)在“实际如何被使用(实践行动)、可以如何被使用(功能分析)、存在哪些弊端(算法审计)、伦理风险(价值规范)、如何治理(法治规范)”等方面颇具学术研究价值[3]。而从媒介演进角度看,消费者对媒介消费的评价会对未来消费产生影响[4]。如何更好地掌握和预判用户的选择行为,是当前国内外受众研究急需解决的议题。
1995 年—2009 年出生的Z 世代作为数字文化消费的主要群体,具有参与性高、互动性强、关注碎片化、喜好圈层化等群体特性。哔哩哔哩(简称B站)是Z世代关注ACG(动漫游戏)文化的虚拟社群,用户在交流中通过信息获取、内容创作分享等方式获得自我满足与个性释放的心理需求[5]。虚拟社群中的用户在知识共享时受到动机、自我效能和态度等个人因素以及信任、互惠规范、社会认同等社群因素的共同影响[6]。
据2022 年QuestMobile 数据统计,B 站近82%的用户是Z世代用户,弹幕是B站连接UP主与普通用户的重要方式。发送弹幕具有行为上的仪式感,通过这种仪式感能够强化“圈子”与其他组织的区别,形成对自我、群体的认同[7]。点赞+弹幕的方式体现出Z世代用户互动性和参与性的圈层特征,可以作为Z世代用户个体态度的表达。AIGC技术强化了生产者与传播者的融合,新的媒介业态下研究Z世代用户对新生媒介的内容偏好以及他们对AIGC应用的态度,对AIGC第三层应用的开发有实际价值。
1950年图灵测试(The Turing test)中提出“机器能否思维”,以技术逻辑与操作实践肯定了机器作为功能表征思维的存在论意义[8],可以看作人类对生成式人工智能的最早幻想。1957 年首支由计算机创作的音乐作品Illiac Suite问世,由于早期深度学习领域的研究进展缓慢,生成式人工智能并未取得广泛应用。
2006 年杰弗里·辛顿(Geoffrey Hinton)提出的深度信念网络(Deep Belief Network,DBN)推进深度学习算法领域的研究进程,2007年首部AI小说I The Road问世,但存在可读性不强、辞藻空洞、缺乏逻辑等问题[9]。
2012 年IMAGENET 比赛中,Alexnet 网络的应用开启深度学习时代。卷积神经网络、生成式对抗网络、扩散模型等深度学习算法相继出现并得以应用。2016 年深度学习网络层数随着Transformer 大模型等深度神经网络结构升级而得到爆发增长至几百上千层,解决了智能生成图片与视频的高清晰度问题。算力和预训练模型的成熟使得以文本生成为代表(Chat-GPT 等)和以图像生成为代表(Stable Diffusion 等)的AIGC应用自2022年底呈现出爆发式增长态势。
AIGC 成为B 站Z 世代用户讨论的热点。在B 站中以AIGC 为关键词进行搜索,删除与主题无关内容后,按最高播放、弹幕数、点赞数对前50条热门视频进行梳理,发现Z 世代用户对于AIGC 话题的讨论主要集中在以下几个部分:
其中,图像生成内容占比最高(计数14),降本增效相关内容占比其次(计数11),人机关系探讨领域(计数10)模型训练技术视频受到关注(计数7),伦理风险与版权保护(计数6)。从最受关注视频标题来看,AIGC 在以CG 动画、数字绘画等图像生成领域受到Z世代用户最多关注;围绕应用本身降本高效和深度学习能力,从业者产生了被取代的困扰。AIGC 算法复杂、内容浩瀚,限于篇幅,本文仅对生成式智能应用在图像生成领域展开研究。
从图像生成的模型构架来看AIGC架构特点有助于了解其在动画中的应用。图像生成模式的AIGC 根据应用场景的不同,采用某种特定规则或模型,通过机器学习算法生成内容用以增效降本。模型架构主要包含文本处理、模型训练、模型部署三个阶段:
表1 B站“AIGC”主题50条最高播放视频内容示例
Stable Diffusion 为代表的图像生成模型大致可分为三个阶段。文本处理阶段(文本编码器)将文字信息通过词干提取等文本预处理操作后提取文本特征,转换成模型能理解的语义向量;模型训练阶段由图片信息生成器和图片解码器组成图片生成器,利用大量的数据集对模型进行预训练,以便模型能够更好地理解用户的意图。随后依据评估指标对模型进行评估,重复训练以求最优解;模型部署阶段将训练生成的低纬图片通过升维放大得到完整的高清图像。
图1 Stable Diffusion模型结构[10]
以百度AI 作画为代表的国内图像生成模型有近似结构,包含了提交请求(文本编码器)创建作画任务,基于文心ERNIE-ViLG 大模型通过训练生成图形,部署结果(输出图像)三个阶段[11]。以二者模型阶段来看,当前AIGC应用生成图像的过程具有相似性。
2023 年1 月31 日由奈飞(Netflix)、微软小冰公司(rinna)、日本WIT STUDIO 联合制作、发行了首部采用AIGC 技术制作的动画《犬与少年》,讲述了一位少年与一只机器狗重逢的故事。该作品采用传统动画结合AIGC 技术的方式呈现最终效果。作品中的编剧、导演以及角色绘制均保留传统动画制作方式,在场景绘制以及背景音乐生成方面结合AIGC 技术进行呈现。
本节取“犬与少年”为关键词抓取B站相关视频数据,以最高播放、评论数和点赞数为条件降序排列筛选出3 条相关视频,分别为:UP 主“WUHU 动画人空间”(播放32.5 万评论924 点赞1.4 万)[12]、UP 主“夏日幻听MEC”(播放数9.4万评论768 点赞4764)[13]、UP 主“GGAC”(播放3.2 万评论215 点赞971)[14]。汇总3 条视频890条点赞评论进行编码,得出表2 中的前12 个高频词汇。
表2 《犬与少年》890条评论前12个高频词汇(数据截至2023.8.20)
依据生成式智能应用在实践行动、功能分析、价值规范等方面的研究价值,本文将关键词分为功能分析(AI 辅助制作技术)、实践行动(动画背景绘画场景)以及其他议点(问题音乐实用时间)三个方面,对用户评价进行编码分析。由于用户短评普遍存在口语化的情况,因此在数据整理阶段尽力保留用户原意的基础上,适当进行了书面语的转写工作,具体评价示例见表3~5。
表3 Z世代用户对“AI 辅助制作技术”功能分析关键词的态度
表5 Z世代用户对“问题音乐实用时间”其他议点关键词的态度
自动情感编码结果显示,Z世代用户对于AIGC作品的态度“较为正向”(218)最高,“非常负向”(167)和“较为负向”(132)其次,“非常正向”(24)最少。呈现出用户认可新技术的同时抱有谨慎的乐观心态。
在具体评价内容方面,围绕作品的AI 讨论数最多,普遍认为AIGC技术在作品中更多的是辅助作用,并没有能代替人工制作的优势;在图像效果讨论方面,用户诟病智能图像生成的输出画质,对于画面效果用户喜好各有不同。尤为注意的是,用户普遍对因AIGC海量高速生成图像技术可能造成动画产业的颠覆表示出担忧。
行业对于AIGC技术能在动画生产领域做什么的讨论众说纷纭,普遍认可AIGC 未来能在动画生产中以下领域进行运用:首先,角色和场景设计。创作者通过草图输入AI绘画,能便捷地输出设计师想要的角色场景图,大幅减少绘图的时间。其次,角色和场景建模。通过AI技术(如Promethean AI)辅助动画师完成复杂的场景构建,包括自动生成逼真的背景、物体和光影效果等[15],或通过自动生成或优化角色外观,减少建模工作量。第三,剧本生成。利用ChatGPT、文心一言等文本生成AIGC应用,自动生成故事情节,协助编剧完成剧本创作等。
结合Z世代用户在功能分析、实践行动以及实用性、时间等其他问题的态度,AIGC动画在生产机制方面可以从设计师定位、模型优化以及个性化生成三方面进行以下考虑。
1)确认AIGC的辅助设计定位
AI技术在现阶段更多承载的是辅助设计功能,其设计主体还是设计师。解决用户对于技术替代岗位的担忧,一方面通过降低使用门槛(应用设计的便捷化)使得更多用户能便捷地获取AIGC技术,破除因技术迷雾带来的未知恐惧;另一方面肯定人在AIGC+动画中的主体地位,从编剧到角色场景设计、模型制作、合成输出等方面明确技术的辅助功能,提升设计师的设计自信。
2)优化AIGC模型提升品质
鉴于用户集中诟病图像生成的场景画质,表明AIGC 在动画制作方面的开发还处于初期阶段,需要通过模型优化、算力提升等方面来实现画质的提升。同时用户对于《犬与少年》该作品的AIGC作品定位并不认可,表明AIGC 技术在与人工相结合创作动画方面还存在不足,技术仅仅停留在场景应用,在角色与场景的合成方面具有较大的提升空间。因此图形生成模型不仅需要加强角色动画的设计训练,也需重点关注合成领域的开发工作。
3)个性化AIGC适用不同范围
“艺术平民化”是由AIGC引发的整体内容创作趋势,未来因为AI 工具的便利,更多用户能参与内容创作之中,动画内容将更为多元化,个体的创意性得到最大的发挥。但以现有AIGC 模型训练来看,“喂图”是图像生成的基础,正如用户评价中所担忧的AIGC作品在版权方面的争议,图像生成模型应在商业化与非营利性个人创作进行区别。
针对商业动画的模型架构其训练素材应具备版权使用权限,动画公司应发掘自身优势,创建符合自身特点与发展趋势的个性化素材库,使行业在深度学习中实现自我更新。在非营利动画创作方面,图像生成模型架构设计应更模块化和多元化,素材库开发具有更多的包容性。
AI 智能传播成为当前以及未来趋势。人工智能所带来的降本增效价值属性,一方面破解了海量内容生成的困局,另一方面也带来了在人工智能环境下该如何定位自身的困惑。深度神经网络结构升级与模型训练结构的成熟,使图像生成在AIGC 领域炙手可热,而从首部AIGC+动画商业化作品《犬与少年》的用户评价可以嗅出,Z 世代为代表的青年用户在惊叹智能技术高效的同时也深感岗位替代的危机。
无论接受与否,AIGC 技术与人们深度融合并成为日常的趋势不会改变。AIGC+动画在未来开发中不仅需要明确设计师为主体智能辅助的定位,同时也要考虑加深AIGC技术与动画流程的适配结合。只有技术本身不再成为噱头被提出时,AIGC 技术才能真正成为用户的艺术日常,突破技术局限的动画创作也才能在未来展现出无限可能。