人工智能赋能虚拟偶像的发展路径
——以“小冰框架”为中心的研究

2024-04-14 13:26:17陈思诺陈青文

传媒论坛 2024年2期

陈思诺陈青文

关于虚拟偶像，学界暂无标准化定义，这与虚拟偶像的类型多样化、维度发展多元化以及演进速度快都存在一定关系。简而言之，虚拟偶像可以被当作是一种基于数字虚拟技术和媒介影像技术生成的架空形象，它能够以“真实”偶像的身份广泛地活跃在互联网空间，开展演艺、发行作品、与粉丝群体互动等各类活动。依托全息投影等技术，虚拟偶像甚至可以存在于现实场景之中。虚拟偶像的存在，在技术手段上是利用计算机图形、语音合成等手段人工制造“能说会唱”的虚拟存在；在运营模式上则仿照真实偶像进行演艺活动和开展形象运营。［1］虚拟偶像及其衍生产品在文化范畴上属于ACG文化。ACG文化发源于日本，由中国台湾地区的动漫爱好者最先发起使用，指的是围绕着Animation（动画）、Comics（漫画）与Game（游戏）而形成的一种亚文化。虚拟偶像所具备的此种属性注定了它与动画、漫画、游戏这三者是密不可分的，同时也意味着它的受众主要集中在青年群体上。

虚拟偶像在发展中出现了许多不同的分支，包括虚拟歌手、虚拟主播，以及品牌衍生的虚拟形象等。其中虚拟主播多在视频网站和社交平台上活动。品牌衍生的虚拟偶像包括企业识别系统中的品牌虚拟形象或旗下产品当中的虚拟角色，比如手游“王者荣耀”就选择了旗下的五位男性角色成立“无限王者团”，网游“英雄联盟”选择旗下四位女性角色成立“K/DA女团”。毫无疑问，虚拟偶像的诞生与数字媒体技术以及人工智能技术都存在着紧密的关联，虚拟偶像发展的演进的历史，也是数字媒体技术和人工智能技术发展的历史。本文将着重介绍虚拟偶像发展的主要方向，并对其生产意义进行分析。

一、虚拟偶像的内涵及发展维度

“虚拟偶像”一词最初出现在20世纪90年代的日本，但真正大规模地走进人们视野的是在2007年由日本CRYPTON公司采用的以雅马哈二代VOCALOID技术为核心所开发的虚拟歌手。这些虚拟歌手的集合被称作“V家”，依靠电子音乐制作语音合成软件输出歌曲。最初也最为传统的虚拟歌手是以初音未来、洛天依、乐正绫、言和等依靠电子音乐制作语音合成软件进行歌舞表演的虚拟人物。与现实中的明星歌手一样，虚拟歌手主要的生存机制是依靠持续地发布音乐作品活跃在音乐市场上，并依靠媒介虚拟影像进行歌舞表演，比如初音未来就曾在中国、日本、美国、英国、新加坡等地举办过演唱会。

除“V家”这类依靠独立IP创造出的虚拟歌手外，还存在另一种由动画、漫画、游戏中的IP而衍生出的虚拟歌手，这类虚拟歌手相对前者来说更具“偶像特质”。前者的设计重心和主要创新点在于其电子音乐制作和独特的语音合成系统，歌手的声音几乎都属于原创，且外形具有较强的可识别性和稳定性；后者则以其外形为核心进行发散，常常会打造出各类靓丽俊美的形象吸引粉丝群体，而最为重要的音色部分则大多邀请现实中的歌手明星为其配音演唱。以MOBA类游戏英雄联盟中四位女性英雄角色组成的“K/DA女团”为例，它主要围绕K-POP流行元素在北美和韩国选择了四名演艺人员，由韩国女说唱歌手、音乐制作人全昭妍作为阿卡丽的音源，由另一成员赵美延作为阿狸的音源，由美国歌手麦迪逊·比尔和杰拉·伯恩斯分别作为伊芙琳和卡莎的音源。“K/DA女团”在英雄联盟S8赛季全球总决赛采用真人与增强现实结合的方式首次亮相，一出演便引发了惊人的关注度，并先后推出了《POP/STARS》《THE BADDEST》《Drum Go Dum》等歌曲，甚至在著名的流媒体音乐服务平台Spotify上也能够查询到 “K/DA女团”的艺人页面。据尼尔森音乐数据(elsen SoundScan)，歌曲上线首周卖出9000份，同时位列《公告牌》流行数字音乐销量榜第10位、数字音乐销量榜第30位；位列Apple Music韩国流行音乐榜第1位、流行音乐总榜第5位，获得的成绩和知名度并不输给初音未来这样的传统虚拟歌手。这类虚拟歌手的一大亮点是其作为IP的衍生品，热度可以反哺至原游戏或动画之中，例如“K/DA女团”的ALL OUT系列在游戏中也发售了对应的角色皮肤并为游戏公司创造了巨大收益。

虚拟主播则是虚拟偶像的另一分支。最初的虚拟主播是指使用虚拟形象在视频网站上进行投稿活动的主播，以虚拟YouTuber最为人所知。他们在国内通常被称为虚拟UP主，在国外由于普遍活跃于YouTube而被称为Virtual YouTuber（VTB）。［2］世界上的第一个虚拟主播于2016年由日本技术团队研发，自此虚拟主播产业开始蓬勃发展并衍生出不同的类型，其影响力也从日本本土视频网站和YouTube扩展到中国的哔哩哔哩弹幕网。

虚拟主播与传统主播之间最大的差别是虚拟主播会通过专业技术人员的制作模型来建立具有独特人设的虚拟形象。与传统主播的直播效果不同，虚拟主播能够通过饰演一个虚拟的人物角色产生更好的直播效果，无论是在人气的聚集还是利益最大化上都优于大部分传统主播。除完全依靠数字媒体技术音画合成的虚拟UP主之外，更多的是真人依靠动态捕捉技术模拟出的虚拟UP主。它们虽然拥有一个动漫形式的外在和独特的人物设定资料，但其声音和动态都实时来源于真人扮演。近年来，不少原先以真人形式出镜的真人UP主和明星都采取这种方式录制视频或从事直播，获得了无数年轻群体及喜爱二次元文化趣缘群体的追捧。哔哩哔哩弹幕网于2019年4月首次招募旗下虚拟主播团体VirtuaReal，目前旗下艺人包括菜菜子Nanako、泠鸢yousa、琉绮Ruki、祖娅纳惜、hanser等。其中虚拟主播菜菜子Nanako背后的出演者是数度登上春晚的著名小品表演艺术家蔡明，当红成员泠鸢yousa和hanser的粉丝数量分别为300万左右，其影响力之广可见一斑。

当人工智能技术逐渐介入到新闻生产当中，新闻的生产、传播与互动都发生着巨大的变化，全新的虚拟主播类型——AI新闻主播随之诞生。新华社推出的全球首位3D版的AI新闻主播，不仅能随时以不同的形象出入于不同的虚拟场景中，还能生成相对应的面部表情和肢体语言。人民网推出的虚拟主播小晴，在两会新闻报道和数据解读播报等事项中发挥了重要的作用，其形态和语音语调已然与真人无异且毫无违和感。这类新闻主播虽然属于人工智能技术赋能下的虚拟主播，但其定位较为严肃，并不沿着娱乐性质的方向发展，因此难以成为虚拟偶像的范畴。

二、虚拟偶像的生存机制

虚拟偶像的一般生存机制可以被从三方面进行阐述。一方面，媒介影像技术、人工智能技术及媒体合成大脑等硬性技术是其存在的基础；另一方面，除先进的数字技术外，虚拟偶像构筑起了庞大的粉丝群体对其特殊的认同及诸多复杂情感，建立了真人偶像形式的粉丝文化；最后，大众传媒也为其生存发展提供场域。

（一）受众移情下的情感归属与身份认同

虚拟偶像赖以生存的一个重要因素是庞大的粉丝群体对其的崇拜机制。这种虚拟偶像崇拜的产生，与偶像所采用的技术本身、粉丝的情感投射以及其所依托的大众传媒视听所带来的劝服效果都存在着联系。在技术赋能之下，虚拟偶像成了一个近乎完美的个体。它既具有真实存在的人类特质，又超越了现实生活中人类的局限性。以微软小冰为例，一方面，她具有姣好的外貌和音色，并先后从中央美术学院和上海音乐学院毕业，这位美少女可以是诗人、画家、歌手、主播甚至是设计师。小冰的粉丝会为其打上“美少女”“女汉子”“学霸”等标签。在这种情况下，虚拟偶像就成了一个文化消费的符号，其身上承载的是粉丝群体对于其超脱现实的幻想。另一方面，微软小冰虽然可以根据一段文字作画，但是作品质量参差不齐，并且难以让人产生艺术共通感，独创性问题上也存在一定争议。［3］

无论是原始的想象视像崇拜，还是具体化的人所能构建的偶像崇拜，对于偶像的崇拜都是以图像的形式加以表征，而图像的形象化、生动化也塑造出具体化的偶像形象。人所看到的图像对象其实都是欲望的间接表现。［4］因此，虚拟偶像的迷群也往往会对其产生强烈的情感，这种情感来自其情感投射和寄托、群体参与感和融入感的需要等方面的欲求。虚拟偶像光鲜亮丽的外在表现、其人设当中包含的各种属性以及精彩动人的背景故事都是粉丝在现实世界中所无法接触到的，这种对比后的反差会让迷群寄托个人志向和情感于虚拟角色。在先进的数字技术之下，虚拟偶像还能够通过和粉丝的互动从而极大拉近两者之间的距离从而形成一种准社会关系，建立单向性的牢固情感连接。

（二）技术赋能下的完美共享式文化符码

约翰·费斯克在通俗文化理论当中指出，受众在意义的解读过程中具有主动性。粉丝群体并不是被动无助地等待着虚拟偶像生产者的投喂，而是利用此前生产出的文化产品进行创造性使用，为其赋予更多元的意义和价值，并在这种意义的生产当中寻求非同寻常的快感。粉丝社群一般以“趣缘”为纽带，粉丝共同建构并执行一套特定而共享的阐释规则、象征符号体系，还有审美原则。［5］这种以虚拟偶像为认同核心的趣缘社群会围绕着对于该虚拟偶像的符码共享而产生身份认同感及群体归属感。

在媒介影像技术及数字媒体艺术的加持之下，粉丝群体对基于虚拟偶像声音或形象的创作自由度提升，不仅能利用电子语音合成软件为其制作歌曲、电台节目，还可以采用动画建模软件为其改变着装，设计姿态动作等。MMD（MikuMikuDance)是一个免费的动画程序，这一软件最初是为虚拟偶像——Vocaloid角色Hatsune Miku制作的。在这一软件上，虚拟偶像的粉丝们会自主制作人物模型方便其他粉丝下载使用。这种共享文化产品的行为在一定程度上牢固了粉丝之间的趣缘链，同时，这些粉丝自主生产的文化符码会反过来加深粉丝与虚拟偶像之间的关联，产出的内容一经传播也将在一定程度上扩大虚拟偶像的知名度和影响力。

（三）大众传媒下的劝服功能与场域提供

虚拟偶像的传播极大程度上依赖于大众传媒，这主要是因为大众传媒的强烈劝服功能以及其提供的可供迷群交流的场域。

第一，当前大众传媒视听具有强烈的劝服功能。逼真诱惑是传媒文化在视觉转向时代最为突出的特点［6］。铺天盖地的大众传媒视听以其精美的构思和设计影响着受众的日常生活。媒介渠道的融合化发展，更使品牌虚拟形象全方位地渗透到受众生活之中［7］。2021年10月，抖音推出了名为“柳夜熙”的美妆类虚拟偶像，其第一条视频采用悬疑、美妆、特效技术等元素，一经发布就获得了300多万的点赞。各路网红结合这一热门事件纷纷推出“挑战柳夜熙仿妆”的短视频话题。在大众传媒传递相关信息推送的加持之下，柳夜熙一时间迅速涨粉百万。第二，在电影、电视、手机等大众传媒中反复出现的丰富多彩的虚拟偶像形象对受众来说无疑具有极大的吸引力，社交媒体平台的发展更是为迷群与虚拟偶像之间、迷群内部的交流传播创造了场域空间。微博、豆瓣、A岛、B站等类似于公共空间的大众传媒场域的出现为虚拟偶像的信息传播、发布、讨论提供了绝佳的土壤。

三、从聊天机器到虚拟偶像：微软小冰的发展路径探索

从以上分析看来，虚拟偶像的发展已然初具规模，产业链即发展路径也趋于成熟。近年来，人工智能技术的崛起为虚拟偶像的发展又提供了新的可探索的路径。在诸多虚拟偶像的发展进程中，微软小冰的发展演进可以成为典型案例。着力分析其发展路径，说明人工智能技术在虚拟偶像这片沃土之上的应用。

（一）搭建人工智能框架，创造多元虚拟人物

人工智能（Artificial Intelligence）是计算机科学的一种研究方向，通过代码指令让计算机模仿人类智能，并产生出一种能以人类智能相类似的方式作出反应的效果。人工智能领域除了机器人之外，还包括了语言识别、图像识别、自然语言处理等技术成果。微软小冰便是基于人工智能技术、让计算机模仿人类智能的产物。

最初的微软小冰仅以聊天机器人的形态出现，作为智能系统的语音助手存在，伴随着人工智能技术的发展，微软小冰在人工智能的道路上不断深化前进。2020年发布的第八代小冰已经成为一套完整的、面向交互全程的人工智能交互主体基础框架，广泛覆盖涉及人工智能的多个领域，是世界上最成熟的、范围最大的此类框架。在微软小冰的人工智能框架搭建完成之后，它已然成了一个典型的人工智能交互主体。目前，小冰框架支撑了百余个第三方交互主体。相比于其他智能语音聊天机器人而言，微软小冰已经在人工智能交互上迈出了不可忽视的一步，这也直接证明了其在人工智能框架领域的至关重要性。

值得一提的是，微软小冰人工智能框架（Avatar Framework）中已经出现了多位不同的虚拟偶像角色，包括何畅、F201、陈水若、陈子瑜等，他们各自拥有不同的定位和声线。2020年8月，何畅正式出道并与著名音乐人马伯骞联合为某品牌的新品合作演唱推广曲《Runway 2.0》，而微软小冰则是这首歌曲的创作人之一。由此观之，微软小冰发展出了包括自己在内的多元虚拟偶像群体，这些虚拟偶像在身为“偶像”的同时，更是人工智能主体。该框架中还具有AI主播、虚拟歌手，甚至是虚拟亲友等多个应用模块。在个人用户领域，由小冰框架应用户要求创造并提供的虚拟人类已经超过百万个。这些基于“小冰框架” 建立的虚拟主体能够在复杂的场景中进行高度拟人化的智能交互，无论是应用于商业还是公益领域，都将对人类社会产生可观的影响。

（二）打破中心权力结构，合理化为受众赋权

传统的虚拟偶像在向迷群让渡权利上已经做出了一些努力，如前文提到的用户可以利用免费的动画程序MMD（MikuMikuDance)进行有关虚拟偶像的3D的动画制作等。“小冰框架”在这一点上进行了更大的创新，在层次水平上也更加深入，力图打破中心权力结构，为受众合理化赋权。在第八代微软小冰发布会上，主办方公布了面向个人用户的第一个虚拟人类产品线。虚拟人类产品线的诞生使得个人用户可以借助小冰框架按照个人需求定制虚拟偶像，为其实时生成独一无二的生物学特征，并训练自己所创造的人工智能主体。此种功能将虚拟偶像的编辑权极大程度上下放给了受众。利用这一功能，受众不仅可以对原有的虚拟偶像进行再创造，还可以在其中创造出符合自己心意的、完全个性化与自定义性质的虚拟偶像，最大限度上满足个人需求。

小冰框架还发布了面向个人用户的“X套件”系列软件，就虚拟偶像最为核心的娱乐功能来说，人工智能音乐合成软件X studio释放了更大的权利给受众。X studio包括面向各类公众号文章、演讲、电台节目等的虚拟主播，以及虚拟偶像声音合成等功能。在虚拟主播应用方面，X studio应景在商业化领域覆盖了中外50余家主流媒体并累计制作超过8000个小时的高质量音频节目。在人工智能歌声合成应用方面，X studio邀请粉丝及音乐创作者们与虚拟歌手一同创作歌曲，任意个人或者机构都可以提交自己所创作的音乐数据并将虚拟歌手与这些数据相结合，机构或者个人可以掌握这一歌手或者音乐数据的完整版权。将虚拟歌手演艺内容的制作权让渡给广大的受众，这一举动不仅为虚拟歌手的内容创作注入了极大的活力，还激发了相关产业链的发展。

（三）打造智能交互人格，多领域深耕式学习

微软小冰之所以能从聊天机器人成长为基于AI的虚拟偶像，也离不开生产者为其打造的智能交互人格，并推动其在多个领域通过深层神经网络等进行深耕式学习。这种深耕式学习指的是培训计算机学习样本数据的内在规律和表示层次，包括对于文字、图像以及声音等数据的识别和规律梳理。计算机大脑相对于人脑而言具有更快的运算速度、更具效率的分析并学习样本数据的能力，从而达到对于某事物的深度理解。目前，人们会倾向于让人工智能去学习某一专业领域的事物，在这一专业领域内发挥出其最大能力并创造出最高效益，而并非只是“大材小用”停留在教它们如何与人类进行单纯语言层面的互动沟通上。微软小冰从单纯的智能聊天机器人到虚拟偶像的转变正与这种深耕式学习密切相关。

截至2023年底，微软小冰已发布《我知我新》《微风》《我是小冰》《好想你》等歌曲，其声线已经非常接近人类演唱的气息与节奏。目前，微软小冰的演唱模型迭代至第五个版本。全新的演唱模型包括跨越多种演唱技巧的多个声音模型，并提升人工智能歌曲演绎的更高技巧和多风格化，能够自然地切换不同演唱技法。2020年8月28日，由人工智能微软小冰与著名唱作歌手、电子音乐制作人朱婧汐共同创作的上海大剧院20/20 演出季主题曲《HOPE》正式发布。为感谢微软小冰的卓越创作，上海大剧院授予微软小冰“荣誉音乐制作人”称号。微软小冰作为虚拟歌手，不仅在国内具有影响力，其知名度还扩展到了虚拟偶像的发源地——日本，微软小冰宣布与日本本土AVEX唱片公司合作，将其日本版本的虚拟歌手身份纳入AVEX旗下。

微软小冰不仅是一位虚拟歌手，还是一位画家、设计师、主持人和诗人，她以一位活泼可爱的18岁人工智能少女的形象先后“就读”于中央美术学院和上海音乐学院。2019年，微软小冰从中央美术学院研究生毕业，并在同年7月份于中央美术学院美术馆举办名为《或然世界》的首个画展，并在其中呈现出风格各异的百幅绘画作品，引发了美术、计算机、物理学界等的跨界讨论。2020年，微软小冰从上海音乐学院毕业，与多名知名音乐家进行深度合作，创作并表演了许多歌曲，其中包括世界人工智能大会主题曲。无独有偶，2021年6月21日的北京智源大会上，清华大学教授唐杰发布了中国首个基于超大规模智能模型“悟道2.0”的原创虚拟学生“华智冰”，她将进入清华大学进行深造。由此可见，人工智能“入学”名校进行深度学习已经成为目前的一大趋势。小冰框架的发展进步也是顺应这一趋势的产物。因为深耕式学习，微软小冰完成了从单纯的智能聊天机器到虚拟偶像和人工智能框架的转变，无论是在“台前”还是“幕后”，都发挥着至关重要的作用。

四、结语

在经历了三十年左右的发展后，传统的虚拟偶像产业链已经趋于成熟的同时，虚拟偶像市场也趋于饱和，几乎未再出现同初音未来和洛天依影响力相当的虚拟偶像，其运营形式也仅仅是集中在歌舞表演的浅层之上，无法给审美疲劳的受众带来全新的深度体验。人工智能技术的发展为破除这一僵局提供了全新思路，在人工智能技术的赋能下，虚拟偶像智能化的可能性开始被想象。

微软小冰最初仅仅是一个智能聊天的机器人助手，在人工智能技术以及数字媒体技术等的加持之下发展出了两条不同的路径。一方面，它是一名超级虚拟偶像新星，具有高学历、高素质、高专业素养，获得万千粉丝的喜爱；另一方面，围绕着微软小冰开发的“小冰框架”深度拓展了其作为人工智能交互主体的全新领域。它不再只是帮助人们完成简单指令的智能设备助手和供人欣赏的唱跳虚拟偶像，而是承载了无数智能交互动作的人工智能虚拟人物制作运行的实用性软件。未来的人类社会需要的智能化、人格化虚拟偶像不仅要能实现沉浸式互动，更需要真诚、全能、专属、亲密等品质。这种虚拟偶像需要拥有自己的知识图谱，并能够自主思考和计算，而非仅仅停留在人类为其填充几乎全部内容的阶段，“小冰框架”的发展路径正符合这一趋势。目前，人工智能技术在虚拟偶像上的应用才刚刚起步，还需进一步锤炼。在传统虚拟偶像发展已初具规模的今天，人工智能技术的崛起必将为其提供新的发展路径，并成为未来虚拟偶像后续发展的重要技术支柱。

人工智能赋能虚拟偶像的发展路径——以“小冰框架”为中心的研究