陈洁超,段俊峰,和伶俐
(云南广播电视台,云南 昆明 650500)
2011 年至今,人工智能(Artificial Intelligence,AI)技术不断蓬勃发展[1]。2022 年11 月,聊天生成预训练转换器(Chat Generative Pre-trained Transformer,ChatGPT)正式发布[2]。生成式人工智能(Artificial Intelligence Generated Content,AIGC)在更多领域引发讨论与研究。
现阶段,AI 技术在广播电视行业的应用主要体现在以下3 个方面。第一,AI 语音识别与语音合成技术。语音识别是将声音转换为文本的过程。通过AI 语音识别技术,可辅助人工快速制作节目唱词,实现语音文本同步编辑,极大地提高工作效率。AI 语音识别技术还被用于多语言节目的制作,为广播电视节目的国际传播提供助力。语音合成是将文本转换为语音的过程,通过AI 语音合成技术,配合主持人数字语音库,可优化采编流程,提高新闻的时效性,同时降低主持人的工作压力和工作强度。第二,AI 人脸识别技术,用于媒体资产管理系统与播出系统的素材审核,帮助审核人员快速定位素材中可能存在的敏感人物并进行标记,减轻审片工作人员的工作压力,提高审片效率,保障宣传的意识形态安全[3]。第三,AI 视觉增强技术。利用AI 技术分析和提取素材的特征信息,并进行重构,可明显提高素材的分辨率和帧率,清除视频中的噪点,减少视频的细节模糊与动态目标拖尾等问题,同时增加视频的色彩饱和度,使观众获得良好的节目收视体验。该技术被广泛用于老电影和珍贵老旧视频资料的修复。
尽管AI 技术在广播电视行业有了以上应用[4],但目前这些应用主要集中在节目制作端,通过改进传统的节目制作流程,为节目生产者提供更便捷快速的服务,提高节目生产效率。根据节目类型,利用AI 技术设计增加观众互动体验、以良好的体验感获取传播影响力、反哺节目的应用却较少。
云南广播电视台以节目《丝路云裳》为背景,对AI 技术在广播电视节目互动体验中的应用进行了一次全新的尝试。《丝路云裳》是云南卫视推出的一档致力于传承中国传统文化、发掘非物质文化遗产、展示云南民族服饰文化的节目[5]。为了让更多的观众了解和感受云南少数民族的服饰文化,更大范围地宣传云南非遗特色,云南广播电视台在 “创意云南文化产业博览会(2022—2023)” 上的融合创新科技生态链展区内推出了 “丝路云裳AI 换装” ,利用AI 技术结合该节目中展示的精美少数民族服饰,给观众带来一次前所未有的互动换装体验。只需现场采集一张体验者的面部图像,通过图像处理技术与AI 技术就可实现一键换装与化妆,并将结果同步显示在现场的电视大屏上,使得普通大众也可以体验一次服饰展示秀,直观感受少数民族精品服饰的魅力。 “丝路云裳AI 换装” 现场如图1 所示。
图1 “丝路云裳AI 换装” 现场
通过摄像头采集一张体验者的面部图像,在服饰库中选择其想要体验的服饰照片或视频,经由服务器进行计算,可快速生成体验者换装之后的图片或视频。生成的图片或视频通过开放广播软件(Open Broadcaster Software,OBS)投影到现场的电视上进行展示,同时上传至云存储端,上传成功后可实时分享,体验者只需扫描二维码即可进行下载。现场系统搭建如图2 所示。
图2 系统搭建
服务器中部署了《丝路云裳AI 换装》软件。软件采用Qt 5.12 进行图形用户界面(Graphical User Interface,GUI)的开发,以Python 3.10 来进行AI计算,界面如图3 所示。
图3 《丝路云裳AI 换装》软件界面
人脸源图的获取方式有两种,一是直接选择服务器中的人脸图片,二是调用摄像头实时采集。实时采集人脸图像时,由于现场人员较多,图像可能包含多人的面部信息。若直接使用采集的原始图像作为人脸源图,AI 无法识别真正的体验者,会将图像中所有人的面部信息叠加在一起作为输入源进行计算,导致输出错误。为确保体验者的面部信息正确,软件在采集图像时先利用OpenCV(Open Source Computer Vision Library)对图像进行处理。OpenCV是一个开源的计算机视觉和机器学习代码库,由一系列C 函数和少量C++类构成,实现了图像处理和计算机视觉方面的很多通用算法,轻量级且高效,在人脸识别与跟踪和图像分析中有广泛的应用[6]。
开启摄像头后,软件自动加载人脸跟踪模块,摄像头拍摄到的所有人脸信息均可被跟踪到,且采用小矩形框进行标识,如图4 所示。为确保体验者面部信息完整,软件在小矩形框的基础上进行扩展,结果以大矩形框标识。只需确保体验者距离摄像头最近,在最大的小矩形框中即可拍照。根据跟踪到的人脸信息,软件会对图像进行处理,保留最大紫色线框中的人脸信息,去除其余的人脸信息和多余的背景信息。保证输入给AI 的照片中只包含体验者的完整面部信息,可有效提高输出的准确性和计算生成的速度。
图4 人脸跟踪信息
为保证换装的效果,点击软件中的人脸检测与人脸对比按钮,可提取体验者的面部特征并与服饰库中模特的面部特征进行比对,通过比对结果提前预判最适合体验者的服饰。面部特征的比对采用Dlib 的68 点标注模型实现。这是一种基于深度学习的人脸关键点检测技术,将人脸关键点分为内部关键点和轮廓关键点,内部关键点包含眉毛、眼睛、鼻子、嘴共计51 个关键点,轮廓关键点包含17 个关键点[7]。软件根据检测到的68 个关键点,生成人脸的特征值,将体验者的特征值与模特的特征值分别通过余弦相似度和L2 归一化后欧拉距离进行距离计算。两个距离计算的结果可相互佐证,选出最适合体验者的服饰。图5 为体验者的68 个面部关键点检测结果。
图5 面部关键点检测结果
采集到体验者的人脸图像并确定了需要 “穿” 的少数民族服饰之后,通过软件生成换装后的图像或视频,如图6 所示。根据体验者需求,在进行换装的同时可采用人脸高清修复功能进行美颜,保留面部特征的同时去除面部的小瑕疵,使体验者与服饰更搭配;采用背景高清修复对生成的结果进行画质增强,使生成的图片或视频画质更好。在生成之前加载人脸高清修复和高清背景修复的模型,在生成的过程中同步进行美颜和画面增强。
图6 换装结果
换装结果生成后,通过OBS 将结果推送到现场的大屏上进行展示,体验者可在大屏上看到换装后的自己,如图7 所示。同时,后台将结果上传至云端,上传成功后生成一个二维码推送到大屏上。体验者使用手机扫描大屏上的二维码可将换装结果下载至本地,分享到自己的社交平台。利用社交网络传播速度快、范围广的特性,可以提高《丝路云裳》节目品牌的知名度和影响力。
图7 换装结果展示
为保证体验者的换装体验,需要在服饰库建立、服务器选择和网络环境配置3 个方面重点注意。
服饰库用于存放服饰图片与视频。这些图片和视频须主题突出明确,其中呈现的少数民族服饰要精美、具有代表性,模特仪态端庄,视频长度适中,既能充分展示少数民族文化的特色,也可最大限度使用服务器的计算能力,减少用户等待时间,提高用户体验。
《丝路云裳AI 换装》软件需要AI 进行人脸图像识别与处理,且采用的图片与视频皆为1 080×1 920 高清格式,现场需要快速生成结果,所以对硬件要求较高。服务器配置了英伟达(NVIDIA)4080显卡,显存为16 GB。如果升级硬件配置,同时搭建服务器集群均衡分布式协同工作,实现线上线下同步快速生成结果并进行 “大屏” + “小屏” 的互动展示,体验效果会更好。
生成的图片与视频需实时同步至云端再分享给体验者,这一过程对网络要求高。网络一旦出现故障或带宽不够,导致结果不能上传,用户只能在现场利用手机拍照记录,传播影响力将大打折扣。
《丝路云裳AI 换装》作为AI 技术在电视节目互动体验中的一种探索应用,收获体验者的不少好评。但目前的互动体验是在节目《丝路云裳》播出后进行,与节目的制作播出相对独立。在节目制作与播出时引入观众互动,以良好的体验感反哺节目热度,扩大节目知名度,提高节目收视率,向更多人展示云南少数民族文化的魅力,是未来发展的方向。
未来,可将软件部署在七彩云上,体验者在下载并注册七彩云端App 后,通过自己的手机采集面部图像上传,就可请求在云端生成换装的图片或视频。生成成功后,管理员审核完成即可下发到体验者的App 相册中,体验者根据需求自行下载。
录制《丝路云裳》时,可以挑选出具有代表性、符合主题的服饰图片和视频加入服饰库,提前让观众 “尝鲜” ,利用互动加强节目宣传预热,吸引更多观众关注《丝路云裳》。同时,为服饰库中的服饰制作唯一可标识的二维码,准备大屏互动相关内容。
在七彩云端进行播出时,观众可以对自己喜爱、感兴趣的服饰进行标识,点击 “我要换装” 可实现实时换装。在大屏播出端展示一些典型服饰时,屏幕中会同步弹出该服饰的二维码,观众在手机上用七彩云端扫描二维码,可轻松换装[8]。
未来,随着人工智能技术的快速发展,人工智能对现有法律及规范体系的挑战在不断扩大。在带有人脸、声音等隐私信息的AI 技术应用中,在保护好隐私信息的同时,结合节目类型、节目特色给观众带来更美妙的视听体验,是未来AI 技术在广播电视节目应用中一个新的方向。