AI讲师和背后的大宇宙

2024-05-29 22:59黄靖芳
南风窗 2024年11期
关键词:南风窗虚拟世界讲师

黄靖芳

2024年的首个学期,香港科技大学开设了一堂跨校区的创意社交媒体课程,AI讲师和真人讲师共同完成了这堂课程。

AI教学的场景是怎样的?上这门课的同学—无论是在广州的南沙校区还是香港的清水湾校区,他们只要坐在教室内,戴上眼前的VR设备,就能进入AI讲师呈现的课堂环境。

负责这门课程的许彬教授和他的研究团队,根据课程主题设计了十个不同形象的AI讲师,他们会是一名网红、政策倡导者、卡通人物,也会是历史人物,譬如爱因斯坦以及约翰·福布斯·纳什。

在课堂里,AI讲师会教授媒体故事叙述、社交媒体对社会影响、助推理论 (Nudge Theory) 等主题课程。为了让AI讲师呈现得生动自然,团队研发了3D动作生成系统,并且采用了不少AI工具,还改良了开源3D表情生成算法—由此诞生了亚洲首批的AI讲师。

学生们所处的课室是元宇宙工作室的一部分,其中配备了绿幕和大量的动作捕捉设备。平时这里是记录实验数据的现场,而在课堂上,这里就变成了虚拟与现实交汇的场所。

这个小小的课室,承载了许彬和学生们广袤的“宇宙”。

创作AI讲师的许彬,是香港科技大学(广州)计算媒体与艺术学域讲座教授与香港科技大学新兴跨学科领域讲座教授,同时,他还是英国皇家工程院国际院士、欧洲科学院院士。许彬毕业于剑桥大学的计算机科学专业,毕业后从事移动计算、计算机网络等领域的研究,近十多年来,他把目光逐渐转向了AR/VR/MR/XR/元宇宙领域等沉浸式科技技术。

回顾2020年前后,元宇宙进入技术突破阶段,大众开始普遍接触这个概念,投资界人士更很快地奉其为风口,连社交媒体巨头Facebook也宣布改名Meta,押注“共享的虚拟环境”。不过,这股热潮渐渐冷却,对普通用户来说,元宇宙显得遥远而又抽象。

眼下,生成式AI迎来了大爆发,丰富了人们关于虚拟世界的各种想象,更是带动了元宇宙重新受到关注:当内容创作的成本降低,通往元宇宙的通道会如何打开?

就这些科技热点话题,许彬接受了南风窗的采访。他讲述了创作和训练AI讲师的经历,并且提及了生成式AI工具的出现给元宇宙带来的影响。他提到,希望AI讲师能推广到经济落后地区,解决全球教师资源短缺的问题;他还分享了自己和元宇宙的故事。

首先需要同学能接受老师是AI

南风窗:能跟我们分享创作AI讲师的细节吗?你们是怎样对其训练和微调的?

许彬:其实早在2022年初,我们团队已经开始思考怎么把AI技术和元宇宙应用到教育领域。去年底的时候,香港科技大学推出了元宇宙教室的第一个课程“元宇宙设计思维”。元宇宙教室是香港科技大学实体—数字双子校园项目的一部分,这个项目是用元宇宙连接香港、广州两个校区的同学,初衷是让不同校区的学生都能获得归属感,一起上同一堂课。最后课程效果很不错,我们发现同学们对这样的技术接受度很高,这一点很重要,如果接受度低,那创新很难展开。

这学期我们运用AI讲师的课程名叫创意社交媒体,选这门课的同学其实对各种创新科技都很感兴趣,课程本身也涉及了很多不同的领域,讲求知识性、趣味性,所以我认为这门课尝试用AI的方式来展示是合适的。

当然,为了让同学们能接受AI讲师,我們进行了很多技术上的准备。从新闻报道也能发现,使用AI讲师授课在全球大学范围内还是很前沿的,这里面涉及很多研究议题。

2021年疫情席卷而来,国内外的生活都有着出行上的限制,我们的生活像变成一座孤岛,那段时间更推动我开始思考怎么把元宇宙结合到教学和实际生活上。

在这个学期,虽然AI讲师还没有实现跟同学互动的功能,但是从技术上来说这是能做到的。这学期我们主要想探讨一个最基础的问题—同学对AI讲师的形象、肢体语言和口音等各种表现的接受程度如何?

科技界有一个词叫Uncanny Valley(恐怖谷效应),指的是当AI技术愈加发展,人们会对机器人身上的具体特征很敏感,当人能察觉到机器人虽然很像人,但又不是真人时,会产生毛骨悚然的感觉。所以,设置AI讲师形象时我们进行了很多探讨,包括研究老师的身份背景、口音、肢体表情、肤色等等。

具体来说,我为这门课程准备了教材和简报。在此基础上,我们将使用AI工具生成脚本;我完成初稿修订后,将脚本交由AI生成音频资料;这些音频将用于驱动AI讲师表现出不同的面部表情和肢体语言。最后,我们还会对生成的内容进行剪辑和编辑,确保教学内容的准确性。

在课堂呈现时,AI讲师有2D和3D的形象:2D形象以视频形式展现给学生,而3D形象则通过VR设备进行教学。

南风窗:经过一个学期的实践,目前最受学生欢迎的AI讲师形象是怎样的?

许彬:学生们的喜好十分多样。例如,喜欢动漫的学生倾向于偏爱卡通形象的讲师,而有些学生则更青睐接近真人的老师形象,或是虚拟现实中的教师。

在我们的项目中,评分最高的是一位亚洲年轻女性讲师,其次是一位年轻的白人女性。由于我们是进行英语教学,带有英式口音的讲师更受学生们的欢迎。

我们还尝试调整了AI讲师的声音,包括高音和夹子音等,但学生们更喜欢稍显成熟和权威的声音。此外,如果讲师在说话时能将面部表情和手势相配合,学生的接受度也会更高。

南风窗:接下来,你对AI讲师的改进计划是怎樣的?

许彬:我们一直在探索让AI讲师与学生互动的可能性,并逐步实践这一想法。我们也打算引入大语言模型。不过,即便使用了像GPT-4这样的高级模型,当涉及它不熟悉的领域时,它仍可能回答错误。

此外,目前的大语言模型都是通用的,要使其在特定领域内提供准确回答,我们采用了检索增强生成的方法,输入相关领域(如社交媒体)的教科书和论文进行训练,以期使AI讲师的回答更加精准和有针对性。

经过一个学期的实践,我们已经详细了解了学生对AI讲师形象的偏好。结合这些偏好,我们计划推出具有互动功能的AI讲师,并集成学生喜欢的外观、肢体语言和声音特征。

生成式AI让元宇宙创作更高效

南风窗:谈一谈你的研究经历,以前你在博士期间的专业是计算机,后来从事计算机网络的研究、移动计算等,是怎么决定转向研究元宇宙的?

许彬:我一直读的是计算机专业,2012年的时候,我还在德国柏林工作,当时公司需要制定未来的策略性计划,大家都在思考实验室5年到10年以后的研究方向。

其实,我的研究范围很广泛,做过网络、社交网络、AI等等,当时根据自己的兴趣和对未来的预测,我认为AR和VR是未来的重要方向,那一年开始,就主力做元宇宙方面的研究。

2021年疫情席卷而来,国内外的生活都有着出行上的限制,我们的生活像变成一座孤岛,那段时间更推动我开始思考怎么把元宇宙结合到教学和实际生活上。

其实,元宇宙能拓宽我们的生活边界,让有限的空间变得不再狭窄,比如我们习惯使用的通信软件都只是一个个二维平面,而人类习惯的是三维空间,元宇宙就能实现让人们在三维的虚拟世界里交流、互动。

南风窗:你曾经提到元宇宙不仅是数字孪生,还包括数字原生,未来的虚拟世界将以沉浸式的方式与物理世界共存,以至于人们无法区分真实和虚拟。在这个虚拟世界里,其规则的建立是和物理世界一样吗?

许彬:“数字孪生”是指现实世界里有的东西复制到虚拟世界,“数字原生”则是指现实世界里不存在的东西,事实上,我所提到的“数字原生”更多是指内容创作层面的。

理论上,虚拟世界里可以有一个盘旋在空中的岛屿,但如果用户进入到这个物理世界里面,人是需要倒着走的话,那用户体验不会很好。

另一方面,物理世界与虚拟世界的最佳融合方式,并不是我们进入虚拟世界,而是将数字对象带入现实空间。这就是所谓的“超现实”概念。

虚拟世界里,所有东西并不是必须遵守各种物理定律,但起码要遵守三维的规则,符合物理世界的性质。

在虚拟世界里,我们能看到小鸟会说话,也会有块石头飞来飞去的,虽然这些不会在现实里发生,但如果能让用户感觉舒服且自在,其实这些都是没有问题的。最终,元宇宙的展示方法及设计还是要讲究用户体验。

物理世界与虚拟世界的最佳融合方式,并不是我们进入虚拟世界,而是将数字对象带入现实空间。这就是所谓的“超现实”概念。

南风窗:不久前,OpenAI发布了文生视频的模型Sora,它的精彩表现让很多人体验到虚拟世界的生动感,而且OpenAI将其称为世界的模拟器。你认为,生成式AI的发展会给元宇宙带来什么样的改变?AI技术和元宇宙的结合点在哪里?

许彬:我们之前也提到过,元宇宙主要关注数字原生的内容创作。如果元宇宙内没有吸引人的内容,人们自然不会有兴趣参与进来。

因此,我认为生成式AI工具的发展将极大地促进元宇宙的发展,使内容创作变得更快速、成本更低。例如,像AI讲师这样的项目就能更迅速地被开发出来。同时,AI工具还可以帮助完成元宇宙内的导览和介绍工作。

以往创建元宇宙场景需要艺术家逐步绘制,耗时而繁琐,许多游戏世界就是这样构建出来的。但如果生成式AI工具得到广泛应用,虚拟环境的创建将会大为简化,实现数字孪生也将变得更加容易。

香港作为元宇宙试点,有何参考性

南风窗:香港在元宇宙的探索上有着许多优势,而且还被Meta选为亚洲的元宇宙试点中心,你怎么看待香港适合发展元宇宙的要素?

许彬:Meta选择香港作为试点有多方面原因,香港具有城市密度高、人们生活聚集在市中心、各种通信设备发达的特点,而且每个人都会拥有不少智能设备,对高科技的接受程度高。

另外,香港也正在大力建设国际虚拟资产中心,全力发展Web3.0产业,并且出台了虚拟资产交易新规,无论在经济收入还是知识产权层面,创作者的权益都能得到保护,他们的创作意愿会相对较高。我想,未来元宇宙发展的愿景应该也是如此,需要这样的硬件配套设施来支持。

南风窗:你也关心城市等大型人类活动空间的数字化转型,目前AI技术的发展会给城市公共建设带来什么帮助?

许彬:这也是我感兴趣的一个议题。虽然我本身是计算机专业出身,但我指导的一些博士生也在研究城市规划相关议题,我们主要探讨AI和元宇宙如何更好地与城市活动空间结合。

首先,与传统城市规划方法相比,人工智能带来了创新变化。传统城市规划依赖于经验,而现在得益于数据科学的推动,规划师可以深入理解复杂的土地和交通系统,从而做出更有效的决策。

其次,人工智能在实时监控方面也能发挥巨大作用。传统方法通常是收集数据、再进行处理,而数字技术可以实时、大规模处理地理空间和社交数据,识别出可行的模式。例如,城市基础设施中安装的传感器和摄像机可以预测积水和洪涝情况,使得快速响应成为可能。

在物理空间中,AI可以为物体的结构、功能和美学带来新的见解。目前一些知名的建筑的设计(比如大兴机场,还有AI Build设计的作品Daedalus Pavilion)结合了人工智能和数据分析,利用生成式工具,创造出流畅的视觉美感和体验。而在虚拟空间中,AI工具能快速生成元宇宙空间,创造出具有时空背景的场景。

元宇宙“平民化”关鍵在内容创作

南风窗:元宇宙的概念在广泛传播后,很快成为风口,但也引来了不少质疑。比如目前普通消费者能接触的消费设备选项不多;元宇宙的场景很丰富,但内容显然还不够;因此,元宇宙看起来离普通人还很遥远,对这个现象你是怎么看的?元宇宙会变得更“平民化”吗?

许彬:其实,目前市面上的VR设备价格不算很高,像Meta出的Quest 2头戴式设备,价格在200美元左右,质量已经很不错了。

但是,如果说让元宇宙的发展更好,那还是我们上述谈到的内容—怎么样提高内容创作的质量、扩展内容的范围。现在很多人想到元宇宙还只能想到一些游戏,但不是每个人都玩游戏的,有人想到元宇宙学东西,目前学习的场景不多,想要推动元宇宙发展,内容创作是关键。

关于元宇宙炒作的争议,其实在三四年前确实存在,当时有在元宇宙里进行虚拟土地交易的,一块地能卖出数百万美元,这里面的操作肯定充满投机与风险。如今,几年时间过去了,元宇宙的概念得到沉淀,炒作那一轮势头逐渐过去了,元宇宙发展的环境也在逐渐改善。

南风窗:数字技术的发展让人们看到了很多可能性,也带来了道德边界上的争议,比如版权争议、隐私问题还有数据安全。当你在设计模型或者项目的时候,会怎样考虑风险?

许彬:AI诞生以来就伴随着不少争议,其中一个体现是,如果训练AI的数据模型是偏颇的,那这个AI模型就不会公平。

若AI讲师能进行完善和推广,到时候每个学校只需要一部电脑,讲师24小时都可在线,就能解决教师数量不足的问题。

当然,元宇宙也会有其它问题。我是国际刑警组织元宇宙专家组的创始成员,每隔一段时间,会和国际刑警方面进行沟通,主要了解元宇宙会带来什么新的罪行。现实世界里的违法犯罪行为—洗黑钱、避税等问题也会出现在虚拟世界里,除此以外,还会衍生出新的问题,需要及时发现和跟进。

现实生活里,元宇宙的应用必然涉及很多数据,以头戴式设备为例,它会接触身体的各项隐私,怎样相信设备能保护我的数据?数年前,我们进行过一项专门的研究,内容是当摄录机在拍摄时,怎样通过自己的表情、手势和摄录机进行沟通,让它不要拍摄到这些数据,并且将我的样子模糊掉。新科技一定会带来很多争议,我们学界持续关注、发声的目的,就是让这些科技的优缺点被公众得知,实现信息沟通的透明。

南风窗:最后,谈谈你目前在研究的项目?

许彬:我可以分享两个项目,第一个是研究如何通过AR完成城市叙事,很多现实里的故事、电影里的场景其实都发生在城市区域内,我们希望发挥香港、广州的城市特点,打造成具有元宇宙要素的叙事内容。最近维港两岸也出现了融合了科技、科学的艺术装置,我们希望未来能把这样的技术运用到珠江沿岸的风景上,把数字技术投放到城市中,营造出不一样的城市景观。

另一个项目依旧是AI讲师的推广,我们希望随着其功能逐步完善,能推广到更多学校。AI技术出现后,每个岗位都会出现“会否担心被AI取代”的问题。我也常常会被问到同样的问题。其实放眼全球,教师是稀缺资源,全球有6900万的教师缺口,例如,一些偏远地区或四五线城市同样面临着教师资源短缺的问题。若AI讲师能进行完善和推广,到时候每个学校只需要一部电脑,讲师24小时都可在线,就能解决教师数量不足的问题。

随着AI讲师项目的不断完善,我们的下一步计划是融合互动性功能,让其更适合大规模教学,这样它能用在更多地方,偏远地区的小朋友也能因此受益。

猜你喜欢
南风窗虚拟世界讲师
《南风窗》新媒体营收激增原因分析
金牌讲师在哪里
坚持图像的科学 深入解读ISF讲师Joel Silver
数学小讲师
虚拟世界和真实世界的纽带
虚拟世界大门正启
拥抱虚拟 珍惜现实
《南风窗》 强化教育公平
在虚拟世界关爱“小博友”
《南风窗》等