从Sora到AGI:智能媒介的升维与全新场景体验时代的到来

2024-07-11 10:35喻国明苏健威
编辑之友 2024年6期

喻国明 苏健威

基金项目:北京师范大学博士生学科交叉基金项目“扩展现实技术环境中的人机与情感传播效果”(BNUXKJC2215);北京师范大学人才培养质量提升专项计划

作者信息:喻国明(1957— ),男,上海人,教育部长江学者特聘教授,北京师范大学新闻传播学院教授、博士生导师,主要研究方向:新媒体、网络舆论学、传媒经济与社会发展;苏健威(1996— ),男,河北张家口人,北京师范大学新闻传播学院博士研究生,主要研究方向:媒介技术与人机交互、认知神经传播学。

【摘要】作为新一代大型视觉模型,Sora使文生视频技术实现了从“堪用”到“好用”的飞跃,其走红的背后是迈向通用人工智能的可能。Sora本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度,这将开启数字文明的序幕。Sora的意义在于:首先,大众内容生产从以文本为基础的单模态升维到以影像为基础的多模态,个体的主体意义得到极大增强;其次,人类的认知、学习、沟通将进入全新的场景体验时代;最后,全新场景体验意味着能够借此建立粒度更细、自由度更高、可供性更强的价值连接。Sora的技术革命也将深刻影响新闻传播的价值要点:一方面,未来传播需要渗透到公众认知的全环节,辅助公众参与治理,创造价值;另一方面,未来传播需要连接圈层,促进圈层间的彼此理解与共识达成。

【关键词】Sora 大型视觉模型 场景体验 通用人工智能 智能媒介

【中图分类号】G206 【文献标识码】A 【文章编号】1003-6687(2024)6-039-07

【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.005

生成式人工智能是2023年人工智能乃至整个媒介技术领域备受瞩目的概念,掀起了新一轮全球产业升级。据科创研究机构PitchBook估计,2023年全球生成式AI的市场规模可达426亿美元,2026年则将达到981亿美元,[1]可见生成式人工智能有望成为未来技术与产业革命的强劲引擎。2024年2月15日,OpenAI继大型语言模型产品ChatGPT之后又发布全新一代大型视觉模型Sora,使文生视频模型的能力达到了新的高度。不仅如此,OpenAI更表示,Sora是能够理解和模拟现实世界的模型基础,这将是实现通用人工智能的重要里程碑。[2]

如何理解Sora不同于ChatGPT的革命性特征?Sora的诞生对于智能媒介与社会发展有何意义?厘清这些问题对于把握人工智能技术发展至关重要。基于此,本文将讨论三个问题:一是Sora本身具有哪些技术上的突破,形成了哪些标志性特征?二是以Sora为代表的通用人工智能技术将如何改变AI参与社会生产的方式以及人们认知和实践的方式?三是在Sora的技术背景下,新闻传播理论的价值要点有哪些新的变化?

一、作为全新大视觉模型,Sora使人们看到实现通用人工智能的可能与路径

1. Sora是新一代大型视觉模型,使文生视频技术从“堪用”到“好用”

Sora在日语中是“天空(そら)”的意思,可引申为“自由”之意。[3]正如其名,该模型经过训练,可以根据简单的文本指令自由生成长达1分钟的现实或想象场景的视频。[4]如图1所示,Sora生成的视频与真实摄像几乎无法分辨,已经达到极为逼真的程度,远远超过了既往所有文生视频产品的效果。

除了简单的提示词生成视频外,Sora也展现出了诸多新的功能。首先,Sora可以在单个生成视频中创建多个镜头,能准确反映同一场景中不同视角呈现的景观,这意味着Sora对二维平面视觉的生成是基于三维物理世界的理解,能够为内容的多角度叙事提供更好支持;其次,Sora可以自然融合两种并不相关的场景视频素材,使不同场景的切换平滑过渡;再次,Sora还支持对视频素材进行向前、向后扩展,以及更换视频局部的内容(如特定的场景、对象等)。

Sora这些功能基于与GPT模型类似的Transformer技术架构,此前OpenAI对于DALL·E和GPT模型的研究也成为Sora重要的技术基础。就生成过程而言,Sora是一个扩散模型,它从看起来像静态噪声的图像开始,通过在许多步骤中删除噪声来逐渐生成视频(见图2)。[5]有研究指出,Sora的问世揭示了在文生视频中的几种涌现能力。这一进展凸显了大型视觉模型具有类似大型语言模型的潜力。[6]Sora目前还存在一些不容忽视的问题,其可能难以准确模拟复杂场景的物理规律与因果关系,如生成视频中一个人在饼干上咬了一口,饼干可能不会出现咬痕。Sora还可能会忽略提示语中潜在的空间细节,如生成视频中的人可能会在跑步机上反向跑步。尽管如此,不可否认的是,Sora已经使文生视频应用实现了从“堪用”到“好用”的飞跃,成为大型视觉模型技术发展的一个关键里程碑。

2. Sora成功背后的隐喻:迈向通用人工智能的可能性与实践路径

2007年,美国通用智能研究所的戈尔策尔和佩纳钦首次提出“通用人工智能”的概念,[7]用于区分狭义的、专长于个别领域的人工智能技术,代指人类水平的智能,即达到或超越人类智能,拥有如生命、感知、意识、心智甚至情感和道德等特征。[8]通用人工智能是能够引发人工智能技术发展与应用质变的一个重要目标。遗憾的是,即便是近年来大热的大语言模型也仅仅只能在文本模态进行抽象生成,人工智能技术距离通用人工智能的愿景仍十分遥远。Sora的出现使人们前所未有地接近了通用人工智能。

首先,Sora使用视觉材料训练,这意味着大型视觉模型技术在学习层面具有极高的资源禀赋和效率优势。目前训练大型语言模型存在诸多障碍,如人类文明发展历史中沉淀下来的优质文本训练语料是有限的,文本所能提供的学习价值也相对单薄。大型视觉模型则不同,任何视觉模态的材料都可以用作视觉训练材料,都蕴含着大量真实世界的法则规律。360集团创始人周鸿祎指出:一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的不远了,不是一二十年的问题,可能一两年就实现。[9]有研究使用“具身智能”概念描绘未来人工智能学习进化效率的革命,即能理解、推理以及与物理世界互动的智能系统。[10]可以说,基于视觉模态的训练是人工智能主动与物理世界交互的先决条件,当能够主动学习、理解真实世界的具身智能成为现实,世界将很快迎来人工智能技术发展与应用的质变时刻。

其次,除了Sora训练模式的转变之外,使Sora接近通用人工智能的第二个原因是,Sora表现出了模拟物理世界的世界模型的潜力。OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是通过训练模型来帮助人们解决需要与现实世界交互的问题。[1]根据Sora的技术报告,它是第一个确认展示出涌现能力的视觉模型。英伟达高级研究科学家Jim Fan断言,Sora是一个数据驱动的物理引擎,是一个可学习的模拟器或世界模型。[11]这种模拟世界的性质使以Sora为代表的大型视觉模型超出了以往所有人工智能的价值定位,一方面,人工智能能够在深度理解世界规律的基础上进行创造性的、多模态的生成;另一方面,人工智能不仅能够对已有材料进行归纳提取,亦能在规律的基础上实现对真实世界的一定预测。

由此可见,Sora的走红并非仅靠其文生视频功能的卓越表现,更在于其已经极为接近通用人工智能的愿景。那么,如何从本质上理解Sora相较于先前人工智能技术所具有的革命性?Sora将如何改变我们的传播形态以及社会生产生活方式?这对于把握以Sora为代表的大型视觉模型技术是极为重要的。

二、理解Sora的革命性:本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度

爱因斯坦曾指出,在问题的原有维度上不能解决问题,在原有维度上,只能呈现问题,只有换一个维度,才能解决现有问题。人工智能的技术发展同样是一个不断升维的过程。倘若人工智能技术仅仅在原有逻辑上不断提升性能及表现,那么人工智能将永远无法实现革命性的质变。因此,理解Sora以及未来的人工智能技术,技术维度的跃升是一个关键视角。

1. Sora本质上是人工智能在ChatGPT之后的又一次重大升维

可以简单地根据能力维度将人工智能技术发展划分为三个阶段(见图3)。第一个阶段即零维阶段,就整个人工智能发展而言,零维阶段是产生人工智能技术的前期基础阶段,其底层的系统架构、算法模型、算力基础正在由量变转为质变。人工智能在这一时期主要作为一种技术概念或方向,其功能效果尚不足以解决现实问题,更遑论具有超越人类智能的表现。

人工智能技术从零维突破至一维阶段的标志,是1997年IBM超级计算机“深蓝”战胜国际象棋棋王加里·卡斯帕罗夫。这场对决使人工智能震惊世界——人工智能在一个专业领域已经达到甚至超越了人类顶尖水平。2016年DeepMind围棋机器人AlphaGo战胜围棋世界冠军李世石,证明人工智能能够在更多专业领域超越人类智能。尽管如此,其间人工智能技术并没有实现维度上的突破,即人工智能的优越性仍然仅限于个别专业领域。

ChatGPT的问世可被视为人工智能技术由一维突破至二维的关键标志,它的核心突破点在于, ChatGPT能够在语义系统内对构成人类、场景、世界的各种要素进行整合提炼,将先前人工智能技术线性的个别领域优势突破至平面式的更通用的、普适的优势。由此,人工智能技术不再局限于个别领域对人类智能的超越,而是在相当广泛的场景领域中表现出机器智能的优势,这是一种功能维度上的巨大跃升。

但必须认识到,ChatGPT所依赖的GPT模型本质上是一个大型语言模型,其生成内容仅限于文本模态——对用户和世界的一种抽象表达。换言之,以ChatGPT为代表的大型语言模型只能以相当粗粒度的方式认识世界、描绘现象、表述逻辑、传递情感……而我们日常生活中所感知到的世界远远比文字表述要更加细腻、活泼和生动。人工智能要进一步整合更广域、更细腻、更直达人心的要素,就需要在更高维度上取得突破。

因此,Sora的革命性意义在于,其是继ChatGPT之后人工智能技术的又一次重大升维,使人工智能感知和表达世界从此具备了时空维度。这种升维深刻地改变了人工智能提炼整合世界要素的逻辑,形成了全新的、更具包容度和自由度的智能系统。

2. Sora开辟了智能媒介价值生成的时空维度,从而具备模拟世界的能力

保罗·莱文森曾指出,一切媒介的进化趋势都是复制真实世界的程度越来越高,其中一些媒介和真实的传播环境达到了某种程度的和谐一致。[12]智能媒介同样遵循这一发展逻辑,即智能媒介要达到通用人工智能的愿景,仅靠基于文本模态对世界的抽象理解和模拟是远远不够的。要复制真实世界,形成更加广阔、丰富、细腻地对世界和人类的感知、理解、匹配,智能媒介必须突破朴素的文本维度,形成基于时空维度的学习与创造能力。

Sora作为一个划时代的大型视觉模型,其不仅能够生成高保真平面影像,更能基于对物理世界的理解,形成对对象、场景多角度的影像创造。正如OpenAI将其定义为“世界模拟器”,一方面,Sora并非一个简单的文生视频模型,其实质上将智能媒介价值创造的维度从扁平的文本维度转变为三维的空间维度,实现对物理世界的空间模拟;另一方面,Sora能够生成长达1分钟的视频,能够以时间为尺度描绘生成对象的变化。

于是Sora开启了智能媒介模拟世界的时空维度,使智能媒介极大地接近通用人工智能的愿景——不仅能够完成语义体系内世界的构建,更能完成整个物理世界的现实构建、场景构建、实践平台构建。在这种维度突破带来的可供性剧增之下,无论是语义要素还是非语义要素都可以用三维时空进行模拟、重组和创生,这意味着智能媒介能够敏锐地识别更加细微、隐晦、无法用语义表达的结构要素,并能在这种要素的重组、匹配、连接过程中形成更大的价值。这种维度突破也促使以Sora为代表的智能媒介几乎实现了全域式的整合和价值匹配,即人类社会实践的全环节、全链条可以进行全要素的整合和价值匹配。因此可以说,Sora本质上是人工智能的又一次重大升维,是智能媒介发展的一个全新标志。

3. Sora将揭开人类数字文明的序幕

事实上,任何一种媒介都是建立在特定技术进步基础上的。媒介进化的历史表明,媒介越向前发展,它与技术的关系就越发水乳交融、密不可分。[13]Sora所代表的大型视觉模型技术的飞跃形成智能媒介模拟世界的时空维度,也将促使媒介升维,推动媒介所承载的关系连接、价值连接得到升维。

对于构建数字文明而言,由于时空是极为重要的维度,所以开辟时空维度所驱动的这种升维不同于先前任何一个时段的媒介与社会进化。以往在论及人类的数字化、媒介化生存时,尽管能够以媒介进化的逻辑突出其与先前时代的区别,但仍存在语焉不详之处,即在我们所构想的数字文明之中或许存在着人类实践逻辑、社会关系、社会结构的重要变化,但这种变化无法被立体地描摹出来,是以一种抽象的语义形态存在着,而非人类能够真切地看到、感受到、接触到的鲜活的时空现实。

在模拟世界的时空维度出现之前,我们很难构想一个不被时间、空间尺度所衡量的数字世界。于是在Sora出现之后,我们不仅可以看到智能媒介的技术进化,更能窥见未来虚实相融的社会场景以及人们如何在这种场景中实践和发展。对于即将到来的由技术高度中介化的人类文明——数字文明,我们可以看得越来越明晰,对它的实现与发展越来越有所依循。就此而言,以Sora为代表的大型视觉模型为数字世界的价值创造开辟了时空维度,使未来的数字实践得以被时空所呈现,人类数字文明的序幕也将就此揭开。

三、Sora驱动信息模态与价值连接升维,人类社会将进入全新的场景体验时代

1. 大众内容生产从以文本为基础的单模态升维到以影像为基础的多模态,个体的主体意义得到极大增强

ChatGPT等基于大型语言模型的智能媒介前所未有地改变了大众内容生产的效能,增强了个体感知、认知和表达水平,使大众内容生产跃升到新的层次。尽管如此,需要看到的是,ChatGPT立足于文本模态的价值赋能受到单一模态的限制,其价值创造的规模十分有限。

Sora和ChatGPT的不同之处在于,Sora以视觉模态为基础,能够囊括整个物理世界的全要素,能在算法算力的加持下对这些要素进行极大规模的整合、浓缩和提取,并能在个体意志的引领下形成更加丰富、立体和饱满的表达。其实质是大众内容生产从语言到非语言、从抽象到具象、从逻辑到感觉的革命性跃升。这种跃升系统地深掘并表达了人脑中无穷无尽的、模糊隐晦而无法凝练为语言的思绪,并能与前述万千物理世界的要素进行细腻地整合、匹配、连接,形成更加广阔的可供性。

这种可供性的剧增会形成全新的连接人与世界的方式,正如从功能手机到智能手机的“iPhone时刻”。功能手机作为具有特定功用的终端,连接的对象和内容都是有限的。iPhone从功能机的语境中脱离出来,以应用的方式重构了手机的功能逻辑,使手机成为人与外界连接的超级终端。Sora也将改变信息生产传播的语境,使人们在与外部环境连接的过程中,不但能够进行单薄的话语交流,更能以具象的形式分享创意和构想。人们能够在具象的呈现基础上进行沟通、游戏,以及复杂的行为协同。因此,Sora驱动的大众内容生产的模态跃升,关键意义在于人们能够超越信息交流的范畴,在近乎真实的实践场景中进行对话和深度协同。

此外,大众内容生产的模态跃升使个体能够获取超越以往的资源与权力。过去公众主要以话语的形式参与社会、影响社会,如今个体基于Sora对世界的模拟,能够感受世界各种各样的真实样态,可以用具有物理性质、化学性质的全要素进行对象和场景的把握、提取和细分,能够通过相关影像来创造性地设计具体想法,从而使语义表达变为现实的数字产品。这就空前实现了从语义到非语义、从软件到硬件的数字化拟合,个体可以在这种拟合的基础上各尽其能,共创价值,共造生态。因此,Sora驱动信息模态的跃升将使个体的主体意义得到极大增强,个体的重要性将远超以往任何一个时代,呈现出麦克卢汉所预言的“处处皆中心,无处是边缘”。未来社会的构建要建立在个人的意愿和创意基础之上,个体将成为最重要的原点,这是未来文明极为鲜明和重要的特征。

2. 人类的认知、学习、沟通将进入场景体验时代

在OpenAI发布的最新Sora技术报告中提到,Sora能够模拟如视频游戏的数字化过程。未来Sora将可能被应用于建模、生成游戏动画和场景等,游戏开发者的门槛将被大大降低。[14]这意味着无限生成个性化的数字场景成为可能。换言之,每个个体都能够按照自己的意愿构造亦真亦假、虚实交融的数字场景,也能够进入万千场景中获取新知和体验,实现学习和对话。这不同于传统的场景概念,如打车、外卖、网购等理性逻辑构造下的分众场景,在智能媒介模拟物理世界的能力加持下,个体的每一种思绪都能够形成更加直观、细腻、立体、饱满的场景,在这些场景中,我们能与故人对话,能在未来遨游,能让每一个奇思妙想成为现实。因此,Sora代表的智能媒介将开启不同于以往的、全新的场景体验时代。

基于这种场景体验,人的学习方式、认知模式都将发生深刻的变化。在此前的技术语境下,事物的表达维度往往是不完整的,是以语言或图像的形式对世界的简化和抽象,这一过程中对象或场景的大量细节将无法呈现,能够呈现的部分也难免存在表达模糊晦涩之处。与之相应,对这种表达的认知就可能形成偏态,其认知过程的沉浸度、愉悦度和顺畅度都是不足的。在新的场景体验时代,人们将在场景中体验、学习,直观地体会世界的样貌,把握对象的性质,具体而言,这种全新的场景体验时代具有四个重要特征。

一是个体将以第一人称进入场景之中,具有学习和探索的自由度。在沉浸传播时代,传播也将真正实现“我的场景我做主”,将传播中的主动权赋予受众。在虚拟的场景空间中,人的在场与环境因素并置存在,是一种非线性的并置状态。[15]个体能够主动地控制认知过程,对事物形成多维度的解读,并能结合实践操作形成更深层次的把握。

二是场景将形成人们对话的基础,极大地减少各说各话的窘境。受限于先前技术,个体往往使用抽象的语言建立会话主题。尽管这种抽象一定程度上能够突出重点,但其忽略掉的细节往往会引起不同受众的不同解读,正所谓“一千个读者有一千个哈姆雷特”,受众从抽象到具象的演绎会受到各种因素的影响,从而带来认知的不确定性。在新的场景体验时代,个体能够以相对具象的方式呈现话题,极大地削减语义不明的灰色空间,使会话多方能够就话题形成共通的、基础的认识,从而减少网络中各说各话的沟通困境。

三是场景体验将成为个体消除认知差异、达成共识与共情的新路径。在新的场景体验时代,个体可以基于技术构建场景、共享场景,通过消除认知不匹配以帮助不同立场的个体达成彼此理解,形成换位思考的可能性。此外,构建场景也为情感叙事提供了更丰富的可供性,不同立场的个体置身场景之中更容易产生情感共鸣,如难民议题的叙述文本远不如使用户置身场景之中更具感染力和冲击力。

四是场景体验将成为个体认知改变的关键要素,能够在很大程度上弥补语义模糊带来的认知偏态和刻板印象,使不同立场的话语能在理论上处于对等状态。最典型的便是网络谣言,许多剪辑拼贴而成的影像片段往往能够压过文本信息的声量,而构造场景则能有效传情达意,使舆论不致极化。概言之,大众构建多模态场景的能力对人类认知的完整性、自主性和可操作性具有重要意义,智能媒介将成为未来人类学习和认知的关键平台。

3. 全新场景体验意味着能够建立粒度更细、自由度更高、可供性更强的价值连接

罗伯特·斯考伯和谢尔·伊斯雷尔曾前瞻性地指出,在未来的25年里互联网将迈入场景时代,[16]随后移动互联网深度挖掘了基于场景的服务,即对场景(情境)的感知及信息(服务)适配,[17]使用户需求与场景实现了粗略的连接,这是场景传播的第一个阶段,即着重“场”。在这一阶段,场景不是完整的,始终是抽象、局部分散和割裂的。场景传播的下一个阶段将重于“景”,即在解决人们不同情景下个性化信息和服务的适配之后,场景技术将在景观化呈现和沉浸式体验方面跃进,[15]从而能够构造粒度更细、自由度更高、可供性更强的价值连接。

具体而言,移动互联网时代的场景连接是整体性的,即对场景的分析主要限于人工主观划分的代表性场景,如打车、外卖、网购等,这种场景以一种脱离个体所处现实物理环境的语义形态或应用形态存在。用户无法窥见场景的构成要素和整体面貌,仅能通过“黑箱”式的主动连接完成需求的满足。如当用户想要回味电影中的某个情节时,只能通过点开几个应用寻找视频来满足这种场景需求。这种连接模式无法精确地匹配到用户想看的某个片段、想要产生的某种精神共鸣,以及在观赏的同时享受到的其他服务。要达到这种需求的更深层次的满足,场景必然不能以整体形式出现,而是以要素个性化组合的形式呈现。

以Sora为代表的智能媒介就完成了这种场景的解构和重组。通过大型视觉模型,智能媒介能够理解物理世界,感知并分析视觉要素,使场景感知不再依赖于简单抽象的文本叙述、数据模型、地理位置,而是能够精确地分析场景中所蕴含要素的物理性质、化学性质、功能结构,并能结合个体需求赋予其价值定义,使这些要素能够在用户的需求意愿下进行重组和提炼,并与用户需求建立精确匹配。这种匹配关系的细致程度远超以往任何时代,其价值释放的规模也将达到全新层次。

这种全新的场景体验将与以ChatGPT为代表的文本生成智能媒介所构造的语义连接系统相结合,形成前所未有的价值连接范式。文本生成智能媒介的最大革命性在于,其打开了个体需求的“黑箱”,能够根植用户表达的语义系统,通过个性要素识别、人类认知模拟完成个体更细致的内生性需求的分析。[18]这迥异于外卖、打车等一般简单的场景或需求的表达,而是对用户需求的内在机理展开细腻的个性化识别。因此,当内部需求与外部场景的拆解重组相结合时,其本质上是智能媒介对连接双端“黑箱”的开启,是一切价值连接内外部关系壁垒的打破。一切细微复杂的、个体的、场景的结构要素能够解构重组、重新生成、重新连接,从而构造粒度更细、自由度更高、可供性更强的价值连接。

至此,在智能媒介的中介下,整个社会一切内部要素和外部关系将互联互通,整合协同。正如麦克卢汉对“地球村”的预言:“我们今天的加速并不是缓慢地从中心向边缘的外向爆炸,而是瞬间发生的内爆,是空间和各种功能的融合。我们专门化的、分割肢解的中心—边缘结构的文明,突然又将其机械化的碎片重新组合成一个有机的整体。”[19]在这种整合之中,虚拟或现实世界的各种器物、各种媒介的界限将消弭,一切要素将根据个体的意愿、状态实时响应,实时连接,协同作用。这种密集的价值连接将形成极大的价值释放,推动人类文明进入数字时代的新纪元。

四、AGI时代新闻传播学的价值要点:未来传播要渗透到人的认知全环节,并在圈层化结构中促进共识达成

以Sora为代表的新技术将深刻地改变人类的传播模式,这也为新闻传播学带来契机——我们有望通过技术进步解除既往传播模式对人的限制,帮助公众更好地形成认知,从而更好地把握自我与外界现实。因此,我们有必要重新审视AGI时代新闻传播学的价值要点。

1. 未来传播需要渗透到公众认知的全环节,并辅助公众参与治理、创造价值

在AGI时代,媒介将不仅仅是信息传播的工具,新闻传播活动也将被赋予更多功能。如果我们此时仍将新闻传播简单地定义为报道真相的话,我们就会犯“刻舟求剑”式的错误。因为新闻传播最重要的目标是消除或减少公众对于外界变化的认知不确定性,这不是仅靠提供真实可靠的新闻就能实现的。因为人内在已有的知识体系、既往经验会扭曲相关信息,理解会存在偏差,存在系统性的漏洞,而这些缺陷在过去的传统媒介时代是无法有效弥补的。

在AGI技术语境下,未来传播必须从新闻报道的角色转变为追求渗透至人认知的全过程。Sora为传播创造了一个机会,即新闻传播不仅可以报道真相,也可以通过游戏、场景体验、实际操作,让公众看到真假混合的社会现实。在辨别的过程中,公众的认知能力、选择能力、判别能力将得到提升,能够将其转化为对不确定性的减少或消除。

此外,媒介正在从提供信息的工具演化为价值创造的平台,这是由于媒介能够构架连接,促进信息、资源、价值的流动,使每个个体能够在流动的社会网络中既获取价值、满足需求、完善自我,又能够传情达意、创造价值、实现自我。AGI时代,每个个体将成为社会中最重要的原点,未来社会将是万众共治、价值共创的庞大生态。因此,传播与媒介更需要辅助公众参与治理,创造价值,这是未来传播的关键功能。

2. 未来传播需要连接圈层,促进圈层间个体的彼此理解与共识达成

媒介技术的发展降低了个体之间彼此连接的成本,人类同气相求的倾向逐渐转变为媒介与社会结构的“部落化”和 “DAO化”。这种传播结构能够满足个体群体认同和情感支撑的需求,但也催化了社会意见的撕裂和舆论治理的困难。因此,未来传播的一项重要价值就在于如何让人走出圈层进入公共空间,使社会意见能够充分有效地碰撞和交换,能够形成某种共识以推动社会发展。

Sora这一新兴技术为连接圈层带来了新的可能,即通过视觉内容的传播与实践场景的构建,使不同圈层的个体能够更加立体、设身处地地感受彼此所处的情景,从而构建能够形成共识和沟通的平台,加强不同圈层间的彼此联系。

总而言之,我们不应因新技术的到来而感到恐慌。新技术的诞生能够改变传媒业的格局,更能给新闻传播带来更广阔的发挥空间,让我们发现既往技术带来的人认知、沟通上的限制,从而通过帮助整个社会更好地交流协作以推动技术向善,使社会更好地走入数字文明。

参考文献:

[1] Sora来了,现实不存在了?[EB/OL].[2024-02-16].https://mp.weixin.qq.com/s/y82KaPSIjCROi9FLHXdf2A.

[2] OpenAI. Video generation models as world simulators[EB/OL].[2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators.

[3] 关于Sora,我有十个小白问题[EB/OL].[2024-02-19].https://www.guokr.com/article/465211.

[4] Liu Y, Zhang K, Li Y, et al. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models[EB/OL].[2024-03-03].http://arxiv.org/abs/2402.17177.

[5] OpenAI. Creating video from text[EB/OL].[2024-02-15].https://openai.com/sora.

[6] 解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品[EB/OL].[2024-03-02].https://mp.weixin.qq.com/s/bPwZ1dGgqGeYs6Z4Ko1C6Q.

[7] Goertzel B. Artificial general intelligence[M]. New York: Springer, 2007: 1.

[8] 魏屹东. 关于通用人工智能的哲学思考[J]. 南京社会科学,2024(2):10-19.

[9] 周鸿祎:Sora意味着AGI实现将从10年缩短到1年[EB/OL].[2024-02-16].https://www.jiemian.com/article/10803956.html.

[10] 刘宏建. 具身智能:通用人工智能发展的必经之路[J]. 张江科技评论,2023(6):14-15.

[11] Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开[EB/OL].[2024-02-20].https://www.thepaper.cn/newsDetail_forward_26391144.

[12] 保罗·莱文森. 莱文森精粹[M]. 何道宽,译. 北京:中国人民大学出版社,2007:35.

[13] 喻国明,谌椿,王佳宁. 虚拟现实(VR)作为新媒介的新闻样态考察[J]. 新疆师范大学学报(哲学社会科学版),2017,38(3):15-21.

[14] Sora横空出世,AI创业者和投资人们一夜无眠[EB/OL].[2024-02-17].https://mp.weixin.qq.com/s/p2-RizdbgwxLvuhiCNHciQ.

[15] 喻国明,曲慧. VR/AR技术对媒体场景构建的三度拓展[J]. 传媒观察,2021(6):13-16.

[16] 郜书锴. 场景理论:开启移动传播的新思维[J]. 新闻界,2015(17):44-48,58.

[17] 彭兰. 场景:移动时代媒体的新要素[J]. 新闻记者,2015(3):20-27.

[18] 喻国明,苏健威. 生成式人工智能浪潮下的传播革命与媒介生态——从ChatGPT到全面智能化时代的未来[J]. 新疆师范大学学报(哲学社会科学版),2023,44(5):81-90.

[19] 米歇尔·麦克卢汉. 理解媒介:论人的延伸[M]. 何道宽,译. 南京:译林出版社,2011:131.

From Sora to AGI: Intelligent Media Upgrading and the Dawning of

the New Scenario-Based Experience Era

YU Guo-ming, SU Jian-wei(School of Journalism and Communication, Beijing Normal University, Beijing 100875, China)

Abstract: As a new generation of large visual models, Sora makes the generating text to video technology realize the leap from "usable" to "good". Behind its development is the possibility of realizing embodied intelligence, world model and then moving towards general artificial intelligence. Sora is essentially a major upgrading of intelligent media, enabling value generation with spatial and time dimensions, which will profoundly affect the digital practice of human beings and open the prelude to digital civilization. The significance of Sora lies in the fact that, firstly, the large-scale content production has been upgraded from text-based unimodal to image-based multimodal. Secondly, human cognition, learning and communication will enter the scenario-based experience era. Finally, the new scenario-based experience means that value connections can be established with finer granularity, higher degree of freedom and stronger affordance. Sora's technological revolution will also have a profound impact on the value of journalism and communication theory. On the one hand, the future communication needs to penetrate into the whole link of public cognition, and assist the public to participate in governance and create value. On the other hand, future communication will need to connect circles as well as promote mutual understanding and consensus-building among individuals in the circles.

Key words: Sora; LVM; scenario-based experience; AGI; intelligent media