张诗瑶 沈阳
基金项目:国家自然科学基金青年项目“面向人工智能生成内容的风险识别与治理策略研究”(72304290);清华大学—北京清尚建筑装饰工程有限公司智慧场景创新设计联合研究院横向课题“医院建筑装配式知识图谱构建与大语言模型综合研究”(20222910003)
作者信息:张诗瑶(1994— ),女,河南郑州人,清华大学新闻与传播学院博士后,主要研究方向:AIGC、网络舆论、媒介与社会;沈阳(1974— ),男,江西赣州人,清华大学新闻与传播学院教授、博士生导师,主要研究方向:AI和大数据、新媒体、网络舆论。
【摘要】Sora作为革命性的“类世界模型”,以镜像进化的逻辑发展,引领“天人智一”认知融合新纪元。在文生视频技术驱动下,文章以三组核心矛盾作为切入点,探讨Sora对未来传媒生态认知的潜在影响。研究发现,Sora引领我们从“真实世界美学”探索到“异世界美学”等,这标志着从标准化资源向个性化创新的转变。同时,其预示着传媒主体将从传统的半人工编辑转向语义智能体,传媒场景将更深层次地打破物理时空区隔,传媒产业价值将朝向AI自动化等方向发展。此外,文章通过对Sora官网发布的48个视频进行案例分析发现,“AI幻觉”问题开始显现。未来传媒从业者在角色方面,需从生产者转变为核查者;在应用方面,需重视编码与解码过程;在治理层面,需从人工治理逻辑转向机器治理逻辑。具体而言,“AI幻觉”的治理包括基于博弈理论的幻觉识别技术,利用多角色、多智能体,进行AI系统间的博弈与碰撞,有效识别和修正幻觉内容。
【关键词】Sora 传媒生态 认知融合 “IP的AI化” “AI幻觉”
【中图分类号】G206 【文献标识码】A 【文章编号】1003-6687(2024)6-053-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.6.007
中国传统哲学中,大多数哲学家都宣扬一个基本观点,即“天人合一”。它不仅是一个根本性的哲学命题,而且构成了中国哲学的一种思维模式。在当前技术飞速发展的背景下,“天人合一”的哲学意蕴展现出更加丰富和复杂的维度。因此,我们提出“天人智一”的新概念,以强调在现代科技环境中,天(自然)、人(人类)、智(人工智能)三者不可割裂,共同构成互相依存、相互渗透的统一体。这种内在的相通关系,不仅为人类认知融合、思维拓展及全面理解开辟新的可能性,也为解读标志性技术成果提供了全新视角。随着人工智能技术的迭代更新,生成式人工智能(AIGC)日益成熟,并在传媒行业中发挥着越来越重要的作用。在此之前,GPT-4.0和DALL·E3在文生文、文生图领域已取得显著成就。2024年,文生视频模型Sora的问世标志着AIGC迈向AGI的新阶段。Sora以卓越的视觉内容生成能力引发学界与业界的关注与讨论。同时,Sora是否能够被定义为世界模型的问题也引发激烈的争议。一些人认为,Sora是数据驱动的物理引擎,能够模拟真实或虚构的世界。相反,图灵奖得主Yann LeCun认为,生成逼真的视频并不意味着模型理解了物理世界。他强调,Sora仍是一个概率模型,其生成内容仅是基于输入数据的概率输出,而不是真正地理解世界。[1]
上述争议反映出人们对Sora的不同理解和期待,以及对世界模型定义的差异。在此,我们暂且搁置技术层面的讨论,将Sora定义为“类世界模型”,即一种旨在对真实世界进行建模的技术,是能够模拟现实世界规则、逻辑和动态的复杂AI系统。若将人类以往的一切认知定义为普遍认知,那么,AI产生的认知则可以定义为人工智能生成认知,它意味着我们当前处于一个关键临界点。“天人智一”的提出,不仅是对中国传统“天人合一”哲学的当代演绎,更是一次对于科技发展与人类未来的深刻审思。
Sora的问世引发诸多思考:其为何能够激发人们的关注与兴奋感?现阶段人类对此不确定的新技术是如何认知的?未来,Sora的独特性将如何影响传媒生态的认知模式?基于这些问题,本文旨在从人类认知与Sora本质的交互出发,探讨技术进化对传媒行业的潜在影响。
一、认知融合时代:Sora的三重进化
Sora的兴起预示着信息处理方式的根本变革,它引领我们走向认知融合的新时代。通过模拟人类认知、生命及社会复杂性,Sora标志着信息生产的创新,更代表着深刻的技术进化路径——镜像式进化。这一理论突破了技术发展的线性视角,强调AI的进化是一个嵌套演进的过程。AI的进化主要分为三个阶段:模拟意识、模拟生命和模拟元宇宙,即生成式进化、拟像式进化及创新式进化。它不仅揭示技术演变轨迹,也展现了Sora作为“类世界模型”的探索道路(见图1)。
Sora以镜像进化论的逻辑模拟动态、互动的虚拟环境,极大地增强了其在模拟元宇宙阶段的功能和范围,成为元宇宙的技术载体。它提供了一个动态、互动的虚拟环境,不仅能够模拟出现实世界的静态属性,更能捕捉动态变化和复杂性。这种能力使Sora成为理解和创建复杂世界的强大工具。
1. 生成式进化:跨模态的革命
镜像进化论揭示AI整合与处理不同类型信息的能力,为AI模拟人类进行多模态处理与跨模态转换提供了基础。生成式进化在跨模态学习领域象征着对人类意识模拟的探索,未来可能模拟人类“眼耳鼻舌身意”六识。Sora弥补了既往文本生成、图像生成中缺失的感知数据。
跨模态表征的目的在于挖掘不同模态之间的互补性,减少信息冗余,从而实现更加高效和准确的数据表征。而跨模态生成则利用各模态间的语义一致性,实现数据形态之间的转换,这不仅增强了信息的丰富性,也提升了数据的应用灵活性。[2]
跨模态学习的进化可划分为三大类型:文本大模型、图像大模型、音视频大模型(见图2)。Sora通过加强模态间的语义转换和迁移,大幅提升了AI处理复杂性和长序列数据的能力。这一转变意味着人工智能的生成能力从传统的“本质性资料库”向更为动态的“或然率资料库”的关键跃迁,[3]极大地丰富了内容创作的广度与深度。
Sora在提升信息一致性与简化创作流程方面有着显著优势,为未来传媒业无编辑新闻制作与扩展线索式新闻提供了可能性,是跨模态学习领域理论与实践相结合的典范。
2. 拟像式进化:虚拟物理实验室
拟像式进化意味着模拟生命的可能性。在高度仿真的环境中进行实验,不仅能够无风险地探索物理法则,还能够模拟生命过程和生态系统的复杂相互作用。Sora打破了物理时空区隔,为模拟真实世界物理条件提供了可能。它不仅具备强大的内容生成能力,还能够模拟复杂物理实验场景,为理论验证、原型设计和概念创新提供低风险测试环境。
Sora能够模拟出与真实环境几乎无异的复杂场景,不仅能够自然地融合背景,流畅地进行镜头切换,还能够精准模拟动态视角变换,在无须人工干预的情况下,达到影视级别的拍摄效果。这一突破大幅提高了视频制作效率,同时为视频创作带来前所未有的灵活性和沉浸感。与传统的VR/AR技术相比,Sora创造的虚拟时空更像是将现实与想象无缝结合的混合现实,多重时空重组的特性表现为不受物理法则限制,展现模拟物理世界的先进性。Sora具备精确的物理规律模拟和动态场景再现能力,为各领域发展带来革命性影响,为未来传媒业的新闻报道、影视制作、广告设计等应用场景赋能。
Sora不仅重塑我们对物理世界模拟的认知,也为理论探索与创新实践开辟了新路径。通过深度融合自然语言理解与视觉内容生成,在确保精确模拟的同时,也极大地拓展了我们对现实世界可能性的想象。
3. 创新式进化:开拓“反物理美学”与“异世界美学”
Sora打破传统时空限制,突破固有的认知框架,催生创新理念,在人工智能迈向通用人工智能的道路上,发挥着核心作用。例如,Sora可以生成美人鱼及其伙伴评测智能手机、一头公牛在精致瓷器店中自由漫步、轮滑马等视频叙事。这些视频叙事不仅具备异想天开的故事情节,还标志着智能化增量创新,意味着人工智能从标准化资源向个性化创新的转变。
在模拟元宇宙的进化中,Sora作为元宇宙的载体,通过扩散模型能力,能够从噪声中预测并生成“干净”的视频补丁,实现视频内容的前向与后向扩展,创造无缝循环视频。这一技术为我们探索“反物理美学”与“异世界美学”提供了路径。Sora能够创造出超越常规认知的艺术形态,通过“反物理美学”可以挑战既有的物理定律,通过“异世界美学”可以创造出不受现实世界约束的想象空间。Sora不仅改变了内容创作流程,还为价值创造提供了新的视角和方法。
未来,Sora将引领定制化创新、自动化创新及应用化创新的浪潮,通过不同主体间的资源组合与重新配置,推动新产品、新服务和新商业模式的诞生。这些活动不仅是迈向AGI的关键步骤,也是实现增量创新的重要途径。Sora技术的深入应用和发展,预示着我们正步入一个由AI驱动的创新与创造的新纪元。
二、人类认知与Sora的矛盾探索
在探讨Sora在现实社会中的应用与影响前,需要厘清三组核心矛盾:同质化与异质性的平衡、真实与虚构的界限、知识重组与创新的争论。三组矛盾揭示了人类既有认知与Sora发展的冲突性,以及人机共生问题的复杂性。它不仅挑战人类对技术本质的理解,也促使人类重新审视AI在现实社会中的角色与影响。
1. 同质化与异质性的平衡
第一组矛盾引发的问题为:Sora是推动人类走向极致同质化方向,还是强化个体的个性化竞争力?我们生活在独一无二的现实世界中,作为现实世界的生命体,每个人的存在都是唯一的,这让我们陷入固有的“是其所是”的状态。然而,Sora所建构的虚构世界为我们提供了一种能够成为其他可能性的状态,通过技术的力量挖掘和放大了存在的多样性。保罗·莱文森以生物进化为隐喻,提出媒介进化论,认为社会环境的变化必然引起媒介的演变,新媒介的出现是对现实世界的一种“补救”手段。Sora作为“类世界模型”,实际上是对现实世界的技术性拟像投射,它提供了一种选择性的解放——既逼真模拟现实世界的某些时空属性,又超越这些限制,释放潜在的多样性。它不单是对现实世界的三维重建,更是对存在本质、知识的界限、文化和社会结构的重新想象。
2. 真实与虚构的界限
第二组矛盾引发的问题为:如何在创造超真实体验的同时,保持真实与虚构之间的清晰界限?有学者指出,Sora生成的影像资料虽然被称为真实的虚构,但其真实感源自高度发达的算法,这些算法使Sora能够以接近先进物理引擎的能力,精确模拟自然和社会现象。然而,其所呈现的事件或现象并未真实发生,全由计算机生成,因此具有虚构的本质。[4]
Sora挑战了基于确定性物理规则的现实世界观,引发了既基于现实又超脱现实的超真实世界。这种技术的双刃剑效应在于,尽管它提供了前所未有的逼真体验,其背后的生成机制却是基于概率推断而非确切逻辑,有可能导致人们对真实性的认识模糊,影响个体的世界观和价值观。真、善、美是维系社会秩序的基础概念,当真相变得模糊时,人们对善和美的理解也将遭受冲击,可能引发道德和审美准则的混乱。在Sora等人工智能产品模糊了真实与虚构的边界后,普遍性的焦虑或许会成为深层的社会现象,即当矛盾律不再可靠之时,我们该以何种标准判断世间对错?
随着数字空间的不断发展,现实与虚拟内容之间的界限愈发模糊,部分虚构内容甚至达到令人难以辨识的程度。这一现象不仅对社会观念和群体认知造成直接的冲击,而且将严重破坏人际及系统间的信任,引起社会范围内的普遍不信任,甚至可能导致整个社会的认知架构崩溃。在“后真相时代”,真相和逻辑被边缘化。随着Sora的发展,真相可能会经历再次分割、扭曲和隐藏。道德真相的可塑性被放大,正如鲍德里亚在其拟像理论中提出的“拟像三序列”,在仿真阶段,拟像所创造的超真实打破了传统对真实的反映及真实的规律,构建了一种全新的真实。[5]
3. 知识重组与创新的争论
第三组矛盾引发的问题为:Sora生成的内容是知识的重组,还是知识的创新?一方面,Sora依赖现有数据和知识模式生成内容,满足用户对知识准确性的严格要求;另一方面,这种依赖可能会限制Sora在创新领域的扩展,因为创新本质上是对现有框架的突破与超越。对于上述矛盾,一种观点认为,AIGC本质上只是一种模仿,不能进行艺术性的创新,技术只是对不同主体内容的解构与重组。相反,另一种观点认为这种重组本身可以被视为一种创新行为,为生成全新的观点和解读提供了基础。他们看好人类与AI合作潜力,预言借助AIGC会涌现新“浪漫主义运动”,这一运动将推动人类创造力向更高层次发展。[6]
笔者认为,Sora所具备的关键帧倒推、视频风格转换与图像差值等技术特征,不仅凸显了其与传统CGI(计算机生成图像)技术的区别,还具备推动“反物理美学”与“异世界美学”的独特潜力。Sora通过创造违反自然规律的场景和对象,在挑战现实世界物理约束的同时,也开拓了对超现实和幻想边界的探索。这种美学追求不仅是对现实规律的逆向思维,更是对无限可能性的探索。通过逆反常规,促进对存在本质、认知边界、文化及社会结构的深度反思和重新想象。
以上三组矛盾展现出人类对Sora的复杂反应,也预示着Sora在推动人类认知发展层面的潜力。针对这些矛盾,有学者指出,AIGC面临诸多挑战,如新闻的真实性难以确保、创造力的逐步减弱以及新闻价值观的偏差等。同时,也有学者认为,AIGC不仅为媒体内容生产提供新的工具,而且还重新激发了从业者对媒体融合现有认知框架的思考,引起他们对内容世界构建和交互方式的深入关注。[7]
三、Sora对传媒生态认知的正面影响
Sora不仅重塑了信息传播的方式,更在认知层面为传媒行业带来新的可能性。作为媒介生态链中的核心,认知的重要性体现在塑造媒介的生产、传播及接收模式上。Sora正是在认知节点上施加影响,预示着整个媒介生态系统可能会发生根本性的变革。
安迪·克拉克和戴维·查尔默斯提出的延展认知理论,为分析Sora对媒介生态影响的可能性提供强有力的理论支撑。该理论认为,认知过程不仅限于大脑内部,而且可以扩展到个体外部的身体、环境以及使用的工具和技术中。[8]这一观点挑战了传统心灵与世界二元对立的观念,提出一种更加开放、互动的认知视角。基于此,可以通过SSC框架,分析Sora对传媒行业的主体、场景及连接性的潜在影响并进行预测与分析。
1. 主体的转变:从半人工编辑到语义智能体
认知主体包括受众、传媒从业者、传媒平台及社会环境等多元概念。本文聚焦传媒从业者,如记者、编辑、内容创作者等,探讨他们未来如何通过Sora提升认知能力和生产效率。
目前,传媒内容生成正经历从人工编辑向语义智能体的转变。传统上,传媒从业者依靠个人的知识、经验和判断来创作内容。随着写作软件、搜索引擎等工具的出现,传媒从业者能够处理的信息量显著提升。AI技术,特别是自然语言处理和机器学习的发展,为认知能力的扩展提供新的可能性。AI的能力不仅限于理解和处理自然语言,还能生成符合人类阅读习惯的内容,打破了内容创作仅限于人类认知能力的局限。目前,AI主要在辅助内容创作中发挥作用,如提供素材、建议和修改意见,最终的创作决策仍由人类完成。
语义智能体在特定环境下表现为自治性、社会性与思辨性。通过扩展人类认知的边界,增强人类的感知能力,从而为传媒领域带来新的赋能。在此背景下,智能体的行动过程可以归纳为三个核心步骤:感知、规划和行动。[9]这一过程的基础逻辑是将AI从模拟人类思维进化到模拟人类行为,实现从思维链到行为链的转换,即AI能够进行自主化决策,实现任务链的自动化,达到“天人智一”。
Sora简化了工作流程,改变了新闻的生产与消费方式,为扩展线索式新闻、无编辑新闻、互动式新闻与自动翻译新闻等新形式提供技术基础,并为受众带来更加丰富、个性化和互动式的新闻体验。此外,通过多模态融合、多AI校正与多角色对话的技术应用,Sora能够提高新闻内容的准确性与可靠性,推动新闻行业向更高效、更智能的方向发展。
2. 场景的变革:打破物理时空局限性
场景体验成为个体认知改变的关键要素,[10]郭全中等指出,Sora作为一款文生视频的大模型,标志着AI发展进入三维阶段。它能够具象化生产场景内容,直观化输出场景传播,并全面拓展场景变现的运营模式,从而改变未来技术的使用方式。当下,在AI技术向新阶段跃进的强力驱动下,传媒业态将经历深刻变革。新闻行业在特定环境下所形成的内容生产、传播方式、运营模式是可预见的关键趋向。
内容生产方面,Sora通过降低场景构建成本,赋能更具象的新闻呈现方式。它通过高度掌握动态视角变换,在无须人工干预的情况下实现复杂的镜头切换,模拟出与真实拍摄效果相似的视频,极大地提升了视频的观赏性和沉浸感。这不仅降低了动态化视频的制作门槛,也大幅提升了效率,使得以往难以复现、不便实拍的新闻现场通过逼真的视频效果加以还原。这种进步不仅加强了新闻具象化呈现,也为现场真实感的再现与受众认知体验提供了新的实践路径。
传播方式方面,Sora依托直观化输出,有效减少新闻传播的语义灰色空间。通过构造的场景,Sora可以增强新闻情感共鸣,使读者对新闻事件的理解更加准确和一致。结合AR、VR等设备,实现直观化的场景呈现,使新闻中的抽象概念和复杂信息能够更加直观地传达给读者,从而降低误解和歧义,促进社会共识的形成。在运营模式方面,Sora全面拓展场景变现的可能性,丰富新闻行业的盈利模式。Sora高逼真、高互动、高沉浸的内容生产与传播,以及强大的内容个性化,将提高用户黏性,刺激受众需求,为新闻机构提供创造高价值内容的机会。新闻机构可以通过提供付费订阅或单篇购买的方式,增加直接从内容获取收益的可能性,通过品牌广告、虚拟活动等形式,开辟新的盈利渠道。Sora的快速、低成本、高效率特性,使新闻机构能够更加灵活地应对突发新闻,将更多的资源投入创新盈利模式的探索中。
2. “AI幻觉”对Sora在传媒业应用的限制
在传媒行业,AI技术的应用受制于对新闻内容的真实性、准确性和客观性的严格要求。新闻工作者承担着追寻真相、确保报道准确性的责任,这涉及报道全过程的追踪、事实细节的呈现与核实、信息来源的明确,以及避免操纵图像与声音产生误导受众的行为。遗憾的是,通过对Sora生成视频的分析,我们发现未来传媒业在AI领域的应用将迎来“AI幻觉”的新挑战。
首先,Sora在解析复杂空间维度和时间序列时具有局限性,影响其在模拟物理世界方面的表现。虽然Sora在某些方面取得了成就,但在处理视频时间数据和复杂场景的物理规律时,表现出性能不足和一致性差异,尤其在生成内容中物体与角色位置的准确性与合理性方面,这些现象限制了其在创造高质量影视作品或新闻报道中的应用潜力。例如,在生成的场景中,咬饼干没留下咬痕、生日蜡烛吹不灭等不符合现实的细节。
其次,Sora在捕捉细节方面存在局限性,尤其在生成细节丰富和动态复杂的视频内容时,在连续性、流畅性及动态元素处理(如人物动作、场景变化)中的能力不足。这些限制为追求顶尖视觉效果的电影制作、广告创意及实时新闻报道等领域带来了挑战,影响Sora在这些领域的应用。
随着我们逐步接近通用人工智能时代,Sora构建的超真实世界预示着传媒生产者的身份和传播渠道将变得更加多元化。这种多元化虽然丰富了内容生产与传播方式,但也可能导致AI谣言、AI诈骗等失范现象频发,对新闻真实性构成前所未有的挑战。
3. 突破“AI幻觉”:AI博弈与核查策略
深入分析“AI幻觉”的过程,实际上是在探求其背后的真相。新闻的真实性一直是新闻实践和学术研究的核心议题。在传统媒体时代,新闻从业人员依托于专业主义规范,通过规范化的新闻生产流程,致力于维护新闻的真实性原则。在社会运作中,真实是建立信任体系的基石。社会的真相越是明晰,其信任体系的范围就越广泛,社会交易成本随之降低,反之则增加。然而,在当前AI技术快速发展的背景下,传媒行业面临着来自“AI幻觉”的挑战,迫切需要采取创新性的策略来突破这一难题。
首先,从技术层面来说,加强编码与解码应用过程至关重要。模型对输入的语义解释不足是幻觉现象出现的主要原因,对此,可以通过短语裁剪、去上下文和语法修改等方法修订数据集,构建更忠实的数据集;同时,通过筛选和识别幻觉信息,将幻觉检测器与自动化AI编辑器相结合,可以在信息到达用户之前,修正平行语料库中的无关和矛盾内容,以上做法不仅能提高数据的准确性,还能够利用增强的外部信息,获得更加精确和可靠的源数据。同时,采用外部知识、显式对齐以及额外训练数据等方式,不仅能够增强源语言与目标语言之间的关联性,还能帮助模型更加高效地掌握与任务紧密相关的特征。在传媒行业中,加强语义理解有助于缓解源信息发散的问题,这种方法不仅对提升内容的真实性至关重要,还对维护和增强媒体品牌的信任度发挥着核心作用。
其次,从传媒角色的层面出发,需从生产者转变为核查者。与传统新闻机构在报道前进行事实核查不同,互联网时代事实核查新闻的主要做法是对已经发表的报道或公众人物的言论进行事实层面的订正。[16]研究显示,尽管人类视觉系统在识别幻觉方面显示出高度的“鲁棒性”,但当前基于AI的深度学习系统相比生物视觉系统,还存在本质缺陷。这种认识揭示了AI在处理复杂视觉信息时的局限性,强调发展先进AI核查工具的必要性,以辨识和纠正AI生成内容中的不准确性。
最后,从治理观念的层面来说,应从人工治理逻辑向机器治理逻辑演进。这包括开发基于AI博弈理论的幻觉识别技术,即借助训练自动化提示,建立多个角色,进行基于多个智能体的博弈与碰撞,借此识别和修正幻觉。
结语
技术在传媒产业中的应用,并不仅仅由技术逻辑本身决定,而是深深植根于社会结构、文化背景和政治环境等复杂因素之中。值得注意的是,虽然技术本身不具备固有的道德属性,但在进入实际应用领域的过程中,不可避免会受到外在因素的深刻影响,进而导致一系列多样化的道德后果。因此,我们必须重新审视对技术的态度,尤其是当涉及道德问题时,需要保持高度警觉,积极规避潜在风险。
尽管Sora的基本原理已经对外公开,但它在实际应用和普及过程中仍面临考验,尤其是如何将其有效融入现行的生产与创作流程。一方面,Sora在未来传媒业的应用无疑能够扩展创意表达的边界,为受众提供全新的体验;另一方面,鉴于Sora目前存在的一些局限性,传媒行业在未来应用此类技术时,需更加仔细地考量内容的真实性与准确性,特别是在涉及历史事件重现、科学概念解释和新闻报道等方面。
面对Sora带来的种种复杂影响,全社会都需要对潜在的利益与风险进行深入探讨。2022年3月,中共中央办公厅和国务院办公厅发布《关于加强科技伦理治理的意见》,对科技伦理治理工作进行了系统规划,反映对此类问题的重视。在全球科技伦理治理机制尚待完善的背景下,控制这类技术发展的速度至关重要。国际社会正在加快人工智能伦理治理领域的合作步伐,联合国教科文组织等国际机构也已就人工智能伦理的共识性原则提出相关建议和政策,其核心目标在于确保人工智能技术的应用能够尊重、保护并促进人类的权利、基本自由和尊严。[17]
本论文试图探索Sora本质及其对传媒行业的影响,但在分析过程中存在一定的局限性。如对于Sora细节和工作机制的探索尚不充分,尽管论文针对如何应对“AI幻觉”问题提出若干策略,但这些建议在当前阶段更多地体现为理论性探讨,而未深入挖掘这些解决方案在现实操作中所面临的具体挑战以及应对之道。因此,相关研究仍待深入。
参考文献:
[1] LeCun怒斥Sora是世界模型,自回归LLM太简化了[EB/OL].[2024-02-27].https://www.thepaper.cn/newsDetail_forward_26471467.
[2] 刘华峰,陈静静,李亮,等. 跨模态表征与生成技术[J]. 中国图象图形学报,2023(6):1608.
[3] 周葆华. 或然率资料库:作为知识新媒介的生成智能ChatGPT[J]. 现代出版,2023(2):21-32.
[4] 高奇琦,台润泽. 基于世界模拟的政治非稳态:Sora的智能影像生成与历史重塑[J/OL].[2024-04-10].新疆师范大学学报(哲学社会科学版),https://doi.org/10.14100/j.cnki.65-1039/g4.20240318.002.
[5] 陈力丹,陆亨. 鲍德里亚的后现代传媒观及其对当代中国传媒的启示——纪念鲍德里亚[J]. 新闻与传播研究,2007(3):75-79.
[6] 邓建国. 概率与反馈:ChatGPT的智能原理与人机内容共创[J]. 南京社会科学,2023(3):86-94.
[7] 谢湖伟,简子奇,沈欣怡. 认知框架视角下AIGC对媒体融合的影响研究——对30位媒体融合从业者的深度访谈[J]. 新闻与传播评论,2023(6):5-18.
[8] 刘晓力. 延展认知与延展心灵论辨析[J]. 中国社会科学,2010(1):48-57.
[9] 喻国明,苏芳. 作为真实世界模拟器的媒介与后真相时代的“拨乱反正”——以Sora为例解析数字文明时代的媒介新范式[J]. 新疆师范大学学报(哲学社会科学版),2024(4):143-148.
[10] 喻国明,苏健威. 从Sora到AGI:智能媒介的升维与全新场景体验时代的到来[J]. 编辑之友,2024(6):39-45.
[11] 凯瑟琳·海勒. 我们何以成为后人类:文学、信息科学和控制论中的虚拟身体[M]. 刘宇清,译. 北京:北京大学出版社,2017:154.
[12] 许雪晨,田侃,李文军. 新一代人工智能技术(AIGC):发展演进、产业机遇及前景展望[J]. 产业经济评论,2023(4):5-22.
[13] 彭兰. 智能生成内容如何影响人的认知与创造?[J]. 编辑之友, 2023(11): 24.
[14] Jan Dirk Blom.A Dictionary of Hallucinations[M]. Berlin:Springer Science & Business Media, 2009: 216.
[15] Ji Z, Lee N, Frieske R, et al. Survey of hallucination in natural language generation[J]. ACM Computing Surveys, 2013(12): 1-38.
[16] 虞鑫,陈昌凤. 美国“事实核查新闻”的生产逻辑与效果困境[J]. 新闻大学,2016(4):27-33.
[17] 中国信通院:人工智能伦理治理研究报告(2023)[EB/OL].[2023-12-26].https://www.sohu.com/a/747241076_121856455.
Sora: The Mirror Evolution and Cognitive Transformation of Media Ecology
ZHANG Shi-yao, SHEN Yang(School of Journalism and Communication, Tsinghua University, Beijing 100084, China)
Abstract: Sora, as a revolutionary "world-like model", evolves with the logic of mirror evolution, leading the new era of cognitive integration, which means heaven, human, and intelligence are united as "One". Driven by the revolution of text-to-video technology, this study targets three sets of core contradictions as entry points, delves into the potential impacts of Sora on the cognition of future media ecology. It finds that Sora leads the exploration from "otherworldly aesthetics" to "anti-physical aesthetics", signifying a shift from standardized resources to personalized innovation. Concurrently, it forecasts that the media subject will transit from traditional semi-manual editing to semantic intelligent agents, deeply breaking the physical spacetime barriers in media scenarios, and steering the media industry's value towards the direction of AI hardware. Furthermore, a case analysis of 48 videos released on the Sora official website unveiled the emergence of the AI hallucination issue. In the future, media practitioners are required to shift their roles from producers to verifiers. In applications, emphasis should be laid on the encoding and decoding processes; in governance, a transition from manual governance logic to machine governance logic is necessary. Specifically, illusion recognition technologies based on game theory, utilizing multiple roles and agents, are needed for the games and collisions among AI systems to effectively identify and correct hallucinatory content.
Key words: Sora; media ecology; cognitive integration; "AI Empowered IP"; "AI hallucination"