从离身到具身：论电视AI主播的不断探索

2022-03-23 08:10:21万杰

声屏世界 2022年19期

□万杰

AI主播是指通过人工智能与虚拟仿真技术，对特定真人主播的语音、唇形、表情、外貌、动作等进行提取，再结合智能语音、唇形合成等技术克隆出的具备真人主播同样的媒体内容传播能力的、脱离“碳基”身体的主播。从2015年至今，AI主播经历了三次迭代，从最初的离身探索1.0阶段人工智能天气预报机器人“小冰”到2018年2.0阶段成功离身的仿真智能合成男主播“新小浩”再到2020年智能具身升级的3.0阶段的AI主播“小智”，过去的初代认知科学试图消解身体在传播中的必要性，提倡计算主义，但是随着大脑科学、计算机技术的发展，离身认知开始被质疑和反思，学者刘晓力从G.Chitin的算法信息论出发，认为计算机要想达到对人心本质复杂性的计算还有很大一段距离，“认知可计算主义”遭到挑战陷入困境。这次反思也推动了第二代认知科学的研究热潮，具身认知由此兴起，身体在人类认知、社会活动以及智能行为中的首要作用被重视起来。同时，离身认知、具身认知也无需陷入对立矛盾，在未来新进路上唯有认知交互融合才有优化的可能性。虽然目前来看人工智能主播的技术水平还处于稚嫩期，对真人播音员、对人的主体性地位尚未有较大威胁，但是人们千万不能掉以轻心，必须时刻保持警惕。

电视AI主播的离身认知

离身认知是AI主播研发的理论来源，主张认知独立于身体而存在，并非由身体塑造，身心分离。该主张最早可以追溯至17世纪法国哲学家笛卡尔“我思故我在”的身心二元论。在主流传播学中，离身性也是一个未经检验的基本预设，研究者将身体视作传播过程中的阻碍。

离身认知解读。“离身”又称“无身”，作为20世纪60年代初经典认知科学的核心主张，其方法论特色是：第一，认知在本质上是可以被计算的，崇尚算法之道，正如“图灵机算法”那般；第二，认知表征主义和机能主义，感官将收集到的外部信息转化成抽象符号，符号本身没有意义，而认知根据一定的规则对符号进行解读、加工和操纵。在这个认知机制中，身体构造不为认知过程带来任何本质影响。这种方法论也将起源于心理学科的“心”与代表“身”的物理、生物学科区分开来。

电视AI主播的离身认知亦是如此，通过智能提取真人主播的语音、唇形、表情、动作、神态等特征进行离身重组，合成仿真AI，再将所输入的中英文播报文本通过算法自动生成非线性播报内容，达到脱离以往真人主播的线性播报效果。可以看出，在这个过程中认知被算法程序控制并且脱离身体而存在，身体仅具有信息传入和输出的作用，而认知加工的规则也是由算法控制着。

离身认知反思。“离身认知”一经提出，学界便争辩不断，以唐纳·哈拉维为代表的后人类主义阵营始终坚持离身观念，认为身体只是我们可利用的假肢；麦克卢汉提出的“媒介是人体的延伸”的观点对人的身体重要性的强调是坚守反对彻底离身的底线，与基特勒“信息唯物主义”对离身的过度强调观点形成了强烈的反差；唐·伊徳从人与技术关系出发，认为“在实践中，具身是我们参与这个生活世界的方式，在此过程中，技术表现为一种文化嵌入性”，[1]从技术哲学视角为反思离身提供参考。后来随着生物科学、计算机科学的不断发展，这才掀起了第二代认知科学浪潮前的集中反思：计算机是不能达到对人高级心智的精准计算，人心的本质最是复杂。人的心智随时在变化，而AI却是固定程式化的机器，可以说永远是人在操控着机器。

当前的媒介技术演进试图消解身体在传播中的可能性，但是当技术终于摆脱实体、时间、空间的限制以后，人们却开始对身体产生渴望。第二代认知科学印证了身体的重要性和身体在认知生成过程中的作用，人们陆续认识到将人的认知活动解读脱离生物学范畴，这是极为片面和唯心主义的。

电视AI主播的具身探索

目前对于具身性研究还没有形成一个系统而完整的体系，尤其是在新闻传播学领域理论和实践涉猎还较少，而其他各界学者对于具身的理解也存在较大差别，但是他们都有着一个基本共识，那就是认知并不能独立于身体而存在。

具身认知。与离身认知相反，具身认知是指认知的产生对身体有一定的依赖，主张“身体是心智的基础，身体在人类认知及相关社会活动中具有首要作用”。[2]理论源头可最早追溯至上世纪法国哲学家梅洛·庞蒂的知觉现象学，其“具身主体性”的理论核心也是对笛卡尔身心二元学说的直接反驳与否定。

相对于离身认知身心分离的二元论，具身不是狭义的身心一元论，而是指“意识-身体-环境”的三元一体，通过身体直接感知到外部事物进而生成意识。可以这样理解，“从‘具身’的视角来看，人们对于世界的认识并非世界的‘映像’，而是身体构造和身体感觉—运动系统塑造出来的”。[3]

具身性主要是“肯定身体在信息流动与接受过程中的物质论地位”。[4]当前电视AI主播的具身认知主要体现在：先为人工智能新闻主播赋予其能够自主运动、物质化的身体，然后通过去除离身认知过程中的表征模式，更加注重整个身体系统的交互作用，即主播通过身体传感设备直接与外部环境互动，而认知和心智也在交互中产生。因此，具身认知带来的新计算主义浪潮也叫做交互隐喻。3.0阶段的AI主播已经初步实现了智能具身，但是在更多具身探索上还有很大的发展空间。

具身探索。在第二代认知科学中，具身是最核心的概念，而情境认知、认知发展和动力系统则与具身性密切相关，都是电视AI主播乃至其他人工智能产品持续升级创新的关键要素和突破点。

一、具身性。学者李恒威、黄华新从生物科学角度出发，认为人类的心智其实是一种属于身体的生物现象，认知和心智并不能独立于身体而存在，而是相对于身体而言的一种伴随状态。认知科学把具身分为弱具身和强具身，弱具身虽重视认知过程与身体的联系，但是抹去了大脑对认知的意义，并且没有去除离身认知的计算主义和表征主义；强具身则更为激进，认为身体是实现心智的唯一途径，身体的特殊构造决定了心智的特殊性和唯一性，不同的身体体验带来不同的认知。

对于弱具身和强具身到底孰好孰坏，无法妄下断言，但是可以看出当前国内学界偏向于强具身观点，大多数AI主播的形象都是模仿真人外在形象，但是与人类相似的身体构造和肌理结构才是最重要的。例如，采用动物身体结构的AI不可能有人一般的心智，未来AI主播的优化如果朝着更逼真的身体构造方向上下功夫可能会有新的突破。

二、情境认知。具身认知作为“意识-身体-环境”的三元一体，身体与情境互动的变化也导致心智的变化，具身心智受制于情境的约束。正如电视AI主播与真人主播在播报上的区别，虽然AI主播提高了效率，避免了口播失误，但是在微妙语义的理解和表达上远不敌真人主播。

在新闻播报的预备期间，通常会有文本的“一度创作”和播报时的“二度创作”。文本是中性客观的，而播报会带有个人情感倾向，并可以通过语气、重音、停顿、音调等表现出来，这也是新闻播报的微妙之处。播报千人千音，不同真人主播对同一文本会有不同的理解，但是不同的电视AI主播却可能有同样的播报，这也是目前AI主播需要突破的地方。缺乏共情能力是它们无法回避的弊端，这是困境但或许也是机会。

三、认知发展。科学研究证明，现阶段的AI主播无法像真人主播那样与受众进行实时互动，现在已有的与人互动功能仅限于程序内设置好的问答，是根据内容指令和程序作出的虚拟反馈，而像真人主播般进行深度对话和做出随机应变是无法达到的。

AI主播作为人类智慧的成果，自然承袭了人类的些许认知，但是认知能力是在情境中发展的，认知能力的发展必须依赖情境的训练和理解，AI主播目前或许可以做到模仿人类，但是要想解密人类智慧的其中缘由是绝无可能的，例如对新闻事件中人的复杂性解读、对采访对象微表情的解读和回应。无法自我认知，是AI主播进化的困境还是极限，这有待观望。

认知产生于具身行动，当前的AI主播没有实体，自然也就不能生成内聚认知，更别说自我认知进化。学者布鲁克斯认为要想使机器人拥有自我认知，变成真正的人工智能，必须使其拥有自己的“物质化”身体。“借助于这具躯体，它能够自主移动、生存，同这个世界交互，进而感知、思考、生成意识。”[5]正如人类社会，大多数人的心理特征和人格特点都是在参与性交互中被建构的，如果两个主体能够通过自身知觉实现互动与耦合，那么AI主播便能从与人的身体知觉互动中模仿和学习到认知，这也再次印证了身体在传播中的重要性。

四、动力系统。动力系统是指在探索认知活动和情境相互作用的情况下认知发展进化的一种动力机制。当下电视AI主播的动力机制是人类外赋而非内生，即只知做什么不知为何做。认知系统的开闭运行取决于使用者和创造者，这也注定了它们无法在现实世界找寻到自生意义。

在具身性、情境认知、认知发展以及动力系统等诸多因素中，动力系统似乎是关键环节。动力系统影响着AI主播是否能具有自主性和能动性，影响着情境与认知的耦合程度、认知发展是否能进化，还对自组织、自涌现高级认知的形成有直接关系。从具身认知的身体互动观来说，实体化的AI主播或许可以在与人类的互动中得到内生动力的契机，但是否有必要为AI主播打造内生的动力系统和自由意志，届时它是否会脱离人类预设的发展路径，这是科学问题，也是伦理哲学问题。

电视AI主播的技术反思

其实，无论是离身认知还是具身认知都存在优点与不足，都需要走向更高阶的进化发展，离身认知和具身认知也不需要陷入非此即彼的敌对状态，可能只有从更全面的双向视角出发亦此亦彼，才能更好处理人工智能与人类智慧之间的关系。人与技术的关系不单是人创造技术那么简单，正如电视AI主播，其高效率、零失误、快速的信息整合能力为全天候新闻播报带来便捷，但人们却又要陷入真人主播是否会被AI主播代替的担忧与恐惧中。如果把AI主播和其他媒介机器人放在整个新闻生产环节中去考虑，大数据分析选题，新闻稿由AI采写编评，由算法分发，由AI主播播出，那么在新闻的整个生产链中人是否会彻底失去对新闻的把关和对技术的控制？

事实上正如离身与具身，人与技术也不必陷入二元对立的恐慌，但在人工智能时代如何实现人机协同共赢？目前最行之有效的方法或许就是最大程度地通过技术将AI主播的优势无限放大，例如其高效率、零失误、超长待机等特点，或者说在危险地方如火灾现场、地震、台风等自然灾害来临时，使其成为人类的得力助手；而真人主播自身要不断提高其在微妙语义的表达、具身互动、共情能力、紧急情况处理上的不可替代性。不仅是AI主播，任何人工智能产品都无法在情感能力上取代人类，这也是长久维持人类主体性地位和坚守自身不可取代优势的关键。

根据西班牙思想家加塞特的说法，人既是“自然的”又是“超自然的”，自然性的人能够在进化中自行实现，而超自然性需要人类不断刨根问底，在认知不断进化下才能得以实现。正如，“人通过使用媒介而使媒介成为‘媒介’，媒介则通过被人使用而使人成为‘人’”。[6]由此可见，人与媒介的意义是双方互相赋予的结果，即在人类对AI主播的优势利用上媒介找到了自生意义；在人类自身对真人主播自身不可替代性的加强上，也是媒介技术迅速发展的倒逼作用以及人自身的“超自然性”使人找到自身努力的方向和存在的意义。人与媒介相互协作、共同进步，这才是科技的根本意义。

结语

媒介技术试图越过身体在传播中的阻碍，但是随着身体的“消逝”，人们的焦虑程度也日益增加，身体在传播中的重要性重新被重视起来。人工智能、虚拟现实、可穿戴设备等实践体现了人类的具身性探索，新闻行业也不例外。理论基础源于离身认知的AI主播也正在进行不断的具身探索，虽然目前大多只能做到外貌、声音特征的仿真和包括离身、具身认知在内的一定程度上的情境认知和人机交互，但在其身上展现出了诸多的可能性和进步性。

AI主播只是一个领域，人们还应考虑到其他更多人工智能产品在传媒业的应用。当人们在为技术的进步而欢呼的同时，还要时刻注意技术的应用对整个传媒行业的颠覆和影响以及对AI主播相关法律法规的完善。不仅是真人主播，每个传媒从业者都要反思并重视“身体之重”，提高业务能力，充分发挥具身的独特优势，明确人的主体性地位，发挥人的“超自然性”和创造性价值。但是，也不能因为害怕威胁自身地位而停止技术的开发和应用，彭兰教授曾提到的未来媒体三大特征之一的“人机共生”，预示着不仅是新闻主播，乃至整个新闻行业的工作者与智能技术相互协作、共同进步才是主流趋势。