多模态表演话语分析方法

2022-11-06 14:19刘桂腾

中央音乐学院学报 2022年3期

刘桂腾

音乐是通过身体语言——“表演”方式体现意义的符号系统。这源于人类在初民时期就以口头语言与动作相结合来进行表达和交际，即言之不足则歌之、舞之、蹈之也。但，长期以来以文字符号为媒介建构的单模态语篇都是主流的学术表达方式。融媒体

时代下的音乐民族志知识生产，需要因应当代文化传播、交流方式的激变，不断更新和丰富自己的学术武库。其中，组合态语篇“互文”与聚合态文本“互释”的多模态表演话语分析，就是一个颇具应用价值的研究方法。

一、语媒：身媒/器媒/传媒

多模态话语分析，是个跨学科的概念和研究方法。20世纪90年代以来，逐渐得到了学术界的瞩目。因学科研究视角之不同，医学、生物学、语言学和计算机科学等学科对“模态”的界定并不完全一致。总体而言，一是把模态视为一种感官感知形式，如听觉、视觉、触觉、嗅觉和味觉模态；一是把“模态”看作一种社会符号系统，认为模态是“在社会文化中形成的创造意义的符号资源”，如文字、声音、手势、图像和颜色模态等。语言—社会符号学中的多模态话语分析理论，把模态界定为“可对比和对立的符号系统”，揭示了不同模态的互补性和多元识读功能。据此，我们可将“模态”理解为不同类型的符号系统构成了不同的模态；而不同模态需要通过人的感官(视觉、听觉、触觉、味觉和嗅觉等)感知并在大脑形成意义。所以，多模态表演话语分析中的“模态”，可理解为民族音乐学范畴中一种模式化表达意义的可感符号形态。其对象，是以声音(人声、器声)和动作(演奏、舞蹈)模态为主的音乐表演形式；主要通过文字(书面语、歌词、乐谱)和影像(图片、图像)等媒介进行音乐意义表达。不同符号系统的交叉互补是多模态话语分析方法的主要特征。表演视阈中的“多模态”主要是指视觉模态和听觉模态两种类型，而味觉和嗅觉目前尚属难以呈现的模态。可以预见的是，能够为民族音乐学/音乐人类学所利用的模态形式，必将随着现代科技事业的飞速发展而不断丰富。

多模态表演话语中的音乐，是个由观念通过行为物化为声音的过程。因此，音乐表达需要通过施展表演话语的媒介——“身媒”“器媒”和用于意义识读的“传媒”而与对象形成交流互动关系。

身媒，是指用以体现歌唱、舞蹈或仪礼行为的身体，它是实现音乐意义表达的生物媒介；器媒，是指用以协同各类演奏行为和仪礼动作的器物，如被赋予审美意义或宗教隐喻的乐器/响器，它是实现音乐意义表达的物质媒介。有时，身媒与器媒需要结合起来发挥其功能，如持某类乐器/响器表演的传统乐舞。传媒，是用于记忆、识读与传播音乐行为及其意义的物理介质，如文字模态的纸质书籍和音频/视频模态的光盘、唱片等形式的单媒体，以及由计算机数字技术与网络平台相结合的电子荧屏(幕)等形式的融媒体。

就音乐民族志书写中常用的文字模态和影像模态而言，文字符号的抽象化表达，主要以表意的文字文本(如文稿、乐谱等)为媒介；影像语言的形象化呈现，主要以示意的影像文本(如动态的影片与静态的图片)为媒介。其中，动态影像是一种音视频相结合的多模态文本。多模态表演话语分析，就是通过身媒/器媒/传媒描写和阐释音乐意义的方法。

二、语域：表演场/仪式场

多模态表演语域中的音乐行为，体现为表演者/执仪人所制造出来的人声与器声。因而，人声与器声以及与之相关联的器物、景物、事物以及唱(奏)方式和操作技艺，成为最适合以多模态话语描写与阐释的音乐民族志田野作业对象。

音乐行为的意义并非通识，因此，须在特定语域中加以识读。音乐民族志中的“表演”研究，主要体现在世俗(审美)与神圣(宗教)两个领域。所以，分别以审美诉求与信仰诉求为旨归的仪式/表演“场”，构成了多模态表演分析的特定语域。

仪式场，或称“仪式情境”，是指在特定时间、特定地点由特定宗教禁忌所构成的语域。每个在族群文化中形成的仪式情境都有其相近甚至相同的因素；这些因素构成了仪式的可重复性和稳定性，从而形成了一个地方性信俗。仪式场依托实体平台(家庭神室、村落神庙以及道观、佛寺和教堂等)创造了一个仪式角色行动的虚拟空间——神界和冥界，执仪人运用器声与人声制造仪式的神圣感并向信众传达，从而使人神间的沟通转化为具有信仰意义的私密性音乐事件。作为人神之间沟通的一种“互动仪式”，如果脱离了具体仪式情境，执仪人的行为将变得不可理喻。

仪式场中的音乐行为，不仅是人神之间的“互动仪式”，也是执仪人与信众之间的“互动仪式”。与表演者和观众的互动不同，执仪人与信众的互动不仅体现在共处一个仪式空间，还体现在神谕、信仰标志以及器声与人声等声音模态亦具共同的宗教意义。否则，他们就难以相互通晓行为的意义：“人们在心理上共同展现，人们有共同的关注，他们产生了共同的情感冲动，他们以同样的符号来表达他们共同的关注与情绪(词语、句子讲话方式以及其他)，并产生关于这些符号的道德正义感。”这些，完全符合仪式场中的行为意义特征。仪式场中的音乐行为结果——器声与人声之有效性，通过人与神、宿主与信众之间互动而产生出的宗教意义得以显现。如果再进一步讨论的话——这种互动仪式的行为动因：“是个人带入面对面际遇的文化资本或资源，这种资本或资源可以是他们在广阔的社会中所掌握的(比如权力和权威、知识、教育、关系网络、经验)，也可以是他们在过去某一类型的互动中所积累的(比如记忆、信息、知识，以及其他可以在互动再次发生时重复使用的资源)。”以民间宗教仪式为例，执仪人在地方信俗中继承的仪式互动经验和知识(诵辞、舞蹈、仪轨、传承方式)以及宗族史叙事等文化资本(宗祠、祭器、家谱)，形成了具有垄断性的宗教权力。这些在占卜凶吉、解厄驱魔仪式中以神灵之名而获得的解释权、族群内部劝善说孝之类的伦理道德等，都是可以在“互动再次发生时重复使用的资源”。这些可以周期循环使用的资源，须在一个既定的仪式语域中产生效用。因而，只有把执仪人与信众的“互动仪式”置于仪式场中解读，你才会发现、理解仪式行为所表征出来的音乐意义、宗教隐喻和文化价值。

仪式场中的角色，通过器声与人声进行仪式叙事。执仪人使用的响器主要有膜鸣器、体鸣器和气鸣器三种类型，较少见有使用弦鸣器执仪。如鼓之类的膜鸣器、钹之类的体鸣器和一些不定形的金属噪声器，还有一些号筒之类的气鸣器。由这类响器发出的器声主要用于制造仪式气氛，或为人声伴奏，或直接作为执仪人的法器使用之。仪式场中的人声，主要有念诵、唱诵和舞诵三种类型：念诵，是音乐因素(旋律、节奏等)与语言因素(语素、音位等)结合得最为紧密的一种音乐表达形式。出于仪式进程的叙事性需要，念诵类仪式音乐往往偏重于歌唱的语言性因素。唱诵，在旋律上偏重于音乐的抒情性，而歌词仍为叙事性的内容。这是仪式场中人声表达的基本形式，具有一定的歌唱性。舞诵，是运用肢体语言结合唱诵而进行的仪式叙事，呈现为歌舞乐三位一体——载歌载舞的综合体文化形态，具有强烈的舞蹈律动感。在这里，贯穿于音乐事件全过程的器声与人声，是具有特定象征意义的音乐行为方式。但它并不具有局外人音乐概念体系中的审美意义。在仪式场，执仪人通过器声与人声制造了仪式的神圣感，将音乐行为转换为宗教意义，由此而实现了个人体验辐射为社会群体体验的过程。

表演场，是指用于表达世俗审美诉求的语域(聚落中心、社区广场、剧院和音乐厅等)。它为表演者建构了一个与观众互动的实体空间，从而使个人或集体的表演成为具有审美意义的公众性音乐事件。在表演场中，表演者在审美叙事中的音乐行为主要通过民歌、器乐、戏曲曲艺和乐舞等，构成以审美为旨归的音乐事件。表演场中的器声与人声，同样贯穿于音乐事件发生的全进程。但与仪式场中的虚拟空间不同，无论是广场还是剧场、公益性抑或商业性的演出，表演行为都是在实体空间中展开，并且由观众来界定表演者的音乐行为；没有观众就不成其为表演，脱离了表演空间就不是表演而是自娱。表演场中的音乐行为，呈现为表演者的演奏或歌唱——器声与人声。但这并不意味着音乐民族志的田野作业仅仅将目光投向音乐行为本身就可以了，而要将与之关联的历史、社会文化背景以及人文、自然环境因素一并纳入作业视野。举个常见的反例：有些田野人喜欢把一个原本是族群、社团人际之间交流的乐种从它原生语域中(田间、炕头、场院等)剥离出来，置于一个“风景无限好”的场地进行采录。这类为了“好看”而脱离真实表演空间的“摆拍”，使音乐行为失去了本真语域，也就构不成音乐民族志意义上的音乐事件。此外，虚拟空间中的实物(神像/偶等)和实体空间中的拟物(布景、道具等)，也是构成表演语域的重要元素。

如上所述，音乐行为在特定语域——“仪式场”和“表演场”中将观念物化为肢体动作，通过身媒、器媒和传媒实现意义的表达与传播。问题来了，仪式场中的音乐行为难道不是一种“表演”？如是，一个“表演场”不就概括了全部音乐行为的语域吗？

广义的“表演”当然可以包括仪式中的音乐行为。在研究者看来，仪式中的音乐行为(诵唱、演奏和舞蹈等)都具表演性，作为局外人或可将其行为视为一种“表演”。然而，对于宗教性仪式音乐来说，由于世俗的审美诉求与宗教的信仰诉求旨归完全不同，在文化当事人那里的“表演”意味着假扮——对信仰诉求方式和膜拜对象神圣性的亵渎。所以，“表演”概念的界定需要尊重局内观。那么，表演的语域就该做进一步的划分。相对而言，表演语域的两分法，平衡了局内/局外文化立场，有利于对音乐行为进行深入的观察与分析，进而，更加准确地解析音乐行为产生的文化生态环境特征。这，就是将音乐行为分别置于“仪式场”和“表演场”中进行多模态表演话语分析的理由。

三、语篇：组合态/聚合态

组合态与聚合态语篇，是多模态表演文本的基本结构形态，它具有互文/互释的互补功能。多模态表演语篇的这种互补性，使音乐行为描述和阐释更为多维、立体和活络。而单模态文本，则难以如此全面地描写和阐释动态化的音乐行为及其过程。

在现代科技与网络技术迅猛发展的融媒体时代，文字与影像互补的多模态话语形式得到了学术界的广泛关注。影视人类学界已经先期看到了多模态话语方法在民族志书写中的作用和前景。前不久，郭净在谈到什么是“影像志”时认为：“它不是一部影片，它是运用影像手段，经长期的田野调查，得到的系列的成果。在这个调查中，影像不是唯一的手段，写作也同样是一个手段。”其实，这就是文字与影像组合互文的多模态话语形式。近年来，鲍江瞩意的“智能手机语言”和朱靖江对抖音等“短视频虚拟社区”的研究，从某种意义上说，都是在探索当代影视人类学的多模态叙事方式。这些理论与实践的探索，对音乐民族志的研究也具启发意义。面对音乐行为——“表演”过程的描述与阐释，多模态表演话语分析方法的有效性的却值得我们加以关注。

法国符号学家R.Barthes曾经归纳了图文并用结构关系的三种模式：“锚定(anchorage)，文本支持图像；说明(illustration)，图像支持文本；接递(relay)，图文互补。(Barthes，1977)”在我看来，这就是对多模态语篇互释/互文——互补关系最简洁、清晰的注解。在文字模态语篇的结构中，多为图像支持文字的“说明”关系，如论文、著述中的照片、图片；它是文字叙事过程中的一个可视化的说明性图例。在影像模态语篇的结构中，多为文字支持图像的“锚定”关系，如影视作品里的字幕、图鉴中的注解性文字；它是在影像叙事过程中将画面内容(人物、事件)及时空关系(时间、地点)加以固定或限制——“锚定”的文字。而真正能够形成图文互补关系的“接递”式多模态语篇结构，则较为少见。

本文试从宏观层面将多模态表演话语的语篇结构归结为“组合态文本”和“聚合态文本”两种基本类型：

组合态文本，是针对同一研究对象，以多模态表演文本组合形式建构并具互文关系的话语分析方式。我们可以将其视为以两种以上模态类型，通过组合方式建构的多模态语篇。这种结构方式中的“图文”，是以独立的单模态文本(以文字模态为主的论著、以照片为主的图鉴等)组合起来而形成的一种图文互补关系。不同模态文本的互文，形成了一个多维而又统一的学术框架。笔者的“中国萨满音乐研究”，就是以这种多模态语篇结构方式组织实施的。如今，已完成了文字模态文本的《中国萨满音乐文化研究》(中央音乐学院出版社，2007)、图像模态文本的《中国萨满乐器图释》(上海音乐出版社，2018)；以及，影像模态文本的《中国萨满音乐影像志》(计划中)。它是以“萨满音乐”为同一研究对象，在一个不同模态语篇互文的架构中，以多维、立体的呈现方式展开音乐民族志书写。

新近，陆续出现了一些符合这种研究模式特征的研究成果。如《京津冀音乐类非物质文化遗产》研究项目，就是以文字模态与影像模态语篇组合互文的模式进行的。目前已出版了“雄县卷”“高碑店市卷”。项目策划人高度重视多模态手段在田野作业中的作用，以“两支笔”——文字文本与影像文本并重的音乐民族志书写方式开展田野作业。

聚合态文本，是针对一个特定对象，以多模态话语聚合形态建构并具互释关系的文本结构方法。它包括：视听兼具的多模态影像文本，如带字幕、配乐和画外音的影视作品；图文并茂的多模态语言文本，如画册、图谱等；计算机数字技术与网络平台结合的多模态荧屏文本，如视听元素综合的电子文稿等。与多个语篇组合而成的体系化音乐民族志知识建构方式不同，聚合态文本的形成，是在一个独立语篇内部结构中运用多种模态符号互释的方法。在过往的学术实践中，图文并用的多模态单语篇并不鲜见，但并未形成一个自觉的学术意识。大多情形下，作者只是将“图”作为文字模态语篇的附件而已，无论是“锚定”抑或“说明”，图文模态之间依旧是主次分明的依附关系，尚未达到学理层面的聚合互释。

工尺谱记谱与韵唱之间脱节的技术问题，一直是个困扰音乐学界的“世纪难题”。近年来，一些研究者已开始探索解决这类问题的方法。譬如，《京津冀音乐类非物质文化遗产》团队在田野实战中运用了谱字+韵唱同步录制方法，可称为“同步韵唱法”。他们将工尺谱谱面与演奏者的韵唱行为同步聚合于荧屏文本之中——声谱同框、影音互释，有效地解决了工尺谱谱面识读与实际演奏环节不一致的难题。这种多模态田野音乐数据记录方法，是一台摄像机记录韵唱(由一位乐师韵唱)，另一台摄像机记录工尺谱谱面(由一位乐师指示所韵谱字)，后期剪辑时再将两幅画面同步拼接在一起，形成一种聚合态的影像文本。这样，“一方荧屏，双重信息，让拿着谱本摸不着‘字’，或者听着‘韵谱’找不到‘字’更找不到‘字’与‘字’之间的‘字’的人，有了确指的‘字’位……新路子不但有效解决了局外人的教学困难，而且有效地解决了局内人的传承问题。……开辟了一条让普通人学习工尺谱的途径”。同步韵唱法的应用价值还在于“从乐谱学叙事模式上解决了‘现代工程’畅行的障碍”。聚合态文本建构方法，就是跨越这个障碍的有效手段。再如，泉州地方戏曲研究社在“泉州南音记录工程”中创制了“智能曲谱”，以解决南音工乂谱的识读与演唱问题。他们把500首这种荧屏文本生成相应的二维码印在一本小册子上，读者通过点击打开一个可以视听的视频画面，谱例上的唱词逐字与演唱的声音同步呈现(在白底黑字的谱面上以动态的红色字体标识演唱过程)。这种荧屏文本即可用作欣赏聆听又可跟随习唱，为古老南音的现代传承提供了极大的方便。由此可见，对于以传统谱本为主要传承方式的乐种，运用这种聚合态文本互释方法的技术优势具有很高的实践意义。

视听化的多模态表演话语分析，是个颇具发展前景的聚合态文本书写方式。这种文本形式大多出于音乐表演分析研究之需，是以荧屏为识读媒介，由声音、影像和频谱图示聚合而成，将声音的物理特性(音高、音色、速度和响度)与表演动作相结合进行可视化的多模态表演话语分析。如关于郎朗钢琴演奏李斯特作品《爱之梦》中的“放电”手势分析，就是运用可视化频谱分析工具对声音进行谱式化转译，并与记录表演动作的可视听影像同步呈现，在由声音、影像、乐谱和频谱诸因素构成的聚合态荧屏文本中，对演奏者的动作、姿态进行综合性描述与分析。

当然，并非文字、影像、动作等模态因素的简单相加就会形成一个具有独立表意功能并呈聚合态的多模态荧屏文本。它与现代科技与文化传播手段的发展和应用场景、研究对象的自身特点、民族志知识接收者的识读惯习等密切相关。并且，多模态因素能够整合为具有内在逻辑关系的识读体系及其表达方式。值得注意的是，随着传统传播媒介与以计算机数字技术为核心的现代网络传播媒介互融合一的趋势渐成气候，这种聚合结构形态的“融媒体”媒介，一定会使多模态语篇的应用场景愈来愈广泛。多模态表演话语分析，强调在音乐行为的动态过程中体验、观察和解释音乐意义。显然，影像模态是最为适宜描述动态过程的一种手段。但这并不意味着仅仅依赖于影像模态话语分析方法就能够包打天下。在音乐民族志知识生产中，依然需要多种模态认知手段的交互运用方能奏效。无论是组合态文本的互文抑或聚合态文本的互释，都是以多模态话语互补为目的的音乐民族志语篇形态。

主张音乐文化整体研究的民族音乐学/音乐人类学理论，尤其是梅利亚姆的“三元论”，将音乐行为赋予与音乐观念和声音同等地位，使之成为音乐三位一体结构中的一元。不过，音乐行为在观念表征为声音——表演的过程中似乎依然处于“中介”地位，其独特性被过度强调音乐整体观的学术倾向所遮蔽。同时，来自于认知理论的“两分思维”也是影响音乐行为独特地位的缘由。诚如沃克尔(Margaret Walker)批评的那样：“思想和身体的两分思维在当代的音乐认知理论中仍在延续，结果便造成对认知过程中的思想和身体的连接——音乐演奏中涉及的认知过程的忽略。”所以，表演语域中的音乐行为研究，就是要将行为由“中介”推入“中心”；同时，应用现代多模态表演话语分析方法，在“思想和身体的连接”过程中多维、立体地开掘和识读音乐意义。