调性生成理论：音乐、语言与心理学的跨学科及实证问题讨论

2022-07-26 12:23姜蕾

黄钟-武汉音乐学院学报 2022年1期

姜蕾

在20 世纪的五六十年代，心理学所发生的“认知革命”，打破了以往行为主义的主导地位，在心理学、语言学、计算机科学以及音乐学等不断扩大的领域之间建立了联系。特别是80年代之后，实证研究的理论输入越来越多地来自于音乐理论。《调性生成理论》（，以下简称GTTM）是这方面交叉研究的最早的音乐理论成果之一。提出该理论的两位作者，作曲家、理论家勒达尔（Fred Lerdahl）和语言学家杰克恩多夫（Ray Jackendoあ），他们认为音乐理论可以被看作为“认知心理科学的一个分支”，通过对音乐思维的结构过程研究，可以解释人类理解音乐的独特能力。该理论在20 世纪80年代推出时，曾一度引起圈内外学者的广泛关注，成为音乐理论家、心理学家与语言学家共同讨论的焦点。值得注意的是，在该成果发表25年后，A & HCI 索引期刊《音乐感知》（）设专刊以纪念的形式再次全面讨论GTTM 自1983年以来的理论研究进展，从中不难发现，GTTM 的学术影响力与它所激发的跨学科学术追求至今仍是各大学科待消化的问题。虽然GTTM 从理论本体研究角度看某些观点显得陈旧，然而，它基于跨学科的视角，尤其是音乐与语言、认知心理学的交叉研究，无疑对当下的不管是音乐认知心理学研究，还是音乐分析理论研究都具有重要启发意义。

一、GTTM 的理论要点：四种维度与两个规则

调性生成理论（GTTM）研究的着眼点在于结构。作为音乐分析最核心的研究内容，“结构”是研究的重中之重。调性生成理论中的“生成”，是指通过有限的、理想的少量规则，对无限多种现象（音乐片段或作品）提供结构描述。这种结构描述以句法为基础，以听觉为向导，通过对音乐事件从表层到深层的结构层级还原分析，最终使听众对作品有更好的理解。与申克的简化分析不同的是，GTTM 的结构生成除描述音高之外，同时还关注到层级结构中的节奏元素，由此也增加了传统申克理论所没有的时间维度。阿伦·福特（Allen Forte）曾指出，申克分析缺乏节奏视角的这一缺陷是“音乐理论中尚未解决的问题”。因此，从分析学科发展的角度上看，GTTM 的出现是一种重要的理论延伸与补充。

GTTM 结构生成由四种基本结构类型与两个规则构成，分别为：分组结构、格律结构、时程还原结构、延长还原结构以及格式良好规则和偏好规则。

首先，分组结构（Grouping Structure）与格律结构（Metrical Structure）是调性结构理论中两种基本的结构类型，前者主要指结构被分割的方式，从最小的动机、乐节、乐句、乐段与更大的结构单位。后者主要关注作品中事件的强弱拍在一定层次上的规律性交替问题。在具体作品中，上述两种结构所发挥的作用不同。在更大的层次上，分组结构往往起着决定性的作用，但在最小层次上，韵律结构是影响时间跨度选择的重要因素，尤其当分组边界打断韵律模式所赋予的规律性时，节拍结构的重要程度更加显示出来（见谱1）。

这个主题共24 小节，从分组结构上看，旋律形成2+2 的乐节、4+4 的乐句与8+8 的乐段分组（见谱1a）。然而，在这一分组结构的层次之下，音乐似乎很难进一步细化研究。因此对于局部细小结构层次的分析，得运用到韵律结构，后者可将音乐分割成最小的时间跨度来做深入考察。其中，点的数量决定了一个特定的韵律重音的强度（见谱1b）。

这里，当乐曲的节奏单位与音高分组相一致时，是比较容易划分出一个时间跨度，但当音高与节拍发生冲突时，即分组结构与节拍结构不同步时，节拍结构可以提供有力的支撑线索。比如谱1c 第12 与13 小节处，按照分组结构一般会以4、2 结构来分割，但从节拍结构上看，第12 小节的最后一个音不应该属于上一句的结束音，而应该作为下一乐句弱起音，因此应该看作第13 小节的开始，正确的分组应该如谱1d。分组结构与节拍结构的结合，可以更好地服务于音乐的理解。

谱1 贝多芬“欢乐颂”主题分组结构与节拍结构分析

注：每一个节奏单元用“●”表示，每个括号都与一个特定的节拍相关联，体现出节奏运动的时间规律。

时距还原结构与延长还原结构是GTTM 另外两种重要的结构观察维度。前者主要通过对横向音高与纵向和弦关系进行还原，以揭示出各音乐事件之间内在关系的过程。后者则从心理层次上体现出一部作品的紧张、松弛、连续或流动的关系（详见后文）。与时程还原相比，延长还原结构具备前者所没有的两个特点：1）如何体现和声节奏所产生的连续性；2）音乐进行的流动性。

除了以上四种结构维度外，GTTM 还提出了两个结构规则：格式良好规则和偏好规则。格式良好规则规定了音乐结构必须满足哪些条件才能被认为是可接受的，偏好规则必须在结构描述之间做出选择。这两大规则主要引入了语言学与认知心理学的相关知识点，我们将在后面展开讨论。斯洛博达（John A. Sloboda）在评价此书时曾讲到：“这本书有趣地将语言学与心理学的概念应用到音乐中，对发展音乐和语言、心理学之间的联系做出了巨大贡献。”下面分别从音乐与语言、音乐与心理认知两个方面展开探讨。

二、源自语言学影响： GTTM 下的音乐语法认知

GTTM 理论的形成很大程度得益于语言学研究的重大突破。伯恩斯坦曾在哈佛大学查尔斯·艾略特诺顿讲坛以“未作回答的问题”为题敏锐地指出：“音乐理论家也应该要发现类似于乔姆斯基的音乐语法，进而可以用科学的方式解释人类的音乐思维。”

乔姆斯基是一位享誉全球的语言学家，麻省理工学院语言学教授。早在20 世纪50年代就开始将研究重点移到语言结构分析理论上，出版了他的里程碑式著作《句法结构》，提出了语法生成的重要结构理论，对语言分析理论与认知学科产生了极为重要的影响。

（一）语言的句法基本结构

在乔姆斯基看来，每个句子都有两个结构层次：表层结构和深层结构。表层结构“面向外”，以言语表达文字、声音。深层结构“面向内”，表达词语与概念意义的内在关系，即在人脑中的存在形式，是语言的深层。只要表层结构与深层结构都理想的状态下才是容易被理解与认可的。

（1）表层结构，是对句子表面上各成分之间的关系进行线形排列的一种结果，类似人们口头表达的句子，具有语音性（见图1）。

图1 语言语法结构的表层-深层结构示意图

在这个句子中，主句“这是男人”，被扩展为“这是与小丽结婚的男人”，还可进一步扩展为“这是和留学回来的小丽结婚的那个男人”。这里的表层结构是可以被不断装饰与扩充的，也就是说，对于语言中某一个长度有限的句子，可采用一定的办法将其长度加以扩展。如“留学回来的”是对“小丽”的定语补充，“和小丽结婚”是修饰“男人”等。乔姆斯基认为，可以在句子里加上任意数目的定语装饰或名词性从句，每加一个这样的从句就构成了一个新的更长的句子，而这些句子都是成立的。究竟能加多少从句，只与讲话人的创造力与耐心有关，而与语言本身的结构无关。也就是说，不管如何扩充，结构的内在逻辑是不会变的。这就是我们下面要讲的深层结构。

（2）深层结构，是指句子成分之间的内在语法关系，这种语法关系不容易从外在的线形排列中直接获得。在生成语法里，深层结构是隐现的逻辑表达，决定了句子的意义。如图1例子中“这是男人”是整个句子的深层结构，不管表面如何装饰，这基本成分是不变的，句子的核心架构是稳定的。

（3）转换结构。除了表层结构与深层结构之外，乔姆斯基语法结构理论的另一个重要创举是提出了转换结构。所谓转换结构，是指可将不同句型的句子进行相互转换，表层结构转换为深层结构，或深层结构转换为表层结构。通过这种转换，可以把表面不同而意思相同的句子联系起来，也可将表层结构相似的句子区别开来。比如，“那个男人追求小丽”转换为“小丽正在被那个男人追求”。这两个简单句子从表层结构看是不一样的，但它们的深层结构所表达的意义是完全一致的，由此可以将它们相联系起来。再如下列两个句子：

a）那个被邀请来聚会的男人追求小丽。

b）那个邀请人来聚会的男人追求小丽。

图2 中a、b 这两个句子的表面结构相似，但实际上它们的成分间的内在关系不同。前一句中的那个男人是被邀请的对象，可转换成“那个被邀请的男人”或“那个男人被邀请的”。而后一句中的那个男人则是邀请的施动者。因此，转换规则可以通过句子内部隐含的深层结构来做进一步解释，通过这种提示将表层结构相似的句子清楚地区分开来。在乔姆斯基语法结构理论中，表面结构、深层结构以及转换结构可通过一种树形的符号图来简洁地表达，树形图亦是他语法分析的重要工具，也是特色所在。

图2 语言语法结构的转换结构示意图

（二）音乐的句法基本结构

乔姆斯基的语法生成结构为勒达尔和杰克恩多夫的GTTM 分析带来重要提示，音乐的表层结构由显在的类似语言的动机（词素）、乐汇（词汇）、乐句（短语）、乐段（句子）构成，它们都存在多层次的组织，但仅是表层结构尚无法真正理解音乐，而需进一步触及深层结构。深层结构从不同维度将表层信息逐步简化，省略不那么重要的事件，将结构上更重要的事件保留，直至最深层的骨架，所谓“生成过程”其意义亦在此。GTTM 的简化方法与申克有类似之处，但也有明显不同，前者更注重从听觉角度提供认知过程信息的全细节过程，让被阐述的事件与阐述它的事件一起被保留，由此，可以比较直观观察音乐表层和深层结构各个层级的步骤。而增加节奏节拍时间维度的时距与延长结构内在关系的对照分析方法，是GTTM的重要特色，对当下中国音乐理论更多专注于音高的分析研究尤具参考价值。

下面以巴赫众赞歌为例做进一步观察。谱2 采用自上而下的层级次序呈现出音乐从表层到深层的结构过程。其中，最上方乐谱即听众在听音乐时所听到的完整旋律，为表层结构。A与B 标出了表层结构中的节拍结构与分组结构的进行方式。C 为时距还原结构（虚线矩形显示横向音高与纵向主干和弦自上而下的还原关系，见谱2），其中e—a 从繁到简逐次列出不同层次的简化情况，在这里，e 接近表层，然后从上往下逐层深化，直至结构底层a。D 为延长还原结构，与时距还原结构所采用的从繁到简的方法相反，这里从简到繁描述了听觉所感知到的张力与松弛关系，分为1、2 两个层级来表示。乐谱顶部的树型符号图进一步阐释时距还原与延长结构的内在逻辑。

谱2 巴赫《耶稣，是我的生命》第1—8 小节结构分析

上例中，结构-阐释树表达充分借鉴了语言句法的层次分布。谱2 中，树的顶端枝干发挥了类似语言中的主句功能，体现出为I-Ⅴ-I 结构，它对应着谱中时距还原结构的层级a，代表最稳定的延长连接。然后，主干逐次精化或扩充，如果a 是b 的精化，那么它的“分支”连接到b的分支上，这种情况称为“右分支”（见图3-2），反之则为“左分支”（见图3-1）。如果两个事件的分支是相互关联的，而不考虑哪个分支支配另一个分支时，这时采用中性地连接方式（图3-3）。此外树符号图上的“○”与“●”标记，分别表示强延长（图3-4）与弱延长（图3-5），以说明事件延长过程中的张力与松弛的运动情况（见图3）。

图3 结构-阐释树中的主要符号标记法

下面我们以第1—2 小节为例做进一步放大镜式考察（见谱2e）。首先，从第1 小节强拍上的I 与第2 小节次强拍上的I 形成一个强右延长，中间的Ⅴ是对I 的支持与延长，三者形成这两小节的深层结构I-Ⅴ-I，它就像语言中的“主谓宾”语法功能，构成句子的基本语法逻辑。其次，第1 小节的G 音作为两个I 级之间的环绕辅助音，是对第一个I 的装饰延长，以次一级右分支来表示，它们类似语言中的填充与装饰成分，对主句做进一步扩展。这一小节的B 音上构成的IⅤ级作为属前准备和弦体现为到Ⅴ的松弛性延长运动，以次一级的左分支进一步精化。最后，这两小节的其他事件以类似方法进一步以紧张与放松的模式延长，以小尺度的延长嵌入上一级别更长时程的延长模式中，如第1 小节的Ⅴ2/IⅤ，最终接近音乐的表层。以这两小节为基础，笔者试着给出整个乐段从表层到深层句法延长结构的树形图（见图4）。

图4 巴赫《耶稣，是我的生命》整个乐段的延长分析

综上所述，从转换结构来说，上例中的深层结构与表层结构可以互相转换与印证，深层结构的逻辑性与否，可以通过逐层转换为到表层结构来检验，反过来，从表层结构到深层结构，体现了简化形式的差异及最佳听觉可能的筛选。通过这种转换思考，让音乐的生成过程更具说服力。当然，我们需要注意到的是，虽然语言语法结构对音乐带来借鉴，但音乐又不同于语言。语言具有语法范畴，如名词、形容词等，而音乐没有与之对等的语法范畴。此外，语言句法树主要传达的是一种成分关系，如一个动词短语可以分解成一个动词加一个名词短语，这个短语又可以分解成装饰语加名词，依此类推，而音乐结构树的主干与分支主要显示的是相关事件的结构重要性，事件的紧张与放松运动等。因此音乐对语言语法的借鉴并不能照搬，否则就容易误入“一个古老而徒劳的游戏”。

总体而言，乔姆斯基语法理论使得对语言的研究从传统的语言描写转向对语法生成系统的研究，也给予音乐以有益的启发。而两者之间的进一步交叉研究仍然是有待于深化的课题，要继续深入这个课题，必然涉及到另一个两者都共同关注的重要领域：认知心理学。

三、与心理学的联系：认知、实验与结论

GTTM 认为，听者对音乐结构的直觉，从初级的关于分组结构和节拍结构的，到复杂的延伸结构的感知，与认知心理学有着密切的关系。这种关联性在书中的不同章节均有提到，下面将结合个人的理解与观点从两个方面来展开探讨：第一，格式塔心理学影响下的结构认知；第二，关于人与生俱来的语法认知能力——一项fMRI 实证研究。

首先，从与格式塔心理学联系上看，上述的四种结构以及表层结构与深层结构之间的转换过程，不同人的听觉感受不一样，给出的结果也不一样。那么，到底哪一种结构是理想的呢？怎样划分？如何选择？依据是什么？这是GTTM 结构形成中需要探讨的重要问题，格式塔心理学则为这些问题的解决提供了重要的理论支撑。心理学家考夫卡认为，“心理组织总是在条件允许的情况下尽可能选择‘好’的”。“好”这个词虽然没有一致的定义，但人类大脑总本能地趋向以尽可能简单、规则、逻辑与稳定的方式对我们的经验进行“好”的排序，比如相似性、相近性、连续性，把分离的要素组织为一个整体等，这些特征构成格式塔心理学重要的知觉组织原则。

以句法认知来说，格式塔心理学认为音乐感知不是简单的输入-输出系统，而是在一定背景下，对事件进行有组织的认知性解释的复杂过程。举一个简单的例子，图5 中A-G 的结构要素，按照格式塔相近性原则来看，元素1 与2 归属于节点D，元素3 与4 被归入节点E，D 与E 又归属于更高层级的节点B。然而也并非总是如此，如元素4 与5，虽然在距离上相近，但心理组织更容易把4 归属于节点B，5 属于节点C，因为这里同一个节点所联系起来的结构元素要比由不同节点所联系起来的结构元素在心理空间上更接近。

图5 基于格式塔的结构元素分析

结合格式塔的相关原理，勒达尔和杰克恩多夫通过大量实验，论述了个体在结构感知上的“好”的组织原则。以节拍结构为例，GTTM 列出来4 条格式良好规则与10 条偏好规则（见图6）：

图6 GTTM 节拍结构的格式良好规则与偏好规则⑯此图依据GTTM理论整理而成。可参考Fred Lerdahl, Ray S. Jackendoあ: A Generative Theory of Tonal Music, pp. 345-349.

这些规则以最简洁的形式体现出节拍组织的生成规则与底层逻辑，在音乐系统中具有某种共性特征而被人们普遍地感知。除了节拍结构外，GTTM 在分组、还原与延长结构方面都充分借鉴了格式塔心理学的原则。可以说，在音乐领域，GTTM 是第一本从心理感知层面去探讨音乐分析问题的理论著作，也开启了音乐与认知科学交叉研究之门。

其次，关于人天生具有的语法认知能力。乔姆斯基认为“人脑天生有一种内在的语言机制（Language Acquisition Deviece，简称LAD）”，也就是说人具有语言天赋性，这种“天赋”自然属性认为，所有语言拥有同样的基本底层结构，儿童在特定年龄之前一直拥有一种LAD。勒达尔和杰克恩多夫支持乔姆斯基的观点，认为音乐的语法机制也具有生物学意义上的本能属性，具有内在的音乐习得机制（Music Acquisition Deviece，简称MAD），它与“音乐直觉”紧密相关。我们知道，音乐作为一种特殊的声音，它与动物，或其他自然界的噪音不同，音乐的声音有一个结构性的组织。在频率领域，音乐结构的基本原则是通过泛音列将音高组织起来，然后形成音阶。而以泛音列为基础的音阶，反过来又根植于听觉系统的原始感知特性。GTTM 通过将音乐语法生成的每一步，特别是对良好结构与偏好的选择与音乐的心理直觉联系起来，进而论证对音乐语法结构的认知与语言一样具有自然属性。

受到GTTM 的启发，2018年笔者与华东师范大学脑功能基因组学重点实验室合作团队进行了一项实验，就听者如何调用认知资源去直觉地聆听调性音乐而进行的一项脑磁共振的初步实验，并进一步将“调性生成理论”中的“调性”扩展到潜调性、无调性层面，试图从fMRI 实证上获取音乐习得机制的相关数据信息。在做这个实验之前，我们的团队对24 名被试进行了听觉预测，测试材料采用了三种不同音乐风格的片段，分别是调性音乐（包括古典与浪漫时期）、潜调性音乐（以印象派为主）与无调性音乐（十二音作品）的音高片段，主要从准确率、信心、熟悉度三个方面对个体进行测试评分，并在专业组与非专业进行了比较。结果如图7 所示：

图7 基于ANOⅤA 的行为分析：（A）准确率、（B）熟悉程度、（C）自信心

图7 中，横轴从左到右代表古典、印象、无调性，随机打乱音高片段；纵轴的三个图分别代表准确率、信心、熟悉度。组分析结果为：

1）专业音乐组在准确率、信心度上明显高于非专业组；

2）不管是专业还是非专业组，对古典、印象派音乐的调性感知要明显高于无调性音乐；

3）其中对古典时期音乐的听觉敏感度最强；

4）对于无调性音高旋律与打乱次序的音乐片段，不管是专业组还是非专业组，都没有准确的听觉辨认。

随后，实验设定了专业组与非专业组被试，刺激材料包括古典时期、印象派、无调性，随机打乱音高片段，每种40 条，共160 条。每一音乐片段在音高数量、节奏、强度上都进行了平衡。然后进行了功能核磁共振（fMRI）的测验（见图8），其实验结果与前面的行为测试基本吻合。概括而言，对于调性音乐的反应，即便是没有受过正规音乐训练的人群，在解码音乐信息，获取音乐语法知识，并根据这些知识来理解音乐方面都体现出较高的关注力。其中，调性音乐的受关注力最高，印象派音乐次之，而富有经验的听者对于调性音乐事件的结构性关注不是随机的。

图8 功能核磁共振（fMRI）脑区激活情况

具体而言：

1.在调性音乐测试中，左右半脑都被激活，其中专业音乐组激活区域更明显；

2.波洛卡（Broca）区域反应出调性音乐结构的总体特征，但具体如何表现需要进一步细化；

3.印象音乐激活，同样看到明显激活，但激活区域相比于古典音乐要小与弱；

4.无调性音乐脑区几乎没有任何激活表现。

结语

今天，音乐的跨学科研究趋势愈加明显。从“2021·上海·中国音乐心理学第七届学术研讨会”与2019年“第42 届美国音乐理论学会年会”上可以看到，“跨学科”“神经科学”“实证研究”成为当下音乐研究的热词。GTTM 理论的重要贡献也正在于此，它建立了音乐和语言学、心理学之间的跨学科链接，在拓展音乐理论自身研究的疆域之余，也鼓励了在音乐认知、语言学、实验心理学、认知神经科学等领域内进行具有音乐理论意义的实证研究，其学术价值毋庸置疑。更重要的是，它进一步启发了我们未来的努力方向。

从与语言学结合角度，GTTM 将语言学引入音乐研究领域，使得传统的“音乐看音乐”的研究模式向“语言-音乐”的跨学科领域尝试，使音乐理论的学术“战场”趋向多元化。音乐与语言作为人类发展历程中的两种声调语言系统，具有许多相同点。它们都需要对音高信息进行较为缜密的解码，无论是声调语言还是非声调语言，都需要对语音节奏进行准确的分析，以解码语音的结构和意义，因此，彼此之间有很强的“家族”相似性。它们之间的这种类比所强调的语法结构的各种可能，对我们所研究的每一项音乐活动都有深刻而详细的暗示。当然，音乐的研究又不能完全参照语言语法系统，如前文所述，音乐与语言有本质的区别，如语言传达命题思考，且一次只能由一个人说话（否则就听不懂语言），而音乐强调情感因素，它可以是多声的组合，以及他们在语法范畴、成分关系等方面都存在明显差异性。

从音乐与心理学角度，GTTM 把认知心理学引入分析系统，关注听者直觉听觉心理过程，在观照自身结构语言生成的内在机制同时，也挖掘了音乐理论作为认知科学的分支所具有的实证价值，音乐与认知科学的研究有着乐观的发展空间。

总体而言，音乐、语言、心理学的关系研究是一个将科学和人文研究结合在一起的有意义的领域。在该领域中，跨越传统边界的相互作用可以孕育出单靠任何一边都无法实现的新思想与新发现。特别是近几十年来，随着神经科学的迅速发展，音乐研究可以借助科学和人文知识的交叉研究来进一步开拓视野，以获得对音乐理论与音乐心理学研究的突破性成果。