李小诺(上海音乐学院 音乐学系,上海 200031)
人类的感知觉不只是简单地输入-输出(刺激-反应)系统,而是在一定的环境背景下,对事件进行认知性解释的复杂过程。格式塔心理学派的学者们认为,人们在处理视觉信息时,眼脑并不是在一开始就区分一个形象的各个单一的组成部分,而是将各个部分组合起来,使之成为一个更易于理解的统一体。同样,在处理听觉信息时也具有这样的能力——将独立的音乐声音组织到一致的结构中。所谓音乐听知觉重组(Auditory perceptual reorganization),即人们在知觉音乐信息时所发生的“自组织”现象,这一现象是在一系列的声音事件中识别出一定音乐形态的过程。
随着认知科学、声学、物理学等学科对音乐知觉现象研究的介入,越来越多的成果表明,在信息传递和加工过程中,人们知觉到的(自组织、重组后的形态,即人们自认为知觉到的形象)某些因素会与声音客观物理属性或结构的真实情形产生一定的差异,也就是这一过程中产生了对客观事物“歪曲”的知觉,因此,有些学者也将这些现象称为“听觉错觉”(Diana Deutsch,1974),这些“错觉”现象正是人们听觉重组的认知特征,而恰恰正是因为这些特征,某种程度上,才使音乐的表现成为可能。
音乐是由多种复杂因素构成的,就其本身来说,主要体现在横向时间维度中展开的音高关系和声音事件。本文就音高及其在与音长时值维度交互作用下的听知觉特征为切入,梳理现有听知觉对音高信息重组的认知加工机制的相关实证研究及论述,分析音乐听知觉音高分层的基本特征及脑机制;在音高与时值的交互感知中,分析单声部音乐中听觉分裂的重组现象。在此基础上,以具体音乐作品片段的听觉分析为例,阐述听感知加工的“创造性”特征,它对更高级审美加工具有重要意义。
长期以来,在认知心理学研究中,较多研究是针对视觉加工(错觉)问题而较少关注听觉加工。但是音乐听知觉重组(错觉)现象却是普遍存在于我们周围,无论是用随身听听音乐的时候,还是在剧场听现场音乐会的时候。
从已往的研究文献来看,最早注意到音乐听觉特征并运用到创作实践中的是法国著名的作曲家伯辽兹,他在著作《乐器法》(treatise on instrumentation) 中对“作曲中位置安排的重要性”,就有关听觉特征及在创作实践中的运用进行了论述。1974年,美国心理学家黛安娜·多伊奇(Diana Deutsch)在《自然科学》(Nature)杂志上发表了题为《听觉错觉》的文章,呈现了对音高听知觉的研究发现;这篇文章真正标志着音乐知觉重组(错觉)科学研究的开始,并且黛安娜·多伊奇本人也在这一研究领域中做出了巨大贡献。
在这项实验研究中,黛安娜·多伊奇通过自己发明的双通道呈现模式来验证人们的听觉感知是否与声音的客观呈现是一致的。但实验结果表明,86名被试“没有一个人听出来的声音是对的”(Diana Deutsch,1974)——即没有一个人的主观感知与实验客观呈现的声音是一致的——被试听到的声音(或呈现方式),其实都是被自己听觉重新组织过的。
这个双通道实验,是将这两个相隔八度的正弦波以250毫秒为单位进行双耳间位置更换:第一个250ms内,向被试的右耳呈现800Hz的信号,而向被试的左耳呈现400Hz的信号(2个信号的音高相差一个八度);在第二个250ms内,向被试的左耳呈现800Hz的信号,而向被试的右耳呈现400Hz的信号,在第三个250ms内又重复第一个250ms的情况,按照这个程序反复呈现(如图1a所示)。也就是说,当右耳听到高音的时候,左耳听到的是低音;右耳听到低音时,左耳听到的是高音(在呈现过程中耳机两侧音量调剂到平衡状态)。就是这样一个简单的呈现模式,却让人们产生了错觉。大多数人对这个呈现模式的知觉如图1b所示。人们听到一个单音在两耳之间交替出现,同时,音高也在高音和低音之间交替变化。也就是说,前一个250ms内只有一只耳朵听到高音,下一个250ms内,只有另一只耳朵听到低音。如果将耳机的位置对调,先前听到高音的耳朵继续听到高音,而先前听到低音的耳朵则继续听到低音,似乎是原来的声音迁移了。
也就是说,就声音客观播放来说,是同时向被试播放了两个音高相隔八度的音,其高度位置每250毫秒在双耳间对调一次;但就被试的主观听知觉来说,大多数人听到的是一个单音在两耳之间交替出现,同时音高也在高音和低音之间交替变化,高八度音总是出现在一只耳朵,低八度音在另一只耳朵。如谱例1所示:a为实际播放的音响,b为被试主观听到的音响(Diana Deutsch,1976)。
谱例1(a、b).八度错觉
这一模式研究中还发现,右利手与左利手的被试的对音高位置的知觉在统计上存在差异:对于右利手的听者来说,不管耳机的位置如何调换,绝大多数人都报告右耳听到高音,左耳听到低音;而左利手的被试却没有明显的倾向(左耳和右耳知觉到高音者各半)。
要解释这个知觉重组(错觉)产生的可能原因并不是一件简单的事情。对于知觉到的音高的交替变化,可以解释为听者听到了一边耳中的声音,而忽视了另一边耳中的声音。但如果是这样,就不能解释为什么听者感到声音在两只耳朵之间交替出现。如果把听者感觉到声音在两耳之间交替出现解释为听者不断在左右耳之间切换注意力,则又无法解释音高的交替变化,(此时音高应该始终保持不变,始终是高音或者始终是低音)。在这种模式下,知觉到一个单音在音高和位置上同时变化的现象看起来好像是自相矛盾的。
黛安娜·多伊奇(1976,1983)做出了一个较为合理的解释。她假设人类大脑有两个独立的机制来加工双通道听觉信号。一个机制决定听到了什么样的声音(音高或频率) ,另一个机制决定声音从什么地方来(位置) 。作为第一个机制来说,当听者要获得知觉到的音高的时候,其中一边耳中的声音(不管频率是否变化) 被永久注意,而另一边耳中的声音则被永久抑制住了。这就可以解释为什么听到的声音音高不是交替变化的。也就是说听者听到的音高的变化实际上始终就是某一边耳中听到的音高变化。作为第二个机制来说,当听者要知觉声音的位置时,始终认为声音从实际接收到高频率声音(高音)的耳中传来(此时真正知觉到的声音很可能是低频率的声音)。这两个机制共同起作用就可以解释为什么声音的音高和位置会同时交替变化。而且可以解释为什么当调换耳机位置时,错觉状态依然保持不变。
关于左右利手的被试在音高位置感知的统计学差异,研究推断,这可能与大脑两半球中哪一个占支配地位有关。对于右利手的被试来说,知觉较稳定,绝大多数是右耳知觉到高音。这表明,右利手的被试绝大多数是大脑左半球占支配地位(语言主要在这半球加工),所以右耳是优势耳,当右耳的音高被注意,左耳的音高被抑制,出现高音的位置被知觉,出现低音的位置被忽视。针对左利手被试的不明确的倾向(有的左利手左耳听到高音,有的则在右耳听到高音,且二者比例相当),黛安娜·多伊奇又进行了专门的实验,并对左利手被试的直系亲属和亲兄妹的状况统一进行考察,发现同样具有左利手或混合型利手(不明确的左或右利手)父母和兄妹的被试,更倾向左耳听到高音;反之,其父母和兄妹是右利手或混合型利手的被试,则更多的是右耳听到高音。因此,左利手的被试并不都是右半球占支配地位(据统计,大约只有三分之一的左利手右脑是强势脑),所以不一定是左耳有优势(Diana Deutsch, 1983),这也许会与其它更复杂的知觉相关。
在上述实验的基础上,黛安娜·多伊奇(1975) 运用双通道呈现模式进行了更为深入的研究,通过一系列音阶呈现模式,揭示了人们在感知多声部音乐时音高知觉重组的原理。
Deutsch(Diana Deutsch, 1975)运用双通道两耳分听的方式,将同一个音阶的上行和下行各音交替呈现在两耳。具体来说,如谱例2-a所示,同时将上行音阶(虚线联结)的第一个音输入耳A,下行音阶(实线联结)的第一个音输入耳B;两音阶的第二个音交换位置,即上行音阶的第二个音换至耳B,下行音阶的第二个音换至耳A;上行音阶的第三音再换至耳A,下行音阶的第三个音再换至耳B;依次类推。
谱例2(a、b).音阶错觉
而人们听到的声音与如此客观的交错输入截然不同——人们会分别在两耳听到一个上行和下行开始的音阶,而在音阶的中点又自动折返(如图2-b所示),而无法形成交错的上下行进行;当耳机调换位置时,高音旋律和低音旋律仍然保持在原来的位置,又好像是原先的声音迁移了——这就是听知觉音高重组的结果。这种听觉重组的发生,不仅是在佩戴耳机的双通道方式中获得,在普通房间的环境下,通过立体声扬声器播放也可以获得同样的听觉效果。
在上述实验之后,Deutsch又进行了一系列由短到长、有简单到复杂的音阶呈现实验,如两个八度的大调音阶、一个八度的半音阶、两个八度的半音阶等,得到相同的听知觉重组的结果。如谱例3所示的两个八度的半音音阶错觉(Diana Deutsch, 1987)。
谱例3(a、b).两个八度的半音音阶错觉
谱例3所示的两耳分听的听觉重组现象与上述八度错觉原理相同,声音实际是以谱例3-a的形式分别输入两耳播放的,单耳听时,它们会被听成跳跃的音调;但双耳同时播放时,听觉会自动加工成谱例3-b所示的样子:较高的旋律线向下进行了一个八度之后上行,同时较低的旋律线向上进行了一个八度之后下行,两条旋律线在中间折返。
同样,右利手的人仍然倾向于在右耳听到较高的音调,并在左耳听到较低音调,但左利手的人没有明显的倾向。这一现象与上文所述的音高听知觉重组的脑机制假设相符合,充分验证了音高听知觉重组的现象和原理。
上述系列双通道听觉实验结果,呈现了人们对同时来源于不同方向的不同音高进行“自组织”的听觉重组现象及其特征:声音在频谱中的相似性(Similarity of frequency spectrum)是人们音高知觉重组的重要依据——人们容易把处于某一个频率范围内的声音认为来自同一个声音源,而把处于另一个频率范围内的声音认为来自另一个声音源——人们对声音的知觉重组就是以此为基础的。其实,在几百年前,音乐理论教科书中就注意到这一现象,如和声、复调写作中不允许声部超越等等,从听知觉重组的角度来讲,人们是不可能感知到交叉于两个音高层次之间的旋律的。这一结果对人们多声部音乐听觉中表现出的许多现象给予了科学的解释。如下例,柴可夫斯基《第六交响曲》第四乐章开始处的一个片段,是作曲家有意进行“声部超越”写作的例子。
谱例4.柴可夫斯基《第六交响曲》末乐章开始处
谱例4-a部分是实际记谱,我们可以看到每个声部的旋律进行中都充满的上下行交错进行的大跳;但由于声部间音高交叉的原因(第一小提琴与第二小提琴声部交叉;中提琴与大提琴声部交叉),我们实际的听觉中,不可能获得任何大跳的旋律,实际上被知觉到的却是谱例4-b所示的四条下行音阶式的旋律:b中的第一行谱表中的两个下行旋律,来自对第一、第二小提琴声部音高的重新组合;b中第二行谱表中的两个下行旋律,则是对中提琴和大提琴声部音高的重新组合。指挥家Arthur Nikisch曾记录下了这一片段的听觉效果(谱例4-b),并反对柴可夫斯基原有的乐谱写法,但作曲家最终还是坚持了自己的做法,也许是为了追求几个声部更加浑然一体的音响,使这一下行悲惨音调能被演奏得更加萦绕而纠结。
这种对音高的知觉重组现象,在多声部音乐的听觉反应中经常发生。当不同的音高信息从不同的方向同时传来的时候,就容易形成听知觉对音高信息的重组,尤其是当不同的音高信息从双耳音高加工优势相反的方向(如上述研究中,右耳听到高音声部左耳听到低音声部的被试,如高音从其左边、低音从其右边)同时传来的时候,最容易形成听知觉对音高信息的重组(Diana Deuasch, 1987)。如上述实验中所述,右利手大都是右耳听到高音(左脑是强势脑);左利手则表现的情况较复杂,有一多半的人仍然是右耳听到高音。在现实人群中,大多数人(有研究认为约90%)是右利手,在加上左利手也有相当一部分人是右耳听到高音,所以,右耳听到高音的人群占有绝对的比例(95%以上)。
由此,我们反观当今交响乐队的声部分布状况:当我们面对舞台时,各个乐器组(弦乐、木管、铜管)由高音乐器到中音乐器、低音乐器都是从左到右依次排列的。这对于听众人群(95%以上倾向右耳加工高音、左耳加工低音)来说,较高的音从左边传来,较低的音从右边传来,正好是绝大大多数观众音高加工优势耳的反方向,这样一来,听觉能将多个声部重新组织的更加融合统一;对于演奏员来说,比自己高的声部在右边,比自己低的声部在左边,如第二小提琴声部在第一小提琴声部的左边,右耳面对第一小提琴声部,左耳面对中提琴声部;中提琴在第二小提琴的左边——依次类推,使每个声部的演奏员都能更清晰地感知上、下声部的状况。同样,合唱队、室内乐或其他各种组合演奏方式的声部排列大都体现了这一规律。这些排列之所以经过漫长的反复试错式的演化而最终被固定,应该是为了适应人们的听觉特征,达到最佳音效的结果。
当然,不同乐器的音色、声部之间的距离等因素,会对这种重组产生影响。因此,管弦乐队各声部的分布安排中,会将音色相近的乐器组排放在一起,也有力地加强了声部的融合和听知觉的加工。相反,如果需要制造应答效果,则需要考虑声部的位置和距离。法国作曲家柏辽兹在他有关“作曲位置安排的重要性”的论述中曾经提到:“在交响曲中,某些乐器组与另一乐器组形成‘问答’的曲式(你一下,我一下,不是同时发出声响)。这样的设计只有当两组乐器相隔足够远的距离时才会起作用。作曲家必须在他的乐谱中注明各自的位置。如果是两组打击乐器演奏‘问答’曲式,则应将它们置于乐队的两端。”(Berlioz, H.,1948)这时,如果两组乐器发出的声音在时间上是先后出现的,那么听者的注意力会一会儿集中在左耳,一会儿集中在右耳,很难将其整合,也就使得作曲家最初的设计意图得以实现。但如果是两组打击乐器(或相近乐器组)同时发出声响,则位置就不重要了,因为即使它们相隔一定的距离,听者仍然可以得到一个知觉重组的音响结果(Diana Deutsch,1987)。
以上是关于多声部(两个以上的音)音高听知觉重组现象的研究,而单声部的旋律(每一个音依次发声)在一定的情形下也会出现听觉重组现象,形成听觉分流(感知成双声部,甚至多声部)。
心理学家们通过大量的实验和统计,发现单声部发生听觉分流与两个因素有关:一是两音之间的时间间隔,时间间隔越近短容易产生分流,而越长越不会被重组;二是两音之间的音高距离,音高距离越远越容易产生听觉分流,反之,越近越不会产生重组。所以,单声部的听觉分流(音高重组)是以上两种因素交互作用的结果;但是,以上两种因素又各自存在可被分流的统计学意义的“阈限值”。下面将两个因素与音高听觉重组现象发生的关系进行分别陈述。
1、时值间隔关系——两个时值概念
在音乐记谱符号中,有专门的音乐速度记号,如行板、慢板、快板等(或Moderato, Grave, Allegro, etc)速度术语,大致上规定了乐曲的速度范围;另外,诸如♩=72这样的速度标记,则以较为量化准确的方式规定了乐曲的速度(尽管演奏家很难精确地照这样的速度进行演奏)。这些音乐速度符号,转换为人们对音乐呈现“快”“慢”概念的认识,某种程度上,为乐曲的情绪基调提供了依据——快速的片段往往活泼、流畅;慢速的舒缓、绵长,等等。然而,现实音乐作品中,上述速度标记只是大致地说明了单位时间内的节拍数目和进程,不能与人们的真实感知相对应。例如,♩=50的慢速中,如以32分音符的节奏呈现时,仍然具有流畅的动感,是因为每个音符的时值是很短的;同样,♩=120的快速中,如以全音符或二分音符呈现,仍有舒缓与平静之感,那是因为每个音符的时值是较长的缘故。所以,乐谱中的速度标记对人们音乐速度的感知提供了一个粗略的依据,而实际上,是音符呈现的横向时间间隔才(“快”与“慢”)提供了较精确的依据。
那么究竟是什么样长度的音符时值会被认为是“长音”或“短音”呢?Fraisse(1982)以西方传统调性音乐为刺激样本,经过一系列的研究,提出了人们在感知音乐时间序列时的两个较为凸显的统计学上的范畴(由于音符所处的时值背景和每个人认知加工特征的不同,会在此范围中存在差异):音符时长(或出现间隔)短至200-300ms(约每秒钟4-5个音)的被知觉为短时间;音符时长(或出现间隔)长至450-900ms(每秒钟约1-2个音)的被知觉为长时间。(Miller和Heise(1950)的研究中也曾提出,单声部听觉分流大约发生在每秒钟约5个音的时间间隔中)。
这两种时长范畴不仅仅是数量上的差异,其根本原因是在知觉加工上存在的差异:长的间隔被感知为具有不同时长的独立单元,而短的间隔则按照它们的组合模式进行整体知觉,而不是对每音进行单独知觉的。
由以上两个时长范畴和人们对其不同的认知加工方式可以得知,人们在感知单声部旋律时,音乐时值间隔在“短”(200-300ms)的范围内时,人们不会依次加工每音,而是进行模块式的加工或组合,这时,“音高知觉重组”(听觉分流,即单声部被感知成双声部或多声部)才有可能发生。然而,单声部中的音高知觉重组的发生,除满足这个“短”时值范围外,还必须同两音之间的音高距离进行交互作用才能获得。
2、音高距离关系——颤音阈限
现实生活中,人们通常把那些明显具有共同特性(如形状、运动、方向、颜色等)的事物组合在一起,而当某个(些)因素表现出不同特征时,就会被认为是另一种事物。如下图中左边三人会被视为一体,而右面一人会被视为单独的一部分。
如本文第一部分“多声部音乐的音高知觉重组”所述,人们会对来自不同方向、声部的音高,按照一定的层次,重新自组织成各横向的声部(如谱例1-4所示),那是因为我们按照音高的特征,把音高相似的部分在知觉中自动形成若干组,把它们加工成不同的、各自独立的事物。
单声部旋律中,如果两个音音高十分接近,即便是以上文所述的“短”时间间隔(每音200-300ms)呈现,也不会被分流;但如果两个音高之间的距离足够远,音高关系就会被重新组合,形成听觉分流。Miller和Heise(1950)的研究发现,在大多数情况下,三个半音的音程距离可以引起音高的听觉重组而形成双声部(或多声部)的感知效果,这也被称作颤音阈限(Trill Threshold)。如谱例6所示,在颤音阈限区域的前后部分,高低音会被听觉加工(分离)为两个独立的听觉流:一个(由C音)平行持续的声部,另一个为下行的半音阶声部;而在颤音阈限区域中的部分则只是一条单旋律。
图1.视觉的归类
谱例6.音高的融合和分裂
在这个颤音阈限的实验中,研究者还发现,如果把在前后两个音程跨度较大的、大于颤音阈限的部分用滑音呈现时,听觉分裂则大大减少,几乎整合为一个知觉流。这说明:滑音是音高渐变的过程,其音高连续的本质仍然是小于颤音阈限的,所以不被分裂;而非滑音造成非连续的音高的刺激,音高距离大于颤音阈限时,就发生的听觉重组,即高音只和其他高音融合在一起,而低音也只会和其他低音融合在一起。
由以上的实验数据可以看出,听觉分裂现象由音符间的音程距离和时间距离共同造成的,在音符间隔较长的片段中,听者才更能感受到较大的音程跳跃;相反,音符间隔较短,则当大于颤音阈限时,就会发生听觉分流。
例如谱例7-9所示的莫扎特《A大调小提琴协奏曲》第一乐章中的几个片段,都是运用连续的十六分音符进行而构成,该乐章标记的速度为Allegro,演奏家通常在♩=120左右的速度演奏,但这几个片段因音符的音高距离不同,听觉重组的结果也各不相同,因而形成不同的听觉分流形态。
1、单线条
谱例7所示,诸如此类以音阶形式构成的乐句,因为各音之间的距离均在颤音阈限范围内,所以,无论以怎样的(快)速度演奏,听觉都不可能形成分流,获得的都是单线条的进行,这个快速的乐句形成上下游动翻飞的感受。
谱例7.莫扎特《G大调小提琴协奏曲》第一乐章第59-62小节
2、单或双线条
谱例8所示的片段则会形成较复杂的听觉结果,因为相邻的两音的音程距离在3-5个半音之间,有些喜欢进行快速演奏的演奏家,会使听觉感知为双线条;而有些稍慢速的演奏,则会使听觉感知为波折的单线条。当然,同样的演奏速度,不同听觉经验和特征的听者也会有不同的听觉感知。
谱例8.莫扎特《G大调小提琴协奏曲》第一乐章第71-72小节
3、双(多)线条
谱例9所示的片段,如果是以♩=100以上的速度演奏的话,则在在颤音阈限之后就会明显地感受到听觉分流——一条单音(A音)持续的旋律和一个上行音阶旋律;如果演奏的速度较慢(低于♩=50拍时),听觉分流现象则就会出现在第二小节。
谱例10是巴赫《小提琴无伴奏组曲》(BWV1006)的“前奏曲”片段。第13-16小节,由于E音始终在空弦(E弦)上演奏,另外与之交替的音都在A弦上演奏;而A弦上的音与E空闲音的音高距离时而大于(#G-E;A-E)颤音阈限,时而小于(#F-E;#D-E)颤音阈限。两条弦音色的差异和音高距离的变化,听觉获得时隐时现的双线条。从第17小节开始,音符间的距离均大于颤音阈限,听觉则获得较稳定的双线条:一条是由G音持续形成,另一条由是E-#D、E-还原D构成。从20小节开始,分别在三条弦上奏出的音符之间的音高间距都大于颤音阈限,听觉会明确的知觉到三个分离的线条:在D弦上奏出的持续音A、在E弦上奏出的持续音E分别形成两条平行线条,以及在D弦上奏出的#C-B-#A等构成的下行音阶式的线条。第24小节后又逐渐合并成两个线条。当代许多年轻的演奏家,技巧纯熟,演奏的速度极快,再加上三条线音色的差异,自第18小节开始,听觉便可清晰地感知到三条旋律线。
谱例9.莫扎特《G大调小提琴协奏曲》第一乐章第90-92小节
谱例10.巴赫《小提琴无伴奏组曲》“前奏曲”(BWV1006)第13-25小节
在更加复杂的织体中,纵向声部关系(和声)、横向音高距离、演奏速度等,会共同作用于听觉,而听觉则会自动将这些复杂的音符进行重组、分层得井井有条。如谱例11所示肖邦《练习曲》(Op.10 No.10),从纵向的多声部来看,听觉会将处于不同音区的音进行分层处理。从横向关系上来看,以最高的外声部为例(谱例11),右手最外一层的声音的横向关系均是大跳进行,但是在每分钟152个附点四分音符的快速演奏速度中,所处最高位置的、由三连音中间音连缀而成的线条,由于它们的时值间隔距离八分音符之间的时间间隔约为132毫秒(60÷152÷3≈0.132),远远小于200毫秒的短时值范围,听觉会自动将其与其它音高层次分离,所以,我们是绝对不可能听到杂乱的、大跳进行的旋律线的,听觉会自动分流出高音旋律层次(谱例11-b)。
谱例11.肖邦《练习曲》(Op.10 No.10)片段
我们在感知这样的织体片段的时候,听觉会把它按音高层次自动加工分成若干个旋律(能够分出多少个层次,和审美经验有关。如,右手最高声部形成旋律线;左手每六拍的第一音形成低音旋律线;中间声部亦可分成若干个声部),这其实是一个复杂的音高听觉重组过程:既有多声部音高叠置状态的听知觉分层化的重组,又有单声部短时值范围内超越颤音阈限的听觉分流重组——我们的听觉在接受信息时,便已进行了创造性地加工。
人们常说:“音乐是时间的艺术”,而又有“音乐具有空间感”的描述。“空间感”多是针对视觉依照透视的原理,根据物体之间的远近、层次、穿插等关系,而获得的有深度的立体的空间感知觉。当然,在日常生活中,通过听觉对声音特征的经验,也可辨别事物的远近、层次等关系而获得空间感。通过以上听知觉对音高信息重组的研究以及实例分析,我们可以看出,我们人类的听知觉会根据声音高低距离和时间间隔,自动将它们重组、归类为不同的层次,而同构出不同的空间层面。人的心理活动具有这种能动的“自组织”功能,这对于审美意义重大,阿恩海姆曾说:“一切知觉中都包含着思维,一切思维中都包含着直觉,一切观测中都包含着创造(《艺术与视知觉·引言》)”。我们之所以说审美活动是一个“再创造”的活动,是因为从对声音感知开始,就启动了听觉自组织系统,这是之后一系列复杂心理活动的重要的基础。听觉感知是审美感知的开端,也是重要的感性基础。当然,不同的人进行的听觉重组加工的结果亦不尽相同,同样会映射出不同的审美表征,这也正是音乐审美意义之所在。因此,了解人类听感知特征及脑机制,对音乐创作、表演、聆听等更高级的审美活动特征的理解,具有极其重要的意义。