在现代数学中有一个很容易被外行误解的词汇:信号(signal),当数学家们说起“一个信号”的时候,他们脑海中想到的并不是交通指示灯所发出的闪烁光芒或者手机屏幕顶部的天线图案,而是一段可以具体数字化的信息,可以是声音、图象,也可是遥感测量数据。简单地说,它是一个函数,定义在通常的一维或者多维空间之上。譬如一段声音就是一个定义在一维空间上的函数,自变量是时间,因变量是声音的强度,一幅图象是定义在二维空间上的函数,自变量是横轴和纵轴坐标,因变量是图象像素的色彩和明暗,如此等等。
在数学上,关于一个信号最基本的问题在于如何将它表示和描述出来。按照上面所说的办法,把一个信号理解成一个定义在时间或空间上的函数是一种自然而然的表示方式,但是它对理解这一信号的内容来说常常不够。例如一段声音,如果单纯按照定义在时间上的函数来表示,它画出来是这个样子的:
这通常被称为波形图。毫无疑问,它包含了关于这段声音的全部信息。但是同样毫无疑问的是,这些信息几乎没法从上面这个“函数”中直接看出来,事实上,它只不过是巴赫的小提琴无伴奏Partita No。3的序曲开头几个小节。下面是巴赫的手稿,从某种意义上说来,它也构成了对上面那段声音的一个“描述”:
这两种描述之间的关系是怎样的呢?第一种描述刻划的是具体的信号数值,第二种描述刻划的是声音的高低(即声音震动的频率),人们直到十九世纪才渐渐意识到,在这两种描述之间,事实上存在着一种对偶的关系,而这一点并不显然。
1807年,法国数学家傅立叶(J。Fourier)在一篇向巴黎科学院递交的革命性论文(《固体中的热传播》)中,提出了一个崭新的观念:任何一个函数都可以表达为一系列不同频率的简谐振动(即简单的三角函数)的叠加。有趣的是,这个结论是他研究热传导问题的一个副产品。这篇论文经拉格朗日(J。Lagrangel、拉普拉斯(P-s。Laplace)和勒讓德(A-M。Legendre)等人审阅后被拒绝了,原因是他的思想过于粗糙且极不严密。1811年傅立叶递交了修改后的论文,这一次论文获得了科学院的奖金,但是仍然因为缺乏严密性而被拒绝刊载在科学院的《报告》中。傅立叶对此耿耿于怀,直到1824年他本人成为了科学院的秘书,才得以把他1811年的论文原封不动地发表在《报告》里。
用今天的语言来描述,傅立叶的发现实际上是在说:任何一个信号都可以用两种方式来表达,一种就是通常意义上的表达,自变量是时间或者空间的坐标,因变量是信号在该处的强度,另一种则是把一个信号“展开”成不同频率的简单三角函数(简谐振动)的叠加,于是这就相当于把它看作是定义在所有频率所组成的空间(称为频域空间)上的另一个函数,自变量是不同的频率,因变量是该频率所对应的简谐振动的幅度。
这两个函数一个定义在时域(或空域)上,一个定义在频域上,看起来的样子通常截然不同,但是它们是在以完全不同的方式殊途同归地描述着同一个信号。它们就像是两种不同的语言,乍一听完全不相干,但其实可以精确地互相翻译。在数学上,这种翻译的过程被称为“傅立叶变换”。
傅立叶变换是一个数学上极为精美的对象:
它是完全可逆的,任何能量有限的时域或空域信号都存在唯一的频域表达,反之亦然。
它完全不损伤信号的内在结构:任何两个信号之间有多少相关程度(即内积),它们的频域表达之间也一定有同样多的相关程度。
它不改变信号之间的关联性:一组信号收敛到一个特定的极限,它们的频域表达也一定收敛到那个极限函数的频域表达。
傅立叶变换就象是把信号彻底打乱之后以最面目全非的方式复述出来,而一切信息都还原封不动的存在着。要是科幻小说作家了解这一点,他们可以多出多少有趣的素材啊。
在傅立叶变换的所有这些数学性质中,最不寻常的是这样一种特性:一个在时域或空域上看起来很复杂的信号(譬如一段声音或者一幅图象)通常在频域上的表达会很简单。这里“简单”的意思是说作为频域上的函数,它只集中在很小一块区域内,而很大一部分数值都接近于零。
这是一个意味深长的事实,它说明一个在空域中看起来占满全空间的信号,从频域中看起来很可能只不过占用了极小一块区域,而大部分频率是被浪费了的。这就导出了一个极为有用的结论:一个看起来信息量很大的信号,其实可以只用少得多的数据来加以描述。只要对它先做傅里叶变换,然后只记录那些不接近零的频域信息就可以了,这样数据量就可以大大减少。
基本上,这正是今天大多数数据压缩方法的基础思想。在互联网时代,大量的多媒体信息需要在尽量节省带宽和时间的前提下被传输,所以数据压缩从来都是最核心的问题之一。而今天几乎所有流行的数据压缩格式,无论是声音的mp3格式还是图象的jpg格式,都是利用傅立叶变换才得以发明的。从这个意义上说来,几乎全部现代信息社会都建立在傅立叶的理论基础之上。
这当然是傅立叶本人也始料未及的。
傅立叶变换这种对偶关系的本质,是把一块信息用彻底打乱的方式重新叙述一遍。正如前面所提到的那样,一个信号可能在空域上显得内容丰富,但是当它在频域上被重新表达出来的时候,往往就在大多数区域接近于零。反过来这个关系也是对称的:一个空域上大多数区域接近于零的信号,在频域上通常都会占据绝大多数频率。
有没有一种信号在空域和频域上的分布都很广泛呢?有的,最简单的例子就是噪声信号。一段纯粹的白噪声,其傅立叶变换也仍然是噪声,所以它在空域和频域上的分布都是广泛的。如果用信号处理的语言来说,这就说明“噪声本身是不可压缩的”。这并不违反直觉,因为信号压缩的本质就是通过挖掘信息的结构和规律来对它进行更简洁的描述,而噪声,顾名思义,就是没有结构和规律的信号,自然也就无从得以压缩。
另一方面,有没有一种信号在空域和频域上的分布都很简单呢?换句话说,存不存在一个函数,它在空间上只分布在很少的几个区域内,并且在频域上也只占用了很少的几个频率呢?(零函数当然满足这个条件,所以下面讨论的都是非零函数。)
答案是不存在,这就是所谓的uncertainty princi-Dle(不确定性原理)。
这一事实有极为重要的内涵,但是其重要性并不容易被立刻注意到。它甚至都不是很直观:大自然一定要限制一个信号在空间分布和频率分布上都不能集中在一起,看起来并没有什么道理啊。
这个原理可以被尽量直观地解释如下:所谓的频率,本质上反映的是一种长期的全局的趋势,所以任何一个单一的频率,一定对应于一个在时空中大范围存在的信号。反过来,任何只在很少一块时空的局部里存在的信号,都存在很多种不同的长期发展的可能性,从而无法精确推断其频率。
让我们仍然用音乐来作例子。声音可以在时间上被限制在一个很小的区间内,譬如一个声音只延续了一刹那。声音也可以只具有极单一的频率,譬如一个音叉发出的声音(如果你拿起手边的固定电话,里面的拨号音就是一个440Hz的纯音加上一个350Hz的纯音,相当于音乐中的A-F和弦)。但是不确定性原理告诉我们,这两件事情不能同时成立,一段声音不可能既只占据极短的时间又具有极纯的音频。当声音区间短促到一定程度的时候,频率就变得不确定了,而频率纯粹的声音,在时间上延续的区间就不能太短。因此,说“某时某刻那一刹那的一个具有某音高的音”是没有意义的。
这看起来像是一个技术性的困难,而它实际上反映的却是大自然的某种本质规律:任何信息的时空分辨率和频率分辨率是不能同时被无限提高的。一种波动在频率上被我们辨认得越精确,在空间中的位置就显得越模糊,反之亦然。
这一规律对于任何熟悉现代多媒体技术的人来说都是熟知的,因為它为信号处理建立了牢不可破的边界,也在某种程度上指明了它发展的方向。既然时空分辨率和频率分辨率不能同时无限小,那人们总可以去研究那些在时空分布和频率分布都尽量集中的信号,它们在某种意义上构成了信号的“原子”,它们本身有不确定性原理所允许的最好的分辨率,而一切其他信号都可以在时空和频率上分解为这些原子的叠加。这一思路在20世纪40年代被D。Gabor(他后来因为发明全息摄影而获得了1971年的诺贝尔物理奖)所提出,成为整个现代数字信号处理的奠基性思想,一直影响到今天。
但是众所周知,不确定性原理本身并不是数学家的发明,而是来自于量子物理学家的洞察力。同样一条数学结论可以在两个截然不相干的学科分支中都产生历史性的影响,这大概是相当罕见的例子了。