□李金昌
数据作为人们用来刻画事物或现象特征的一种语言,始终受到社会的关注。作为“数据之美”的姊妹篇,我今天谈一谈数据之妙。如果说数据之美来自于真实之美,那么数据之妙同样来自于真实之妙。
我们先来看一个奇妙的数据,它就是圆周率π。大家都知道,圆周率π 是一个数学常数,其奇妙之处在于不论圆大圆小,它始终是圆周长与直径之比(或者圆面积与半径平方之比)。这一特性决定了它不仅是一个常数,同时也是一个客观存在的真实数据。然而,它却是一个无限不循环的无理数。我国古代数学家祖冲之第一个把圆周率精确到小数点之后的第7位,即推算出π 在3.1415926 与3.1415927 之间。据说,如今借助现代信息技术已经把它推算到了小数点之后31 万亿多位。有人认为,这个世界本来就是圆形(球型)的,所有的物体都是圆形或者是圆形的变体,事实上π也代表弧度180 度。那这是否意味世界万变不离π 之宗或者说π 决定着世界的一切?我认为不能排除这种可能性,因为除了三角函数,还有很多函数都与π 有关,例如斯特林近似公式、伽马函数、欧拉恒等式等。紧随着π 的还有另一个奇妙的常数,那就是e。限于篇幅,对e不展开讨论。
我曾经写过一篇短文,“神奇的正态分布”。正态分布之所以神奇,是因为背后有作为支撑依据的奇妙的数据:天文观察误差数据奇妙地展示出了以均值为中心、频次左右对称并依次渐进递减的分布特征。正态密度函数恰恰就与π、e这两个常数有关。为什么天文观察误差数据会有这样的分布?为什么现实生活中的许多现象都有类似的数据分布(例如人的身高分布、考试成绩分布等)?我想,这就是由偶然性与必然性共同决定的现实数据的奇妙之处。正因为数据是真实的、不是人为刻意设定的,所以它所体现的事物特征才是令人称奇的。再如,我们所熟知的回归现象,也同样来源于对真实数据的观察和研究,因为父代与子代身高数据(还有豌豆颗粒大小实验数据)奇妙地呈现出了子代身高向平均身高回归而不是往越来越高或越来越矮方向发展的趋势。基于对现实数据研究得出的有意思的统计结论还有恩格尔系数、基尼系数等,恩格尔系数能恰如其分地刻画出居民(家庭)的生活消费水平,而基尼系数则能比较客观地体现出居民的收入分配差距。有专家还特意对基尼系数的最佳取值进行了研究,推导的结果为1/3,是一个无限循环小数。此外,黄金分割点0.618,二八定律、帕莱托最优等等,都蕴含着无穷的数据之美和神奇力量。
在现实中,很多数据都是人们所热切期待的,例如希望GDP 越大越好、万元GDP 能耗越小越好等等。但天上不会掉馅饼,所有的收获都源于劳动与付出。大于1 的数据,哪怕再小,在n 次方以后就会变得很大;小于1 的数据,哪怕再大,n 次方以后也会趋向于0。这虽然只是一个数学道理,但却是真实的生活写照:人们只要每天都多努力一点,就会有越来越多的收获;相反如果不努力,每天都多偷懒一点,就会坐吃山空。事实上,大量统计数据所揭示的就是劳动与财富、投入与产出之间的奇妙的关系。这样的关系延伸开来,就是人类至死不渝所追求的事物之间的相关关系进而因果关系,其中基于数据对此开展的研究就是统计学的核心任务。
有谁能否认用于揭示事物之间内在联系关系的数据是如此的重要?它不仅美而且妙。也正因为如此,我们要尊重数据、敬畏数据,不能盲目追求数据!所有的数据都有合理的区间,不存在绝对越大越好或越小越好的数据!如果数据跨越了合理的界限(符合规律的量变引起质变除外),那么它告诉你的就不是事实的真相而是蒙蔽了我们的双眼。或许,数据的最奇妙之处就在这里!