无量纲化方法选择及最优无量纲化方法构建

2024-03-16 13:38:44高晓红李兴奇

统计与决策 2024年4期

高晓红，李兴奇

（楚雄师范学院a.数学与计算机科学学院；b.管理与经济学院，云南楚雄 675000）

0 引言

无量纲化是指通过某种函数关系将不同指标映射到同一数量级内，以便进行不同指标间重要程度的比较。无量纲化的好处是可以消除指标间的量纲差异，弊端是会改变指标的原貌特征，造成有用信息的损失。现有无量纲化方法众多，经不同无量纲化方法处理后所得的综合评价结果不同，导致综合评价结论难以令人信服。如何科学评价无量纲化方法的利弊，进而选择恰当的方法对指标进行无量纲化处理成为很多学者研究的重点问题。郭亚军和易平涛（2008）[1]对常用的线性无量纲化方法进行了分析，分别以单调性、差异比不变性、平移无关性、缩放无关性、区间稳定性、总量恒定性为标准来选择无量纲化方法，最后证明了不存在同时满足六条性质的理想无量纲化方法；部分研究通过多种无量纲化方法评价结果的Spearman相关系数来构建无量纲化方法的相对有效性指标，并基于此来选择无量纲化方法；易平涛等（2014）[2]通过无量纲化方法的稳定性来评价无量纲化方法的优劣，并进行无量纲化方法选择；李玲玉等（2016）[3]根据变异性原则、差异性原则和稳定性原则来选择无量纲化方法，并得出线性比例法是适合于拉开档次法的最佳无量纲化方法的结论；李兴奇和高晓红（2021）[4]通过评价无量纲化方法的有效性来进行方法选择；谢忠秋（2020）[5]用各指标的方差大小来度量信息总量，并通过比较无量纲化方法前后信息总量改变情况来构建检验统计量，提出了一种检验无量纲化方法有效性的t检验方法，使得无量纲化方法选择更加客观，但其只考虑了无量纲化方法的效果，未顾及无量纲化可能造成的信息损失。此外，还有很多学者通过研究无量纲化方法对综合评价结果的影响来进行无量纲化方法选择[6—9]。

现有研究对综合评价模型中无量纲化方法的选择没有统一的标准，且不具备可操作性，很多无量纲化方法选择只停留在思想层面，在实际操作过程中难以明确具体应该选择哪一种方法对特定的数据进行无量纲化处理，很多环节带有一定的主观性，需要凭借研究者的经验或偏好才能确定最终的无量纲化方法。基于此，本文通过权衡无量纲化方法的利弊，构建一种检验无量纲化有效性的F 检验方法，并基于原貌特征不变性、方法有效性等原则来进行无量纲化方法选择，最终以无量纲化应在有效消除指标间量纲差异的情况下尽可能地减小有用信息的损失为原则构建最优无量纲化方法，在保证无量纲化方法有效的条件下避免对数据的过度处理，造成过多的信息损失。

1 无量纲化方法的分类及性质

无量纲化是指通过某种函数关系将不同指标的数值映射到同一量纲级内，便于不同指标间的比较。根据函数关系可将其分为非线性无量纲化和线性无量纲化。非线性无量纲化是通过非线性函数建立原始数据xij与可比数据yij之间的关系，线性无量纲化则是通过线性函数建立两者之间的映射关系。通用公式为yij=kj()xij-aj，其中，xij为第j项指标的第i个观测值，aj和kj分别表示第j项指标的平移尺度和伸缩尺度。根据aj和kj取值的不同又可将线性无量纲化方法分为平移法、伸缩法和平移伸缩法，当aj=0 且kj≠0 时为伸缩法，函数关系为yij=kjxij；当aj≠0且kj=1时为平移法，函数关系为yij=xij-aj；其余情况均属平移伸缩法，其中，i=1,2,…,m，j=1,2,…,n。常用的无量纲化方法如表1所示。

表1 无量纲化方法的分类、函数关系及平移、伸缩尺度

无量纲化的优点是消除指标间的量纲差异，缺点是容易改变指标的原貌，而综合评价结果往往依赖于指标的分布特征和变异特征，所以好的无量纲化方法应该保持指标的分布特征和变异特征不变。李兴奇和高晓红（2021）[4]分别用偏度系数和峰度系数来度量指标的分布特征，用变异系数和相对极差来度量指标的变异特征，并通过比较无量纲化前后指标分布特征和变异特征的变化情况来研究无量纲化方法的性质，结果发现，只有伸缩法能同时保持指标的分布特征和变异特征不变，非线性无量纲化会同时改变指标的分布特征和变异特征，平移法及平移伸缩法不改变指标的分布特征但会改变其变异特征。

2 无量纲化方法的有效性检验

基于分布不变性和变异特征不变性发现，伸缩法是众多无量纲化方法中最能够保持指标原貌的方法，但其有效性没有得到进一步的检验，所以有必要构建一种可以检验其有效性的统计方法。无量纲化方法的有效性是指将综合评价指标体系经过某种无量纲化处理后指标间的量纲差异消除的效果。能成功消除指标间量纲差异的方法即有效方法，所以度量指标间量纲差异的大小是检验无量纲化方法有效性的首要工作。因指标间的量纲差异主要来源于单位和数量级差异，而指标间是否存在单位差异可以通过指标的内涵来判断，所以度量指标间量纲差异大小的关键是度量指标间的数量级差异。当两项指标维数较高且取值不同时，无法通过逐一比较的方式来判断指标间是否存在量纲差异，必须对指标信息加以综合来比较，均值作为数据平均取值情况的综合性指标，通过各指标均值间的相互比较可判断不同指标是否存在数量级差异，所以检验各指标间是否存在数量级差异的关键就是检验各指标的均值是否存在明显的差异。综上所述，通过检验各指标的均值是否存在显著的差异来判断指标间是否存在量纲差异。

假设现有一个由n项指标构成的综合评价指标体系，每项指标拥有m个样本观测值，即，其均值为。相当于利用n项指标对m个对象进行综合评价。指标体系X经过无量纲化处理后的结果记为Y，且Y=[Y1Y2…Yj…Yn] ，Yj表示Xj经无量纲化后的结果，，其均值为。为提高统计检验的科学性，假设每项指标均来自方差相同、均值各异且观测值相互独立的正态分布总体，即Yj~N(μj,σ)。

2.1 原假设和备择假设

均值作为指标间数量级大小的主要度量指标，检验指标间是否存在量纲差异的关键是通过样本观测值来判断总体均值是否存在显著差异，若总体中各指标的均值相等，则认为各指标间不存在明显的量纲差异；若总体中各指标的均值互不相等，则认为各指标间存在明显的量纲差异。所以可通过检验无量纲化后各指标所属总体的均值是否相等来判断无量纲化方法是否有效，若经无量纲化后各指标均值已无显著差异，则认为该无量纲化方法能有效消除指标间的量纲差异，即方法有效；反之则不能认为该无量纲化方法有效。基于此构建无量纲化方法有效性检验的原假设H0和备择假设H1。

H0：μ1=μ2=…=μn，各指标间不存在量纲差异，无量纲化方法有效。

H1：μ1,μ2,…,μn不全相等，各指标间存在量纲差异，无量纲化方法无效。

2.2 检验统计量

指标体系X经过无量纲化的结果Y中必然存在数据间的差异，总体差异大小可用各观测样本与整体平均水平间的偏差平方和来刻画，记作表示整个评价指标体系的总平方和，其中；指标间的差异大小可用各指标的平均水平与整体平均水平的偏差平方和来刻画，记作,表示组间平方和；指标内的差异大小可用各指标取值yij与指标平均水平的偏差平方和来刻画，记作，表示组内平方和。三种平方和间满足SST1=SSA1+SSE1。当总体平方和SST1一定时，指标间平方和与指标内平方和满足此消彼长的关系，为尽可能支持原假设H0，希望指标间平方和尽可能小，而指标内平方和尽可能大。所以可用指标间平方和与指标内平方和的比值来构建检验统计量，但容易发现，三种平方和容易受指标选取数量和样本观测个数的影响，所以分别除以各自的自由度得到指标间均方和以及指标内均方和，将两个指标进行相互比较得到检验统计量为：

指标间均方和越大，指标内均方和越小，统计量F的取值越大；反之，指标间均方和越小，指标内均方和越大，统计量F的取值越小，并且F分别服从自由度为(n-1)和(mn-n)的F分布，简记为F～F(n-1,mn-n)。给定显著性水平α时，可计算其分位数Fα(n-1,mn-n)。当F>Fα(n-1,mn-n)时，检验统计量落在拒绝域内，应该拒绝原假设，即经无量纲化后各指标间依然存在显著的量纲差异，表明该无量纲化方法无效；否则认为经无量纲化后各指标间不存在明显的量纲差异，该无量纲化方法有效。

3 无量纲化方法的信息损失速率

通过无量纲化的有效性检验能科学准确地判断某种无量纲化方法是否能成功消除指标间的量纲差异，避免方法选择的盲目性，但在有效性检验过程中没有考虑到无量纲化可能带来的有用信息损失，这可能会造成数据的过度处理。一种好的无量纲化方法应该能有效消除指标间量纲差异，同时尽可能使有用信息的损失速率最小。无量纲化方法的信息损失速率是指每消除一个单位的量纲差异所造成的内部差异信息损失大小，其中，可用无量纲化前后的指标内均方和之差(MSE0-MSE1) 来表示指标内的差异信息损失大小，用无量纲化前后指标间均方和之差(MSA0-MSA1) 来表示指标间的差异信息损失大小，用两者的比值表示每消除一个单位的量纲差异所造成的信息损失，即无量纲化方法的信息损失速率：

其中，MSE0和MSA0分别表示无量纲化前原始数据的指标内均方和与指标间均方和，MSE1和MSA1分别表示经无量纲化后数据的指标内均方和与指标间均方和。理想的无量纲化方法应该在有效消除指标间量纲差异的同时完全保留指标内的有用信息，但这种理想状态一般无法达到，因为在缩小指标间量纲差异的同时往往会造成指标内差异信息的损失。无量纲化方法的信息损失速率能准确度量在缩小指标间量纲差异的过程中所造成有用信息的损失大小。

4 无量纲化方法的选择步骤

根据分布不变性和变异特征不变性可证明伸缩法是众多无量纲化方法中最能保持指标原貌的方法，通过无量纲化的有效性检验能判断所选无量纲化方法是否能成功消除指标间的量纲差异，通过信息损失速率能准确度量无量纲化过程中所造成的信息损失情况。一般情况下，在选择无量纲化方法时应该选择不会改变指标分布特征和变异特征，同时能有效消除指标间量纲差异，并且信息损失速率最小的方法。基于此，提出无量纲化方法选择的三个步骤：

步骤1：从众多无量纲化方法中选择不改变指标分布特征和变异特征的无量纲化方法。经证明，伸缩法是一种既不改变指标分布特征又不改变其变异特征的无量纲化方法，但现有的伸缩法众多且未必都有效，所以需进行第二步筛选。

步骤2：从伸缩法中选出有效的无量纲化方法。在给定的显著性水平下，分别计算出检验统计量F和α分位数Fα，通过比较两者间的大小来判断无量纲化方法是否有效，当F

步骤3：从有效的伸缩法中选出信息损失速率最小的无量纲化方法。当有多种伸缩法均有效时，需进一步进行方法选择，可分别计算各种有效无量纲化方法的信息损失速率，从中选择信息损失速率最小的无量纲化方法。基于此，可从众多无量纲化方法中选出合适的方法对指标数据进行无量纲化处理，避免了传统方法选择时的盲目性和主观性。

5 最优无量纲化方法构建

现有方法大多基于常用的数字特征来计算伸缩法的比例系数，如最大值、最小值、均值、分位数等，而比例系数的取值范围不仅仅局限于此，所以本文构建一种求解最佳比例系数的无量纲化方法。当利用伸缩法对指标进行无量纲化处理时，原始数据与无量纲化后数据间存在函数关系Yj=kj Xj，其中，kj为第j项指标的比例系数，由所有指标的比例系数构成向量k，k=()k1,k2,…,kj,…,kn，当k取何值时，能在保证无量纲化方法有效的前提下尽可能地减少有用信息的损失，同时实现指标间量纲差异消除与防止数据过度处理？基于此，构建如下求解最佳比例系数的非线性规划模型：

6 仿真模拟实验

通过MATLAB 软件产生方差均为100、均值在10 到10000间的10组正态分布随机数，每组随机数中产生5000个样本观测值，分别为：X1~N(10,102),X2~N(50,102),X3~N(100,102),X4~N(200,102),X5~N(500,102),X6~N(1000,102),X7~N(2000,1 02),X8~N(5000,102),X9~N(8000,102),X10~N(10000,102)。相当于利用10个指标对5000个对象进行综合评价，所有指标构成的综合评价指标体系为X=(X1,X2,…,X10)。容易发现10项指标间存在明显的量纲差异。

6.1 无量纲化方法的分布不变性和变异不变性论证

通过MATLAB 软件计算10 项原始指标的峰度系数、偏度系数和变异系数，并分别利用表1中的19种无量纲化方法对10 项指标进行无量纲化处理，输出无量纲化后各指标的峰度系数、偏度系数和变异系数，进行无量纲化前后指标分布特征的比较，结果如下页表2所示。

表2 各指标无量纲化前后的峰度系数、偏度系数和变异系数

从表2可以看出，经线性无量纲化（法1至法18）处理后10 项指标的峰度系数和偏度系数均未改变，而经非线性无量纲化（法19）处理后各指标的峰度系数和偏度系数均发生了改变，说明线性无量纲化不会改变指标的分布特征，而非线性无量纲化通常会改变指标的分布特征。从变异系数来看，经伸缩法（法1至法11）处理后指标的变异性不变，经其他方法处理后的变异系数均发生了改变，说明伸缩法不会改变指标的变异特征，其中，因第一项指标的最小值为负数，所以经最小值化（法2）处理后其变异系数为负，但其大小不变，故认为其变异特征没有发生改变。综上所述，伸缩法既不会改变指标的分布特征，也不会改变指标的变异特征，是一类最能保持指标原貌的无量纲化方法，但伸缩法中包含的具体方法依然较多，需进一步进行方法选择。

6.2 伸缩法的有效性检验结果

当给定显著性水平α=0.05 时，可通过软件计算得到自由度为9和49990的0.05分位数为Fα(9,49990)=1.88007。分别计算各伸缩法的检验统计量，并对方法的有效性进行检验，结果如表3所示。

表3 伸缩法的有效性检验统计量

从表3 可以看出，各伸缩法的检验统计量大小不一，只有法5（均值化）、法6（归一化）和法9（中位数法）的检验统计量小于0.05分位数，其余方法的检验统计量均大于或远大于0.05 分位数。这表明，在0.05 的显著性水平下，只有均值化、归一化和中位数法能有效消除指标间的量纲差异，其余方法未能有效消除指标间的量纲差异。所以在选择无量纲化方法时一定要注重其效果的检验，若方法选择不当，则指标间的量纲差异不能被有效消除。针对特定的综合评价指标体系X，有三种方法能够成功消除指标的量纲差异，但最终应选择哪种方法对其进行无量纲化处理还存在一定的疑问，所以需要对三种有效方法再次进行筛选，得到唯一确定的无量纲化方法。

6.3 有效无量纲化方法的信息损失速率

无量纲化的目的是消除指标间量纲差异的同时尽可能减小指标内的信息损失，通过计算有效无量纲化方法的信息损失速率，可从现有的无量纲化方法中选出最适合的方法对指标进行无量纲化处理。

从表4 可以看出，三种有效无量纲化方法的信息损失速率均较小且互不相同，其中法9 的信息损失速率最小，法5 的信息损失速率居中，法6 的信息损失速率最大。表明针对特定的综合评价指标体系X，中位数法是19 种无量纲化方法中能在有效消除指标间量纲差异的同时使信息损失速率最小的方法。通过以上操作发现，根据无量纲化方法选择的三个步骤可从现有方法中选出最适合的无量纲化方法，当综合评价指标体系发生变动时，最适合的无量纲化方法可能随之变更，避免了一劳永逸的缺陷。

表4 有效无量纲化方法的信息损失速率

6.4 最优无量纲化模型的求解

从现有方法中选出的最适合的无量纲化方法未必是最优的，所以针对特定的综合评价指标体系X，通过求解非线性规划模型（3）得到最优无量纲化方法中各指标的伸缩比例系数和有效性检验统计量。

从下页表5 可以看出，最优无量纲化模型中的比例系数不同于三种有效无量纲化方法中的任何一种，但与中位数法和均值化的比例系数较为接近，与归一化的比例系数相差较远，这也是中位数法和均值化总体上优于归一化的主要原因。另外，最优无量纲化模型的有效性检验统计量略小于0.05 分位数，表明最优无量纲化方法是有效的。所以最优无量纲化模型能实现在有效消除指标间量纲差异的情况下使信息损失最小，避免对数据的过度处理，并且最优比例系数会随着综合评价指标的变化而变化，使用较为灵活。

表5 最优伸缩比例系数

7 结论

本文针对无量纲化方法选择困难的问题，依据无量纲化分布不变性、变异不变性、有效性和信息损失快慢的度量指标，提出了无量纲化方法的选择步骤，并通过大量的数值模拟分析进行19种无量纲化方法的选择和最优无量纲化模型的求解，结果发现：

（1）非线性无量纲化方法会改变指标的分布特征和变异特征，平移法和平移伸缩法能保留指标的分布特征但会改变其变异特征，伸缩法是一种既不改变指标分布特征也不改变指标变异特征的方法。

（2）在选择无量纲化方法时，需综合考虑其分布不变性、变异不变性、有效性和信息损失大小，通过无量纲化方法选择的三个步骤，可从现有方法中选出最适用的无量纲化方法，避免了方法选择的盲目性。

（3）最优无量纲化模型实现了在有效消除指标间量纲差异的情况下使信息损失最小，可以防止对数据的过度处理，造成不必要的信息损失。