游士兵,任静儒
(武汉大学 经济与管理学院,武汉 430072)
大数据时代的到来,对挖掘和分析复杂数据的技术手段和理论方法提出了新的要求,对统计学理论与方法的研究和探索提出了机遇与挑战。游士兵2011年提出新的数据分析方法——色谱经济分析法,这一以交叉学科理论与方法相互借鉴为研究理念的原创性分析方法旨在依照更加科学的、客观的数据处理方式对复杂经济现象进行分类分析,以满足补充和完善传统统计学理论与方法,并应对大数据对统计学的有关诉求。
隐藏在大数据背后的价值巨大,统计学作为提炼、分析数据的一门学科,受到了大数据的巨大冲击与挑战,传统的统计方法无法快速处理变化迅速的、非结构化的海量数据,无法满足大数据的需求。色谱经济分析法是研究大数据中多个经济变量间相互依赖关系及内在统计规律性的分类分析方法,其满足多元统计的特征,属于统计方法。同时,色谱经济分析法的高分辨率、高分离效率、高检测能力以及以不依赖与模型与概率论的特性,决定了它能快速高效分辨及检测数据,能够还原大数据背后的本来面目。因此,色谱经济分析方法是统计学对大数据诉求的有力回应。
色谱经济分析法的理论体系主要包含平衡理论、塔板理论、速率理论、分离度、信号检测和定性定量分析等六个部分。色谱经济分析法研究前期以消费者的消费储蓄行为、公司的红利分配等经济现象为例,对上述六个部分分别单独的进行了置换与模拟研究,逐个演示了化学色谱分析法置换到经济领域的可行性。然而,分部分的置换与模拟并不能全面清晰的阐释色谱经济分析法整个理论体系,也不能反应色谱经济分析法完整处理数据的能力、结果与根本途径。此外,在前期置换与模拟中还可能存在一些问题,例如假设条件不统一和不完整、不同因子置换为经济学中相同影响因素、概念错位理解等。因此,有必要在一个统一的模拟环境假定与置换条件下,将色谱经济分析法整个分析过程进行全过程模拟。
色谱分析法是化学中的一种分离和分析方法,最先由俄国植物学家Tswett提出,后经不断发展,形成了一门分离分析科学,在自然科学领域有着广泛的应用。该方法是基于物质溶解度、蒸汽压、立体结构等物理化学性质的微小差异,使待分离的混合物在流动相和固定相之间的分配系数不同,而当流动相和固定相两相作相对运动时,混合物在两相间进行连续多次分配,通过流动相对固定相的混合物的洗脱,从而达到组分内物质的彼此分离。
色谱分析法具有分离效率高、速度快、选择性好、灵敏度高、应用范围广的特性,这些特性恰好与大数据的诉求相同,色谱经济分析法的研究宗旨是在遵循化学色谱分析法的基本理念和方法特性的基础上,探索出一套大数据背景下经济统计分类分析的新方法。
色谱柱:色谱分析法中物质反应的场所,形态多样,但通常为一根很细的柱管。
固定相:固定相是填充在色谱柱中的某一类或多类化学物质,其具有“吸附”的特性,样本中不同物质在固定相中的吸附程度不同。
流动相:以液体或气体的态势多次进入色谱柱的某类或多类物质,有“洗脱”或者“推动”的特性,样本中的物质在色谱柱内与固定相与流动相作用后随流动相流出。
基线:没有组分进入时,色谱流出曲线是一条只反映仪器噪声的曲线,即为基线。
色谱峰:有组分从色谱柱流出时,出现的峰状微分流曲线。
峰面积:组分的流出曲线与基线所包围的面积,在图1中是CGEAFHD即为该组分的峰面积。
保留时间:组分从进样到出现峰最大值所需的时间,图1中的tR。
图1 色谱图
1.2.1 平衡理论
平衡理论主要是指组分在色谱柱内与固定相和流动相经过反复作用,并假设其分配能瞬间达到平衡的一个过程,组分在两相间的浓度或质量之比为一定的常数,又称该常数为分配系数或分配比,用K表示分配系数,k表示分配比,分配比是其最直观的体现,具体如下所示:
1.2.2 塔板理论
塔板理论是色谱分析的基础,它将色谱柱比作蒸馏塔,假设色谱柱由许多假想的塔板组成,将色谱的整个平衡过程看作是在n个塔板上的平衡过程的重复,通过一定的分配比来模拟分离过程。
1.2.3 速率理论
速率理论的公式为:
其中U为载气流速,H为塔板高度,A、B、C分别为涡流扩散系数、分子扩散系数、传质阻力系数。速率理论是对塔板理论的补充,通过研究上述三项,来解释和描述组分在色谱柱内的扩散和运动阻力的原因与过程,能较好解释板高的变化。它解释了塔板理论不能解释的问题,让色谱分离过程更接近现实。
涡流扩散项是填充物的不均匀使得组分在流动相的推动下成随机游走或涡流的状态。涡流扩散项公式:A=2 λdp,其中λ为填充不规则因子,dp为固定相颗粒直径的平均值,λ和dp存在负相关关系。
1.2.4 分离度
分离度是判断物质在色谱中的分离情况的标准,通过测量两个相邻组分的保留值之差与其平均峰宽和的值的比,公式为:
其中,当R<0.8,表示相邻组分不能完全分离;当0.8<R<1时,表示分离程度较低,两峰部分重叠;当R=1,表示两组分分离程度达到98%,大于1.5时,更高达99.7%,因此通常视R=1.5为相邻两组分的完全分离的指标。
1.2.5 信号检测
色谱柱口安装的检测器,一旦组分产生信号,则可识别信号并根据信号画出色谱图。色谱实验环境的变化可以通过信号检测结果反映出来。
1.2.6 定性分析
定性分析就是确定组分的组成类别。化学中的定性方法种类较多,本文主要介绍保留时间定性,即通过分析已知的纯物质,得出其在相同实验环境下的保留时间值,然后以此为参照物,来确定分离出的各物质。
1.2.7 定量分析
定量分析就是确定组分内各物质的具体含量或比重。本文采用化学中的归一化法来进行置换模拟,归一化法就是将混合物内的所有出峰组分的含量之和按100%计算,然后分别计算某一类物质的组分含量百分数的一种定量方法,其公式为:
其中A为峰面积(与分子扩散项A含义不同),fi为质量(摩尔或体积)相对校正因子。校正因子在定量分析时是必不可缺的,因为仪器的稳定性、物质自身性质、实验环境变化等原因导致的组分内物质产生的信号并不相同,可能会与标准值相偏离,从而影响定量结果。
色谱经济分析法将色谱分析理论引入经济现象研究中,首先需要对原相关理论的主要因子进行经济置换和经济理念解读,这里我们以经济现象中最普遍的消费者的消费储蓄行为为例来进行置换探讨;然后通过假定一定的模拟条件,来保障模拟的可行性;最后,按照一定的分析路径来完成色谱经济分析法的全过程模拟。
在色谱经济分析法中,消费者是分析的主要对象,因此将化学中的关键因子替换为与消费者行为和消费环境相关的因素,并且经济概念置换遵循了化学中各因子本来之间的逻辑和联系,具体置换如下所示。
置换1:色谱分析法中组分质量m在色谱经济分析法中置换为消费者的人数。
置换2:色谱分析法中固定相与流动相不再是化学物质,在色谱经济分析法中,固定相置换为价值,意味着消费者选择储蓄,流动相置换为使用价值,意味消费者选择消费。
置换3:在色谱经济分析法中,色谱柱为环境稳定、在某个特定消费区域内和时间段内的一个消费空间,例如,在现实经济现象中可以是某个单位内所有人在一年的日常生活的消费与储蓄。
置换4:在色谱经济分析法中,分配比置换为某类消费者在色谱柱(即某个消费空间)内的消费与储蓄之比,即:
置换5:色谱分析法中色谱柱被假定为由n个塔板组成,在色谱经济分析法中,每个塔板相当于每次消费选择的一个微小空间,一部分为选择消费的消费者占据,一部分为选择储蓄的消费者占据,某类消费者在相同的空间内经过n个消费区域,最终流出消费空间,得出对应的色谱图。
置换6:在色谱经济分析中,色谱反应中每次注入的载气在色谱经济分析法中被置换为消费者的可支配收入,其分子质量M置换为可支配收入的数额,在色谱经济分析中会增加n次可支配收入约束次数。
置换7:色谱分析法中速率理论的涡流扩散项中的填充不规则因子λ,在色谱经济分析法中被置换为全部消费者与目标场所距离的标准差,或者说是某区域消费场所分布的合理程度。当λ值较大时,说明消费者离消费场所较远,有更多时间准备和决策,导致消费者的行为相对滞后;当λ值较小时,说明消费者离消费场所较近,消费者更易将消费行为付出实践,从而导致提前消费行为,这样的滞后或者提前就造成了经济现象中的“涡流”现象。
置换8:色谱分析法中速率理论中的涡流扩散项的固定相颗粒直径的平均值dp,在色谱经济分析法中置换为消费者对环境的敏感程度,仍然与λ成负相关。例如,λ较大时,消费者离消费场所较远,促销吸引的传播阻碍大,即使了解促销信息,其决策时间的延长也会造成消费迟缓或不消费,因此其敏感程度dp较小,反之亦然。
置换9:色谱分析法中速率理论中的分子扩散项的弯曲因子γ,在色谱经济分析法中置换为市场对消费者的吸引力,其取值扔在0到1之间。当γ=0时,市场中某一商品对消费者吸引力无限大,阻碍了消费者继续进行消费与储蓄的选择行为,消费者将所有储蓄用于该商品的消费;当γ=1时,表明该区域市场对消费者完全无吸引力,那么我们可以说γ=0.5是消费者一种均衡状态。
置换10:色谱分析法中速率理论中的分子扩散项的载气流速u,在色谱经济分析法中置换为某段时间内消费者的可支配收入的平均增长速度,速度过快或过慢都会导致消费者的分离产生变化,其值为常数。
置换11:色谱分析法中速率理论中的分子扩散项的扩散系数Dg由三个相关因素综合决定,因此先对三个因素均进行经济学的概念置换:①载气性质在色谱经济分析法中被置换为促进消费者进行消费和储蓄的某类动力性因素,载气分子质量M置换为可支配收入的数额,当载气即可支配收入流入消费者手中时,消费者的收入变大,消费者会更容易去做出消费或者储蓄的选择去购买想要的商品,持观望的可能性也就越小,某种程度上说扩散系数较小,反之较大。、②组分的分子质量在色谱经济分析法中被置换为某类消费者在消费群体中的权重,这类消费者的权重越大,其发生从众行为的可能性越小,越不容易受到其他类型消费者和环境的影响,扩散系数Dg也就越小。③柱温在色谱经济分析法中被置换经济热度,柱压被置换为政策环境条件。柱温越大,表明经济热度越大,此时市场的供给低于需求,单个消费者由于环境和其他消费者的影响,更有可能消费其原本不可能消费的商品,因此扩散系数较大。柱压的大小意味着政策环境对市场的限制或推动作用。例如,政府颁布房屋限购令,即柱压较大,会促使消费者更理性去购买,因此扩散系数较小,除此之外政府出台某项政策、提高存贷款利率都会影响柱压。在进行实际经济分析时,需根据特定的分析对象和环境来进行柱温与柱压的设定。
置换12:速率理论中的传质阻力项中的固定相粒径d(在液相中就是dp)在传质阻力项中仍为消费者对环境的敏感程度,但其对涡流扩散项和传质阻力项的作用不同。d对涡流扩散的影响体现在消费的信息变化造成消费的提前或滞后,如促销信息、新开张的商业区、优惠券的时间期限等,其影响具有偶然性;而对传质阻力项的影响体现在消费支付渠道而形成的滞后,消费的支付是必然的,其影响具有必然性。
置换13:速率理论中的传质阻力项中的扩散系数D(液相中表现为Dg)置换为实现经济行为的时间,其大小与消费行为实现的难易程度相关。例如,考察商品市场付款购买,可以当场决定,其很容易实现,所以扩散系数较小,传质阻力较大。塔板理论中因不考虑消费决策的时间,其传质阻力接近0。速率理论中分子扩散项和传质阻力项的扩散系数在色谱经济分析中的置换含义相同,只是在两者中影响其大小的因素不同。
置换14:色谱图的横坐标是组分分离的时间,在色谱经济分析法中组分分离时间置换为消费约束增加的次数。色谱图的纵坐标是流出色谱柱产生的信号值,在色谱经济分析法中信号值被置换为完成消费与储蓄分配(即流出消费空间出口)的人数。与此同时,基线是无任何消费者进入时的一条直线,在色谱经济分析法中,将横坐标这条直线视为基线。
置换15:色谱分析法中的保留时间tR,在色谱经济分析法中置换为从开始增加消费约束次数到出口出现该类消费者人数最大值的总消费约束次数。
置换16:色谱分析中的峰高h,在色谱经济分析法中置换为出口处该类消费者的最大人数值。色谱分析法中峰底w,在色谱经济法中置换为出口出现人群的消费约束次数与出口不再出现人群的消费约束次数之差。
置换17:色谱分析中的定量分析的定量校正因子fi,在色谱经济分析法中置换为外部环境校正因子。这里的外部环境包括由于外部市场环境的稳定度、消费环境和消费者自身可能性变化,由于这些原因带来的消费储蓄行为的偏差,定量时进行校正。
经济分析的假设和方法是密不可分的,正确和合理的经济理论假设是保证经济理论研究合理性的必要前提。因此,在进行色谱经济分析模拟之前,对整个模拟过程先做如下假设,在模拟过程中,可能因为环节需要而针对增加局部假设条件,整个模拟基本假设如下。
假设1:假设消费者都是理性消费者,消费和储蓄时总能保证其自身利润最大化,个人偏好在短期内不会发生较大波动,对经济与消费环境有理性预期。
假设2:假设载气,即每次增加预算约束时,都是以连续的脉冲式的方式进入色谱柱,且M(置换6)为10000元,因为扩散系数Dg与M成反比,则Dg为0.1(由上文速率理论公式得出)。
假设3:假设有效理论塔板数n=5,所有消费者在开始塔板模拟时,均在0号塔板上。
假设4:假设消费者在模拟过程中,其行为只有选择消费和选择储蓄两种。特别是在速率理论模拟中,延迟或提前消费与此并不矛盾,其最终结果都是进行了消费和储蓄。
假设5:按照置换4,分配比为k=s:c,其中s为储蓄,c为消费,由此假设消费者分为三类。当4:1≤k<∞时,消费者属于保守型;当1:4<k<4:1时,消费者属于稳定型;当0<k≤1:4时,消费者属于奢侈型。
假设6:假设样本组分m为200人,且样本组只含有A、B两类消费者。其中,A类消费者人数为100,其分配比kA=7:3,为稳定型消费者;B类消费者人数也为100人,其分配比kB=1:5,为奢侈型消费者。
假设7:假设γ=0.5,市场处在比较均衡的状态。
假设8:假设色谱柱长L为1,线速度u为2。
色谱经济分析法的两大作用,一是对经济现象及数据进行分类,二是对分类数据进行分析。因色谱经济分析法模拟包括分析系统和分离系统,且两系统相互独立。分离系统是模拟色谱分析的分类过程,将所得结果与现实情况对比,以便考察产生结果的可能性原因,为数据分类与预测做铺垫;分析系统是在已知色谱图结果的情况下去判断分离的组分属于何种类型,以及测量出该类组分的具体的量,通过此系统来判别和定量未知组分。本文的置换模拟按照以下路径进行分析:
图2 色谱经济分析法模拟框架和流程图
依照图2,对色谱经济分析法的全过程进行模拟时,考虑到平衡理论的具体的体现就是分配比,分配比在模拟中已设定为常数,因此本文不模拟平衡理论。
3.1.1 塔板理论
根据上文的置换和假定,首先对组分内A、B两类消费者在塔板数为5的色谱柱内进行塔板理论模拟。以A类消费者为例,来演示塔板理论的方法,表中均只保留两位小数位数,下文表格保留小位数与表1相同。
表1 塔板理论下A类消费者的分配表(n=5,k=7:3)
塔板理论假设消费者能在色谱柱内瞬间达成平衡,因此消费者在每次增加约束时,可以马上做出消费或储蓄的决策。塔板空间由储蓄和消费所占据,消费者开始均在0号塔板上。
如表1所示,每个塔板分块的左边表示储蓄行为,右边表示消费行为。当增加1次约束次数时,根据A类消费者的分配比,有70人在0期选择了储蓄,30人选择消费,因此0号塔板中固定相吸附了70人,1号塔板有30人。当增加第2次约束时,在0号塔板上选择储蓄的70人由于可支配收入的增加,此时有49人选择了储蓄,21人选择进入1号塔板上进行消费,与此同时,上一期选择消费的30人在1号塔板上按分配比,21人选择了储蓄,9人选择继续进入下一塔板来进行选择。此时,0号塔板上固定相吸附的人数就由第2次增加约束后选择储蓄的49人构成;1号塔板就有上期选择在该塔板消费等待下次增加约束后做出决策的21人和固定相就吸附的该期选择储蓄的21人共同组成,因此1号塔板上共42人;2号塔板由在1号塔板选择消费的9人构成。
依照上述描述,A类消费者在约束次数的连续脉冲式增加下,不断的进行消费或者储蓄行为,最后,直到所有人都从出口流出,A类消费者才完成了塔板的分离过程。这里不再模拟B类消费的分离过程,B类消费者按A类消费者的分离途径,根据其人数和分配比,经过多次约束的增加后,所有人从出口流出,完成塔板分离。下图3就是A、B两类消费者完成塔板分离后的色谱图。
图3 塔板理论下A、B两类消费者的色谱图
如图3所示,A类消费者完成分离共增加了约束次数28次(出口人数小于1时即认为没有人流再流出),第29次增加约束时几乎没有人流出,在第14次出现峰值。B类消费者完成分离共增加了9次约束,第10次增加约束时几乎没有人流出,在第5次出现峰值。
图3中的色谱峰都不是完全对称的峰,但根据色谱分析理论,当n足够大时,随着塔板数的增加,峰会趋于正态分布。
3.1.2 速率理论
塔板理论是建立在比较理想的情况下,是一种半经验性的理论,其存在较多的不足:一是消费者的消费和储蓄的决定是一瞬间完成,而现实该情况发生的可能性极小;二是没有考虑其他因素,如环境、政策、消费者之间的可能性影响;三是未考虑到经济增长和市场变化等外部消费环境对塔板有效高度的影响。速率理论将塔板理论中的不足都考虑进来,对塔板理论进行补充,使得色谱曲线更加接近现实生活中的消费储蓄行为。
速率理论的三个影响因素,在现实中是不分先后的,也不一定同时存在。本文目的是模拟三个因素如何在分离中发挥作用,因此分别讨论三者的影响,不将三者结合起来考虑,并以A类消费者为例,考察其在速率理论下分离,与塔板理论下分离的区别。
根据假设2、7和8,原有效塔板高度为L/n=0.2,但因为分子扩散项的关系,B/u=2γDg/u=0.05因此,新的有效塔板高度为0.25,此时有效塔板数n=L/H=4。因此,在对三个因素的模拟中,由于传质阻力项和分子扩散项都包含分子扩散系数,所以这两项的有效塔板数为4。
(1)传质阻力项
传质阻力项由置换后d与D共同决定,但这两者在消费者的消费与储蓄行为的具体体现:一是形成消费倾向到实现消费行为的阻力;二是形成储蓄倾向到实现储蓄行为的倾向的阻力。
假设传质阻力的平均时间间隔T=1,本来应该在该期储蓄或消费时,由于传质阻力的存在,延迟到下期储蓄或消费。以A类消费者为例,下表2每个塔板上的左小格表示实现储蓄行为,右小格形成消费倾向。
表2 存在传质阻力项下A类消费者的分配情况(n=4,k=7:3)
如表2所示,按照A类消费者的分配比,有70位消费者形成了储蓄倾向,30位选择了消费,因此0号塔板上呈0/70的分布。当约束次数为2时,上一期的70人在该期实现了储蓄,而1号塔板上的30人重新分配。选择消费的21人会先与之前一样先形成消费倾向,在第4次增加约束时,才会进入塔板1形成消费行为。
下图4为不存在传质阻力时A类消费者在有效塔板数仍为5的情况下与存在传质阻力下有效塔板数变为4的A类消费者的对比图:
图4 存在传质阻力与不存在传质阻力时A类消费的分配情况对比图
塔板数越多,峰宽越大。但由图4可知,传质阻力项的存在,虽然有效塔板数变少了,但是其色谱峰还是和不存在传质阻力时的峰宽相差无几,因此某种程度上传质阻力项使得色谱峰展宽变宽。峰变宽是因为传质阻力项的存在使得消费者在消费或储蓄时存在的某些阻碍,因此,需要更多的时间去实现消费或者储蓄行为。同时,在T=7之前流出的消费者受传质阻力的影响较小,其并不影响整体的分析。
(2)分子扩散项
分子扩散项在γ、u、Dg三个因子的综合影响下,在色谱柱中的主要表现是:有一部分消费者在刚开始进入色谱柱时,并不马上消费,而是在其他塔板上观望,等有部分消费者完成消费后,其才重新进入0号塔板开始进行分配。
分析分子扩散项的影响时,同样因为存在扩散系数的原因,导致有效塔板数为4。下表3假设A类消费有10人开始处于观望态度,在第5次增加约束时才开始返回0号塔板开始分配。
表3 分子扩散项下A类消费的分配情况(n=4,k=7:3)
如表3所示,存在分子扩散项时,A类消费者只有90人参与分配,到第5次时,10个消费者进入塔板0号,与仍留在0号塔板上的消费者重新依照其分配比进行分配。
下图5是不存在分子扩散项的情况下有效塔板数仍为5的A类消费者,与存在分子扩散项下有效塔板数为4的A类消费者的分配情况的对比图。
图5 存在分子扩散项与不存在分子扩散项时A类消费分配情况对比图
由图5可知,存在分子扩散项时,A类消费者的保留时间提前色谱峰与不存在分子扩散项的峰宽一样,然而存在分子扩散项时的有效塔板数的变少,反而说明峰变宽了。
(3)涡流扩散项
涡流扩散项的因子λ、dp的综合影响使得消费者的消费与储蓄行为可能存在两种:一是已经形成的消费决策因为某种原因而推迟,消费滞后;另一种是已经形成的消费决策提前以更加直接的方式完成,然后直接进入下一个塔板消费。因此,假设消费提前和滞后期均为t=1,即在T期未消费的,提前到T-1期消费或滞后到T+1期消费。
涡流扩散项的影响因子里不包含扩散系数,因此其有效塔板高度不同于传质阻力项和分子扩散项,仍然为5。下表4是在涡流扩散项影响下,A类消费者出现滞后消费情况的分配情况表。
由表4可见,在t=2时,塔板1上有5位消费者因为距离消费场所较远,在该期没有消费,在t=3的时候才进入塔板2进行消费。具体表现为在t=2时,只有4位消费者进入到塔板2中,此时塔板1仍有47位消费者。
表4 涡流扩散项下A类消费者滞后消费的分配情况(n=5,k=7:3)
表5 涡流扩散项下A类消费者提前消费的分配情况(n=5,k=7:3)
由表5可见,在t=2时,10单位消费者可能因为受到某种促销信息的刺激,决定提前消费,这一部分消费者提早进入2号塔板,而留在1号塔板的消费者只有32单位。因此,在t=3时,本该在此消费的消费者因为提前消费,只有2.6单位的消费者从1号塔板进入到2号。
由表4与表5的分析,依照塔板理论继续完成后续分配,得出滞后消费、提前消费与塔板理论下的A类消费的分配情况的比较色谱图6。
图6 存在涡流扩散下与不存在涡流扩散下A类消费者的对比图
由于分配数据样本较小,所以由图看出差别比较细微。图6的3-6期,可以发现涡流扩散对分配情况的影响,提前消费的色谱峰向左扩张,滞后消费的色谱峰向右扩张,这与现实经济生活相符。因此,涡流扩散项能分析出经济生活中的变化对消费者的影响。
3.1.3 分离度
分离度的目的主要是检测色谱峰的分离情况,相当于分类效果的检测器。影响分离的效果的因素很多,主要的两个因素是有效塔板数和分配比。这里以图3的数据为例,来模拟如何计算分离度,以及考察塔板理论下的A、B两类消费者是否完全分离。
由图3知A类消费者的保留时间为14,B类消费者的保留时间为5。A类消费者峰宽为23,B类消费峰宽为4,因此根据分离度公式,A、B两类消费者的分离度为:
可见,其未达到完全分离标准1.5,R值小于0.8,因此A、B分离效果较差。造成分离效果差的可能原因有两个:第一,塔板数较少;第二,A、B两类消费者的分配比比较接近于分类的临界值,从而造成了分离效果不佳。如果要使得分配比不变,而峰完全分离,根据分离度理论,可以通过增加塔板数来达到这一目的。
3.1.4 信号检测
经济行为已经渗透到我们日常生活中,并对社会、集体及个人带来深刻的影响,以几何式爆发式增长的经济数据,由于经济行为个体的快速变化,传统的统计方法必然无法满足,必须借助计算机技术。因此,色谱经济分析法对经济现象的检测和反馈的最终实现需要色谱经济分析法软件来支持。色谱分析软件依照置换后的色谱经济分析法的塔板理论、速率理论设立好固定相与流动相指标的权重,通过输入数据到软件来自动输出结果,某种程度上说该软件就是经济现象的信号检测器。
在模拟分析系统时,我们假设图3就是经济现象中某消费群体的色谱图,下面通过模拟定性与定量分析来描述其功能和作用。
3.2.1 定性分析
利用保留时间定性有两个基本要求:一是样本组分不能特别复杂;二是峰不能完全重叠。这里模拟保留时间定性,就是用出现峰值时约束次数的最大值为基本依据,来判断每个峰是哪一类消费者。
分离环境的不同,相同类型消费者的保留时间也会不同。因此基于保留时间的定性方法,必须在相同环境下对多种单一类型的消费者样本群体进行模拟,得出一系列的保留时间图作为参照系(如图7)来进行定性分析。另外,由于从色谱图中无法确定分离时的塔板数,所以定性分析的另一大前提就是必须先确定色谱图是在n为多少的塔板上分离得来的。
图7 参照系样图
组分的人数大小不影响保留时间值,组分无论是100人还是1000人,在相同情况下的保留时间值是相同的。因此定性的基本步骤应该为:第一,取适量组分,在从n=2开始的塔板数进行分离模拟,直到出现与色谱图一样的保留时间,从而确定塔板数;第二,根据确定的塔板数,对多类单一类型的消费者在相同环境下进行模拟,制作参照系;第三,将待定性的色谱图中各种类的消费者的保留时间与参照系中保留时间对比,确定该组分含有哪些种类的消费者。
根据上述步骤,我们很容易的能确定该组分含有A、B两类消费者,并且确定其分配比。
3.2.2 定量分析
根据归一化法定量,需要加入纯样本标准物作为参照物来计算已经定性知道的A、B两类消费者的环境校正因子fi。因此这里增加假设:假设C类消费者为稳定型消费者,人数为200人,其分配比k=1:1;与此同时,新增样本组,该组包含A类消费者100人、B类消费者100人和C类消费者200人。由于根据定性知道含有A、B两类消费者的组分是在n为5的塔板上进行分离的,因此下图8为样本组在与未知待定量的组分相同环境下依照塔板理论模拟的色谱图。
图8 塔板理论下样本组中三类消费者分配情况图
A、B、C三类消费者的峰面积
因为A、B、C三类消费者的峰形图都不是对称的,需要用到计算不对称峰的面积公式:
其中h为峰高,W0.85和W0.15为色谱峰在峰高为0.85和0.15处的峰宽。因此,用其峰值乘以0.85或0.15,然后在色谱图6(或塔板理论分离得的数据表)找出对应的值与约束次数,通过峰高左右两侧约束次数之差算出峰宽。根据图6可知A、B、C三类消费者的色谱峰的峰高分别是7.01、40.19、15.63,在0.85和0.15处的峰宽分别为:
归一化法定量
用归一化法定量前需要计算未知组分中A、B两类消费者的峰面积,计算结果为98.14和100.47。值得注意的是,这里的值与样本组的A、B的峰面积值相同,并不能说明可以直接确定A、B两类消费者的人数,只是因为模拟的简化需要,恰好样本组的人数与未知组分的人数相同,实际上现实分析中是不太可能出现恰好相同的情况,必需要归一化法来计算百分比。
因此,未知组分含A类消费者98人,B类消费者102人,这与图3根据A、B两类分别为100人的假设相差无几,误差数只为2人。造成误差的原因可能有塔板数过少、小数点保留点数较少或者是样本数据还不够多,但是其不影响定量分析在经济现象分析中的实用性。
色谱经济分析法作为跨学科理论借鉴的研究,对其全过程的模拟表明色谱分析法可以从自然科学领域置换到社会科学领域。虽然色谱分析的对象是自然物质,而色谱经济分析法的对象是抽象的经济现象,但是两者都是依靠物质或个体间的相互反应来进行分离、分析,在分离模式与路径上具有共性,即色谱经济分析法并不违背色谱分析法的原理,可以完美应用于经济分析。其次,大数据通常以脉冲式形式存在,色谱经济分析法是对周期性持续或非持续经济数据的脉冲式约束与分割,是通过数据筛选与数据分析来定性定量分析数据,本质上是依据数据内部共性的客观的数据分析方法。再者,色谱经济分析法的结果表现出的是某类行为的趋势性与必然性,忽略偶然性对结果的影响,与大数据挖掘的本质要求一致。最后,色谱经济分析法不依靠传统统计的样本与数学模型,对数据的表现形式与获取方式要求相对较低,相对传统统计方法其更适用于提炼和分析存在形式多样的大数据。由此,可以看到色谱经济分析法在大数据应用上的广阔前景。
(1)色谱经济分析对复杂组分分离、分析的可行性。经济现象的复杂性以及经济行为个体的多样性,在对多组分的经济数据进行脉冲式处理时,目前的色谱经济分析法是否适用,包括分离过程的可操作性、分类、定性与定量的结果的准确性以及分离结果的有效性。
(2)色谱经济分析法应用平台的扩展。消费者的消费储蓄消费行为分析只是对色谱经济分析法的可行与示范模拟,色谱经济分析法将在金融、股票、保险、心理学、图书馆学等各方面找寻更多的示例,在为其他类型分析提供参考依据的同时,以示例为依据探索出更具有共性的色谱经济分析法。
(3)固定相与流动相的设计。本文对色谱经济分析的全过程模拟设计的固定相和流动相因子只有一项,分别为储蓄与消费。在色谱分析中,固定相和流动相的设计是影响分类结果的关键因素,同时,固定相与流动相往往是一定比例混合而成。影响经济个体的因素也是多样的,在色谱经济分析法中,设定的固定相和流动相应具有多样性、自动识别、有效分类的特点,如何设计固定相与流动相是色谱经济分析法应用的关键突破口。
(4)色谱经济分析法软件设计。信号的反应实际上是对数据处理结果的直观呈现,对海量数据的处理与计算机技术密不可分,色谱经济分析法在未来必须设计对应软件,其功能期望达到自动识别数据类型、设定固定相与流动相后自动输出结果、对输出结果进行绘图与定性定量分析。
(5)定性与定量分析方法。本文针对简单二维分类所采用的定性与定量分析方法较为简单,事实上色谱分析中的定性与定量方法种类繁多,针对简单与复杂数据的分析处理方式也不同,今后将在方法上将进行更多的置换,特别是针对复杂经济现象的计算方法。
总之,色谱经济分析法目前还处于初步研究阶段,很多环节还不够成熟。但是就其初步模拟与特性分析来看,未来的应用前景和应用平台是巨大的,对大数据的分析与挖掘有巨大的贡献。今后在突破色谱经济分析法的关键问题后,对其设计原理、分离路径、分析方法、分析结果进行凝练,将最终形成一套完整的适用于复杂经济现象与数据的统计分析方法。
[1]游士兵等.复杂经济现象分类方法创新的理论前瞻——基于化学“色谱分析法”的借鉴与思考[J].统计与决策,2011,(7).
[2]沈萍等.色谱经济分析法置换系列研究:分配比[J].统计与决策,2011,(9).
[3]游士兵等.色谱经济分析法置换系列研究:塔板理论[J].统计与决策,2012,(1).
[4]游士兵等.速率理论中分子扩散项的置换模拟与经济学思考[J].统计与决策,2013,(1).
[5]游士兵等.速率理论中传质阻力项的置换模拟与经济学思考[J].统计与决策,2013,(5).
[6]沈萍等.色谱经济分析法系列研究:分离度理论[J].统计与决策,2013,(7).
[7]游士兵等.色谱经济分析法置换的定量分析[J].统计与决策,2013,(11).
[8]游士兵等.速率理论中涡流扩散项的置换模拟与经济学思考[J].统计与决策,2013,(2).
[9]苏立强,郑永杰.色谱分析法[M].北京:清华大学出版社,2009.