田英
(中国农业大学理学院,北京 100083)
在传感体系中,由于节点偏差等因素,极易产生不完整数据[1-2]。随着网络传输时间的延长,数据信息量不断增加,不仅会导致不完整数据平衡性水平持续下降,也会使信息参量的聚集行为受到严重影响。为避免上述情况的发生,传统的分层采样型筛选方法对样本空间中的常规性数据节点进行按需提取处理,再通过降维处理的方式完成对数据信息参量的有序筛选。然而此方法的作用能力有限,并不能完全满足传感网络体系的实际应用需求。
多元统计分析意在研究客观事物中多个物理变量或物理因素之间的相互依赖型统计规律关系,是一种全方位的数据分析方法。其打破了指标元素与对象参量之间的关联性限制条件,从而使得客观规律得以清晰表达。从数学理论的角度来看,多元统计算法能够在保留数据信息真实性的同时,实现对变量因素的收集,一方面满足了数据信息对于指标量元素的应用需求,另一方面也可有效解决数据信息参量的不完整计算问题。
因此,为解决传统方法存在的不足,该文设计了基于多元统计的传感网络不完整数据筛选方法,通过重构统计元结构的方式,计算得到可分离幅值量的具体数值水平,再借助混合采集框架,实现对样本数据集获取与集中筛选。
基于多元统计的不完整数据识别由不完整数据子空间提取、统计元重构、可分离幅值量计算3 个处理环节共同组成,具体设计过程如下。
数据子空间是一个相对模糊的传感网络信息参量存储集合。在多元统计原理的支持下,子空间所涉及的信息覆盖面积越大,待筛选的不完整数据样本量也就越多。
为获得准确的传感网络不完整数据子空间提取结果,利用因子分析法将已获得的历史数据整合成多个信息参量集合体,再按照多元统计算法,实现对原有集合空间的完善,并最终将所有信息参量全部投入到子空间集合结构体之中[3-4]。设e1、e2分别代表两个不同的传感网络不完整数据信息参量值因子,在多元统计原理的作用下,e2>e1的不等式条件下恒成立。规定ΔT代表数据信息参量的单位提取时长,一般情况下,该项指标量的物理取值范围始终存在于0~1 之间。联立上述物理量,可将传感网络不完整数据的子空间提取结果表示为:
其中,χ代表传感网络不完整数据的合理定义项,p代表数据信息参量的单次提取权重值,代表不完整数据信息的单次传输均值量。
统计元是标准的数据信息参量传输能力衡量条件。在多元统计理论中,统计元节点的数值量水平越大,应用算法所具备的约束能力也就越强。随着传感网络不完整数据筛选量的增多,统计元节点数量会因为计算作用的影响而出现明显下降的变化形式,从而导致传感网络筛选应用能力的持续下降[5-6]。为解决此问题,该研究在不违背多元统计原理的基础上,对统计元节点进行重构处理,一方面避免传感网络不完整数据筛选量出现大幅增多的变化趋势,另一方面也可实现对数据信息计算量的有效控制。设δ0代表最小的统计元系数约束值,δn代表最大的统计元系数约束值,n代表不完整数据信息在传感网络环境中的实际迭代传输次数,联立式(1),可将多元统计算法中的统计元重构结果表示为:
在多元统计环境中,传感网络模型并不能保持一成不变的存在状态,而是会随着不完整数据信息参量存储水平的增多出现明显的动荡变化态势。在此情况下,可筛选、非可筛选数据信息参量之间始终存在一定的数值比照关系,即可分离幅值量[7-8]。可分离幅值量是一种动态的数据信息配比结果。由于待筛选数据信息量的增大,这种数值协调关系也始终处于绝对变化的存在状态。因此,为得到有效的可分离幅值量计算结果,应准确掌握传感网络中不完整数据信息的参量值水平,并以此为基础,完成对关联信息参量的统筹与协调[9-10]。设α、β为两个不同的幅值节点定义系数项,aα代表系数为α时的幅值分离量,aβ代表系数为β时的幅值分离量,联立式(2),可将多元统计算法的可分离幅值量计算结果表示为:
其中,f代表幅值参量的基础分离条件,s1、s2分别代表两个不同的不完整数据待统计指标定义项。
在多源统计理论的支持下,按照混合采用框架搭建、筛选样本数据集定义、传感度量系数计算的处理流程,完成对传感网络不完整数据筛选方法的设计。
在传感网络中,混合采用框架的存在能够为不完整数据信息参量提供稳定的筛选与排查条件,不仅能够增强多元统计算法的应用约束能力,也可实现对不完整数据信息传输序列的有效完善。混合采用框架结构如图1 所示。
常见的传感网络不完整数据混合采用体系中只包含原始数据、平衡数据、筛选后数据三类信息参量,原始数据可根据提取子空间条件判断现有可分离幅值量数值是否满足实际应用需求[11-12]。平衡数据则可在维系传感网络环境稳定性的同时,调取足量的不完整数据信息,并将其整合成全新的信息样本数据集结构。筛选后的数据具备更强的识别与筛查能力,可根据多元统计算法,确定现有不完整数据筛查序列的应用有效性。
样本数据集是包含所有传感网络不完整数据信息在内的统计模型度量结构,可按照混合采集框架的实际连接形式,确定与数据信息参量匹配的实值存储环境。对于待筛选的数据信息参量来说,样本数据集中存储的所有信息节点都具备较强的数据剔除与处理能力,不仅可以在运算处理的过程中完成对不完整数据参量的传输与转存,也可借助集合边界节点,确定信息参量在传感网络中所能到达的最远传输位置[13-14]。
在多元统计原理的作用下,筛选样本数据集中的所有信息节点都只具备单向存储的能力,这就意味着无论传感网络如何变化,不完整数据信息都不会出现差异化传播的行为,这也是确保最终筛选结果能够具备较强参考价值的关键环节。设k1代表第一个出现在传感网络中的不完整数据参量信息,kn代表第n个出现在传感网络中的不完整数据参量信息,联立式(3),可将筛选样本数据集合表示为:
传感度量系数可用来衡量多元统计算法所具备的运算处理能力,在传感网络环境中,不完整数据信息的实时存储量越多,最终筛选所得的可用信息有效性也就越强。若以筛选样本数据集合作为参考标准,则可认为传感度量系数的实值水平能够直接干扰传感网络所具备的数据信息汇总能力,且二者之间始终保持同步促进的影响制约关系[15-16]。若不考虑其他物理条件对传感度量系数值造成的干扰,则可认为该项物理指标只受到数据信息筛选量差、信息极值统计量两项参数值的直接影响。
设数据信息筛选量初始值为x0、终止值为xn,则可将筛选量差值表示为xn-x0,在信息极值统计量为bmax的情况下,联立式(4),可将传感度量系数计算结果表示为:
其中,d代表传感网络中的数据信息覆盖系数,θ、ϕ分别代表两个不同的数据信息筛查指标参量。
至此,完成对各项物理系数值的计算与处理,从而在多元统计理论的作用下,实现传感网络不完整数据筛选方法的顺利应用。
设计如下实验验证所提方法的有效性。
在传感网络环境中设置大量独立的不完整数据信息参量,并将其平均分成两个传输部分。其中,一部分输入实验组控制主机中,另一部分输入对照组控制主机中。在实验过程中,实验组控制主机配置基于多元统计的传感网络不完整数据筛选方法,对照组控制主机配置传统分层采样型筛选方法。
为保证实验结果的真实性,传感网络环境中的所有不完整数据信息参量均需要独立设置。
将I指标、P指标作为两个不同的物理系数项,其中,I指标表示使用频率范围,P指标表示灵敏度,二者的范围均为[0,1]。对于这两项指标来说,其值越接近于1,说明使用频率范围越大、灵敏度越高。二者之间的数值关系满足:
其中,Z可用来描述传感网络中不完整数据信息的传输均衡性水平。由于该项指标的数值水平不可直接测量,因此需借助I指标与P指标来获得实际判别结果。在实验过程中,C系数值水平始终保持不变,故而可认为I指标与P指标的数值水平越大,Z指标的物理数值量也就越大,传感网络中不完整数据信息的传输均衡性水平也就越高。
表1记录了实验组、对照组指标参量的具体数值。
分析表1可知,在整个实验过程中,实验组I指标与P指标的数值水平始终相对较为接近,且并无明显波动系数的出现,且其值非常接近于1;对照组I指标与P指标的数值与1 之间存在较大差距。从Z值计算结果的角度来看,实验组最大值为0.931 2C,对照组最大值为0.624 1C,明显低于实验组数值结果。
图2 反映了实验组、对照组传感网络不完整数据在各自Z指标作用下的信息筛查速率。
分析图2 可知,在整个实验过程中,实验组曲线始终位于对照组曲线上方,其最大信息筛查速率超过了30 Mb/s,远高于对照组最大值14.5 Mb/s。
综上可知,在多元统计原理作用下,传感网络不完整数据筛选方法可在保证Z指标数值水平的同时,促进信息筛查速率值的不断增大,满足增强不完整数据传输平衡性的实际应用需求。
在分层采样型筛选方法的基础上,多元统计算法对不完整数据的子空间进行提取,不但能够实现对统计元的重构处理,也可得到更为准确的可分离幅值量计算结果。由于混合采用框架体系的存在,样本数据集可为传感度量系数提供更为稳定的信息参量提取环境。应用基于多元统计的传感网络不完整数据筛选方法,不仅能够促使Z指标数值的不断增大,也可实现对待筛查信息的快速传输,在维持不完整数据传输平衡性方面具备较强的实用可行性。