戴 飞,程 颖,焦攀科
(河北省卫生健康委员会统计信息中心,河北 石家庄 050000)
近年来,随着科技的发展,医学水平也在逐年进步。由于科学技术原因治愈不好的病症也得到极大改善,看诊方式也逐渐变得简单[1]。无线传感器网络远程会诊系统的出现更是将医生们从长途跋涉的窘境中解脱出来。由于无线传感器中的传输数据较为庞大、繁杂,提出一种无线传感器网络远程会诊信息数据的自动存储方法就显得尤为迫切[2]。
文献[3]提出基于强度折减法的系统信息自动存储方法,在系统设计时,为保证系统功能模块的完备性,共设计感知模块,传输模块,数据中心和监测中心四大功能模块。文献[4]提出基于改进的布谷鸟搜索算法(Cuckoo search,CS)的系统信息自动存储方法。首先根据优化目标建立数学模型,然后设计布谷鸟搜索算法中的适应值函数。文献[5]提出云计算环境下基于语义的系统信息自动存储方法,使用访问代理模块来评估基于使用组织机密性策略生成的规则的访问决策。上述方法的存储空间标准差高、存储效率低、存储数据量小。为解决上述自动存储方法中存在的问题,提出基于无线传感器网络远程会诊信息数据的自动存储方法。
对无线传感器网络远程会诊系统中的信息数据进行规范化处理并对处理数据进行清洗[6]。
将无线传感器网络远程会诊系统中的数据信息按属性比例进行缩放,将之放入一个特定区域空间内,以防止系统内较大数据的属性与较小数据的属性不一致,导致权重过大。首先设定原始数据信息A的值为v,规范化后的数据信息为v',计算过程如下式所示:
式中,A为属性A的平均值,σA为属性A的标准差,,σA=,其中A为无线传感器网络远程会诊系统中数据信息的属性值,n为会诊系统中数据集的总记录数。以此规范会诊系统内大小值未知的数据。
再利用十进制缩放法,规范系统内的最小整数。首先设定会诊系统内数据的小数点移动位数要依赖于数据属性A的最大绝对值。将会诊系统内的数据信息属性值A规范为v'',过程如下式所示:
式中,j为会诊系统内的最小整数。
将上述的计算结果整合,以此完成远程会诊系统内数据信息的规范化处理。
运用K 均值算法对规范化的无线传感器网络远程会诊系统内的数据信息进行数据聚类,再利用GSA算法对会诊系统内的数据信息进行清洗。设定会诊系统内的数据的聚类数据参考分布集的均值为F[InMr(k)],待测数据集为InM(k)。通过计算,获取会诊系统数据的聚类离散度,过程如下式所示:
式中,经过聚类的数据集为k=b1,b2,b3,…,bk,聚类ba中数据个数为|ba|,M(k)为会诊系统的聚类离散度[7-8],Da为待测数据个数。F[InMr(k)]与InM(k)的变量间隙值则如下式所示:
式中,变量间隙值为gap(k)。对获取的gap(k)进行分析可以确认最佳聚类个数。当第n个聚类样本集在p维空间聚为k类时,可利用下式将会诊系统的分布聚类离散度转化为数学期望近似值:
式中,b为常数,当无线传感器网络远程会诊系统中数据信息被聚为K类,那么当k>K时,InM(k)的递减速度将<log(pn/12),反之将>log(pn/12)。
最后通过间隙量确定会诊系统的最佳聚类个数,过程如下式所示:
若计算结果可以满足上式要求,就直接将其判定最佳聚类。再利用最佳聚类分析各个聚类数据的平均误差值,误差值小为正常数据,大则为不良数据,直接进行删除处理。以此完成无线传感器网络远程会诊系统的数据清洗。
利用模糊支持向量机对处理过的无线传感器网络远程会诊系统中的数据信息进行自动存储。
由于模糊支持向量机的速度与会诊系统内的数据样本集大小有关,分布在系统边界的数据能够在决策中起决定性作用。因此,要在会诊系统内选取有效支持向量,缩减数据提高训练速度。选取有效向量时要选择异类中心距离小于中心距离的数据样本为有效的支持向量。
3.1.1 线性可分的情况
设定样本向量集为{p1,p2,…,pm},那么该类数据样本的平均特征就为该类数据集的中心n,其中心为下式所示:
式中,n为中心,pi为m中的第i个向量。
3.1.2 非线性可分情况
选定两个向量p 与q,通过非线性函数将其映射到特征空间E中,则这两个向量在E空间的距离如下式所示:
式中,K(p,q)为核函数,会诊系统的特征空间的数据样本中
心向量nφ如下式所示:
式中,φ为核函数到特征空间E的映射。依据式(7)及式(9)所获取的正类中心n+与负类中心n-,来计算两个中心之间的距离D,过程如下式所示:
再分别计算正负中心点到异类中的距离,保留小于D的数据样本作为有效候选向量,过程如下式所示:将计算结果中D'<D的数据样本留存,以此来提高速度。
为减小无线传感器网络远程会诊系统中数据噪声点对向量机的影响,所以要对会诊系统的类中心隶属度进行计算,首先设定模糊的隶属度函数,以此考虑数据的野值点。位置通常位于中心点的较远位置,通过系统内数据的中心点特点赋予数据较小的隶属度,以此来减小噪声对支持向量的影响并能增加支持向量机的隶属度。
由上述获取的正负类中心可知,每个系统内的正类样本到正类中心的距离为,负类样本到负类中心的距离为。
假定预选的支持向量分别为正类集P+,负类集为P-,则向量的隶属度计算过程如下式所示:
式中,δ为会诊系统内较小的整数,所以要避免出现S(pi)=0的状况。
在诊断系统中,由于隶属函数是以远近距离为度量标准的,因此可以用它来获得最大隶属度,从而保证支持向量能构造出最佳的分类面。
利用近邻样本密度函数对无线传感器网络远程会诊系统中的数据进行量化。首先在会诊系统的数据样本集中计算各个样本pi到中心的距离,获取第i个样本数据的近邻样本子集,如下式所示:
式中,dij是会诊系统里第i个数据样本到第j个数据样本之间的距离,ti是近邻值区域范围,min(dij)<t1<max(dij),numP为数据样本集中的样本个数。利用数据近邻点之间的距离计算数据的密度。设数据的近邻子集为Pi,其中有α个近邻数据,那么数据的近邻样本函数如下式所示:
式中,c是极小的惩罚常量,zi为近邻样本的密度。将获取的密度归一化,过程如下式所示:
以上述结果可知,会诊系统内数据pi在t的范围内数据越多就越大。由于近邻样本点与数据所属类别都会对数据造成影响,所以要对获取的数据样本密度进行修正。并利用上述获取的模糊隶属度对其进行加权,以此获取最终的隶属度函数,如下式所示:
最后利用该隶属度函数训练支持向量机,以此完成无线传感器网络远程会诊系统信息的自动存储。
为了验证上述自动存储方法的整体有效性,需对此方法进行测试。采用服务器为Intel(R)Core(TM)I3-2120CPU、客户端为酷睿i5-4590 3.30GHz、4G硬盘、500GB存储。
分别采用无线传感器网络远程会诊系统信息自动存储方法研究(方法1)、基于群体协同智能聚类的系统信息自动存储方法(方法2)以及提出基于非特征子节点压缩重构的系统数据存储方法(方法3)进行测试:
(1) 运用上述实验环境,对方法1、方法2 以及方法3 的无线传感器网络的存储空间标准差进行测试,测试结果如图1所示。依据图1可知,方法1的存储空间标准差要低于方法2和方法3,而且随着远程会诊系统的数据信息的增加,方法1 依旧能够将存储空间的标准差维持在40%的稳定状态内。表明方法1 在对无线传感器网络的远程会诊系统信息进行自动存储时能够降低无线传感器网络的存储空间标准差,提高存储效率。
图1 存储空间标准差测试结果
(2) 对方法1、方法2和方法3的无线传感器网络平均剩余能量进行测试,测试结果如图2所示。
图2 平均剩余能量测试结果
依据图2 可知,方法1 的无线传感器网络平均剩余能量要高于方法2以及方法3,虽然方法3在测试初期的平均剩余能量几乎可以与方法1持平,但是随着远程会诊系统当中消息数据量的增加,方法3的平均剩余能量呈急速下降的不稳定趋势。表明方法1 在对无线传感器网络的远程会诊系统信息进行自动存储时,无线传感器网络的平均剩余能量高。
(3) 依据上述的测试结果,对方法1、方法2 以及方法3的无线传感器网络存储数据的总量进行测试,测试结果如图3所示。
图3 无线传感器网络的存储数据总量测试结果
根据图3 可知,方法1 的无线传感器网络的存储数据总量测试结果要优于方法2和方法3,表明方法1在对无线传感器网络的远程会诊系统信息进行自动存储时,能够提高无线传感器网络的存储数据总量。
文章提出无线传感器网络远程会诊系统信息自动存储方法。该方法首先利用GSA算法对远程会诊系统的信息数据进行数据清洗,再利用模糊支持向量机对处理过的无线传感器网络远程会诊系统中的数据信息进行自动存储。由于该方法在会诊系统数据信息的近邻样本密度进行计算时还存在一定问题,所以今后会针对这一方面继续进行优化。