基于统计分析的许可回收规则定义与应用

2016-01-25 07:19孙剑杨澎涛张媛
山东科学 2015年4期
关键词:相关系数统计分析特征选择

孙剑 ,杨澎涛, 张媛

(1.胜利油田物探研究院计算室,山东 东营 257000;2. 胜利油田中心医院,山东 东营 257000)



基于统计分析的许可回收规则定义与应用

孙剑1,杨澎涛1, 张媛2

(1.胜利油田物探研究院计算室,山东 东营 257000;2. 胜利油田中心医院,山东 东营 257000)

摘要:针对许可回收规则中特征项和阈值的选取缺少定量分析的模型和方法的问题,本文在形式化定义参数模型的基础上,综合使用差分编码、信息熵和相关矩阵等统计分析方法描述特征敏感性和相关性,并提出了敏感突出、代价最小化、趋零一致性和翻倍稳定原则,以筛选特征项、界定阈值。根据用户使用企业级软件的数据,该方法能够从多个候选项中,选定CPU利用率作为许可回收规则唯一的特征项,并设定阈值为8%,判定时间间隔为1 136 s。实验结果表明,该方法简单有效,而且易于编程实现。

关键词:特征选择;统计分析;规则定义;熵;相关系数

企业中的专业软件许可是一种价格昂贵且数量有限的重要资源,因此如何有效监控、回收“占而不用”的许可资源,降低许可应用成本,成为企业必须面对的一个现实问题。传统的软件许可管理是基于Flexnet软件的集中式管理方法[1-2],最近几年,一种许可证动态控制技术[3-4]逐渐在企业级软件的应用环境中部署使用。它通过在客户端安装插件,定时采集、分析CPU、网络IO、键盘/鼠标动作等特征,基于预定义的回收规则,判断许可的使用状态,主动释放“占而不用”的许可,能够有效减少管理员的参与。其逻辑处理流程如图1所示。此外,随着云计算、网格计算的应用实践不断深入,许可证的授权管理机制[5-6]和云环境中软件许可的管理[7-8]也逐渐成为研究的热点。

但是,文献[1-2]采用的方法管理员无法获知用户的实际使用状态,在许可不够用时,只能人工强制回收许可。文献[3-4]缺少对回收规则定义的定量规定,需要管理员根据经验设置;而且这种方式没有考虑特征项的显著性,以及特征项之间的相关性,所以会导致采集数据的大量冗余,进而影响分析的性能。因此,研究回收规则中特征项和阈值定义方法的重要性就日益凸显。

图1 客户端插件监控用户使用许可的流程Fig.1 Flowchart of client plug-in monitoring user's license

本文在形式化定义参数模型的基础上,综合使用差分编码、信息熵和相关矩阵等统计分析方法,描述特征的敏感性和相关性,并提出了“敏感突出原则”、“代价最小化原则”、“趋零一致性原则”和“翻倍稳定原则”,用于特征项筛选和阈值界定。

1参数建模

定量统计分析方法的基础是建立形式化的参数模型。下面依次给出了假设、参数形式化和数据预处理的形式化定义,并说明了其实际含义。

1.1假设

设定假设条件有利于降低建模复杂度,是形式化建模、分析的基础。四条基本的假设为:

(1)企业级应用软件占用的本地硬件资源,会随着软件的运行而变化;

(2)用户可随机使用软件;

(3)采样间隔为8 s,能够准确反映特征值的变化;

(4)统计分析间隔是采样间隔的整数倍,记为N倍。

假设(1)是根据客户端硬件资源使用情况,判断许可使用状态的最基本的前提条件;假设(2)指出了用户操作之间的独立性,进而可以推导出采样点之间,以及统计分析点之间是独立的;假设(3)、(4)简化了采样、统计的计算,使程序易于实现。因此,根据一个统计分析点,就可以确定出许可的当前状态。

1.2参数形式化定义

根据前面的假设,对涉及的概念进行了抽象,给出了形式化的定义:

(1)候选特征:CF={cf1,cf2,…,cfn},表示候选特征集合;

(2)采样时间点:T={t1,t2,…,tn|ti∈[00:00:00,23:59:59]},根据假设(3),∀ti,ti+1∈T,ti+1-ti=8 s;

(3)采样值:v(i,j)表示在采样时间点tj,候选特征项cfi的数值。V(i)={v(i,j)|j∈{1,2,…,n}},表示cfi的采样值集合;

(4)统计分析时间点:S={s1,s2,…,sn|si∈[00:00:00,23:59:59]},根据假设(4),有si+1-si=tN(i+1)-tNi=8N;

(5)统计分析状态:z(si)∈{0,1},表示在统计分析时间点si软件的使用状态。其中0表示空闲,1表示忙碌。

1.3预处理

针对连续型数值,比如:网络IO,由于统计流量不可避免的误差,需要定义一个误差区间,这里选取波动范围是±0.5。经过区间限定,连续型数值退化为离散型数值。

2特征统计分析

2.1特征敏感性分析

本文借鉴了差分编码和信息熵[10-12]的思想,通过信息熵衡量特征项的变化程度。特征敏感性分析包括三步:首先记录相邻采样点的特征值的绝对变化,可表示为

d(i,j)=|v(i,j+1)-v(i,j)|,v(i,j+1),v(i,j)∈V(i)。

然后计算不确定性,假设cfi差分值的集合为D(i)={d(i)1,d(i)2…},差分值d(i)k出现的概率记为p(i,k)=P{D(i)=d(i)k},则候选特征i的信息熵定义为

H(D(i))=-∑p(i,k)×logp(i,k)。

最后,根据“敏感突出原则”,选择H(D(i))的候选特征项。根据假设(1),特征项应该对应用软件运行状态的变化反应快速,而且差异显著。根据实践经验,这里选择H(D(i))的阈值为1。“敏感突出原则”正是基于该条件,对候选特征项进行过滤。

2.2特征相关性分析

特征项之间的相关性分析是降维的一个基本方法,本文采用Pearson相关性分析方法[13-16],衡量特征项之间线性相关性的强弱。值得注意的是,奇异点对相关性影响很大[17]。因此,首先要过滤奇异点,这里奇异点集合简单定义为

S={v(i,j)>2*Max(V(i)-{v(i,j)})∩p(i,v(i,j))≤0.001|v(i,j)∈V(i)}。

然后,候选特征cfi,cfj的相关系数可表示为

如果rcfi,cfj≥0.6,说明两个候选特征显著线性相关[16]。在取舍时,本文提出了“代价最小原则”,即应该选择候选特征采集、计算时,占用资源较少的一方。“代价最小原则”考虑了监控程序的性能指标,如果某个候选特征项的统计需要占用较大内存,或者涉及大量浮点数计算,会影响用户的操作体验。因此,“廉价”的候选特征是必然选择。

如果0.3≤rcfi,cfj<0.6,说明二者是中等相关性[16],但是具有统计显著性时,“趋零一致性原则”提出需要检验cfi,cfj同时为零值的条件概率,记为

P(V(i)=0|V(j)=0)=P(v(i,k)=0∩v(j,k)=0)/P(V(j)=0),P(V(j))≠0。

如果P(V(i)=0|V(j)=0)>0.6,表示cfi,cfj在零值处的变化具有很强的一致性。根据假设(1),如果特征值为0,也就意味着该硬件资源空闲,用户没有与应用软件交互。所以,即使cfi,cfj在相关性上表现不强,只要二者具有趋零的特性,仍然可以认为cfi,cfj在判断空闲状态上,具有较强的“相关性”。

2.3阈值选择

在统计分析间隔时间内,如果存在特征值大于下限,那么回收规则判断该软件状态为 “活跃”,这意味着有交互或者后台任务;否则判定为“空闲”状态。根据假设(4),形式化定义为

显然,需要界定的阈值有统计分析间隔N,特征值下限W。文献[17]发现,当样本达到一定规模时,从新个体中获得的信息越来越少。因此,本文提出了“翻倍稳定原则”来简化N和W的选择,其形式化的定义为

“翻倍稳定原则”通过减半的方式,能够快速找到N和W的一个近似下限,并且能够保证监控程序的实现性能。

3实验验证

为了验证2中的统计分析方法,本文对单一用户一天中(10:04:35~17:34:38)的工作状态进行监控。该用户通过Xmanager软件远程登录应用服务器,操作GeoFrame企业版软件。实验选取4个典型的候选特征项,见表1。需要注意的是如果用户直接使用本地的应用软件,则需要监控本地磁盘IO,而不是网络IO。

表1 候选特征项列表

根据2.1中描述的方法,首先计算候选特征的信息熵,然后根据“敏感突出原则”,选择H(D(i))>1的候选特征,结果见表2。

表2 候选特征项敏感性列表

根据2.2中描述的方法,首先计算cf1,cf3,cf4之间两两的Pearson相关系数,并验证双尾显著性,结果见表3。显然,cf3,cf4具有显著相关性,并且前者的统计数值偏小易于计算,根据“代价最小化原则”,选择cf3。而cf1,cf3虽然线性相关系数不高,但是,P(V(3)=0|V(1)=0)=0.868,也就是说在CPU利用率为0时,上行网络IO也趋于零。根据“趋零一致性原则”,二者的相关性是有价值的,进而可以使用“代价最小化原则”,选择cf1作为回收规则中的特征项,因为从本地获取CPU信息比循环中断计算上行网络IO更廉价。

表3 CPU、网络IO的Pearson相关矩阵

注:N=2799;**P<0.01,双尾。

根据2.3中描述的方法,计算得到N=142,即统计分析间隔1 136 s,近19 min;因为选的是阈值下限,所以对应的W=8。

至此,可以将精炼后的许可回收规则描述为:如果在1 136 s的142次采样结果中,Xmanager的CPU占用率都低于8%,则判定软件应用空闲,需要释放占用的许可资源。从图2中,可以比较直观地看到cf1,cf3,cf4在时间轴上特征值的变化趋势。虚线表示W=8的CPU阈值,实线表示CPU利用率的变化,细点线表示IO_up的变化,顿点间隔线表示内存的变化,许可回收规则判定为软件应用忙碌的时间点由三角形标记。可以看出以上判定规则对空闲发现是有效的,候选特征和阈值的选择过程清晰易懂,而且算法简单,易于编程实现。

图2 上行网络IO、CPU利用率和内存的数据变化Fig.2 Statistics of upstream IO, CPU utilization and memory

4结语

实验证明,许可回收规则定义时,基于统计分析的方法能够通过定量的计算,明确候选特征项的敏感性和相关性,而本文提出的“敏感突出原则”、“代价最小化原则”、“趋零一致性原则”和“翻倍稳定原则”综合运用后,能够有效筛选特征项,并确定阈值。从另一方面来看,CPU、内存和IO仅仅反映了软件自身的运行状态,没有考虑用户与软件的交互行为。下一步的研究可能需要结合用户点击键盘、鼠标的操作行为,运用统计学原理,进一步充实回收规则。但是,植入钩子(hook)[18]采集用户行为,不仅CPU资源开销巨大,可能影响正常的软件使用,而且用户会有安全性的担忧。

参考文献:

[1]史明宏,唐浩.FlexNetManager在大庆油田研究院软件集中管理中的应用[J].办公自动化,2013(4):28-30.

[2]邓莉,范德军, 孙胤航. 大型专业软件集中管控技术探索与实践[J].中国管理信息化,2014(22):93-94.

[3] 上海莱曼特信息科技有限公司.莱曼特软件许可证动态释放软件LMT licRecycler:中国, 2013SR005134[P] .2013-01-16.

[4] 无锡云科软件科技有限公司.许可证动态控制器[EB/OL].(2012-08-02)[2014-08-02].http://www.yunketech.com/index.php/2012-08-01-10-56-54/helper.

[5] 陈智聪. 基于浮动授权管理的许可证使用报表系统的研究与实现[D].广州:华南理工大学,2011.

[6] 李美蓉. 软件许可证授权管理系统的设计与实现[D].成都:电子科技大学,2011.

[7] 侯正雄,周兴社,王云岚,等.网格环境中面向按需服务的软件license管理方法[J]。华中科技大学学报:自然科学版,2007,35(s2):140-143.

[8] 王寅峰,董小社,郭华, 等. 网格环境中软件共享系统的License管理器[J]. 华中科技大学学报:自然科学版,2006, 34 (s1):5-8.

[9] KIM M, CHEN H, MUNSON J, et al. Management-based license discovery for the cloud[M]//Service-Oriented Computing. Berlin :Springer ,2012: 499-506.

[10] 周炯槃,庞沁华,续大我,等.通信原理[M], 北京:北京邮电大学出版社,2005: 67.

[11] SHANNON C E,WEAVER W. The mathematical theory of communication[M]. Urbana: University of Illinois Press,1971:1-10.

[12] 崔颖.差分编码关键技术研究[D].北京:北京邮电大学,2013.

[13] 李秀敏,江卫华.相关系数与相关性度量[J].数学的实践与认识:2006,36(12):188-192.

[14] 张宇镭,党琰,贺平安.利用Pearson相关系数定量分析生物亲缘关系[J],计算机工程与应用,2005(33): 79-82.

[15] 丁剑洁.相关性分析技术在软件度量中的应用[J].陕西教育学院学报,2008,24(1):100-103.

[16] STIGLERS M. Francis Galton's account of the invention of correlation [J]. Statistical Science,1989,4(2):73-79.

[17] NEYMAN J. On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection [M] //Breakthroughts in Statistics. New York: Springer,1992:123-150.

[18] 倪步喜.Windows的钩子技术及实现[J].计算机与现代化,2007(1):28-30.

Statistics-based rule definition and application for license recycling

SUN Jian1,YANG Peng-tao1,ZHANG Yuan2

(1.Computing Office, Geophysical Research Institute of Shengli Oil Field, Dongying 257000, China;

2.Central Hospital,Shengli Oil Field, Dongying 257000, China)

Abstract∶Existing feather and threshold selection lack quantitative models and methods in license recycling rule.We analyze feature sensitivity and correlation by such statistical methods as differential coding, information entropy, correlation matrix, based on formalization defined parameter model.We also define feathers and threshold with sensitivity,cost minimization,convergence consistency and stability principles.The method can select CPU utilization rate as the only feature item from several candidates and set the threshold of 8% and status-check interval of 1 136 s.Experimental results show that it is simple, effective and easily programed.

Key words∶feature selection; statistics; rule definition;entropy; correlation coefficient

中图分类号:TP39

文献标识码:A

文章编号:1002-4026(2015)04-0101-06

作者简介:孙剑(1986-),男,助理工程师,硕士研究生,研究方向为分布式系统和系统集成。

基金项目:胜利油田企业级解释系统综合支持技术研究(YKJ1001);专业软件网上共享管理系统完善与推广(YT1112)

收稿日期:2014-10-09

DOI:10.3976/j.issn.1002-4026.2015.04.019

猜你喜欢
相关系数统计分析特征选择
Kmeans 应用与特征选择
人口老龄化对我国消费结构影响研究
南京市能见度变化趋势及其影响因素
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析
SPSS在高校图书馆服务体系中的应用研究
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
秦皇岛海域夜光藻种群密度与环境因子的关系
电子鼻传感器阵列优化对猪肉新鲜度法的检测