钟维坚 何 庆
(中国移动信息技术有限公司,广东 广州 510640)
随着人类对大自然探索的深入和基础学科理论工具的发展,基于电子信息发展而来的通信技术和超大规模计算机技术,包括大数据、云计算、人工智能、物联网等,成为全球技术发展战略要地,体现各国经济生产力水平。《中国信通院云计算发展白皮书(2020年)》预测,国内私有云市场规模将从2018年的约525亿到2023年的近1447亿(图1),相应政策环境日趋完善。作为最早推出云计算平台的运营商,中国移动云计算应用从互联网行业向政务、金融、工业、医疗等传统行业加速渗透。云计算技术的不断发展成熟,促使大型软件、工具和平台快速迭代,系统复杂度不断提升,相应地建设成本也日益提升,为了降低成本,搭建安全、敏捷、效率最优的系统,高集成度的开放平台日益受到青睐,基于资源分层精细化管控、自由可自定义集成多个工具组件的PaaS平台,灵活支撑应用快速开发迭代成为主流。
在对云平台的运营管理工作中,为确保对公司资源的有效利用,经常需要分析平台用户价值,评估用户申请资源的合理性。该方面常用的一类工作方式是直接查看用户的资源利用率、资源占用等明细运营数据,并凭经验做出判决,该方式缺乏统一、直观、科学的数据指标对运营工作进行指导,影响工作效率。
其它针对云平台用户的分析方法,往往聚焦于用户行为等方向,如胡晓祥(2014)基于云平台设计了对海量网络用户行为数据进行处理和分析的方法,重点解决海量网页分类过滤时间代价高以及对用户访问网页内容分析层次浅的问题,达到了对海量网络用户行为数据分析的高效性要求[1];又如王电轻(2016)设计了一套涵盖数据收集、数据处理、数据计算、数据可视化的用户行为分析系统,提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展[2]。这些方法均不能解决分析企业云用户价值的问题。
图1 国内私有云市场规模及增速
另一方面,在针对用户类对象的分析方法,往往只采用有监督的方法。如王庆娟等(2018)对用户进行特征分析,从基础信息、交费行为、用电特征三大维度出发,提炼出多个影响出租房客户分析的指标作为预测指标集,通过C5.0决策树算法构建出租房用户预测模型[3]。其缺点是无法很好地处理连续型的特征,容易过拟合,需要人为剪枝,且会忽略特征之间的相关性。以上缺点将会导致用户分析系统无法支撑大规模、多类型用户的分析。
综上所述,针对大规模、多租户类别、数据多样的海量租户入驻前分析系统,上述方法无法提供全面、有效的租户入驻前分析方法与系统。因此,本文提出一种基于主客观分析方法相结合的用户价值分析方法。
综合评价方法需要结合多因素和指标,对待评价系统做出整体性、全局性判断。综合评价方法已应用于人类生活的各个领域,若待评价对象x因素个数为p,x={x1,x2,…,xp},w表示权重,其常用方法如下:
(1)区间评分法:区间评分法通过将各个指标转化为具体的分值后进行汇总的方式,对事物进行评价[4]。其第一步是划分等级,然后将指标按照划分标准进行打分,再基于确定好的指标权重,进行线性加权求和,得到综合得分。这种方法的缺点是对评价对象的区分程度不足。
(2)综合指数法:实际值与标准值进行对比后再使用线性综合汇总得到综合评分,该方法缺点是存在线性替代的现象[5]。若x0为待评价事务因素的均值,则综合指数法评分Z为:
(3)秩和比评价方法:秩和比评价方法对各个指标进行处理,获得各指标对应的秩r,然后对秩进行加权综合处理,进行综合评价,其缺点是当数据量较大时,成本较高[6]。秩和比计算公式如下:
(4)功效系数法:功效系数法对规格化后,对参数的灵活设置,通过线性综合法或几何综合法,计算功效系数的综合评估值[7]。
(5)模糊综合评价法:模糊综合评价法是一种基于模糊数学的综合评价方法[8]。该综合评价法根据模糊数学的隶属度理论把定性评价转化为定量评价,即用模糊数学对受到多种因素制约的事物或对象作出一个总体的评价。它具有结果清晰、系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。
给定n个用户X={xi},i=1,2,...,n,其中xi代表第i个用户。每个用户xi在云平台上的特征数据用表示。本文的目的是设计一个满足私有云平台评估用户价值的算法。
文中常用的符号以及说明见表1。
表1 符号及说明
本文提出一种云平台多用户价值评估方法,方法包括对用户特征的采集处理、建立专家评分模型、建立客观评分模型三部分。
特征处理需要确定采集用户运营特征的种类、范围,并通过特征工程对特征进行处理和转换,具体步骤如下:
步骤1 特征处理需要确定采集用户运营特征的种类、范围。本方案基于用户资源占用、资源利用、价值和意义三方面对总计40维特征进行采集,并将这40维特征定义为一级特征,具体如表2。
步骤2 转换资源占用方面特征为二级特征:
步骤2.1 依据其他公司数据规模和建设各类资源规模数据,建立回归预测模型,从而获得二级特征体现用户数据规模与所申请资源规模对等程度:
步骤2.1.1 收集移动31个省公司数据规模和建设各类资源规模数据,数据包含特征见表3。
步骤2.1.2 构建训练集X,则:
步骤2.1.3 构建训练标签Y,则:
步骤2.1.4 基于X,Y构建线性回归模型Modelf(X,Y)
步骤2.1.5 对待评估用户x1,使用已构建的回归模型预测其数据规模:
步骤2.1.6 评估用户实际数据量与用户申请资源预计能处理数据规模进行比较,从而确定二级特征:
表2 一级特征及说明
表3 31个省公司的数据特征
步骤3转换资源利用方面特征为二级特征:
表4 二级特征及说明
步骤3.4定义CPU、存储、内存单价为cpu_price=1000,volumn_price=150,raw_price=70,从而确定用户分别表示存储、CPU、内存利用率产生的资源浪费成本:
步骤4转换用户价值和意义方面特征为二级特征:
步骤4.1确定用户占用资源总价值cost:
步骤5以上特征处理方法定义为Ftransform,则40维用户特征通过Ftransform方法处理后,输出27维二级特征,具体见表4,其中OD表示特征最优方向,若OD=1,该特征值越大,用户评价越优,OD=-1时相反。
3.2.1 基于模糊评估和SVM的专家评估方法
专家评估方法结合模糊综合评估方法和SVM支持向量机,首先利用模糊综合评估方法在专家打分的基础上得到方案定义的五个重要用户价值维度的评分,以及模糊综合得分,再使用SVM训练学习专家评分机制,实现自动获得五个维度评分以及模糊综合评分的能力,具体步骤如下:
算法1专家评估方法
输入:用户数据集X={xi},i=1,2,...,n,xi包含特征
输出:用户评分:es
步骤1 确定评价因素Fset={f1,f2,f3,f4,f5}={资源利用、资源合理性、用户经济价值、用户科技创新价值、政治和管理意义}
步骤2 确定因素评价集FES={〖fes〗_1,〖fes〗_2,..,〖fes〗_5}={a,b,c,d,e},以及对应分数as={95,85,70,50,20}
步骤3 使用层次分析法,确定评价因素权重
步骤4 运营工作相关专家对用户各维度评分,专家数量为rn,则评分为err,l∈FES,表示第r位专家对该用户第l项因素的评分,则评分集为ERr,l为:
步骤5 计算专家对该用户各评价因素评分类型占比:
确定模糊综合判断矩阵SR:
步骤6 确定用户各因素评分ds:
步骤7 进行模糊综合评判,确定用户属于各类评分的隶属度,以及用户最终模糊评分fscore:
步骤8 基于SVM算法训练回归模型,学习专家评分机制:
用户数据X,经过本文3.1的特征处理并归一化后得到X',根据5个维度的评分结果,训练集归一化后分别训练5个回归模型 modeld(X',Y),d=1,2,...,5
获取回归模型输出
将Yd拼接到原有用户数据集X',得到X''
训练模糊评分回归模型model fuzzy(X',fscore)
步骤9 当需要对用户x确定其专家评分时:
经过特征处理并归一化后得到x'后,输入model d,d=1,2,...,5得到该用户在Fset上5个因素上的评分
输出用户专家评估分数es=model fuzzy(x')
3.2.2 客观评估方法设计
客观评估方法首先使用本文3.1所述特征处理方法对用户特征数据进行处理,再使用“标准差权术法”对用户各特征指标进行赋权后,采用“TOPSIS理想解法”,对用户价值分数进行评估,算法具体步骤如下:
算法1客观评估方法
输入:用户数据集X={xi},i=1,2,...,n,xi包含特征
输出:用户评分:osi
步骤1 使用3.1所述特征处理方法对用户特征数据进行处理:X'=Ftransform(X),处理后X'包含特征
步骤2 利用标准差权术法对各特征进行赋权:
求特征矩阵X'各特征的均值:
求每个特征的权重:
步骤3 计算得到加权之后的特征矩阵:
步骤4 寻找最优最劣解,找到每一个特征的最优记为,找到每一特征最差记为,最优解为F+,最劣解为F-,则:
步骤5 计算各用户与最优最劣向量的欧式距离:
步骤6 计算用户的相对贴近程度:
3.2.3 整体方法说明
用户价值评估方法结合用户的生命周期,从用户本身的资源占用、数据占用、利用率等多维度进行评估,建立评估模型,输出用户价值分数。
其中专家评分方法利用了模糊综合评价方法,在专家对各用户指标进行打分后,确定各个指标的权重,建立模糊综合判断矩阵,计算得出模糊评价,因模糊综合评价方法需要专家对用户指标进行打分,为在后续工作中省略该步骤,计划用SVM分类算法对模糊评价结果进行训练,学习专家打分规则知识。而客观评分模型则是采用标准差系数权重法对用户各指标进行权重设定后,使用TOPSIS理想解法,对用户价值进行客观评分。
定义专家评分方法输出用户分数esi,客观评分方法输出分数osi,则用户整体价值为:
方法整体流程如图2。
图2 整体流程图示
本文基于移动私有云用户数据对所提出算法进行测试。用户特征数据为标准40维云平台运营特征,经过特征处理后获取27位二级特征。之后分别利用专家评估模型和客观评估模型,获得加权后的总评分,整体流程如图3。
经过模型分析,同时可获得各类型特征对评分结果重要性权重,如图4。
随着越来越多的用户入驻云平台,在对云平台的运营管理工作中,为确保对公司资源的有效利用,经常需要分析平台用户价值,评估用户申请资源的合理性。该方面常用的一类工作方式是直接查看用户的资源利用率、资源占用等明细运营数据,并凭经验做出判决,该方式缺乏统一、直观、科学的数据指标对运营工作进行指导,影响工作效率。
本文定义了云平台用户价值分析方法,方法使用了特殊的特征处理方式获得租户二级特征,体现租户在租户资源利用、资源合理性、租户经济价值、租户科技创新价值、政治和管理意义方面的特性,并从专家评分模型、客观评分模型两个方面对租户建立评估方法,综合输出用户价值评分。
本文提出的云平台用户价值方法结合客观评分模型和专家评分模型,分析结果可靠、稳定,改变了以往评估方法过于主观、缺乏适用性的问题,能较好地适用于云平台用户分析工作。
图3 测试流程图
图4 各类型特征对评分结果重要性权重