一种基于聚类和相关性分析的NBA球员评价方法

2018-02-03 17:36朱龙翔
数学学习与研究 2018年1期
关键词:相关性分析综合评价

朱龙翔

【摘要】本文提出了一种基于聚类和模糊决策的综合评价方法,利用k均值算法对评价样本进行初步分类,并对初步分类结果选取有价值的分类使用模糊决策进行进一步分析从而对该类样本进行评价.

【关键词】k均值;灰度预测;相关性分析;综合评价

聚类分析技术是数据挖掘技术的重要内容之一,聚类分析可以将样本集合中相似度高的个体聚合为一类,在样本处理阶段可以将样本预先分类以降低需要分析的样本集合容量.关联度分析方法可以根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度.

本文给出了一种基于聚类和关联度分析的综合评价方法,解决无后验知识情况下对无差别数据样本进行分组评价的问题.最后以NBA球员为例给出仿真结果和分析.

一、综合评价方法设计

针对NBA球员的评价方法主要依据出场率,投篮命中率,得分等技术要素进行评估,但由于在对NBA球员进行综合分析时评价方式受到球员所处位置等因素限制,且各项要素间关联复杂无法定量描述使得综合评价模型难以建立.

聚类分析作为无指导学习的典型代表,能够按照特定标准对数据集进行合理划分,确定每个对象所属类别,从而将球员整体集合这个复杂数据集合分为由相似个体组成的多个个体集合,简化了问题复杂性.

(一)K均值聚类分析

设待分析的球员数据样本集X为n×m的矩阵,n为样本个数,m为特征数量,分类数为k,分类特征集Q={Q1,Q2,…,Qk},样本间距离d为任意两个体样本间的欧氏距离,类归属矩阵W规模为n×k.K均值聚类解决问题为找到一个类归属矩阵W最小化类平方误差总和

P(W,Q)=∑kl=1∑ni=1wi,ld(Xi,Ql).

同时需满足

∑kl=1wi,l=1,1≤i≤n,

wi,l∈{0,1},1≤i≤n,1≤l≤k.

其中,对每个wi,t需计算

wi,t=1 if d(Xi,Ql)≤d(Xi,Qt),for 1≤t≤k,

wi,t=0 for t≠l.

解决以上问题可以以下方法遞归解决.

1.选取初始的类特征向量集合Q0然后针对Q0计算得到W0.记步数t=0.

2.W=Wt依照以下方法计算Qt+1.

ql,j=∑ni=1wi,lxi,j∑ni=1wi,l.

如果此时P(Wt,Q)=P(W,Qt+1),则W,Qt为类归属矩阵和类特征向量集,否则进行第3步.

3.Q=Qt+1,然后针对Q计算Wt+1.如果P(Wt,Q)=P(Wt+1,Q)或步数t超过给定迭代次数T,则Wt,Q为类归属矩阵和类特征向量集;否则步数t=t+1然后继续第2步.

通过聚类分析,样本集被划分为k类特征集合为Q的数据子集,可通过q来观测不同类别赝本集合的特征,选取需要的样本子集进行进一步分析.同样可作为同类优选的第一步.

(二)基于相关度分析

在进行模糊决策前需要对样本中该分类的各要素进行相关性分析以确定每个要素的权重因子.

1.相关性分析

由主观给定的权重因子通常在通用性和可靠性上存在问题,因此,本文通过对样本特征进行相关性分析来确定各特征的权重因子.

针对不同类别(位置)的NBA球员,可以选取历年公认该类别(位置)的最佳球员数据作为参考序列.

(a0(1),a0(2),…,a0(n)),

则相应选取的m个特征序列为

(am(1),am(2),…,am(n)),m≥1.

则ai与参考序列a0在k球员身上体现的关联系数ξi(k)计算方式如下:

ξi(k)=minr mins|x0(s)-xr(s)|+ρmaxr maxr|x0(s)-xr(s)||x0(s)-xr(s)|+ρmaxr maxs|x0(s)-xr(s)|,

ri=∑nk=1ξi(k)n.

称ri为序列ai对a0的关联度.其中分辨系数ρ∈[0,1],本文取ρ=0.5.

2.基于关联度的评价方法

根据1给出的针对各特征与评价结果的关联度ri,可做如下变换得到该类球员的评价得分:

G=∑mi=1(xi×ri).

二、应用与评估

(一)数据说明

本文数据采用新浪NBA数据库2016—2017赛季数据.

为避免数值差异性造成不同特征对距离影响不同,对目标数据做如下归一化变换:

a(1)≠0,f(a(k))=a(k)a(1)=b(k).

(二)聚类分析

综合得分,篮板等数据,可以推断第2类和第9类数据为优秀球员类.以出场率和得分能力为主要考虑对象,选取第9类为例进行进一步分析.

(三)基于相关度评价

1.相关性分析

选取11—16年五个赛季的MVP球员数据作为参考序列,数据如下:

由于失误和犯规对评价起负面影响,因此,关联度系数变更为负因子进行计算,最后计算评价得分如下:

由上表结果可见,16—17赛季MVP热门人选拉塞尔-威斯布鲁克,詹姆斯-哈登,勒布朗-詹姆斯,斯蒂芬-库里均在评价结果前十,算法结果命中率高.

三、结果与评估

本文提出的基于聚类与相关性分析的NBA球员评价方法可以较好地根据往年数据对新赛季球员数据进行量化评价,经过检验预测结果对实际候选人命中率高,可以作为一种客观评价模型使用.

【参考文献】

[1]王悦,冷泳林,鲁富宇,鄂旭.K均值聚类在高校教师评价分析中的应用研究[J].计算机技术与发展,2014(5):204-206+210.

[2]金玲玲,汪文俊,王喜凤.大学生综合素质的灰色模糊聚类评价模型[J].计算机技术与发展,2012(5):109-112.

[3]黎锁平.基于灰色关联分析的多级别聚类评价模型的研究[J].甘肃工业大学学报,2000(4):100-103.endprint

猜你喜欢
相关性分析综合评价
滨州市城区苔藓植物主要重金属含量的调查与分析
陕西省各地区人力资本水平综合评价与分析
人民币汇率变动与中国入境旅游相关性分析(2002—2016)
上市公司财务指标与股票价格的相关性实证分析
10kV配电线路带电作业安全综合评价应用探究
基于熵权TOPSIS法对海口市医疗卫生服务质量的综合评价
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
主成分分析法在大学英语写作评价中的应用
我国物流企业规模与效益的相关性分析