杨子力
(重庆市第八中学校,重庆,400030)
当今,人们生活水平的不断提高,追求身体健康成为所有人的时尚,人们体育锻炼的意识不断增强,体育运动日渐成为人们日常生活方式的一个重要内容,越来越多的体育项目被人们所熟知和热爱。随着人们对体育项目兴趣的增强、了解的深入,不少人会成为某一球队的狂热粉丝,因此他们会想了解更多自己喜欢球队的赛事新闻、赛事预告或场外花絮。众多的体育资讯App为粉丝们提供了很多便利,既能为他们推送各种新闻与赛事提醒,又能售卖各支球队的周边商品。
虽然这些APP能收集大量的体育新闻和体育赛事,能够较好地整合信息,但是却仍存在一定的弊端。(1)这些APP上新闻的推送针对性不够强。例如,M用户是一个NBA金州勇士队的球迷,他为了了解勇士队的劲敌休斯顿火箭队,观看了一场火箭队的比赛,而就是因为在线上观看了火箭队的一场比赛,该APP从此以后就开始无休止地推送有关火箭队的所有消息,而该用户想看到关于勇士队的信息早已被这些“垃圾信息”所掩盖;(2)这些APP上对粉丝划分不准确。比如,N用户只是一个普通的篮球粉,该用户广泛观看了各支球队热门球队的篮球比赛,而系统根据仅有的观看记录就推荐该用户加入NBA金州勇士队的球迷聊天群。
随着大数据时代的到来,大量信息可以被采集处理,这为全面准确地筛选并分类球迷提供了新的途径。基于以上信息,本文将设计一款针对某一球队,对其球迷进行准确分类后精准推送消息的体育赛事资讯推荐系统。该系统基于改进的RFM模型和K-Means算法共同作用,能够对已有数据进行深度挖掘,准确分析用户行为,进而可以客观、有效地反映各个用户的状况,消除现行的App对球迷划分不具体、推送消息不精准的问题;同时,还能让更多球迷更全面地了解自己喜欢的球队,更为精确地推荐用户加入相应的球迷粉丝群或者粉丝后援团。
RFM模型是由美国著名的数据库营销研究所Arthur Hughes提出的,已经被实践所检验的,对企业客户价值衡量有较好效果的客户数据三要素。一般的RFM模型,R指Recency,最近一次消费至现在的时间间隔、F指Frequency,消费频率、M指Monetary,消费总金额,三项指标来描述该客户的价值状况。
本文所改进的RFM模型中,R指最近一次观看某一球队比赛到现在的时间,该时间间隔越短,R值越小。根据相关研究者的研究发现,该值越小的用户越有可能在最近一段时间内观看该队新的赛事视频;F指观看该球队比赛的总时长,某用户的F越大说明观看时间越长,进而可以得出用户对该球队的关注程度和对该球队的喜爱程度均高。M指该球队的周边商品购买情况,M = w1*N + w2*T,N代表该被统计用户购买周边商品所花费的总金额,T代表该被统计用户购买周边商品的数量。为了消除经济因素对本系统结果的影响,本文将M定义为:M =0.4N+0.6T。若某被统计用户M值越大,则该用户对该球队的投入越多。
聚类,是指按照对象的某些属性,以某种相似度的测量方法,把相似的事物聚为一簇,其结果是获得的簇中,不同簇的对象之间相似度小,同一簇中的对象相似度大。K-Means算法也被称为K-均值,是当前最广泛运用于基础划分的聚类算法。K-Means算法以输入的分类个数k为参数,把n个目标对象划分为k个簇,簇内具有较高的相似度。K-Means算法的基本思想为:算法首先随机的选取k个对象,并把这k个对象初始化为k个簇的平均值或中心,算法计算并根据其他每个对象到这k个簇中心的距离,将它赋给最近的簇,重新计算每个簇的平均值,重复进行,直到每个对象都被一一划分。
本文将以NBA休斯顿火箭队的球迷为范例,通过改进的RFM模型和K-Means聚类算法,对采集到的用户的数据进行科学、严谨地挖掘,并分析出这些用户的行为特征,由此对这些用户进行精确划分,并针对划分结果进行消息的精准推送。
收集十名用户近半年关于休斯顿火箭队的体育赛事观看记录和关于球队的周边商品消费记录。详细包括最近一次观看至现在的时间,半年内的总观看时长,购买球队周边产品所花费的金额和件数。
由于每名粉丝所拥有的的三个属性数据有不同的单位且数据极差较大。因此,在数据预处理阶段需要对数据进行归一化处理,以平衡每个属性对最终结果的影响,归一化处理后的数如表1所示。
表1 归一化后用户数据
通过归一化处理后,全部数据都呈现在坐标轴0-1的区间内,统一化后的数据作为K-Means算法的数据输入。首先。对K-Means聚类算法中的K值进行选取:分别取K=3,4,5,对K的不同取值进行重复计算,尝试3次之后,得出K值输入3时,簇间距最大,簇内距最小。然后,依据将K值输入为3时得出的三组簇,分出3种不同的粉丝的分类,并在坐标轴上划分出三个簇。
图1 聚类结果图
通过计算可以得到表一中用户A、B、C、D为“狂热粉丝”,用户F、G为“资深粉丝”,用户E、H、J、I为“普通粉丝”。“狂热粉丝”分类中的用户对休斯顿火箭队的喜爱程度最大,因此这其中的球迷会经常在APP上购买有关休斯顿火箭队的周边商品,并经常关注休斯顿火箭队赛场内外的消息;“资深粉丝”分类中的用户对休斯顿火箭队的喜爱程度一般,在APP上购买有关休斯顿火箭队的周边商品的次数不多,也只关注休斯顿火箭队出战的重点比赛和关于休斯顿火箭队赛场内外的热门消息;“普通粉丝”分类中的用户对休斯顿火箭队的喜爱程度最弱,这些用户几乎不在APP上购买有关休斯顿火箭队的周边商品,并且只关注休斯顿火箭队的重点比赛和关于休斯顿火箭队赛场内的热门消息。
通过对各个用户的行为特征的分析然后精准分类后,该系统可以针对不同簇中的粉丝进行不同程度的新闻及赛事推荐,例如给“狂热粉丝”分类中的各个用户推送大量关于休斯顿火箭队的赛事新闻及精彩赛事直播;对于“资深粉丝”分类中的各个用户来说,系统会向该分类中的用户推送关于休斯顿火箭队的热点新闻、休斯顿火箭队的一些热门比赛以及少量关于休斯顿火箭队的场外花絮;而对于那些在“普通粉丝”分类中的用户来说,系统只会向该分类中的用户推送关于休斯顿火箭队的热点新闻、休斯顿火箭队的一些热门比赛。因此通过这个推荐系统的APP可以将各种消息优化推荐并节省用户对自己想知道的消息的查询时间。
本文通过系统对用户最近一次观看该队比赛至现在的时间间隔、观看赛事总时长、购买周边产品的次数和消费总金额的分析,建立了RFM模型。借助K-Means聚类算法,将用户精准分为三类,不仅可以为该系统精准划分粉丝,同时还提供了一种新闻的推荐方式。为用户节省了翻阅大量“垃圾信息”后才能看到自己心仪消息的时间,增强了系统与用户的交互。
此系统除了可以应用在体育消息选择推送上面还可以将其运用于其他领域。例如:(1)明星为了回馈粉丝的支持,可以根据本系统,对目标粉丝的数据进行采集后,将目标粉丝进行分类,并根据算法结果,选择出可以受到回馈的热情粉丝;(2)若餐厅想知道菜品的销售情况,并了解大众反应,就可以通过该系统,统计每个菜品的点餐率、顾客的好评率,再通过本系统的算法,推算出每个菜品的受欢迎程度,以此来实现菜品的推广与食物的节约。
另外,从目前的发展来看,数据挖掘技术未来发展市场十分广阔,随着App的不断完善,从海量的数据中,获取有价值的信息和知识,分析并研究用户喜好和消费行为特征,并推出适合用户需求的个性化、定制化资讯,以赢得市场地位也是传媒企业未来快速发展的关键,同时还可以对用户进行分层、分类管理,发现潜在用户。