基于地铁不同客流特征的广告分时分站精准投放分析

2021-09-10 23:43李泽钧黄仲祺谭志民石嵘
商业2.0-市场与监管 2021年6期
关键词:聚类分析主成分分析

李泽钧 黄仲祺 谭志民 石嵘

摘要:本文针对不同地区城市轨道交通系统(以下简称地铁系统)出现的如何使投放广告足够精确问题进行了为期一年的研究、讨论,并最终建立了在地铁系统中根据乘客特征及需求精确投放广告的数学模型。项目组通过收集各个地区有关地铁投放广告的相关资料,发现并提出了现如今地铁系统并没有针对不同时间不同地区乘客特征进行广告投放方案的精确分析这一问题,并结合目前存在的电商、新媒体根据客户需求及潜在需求的广告投放方式,提出了地铁广告的投送应更加贴合乘客特征的目标。根据分析,认识到掌握更加精确的地铁客流特征是地铁广告精确投放的前提。利用主成分分析法结合调查统计的数据分析客流特征,从而得出可以根据时间变化地铁广告投放方案。最后总结本广告投放模型特点、功能及存在意义;以及针对本模型出现的预测客流特征随时间变化考虑不足提出有关模型的预测能力需提高的改进建议。

关键词:主成分分析;广告投放;聚类分析

1.项目背景及研究方向

当前,广告在我们生活中无孔不入,形式和数量虽多,地铁系统内广告投放却存在问题:无法根据每个地区不同时段分别对该时段主要乘客人群进行带有对该客流人群的消费倾向准确估计的广告精准投放。不精准的投放必然会导致公共资源的浪费。因此如何实现广告在城轨系统的精准投放就应被提上日程了。

信息的精准投放已成为各大网站运营商推销产品、吸引流量的重要方式。例如用户在淘宝网上搜寻商品,在用户下次登录网站时淘宝网上就有该商品或类似商品的推荐消息。在目前城市轨道系统暂时还缺乏这种类型的信息投放的情况下,用何种方式进行广告精准投放,为投放广告的商家节约成本;为消费者过滤多余信息;为城市轨道系统节约更多的公共资源就成为了本项目组的研究课题。

2.问题分析

针对本文第一部分的问题,我们做以下分析:如何使广告进行精准投放这一问题的实质是投放切合地铁乘客需要的广告引起兴趣,使之至少成为潜在客户,并且这种乘客最好是占据总客流的相当部分。首先得对影响乘客的消费倾向的因素例如(年龄、职业、收入等等)进行假设和调查。其次得对某一时段某一地铁站的乘客人群进行分类,统计各种乘客的占比。第三步开始用两种方法:主成分分析与聚类分析算法,先是主成分,可以运用主成分分析的算法对乘客的消费倾向以及各种乘客的占比进行主成分分析和因素的降维,而后,对若干个主成分中每个主成分与各种因素的相關性进行讨论,判断出影响较大的几个因素。最后,我们列出这几个对主成分影响大的因素,并以此作为信息精准投放的依据。聚类分析法则是先对样本进行分类划分出X类,把样本参数与喜好作为向量,将这些向量叠加得出结果。

3.地铁分时段、站点的客流统计

对地铁乘客进行精确投放广告,必然要先了解地铁乘客的分时段的人流量。了解分时段的人流量,可以帮助我们了解地铁客流的高峰期与非高峰区,这样有利于我们进行例如广告投放时间密度上的管理,根据不同的时段、不同的人流量进行广告投放内容与时长的调整。基于这个原因,我组同学就对上海某地铁站进行了站内的日客流量的统计。

从统计中我们可以得出一些信息:乘客的性别比例比较接近1:1,说明在该地铁站之后的广告投放中可以不带有受众性别偏向。第二,客流量中有96.18%的乘客属于青壮年(这里定义为16-60岁的人群),因此,广告的投放可以更接近改年龄段的需求。我们还掌握了该地铁站的高峰期与非高峰期。

客流量的变化可作为投放广告在时间密度的一项重要依据,通过地铁运营方控制广告投放量与投放时长,商家们可以更加合理规划投放广告的预算,为商家减小成本,避免了投放广告但是没有足够的人注意这一现象。

4.客流的成分分析

要精确地投放广告,仅仅通过地铁的客流量与客流量的时间特性是远远不够的,而客流的特性也包含了乘客的职业、收入、家庭情况、出行习惯及目的等诸多因素。掌握更多有关乘客特性的信息,才能更准确地知道客户的需求,才能更加高效地投放广告,销售产品。

由于不是每个特性都能影响到乘客对广告的接受程度和消费倾向,所以我组同学经过长时间地假设、分析与实地调查、网络问卷等多种形式确定了以性别、年龄、收入、职业、出行方式、学历、主要花销、是否注意到广告、对广告的倾向性、是否详细了解过一个广告、广告是否影响消费倾向等作为乘客对广告反应的影响因素。

变量之间的关系相当复杂,并不能很直观地通过一般的图表了解到一个变量与其它二者的关系。变量之间互相也不独立。那么,我们需要一种算法不仅可以找出乘客对广告反应的主要影响因素,还要找出主要影响因素之间的相关性。所以,为了更好地做定性以及定量分析,我组同学采用了主成分分析法。

5.乘客对地铁广告反应的主成分分析与聚类分析

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

该方法是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标(见图1)。

由于不能保证网络问卷的信息可信度(有可能有的受访者提供的不是真实信息),所以我们在收集信息手段有限的情况下,我们假定收集到的信息是真实有效的。现在,可以对主成分分析的结果做出解读。

根据分析结果,程序把旧的十五个成分转化为新的十五个成分。但不是每个新的成分都是有决定性的主要成分。在之前的部分里提到,判定一种成分(comp x)是否为主成分(princomp)主要看这个成分的方差贡献率(Proportions of Variance)是否够大。在结果图中,comp1与comp2的贡献率分别约为49.2%与27.5%,总计为76.03%,也就是头两个成分占了方差贡献率的四分之三,但我们能否就规定comp1、comp2才是主成分,而其他成分需要省略呢?显然是不行的。

再来看看因子载荷(loadings),它表示的是某一成分(comp x)与原始的变量a~o之间的相关性。它的值是二者的相关性系数r。通過与原始信息的对照,我们可以看出某些原始变量与现有主成分之间的关系,从而得出那些因素较大影响了乘客对地铁广告的反应。例如:comp1与变量u的相关性系数是0.975,变量u在统计中表示为受访者的职业。者说明,成分1与受访者职业高度相关,它的方差贡献率为49.2%,说明主成分1(comp1)主要与乘客职业相关。我们可以先对地铁客流进行梳理得出客流的主要成分,如果某一(某些)客流明显占据了客流的主成分,我们就可以通过因子载荷判断原始变量与现有主成分的相关性,以及该主成分的重要程度(方差贡献率)判断哪些因子(原始变量)作为最重要的考虑因素;或是我们可以通过判断主成分与原始变量的相关性系数,判断每个主成分与哪些原始变量相关性大,再根据主成分的方差贡献率的大小,考虑广告投放的主要几个考虑因素(见图2)。

然后是聚类分析的算法原理。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其的目标就是在相似的基础上收集数据来分类。聚类所要求划分的类是未知,是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。

迄今为止,聚类还没有一个学术界公认的定义。这里给出 Everitt在 1974 年关于聚类所下的定义:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离。事实上,聚类是一个无监督的分类,它没有任何先验知识可用。

典型的聚类过程主要包括数据(或称之为样本或模式)准备、特征选择和特征提取、接近度计算、聚类(或分组)、对聚类结果进行有效性评估等步骤。

与主成分分析不同,聚类分析更为简要直接,对于不同职业分类用户的消费倾向划分非常直观,在模型基于客流量划分情况时给予的广告投放方案可以更加清晰直观。

6.结论以及模型改进

根据以上步骤,我们得到了一个清楚的广告精准投放的模型:即在掌握了客流各项特征后运用主成分分析法得出影响客户对地铁广告反应的因子,并以这些因子作为投放广告的依据,同时佐以聚类分析匹配不同用户需求。该模型最重要的部分就是掌握到乘客的多种特征,特征掌握越精确,主成分与因子载荷计算就越精确。只有在更加精确掌握投放时间与投放时长,才能为商家节约广告成本,提高收益,同时,地铁运营方也可以规划出什么是广告投放的黄金时间与地点,因为这不仅仅可以适用于一个地区的一个地铁站,我们可以根据不同地方的不同客流特征规划出适合该地区的广告投送方案。这一广告投送方法也能节约更多的公共资源,就可以利用这些节省出来的公共资源做更有意义的事情,例如投放公益广告,公益广告的受众不仅仅是消费者,还有哪些需要被帮助的人。这也是这个项目的一个重要的存在意义与价值。

这个模型的适用性很广,只要有相应的客流特征的数据,这种模型几乎可以胜任任何地区地铁广告的投送。但是同时该模型对客流特征的数据数量与精确程度依赖程度很高,所以针对该模型的改进方案主要针对于如何获得更加精确的数据,并且最佳方案是这些客流特征的数据相对于时间是动态的,因为我们知道客流的变化不是一成不变,而是实时变化的,这一模型对客流随时间的变化十分敏感。并且,由于该模型是动态模型,如果能根据某一时间点以及之前时间段所出现的客流的特征进行接下来的客流特征的预测,那该模型的精确性将大大提高。这也是我们项目组之后对这个项目的努力方向。

参考文献:

[1]欧海鹰.在线广告投放选择及商品网络定价的演化博弈[J].管理评论,2015,27(06):179-185.

[2]李艳双,曾珍香,张闽,于树江.主成分分析法在多指标综合评价方法中的应用[J].河北工业大学学报,1999(01):96-99.

[3]百度百科,聚类分析tps://baike.baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90/3450227?fr=aladdin 2020.05.25.

猜你喜欢
聚类分析主成分分析
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
农村居民家庭人均生活消费支出分析
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
服务贸易结构优化路径研究
“县级供电企业生产经营统计一套”表辅助决策模式研究