赵文华
(中国福利彩票发行管理中心技术部,北京 100101)
福利彩票“快乐8”游戏是一款借助计算机网络发行销售,每天定期开奖(财政部发布的彩票休市日除外)的现代型数字游戏,广泛借鉴了国际上的成功经验,具有玩法多样,单注投注金额低,休闲娱乐,中奖面广等特点。“快乐8”游戏于2020年率先在我国辽宁、江苏、江西、山东、广东等部分省市试点上市销售,在总结试点省试运行经验的基础上,不断复制推广,于2021年底在全国范围内铺开销售,成为继“双色球”“3D”“七乐彩”后又一款在全国联销的福彩游戏,目前,平均期销量达到七千多万元,已经发展成中国福利彩票的又一知名市场品牌。
2021年“快乐8”全年销量约占福彩电脑彩票年销量的20%以上,取得了良好的市场反响和预期效果。发行规模的扩大意味着销售投注方式数据的大量扩容累积,充分挖掘和利用这些销售投注数据之间的关系,更好反哺于游戏规则设置,是双轮驱动游戏持续发展的关键手段之一。面对该游戏规则中设定的多种投注方式,无论是发行机构还是销售机构,都希望通过先进的数据统计和分析技术从成千上万的销售数据中找寻它们之间的内在联系,从而为销售机构进一步调整游戏规则、优化设置奖级奖等奖金、更加科学合理地制定派奖促销等市场营销方案提供参考借鉴和设计指导。
数据挖掘关联规则是一种基于规则的机器学习方法,是指物品之间存在的强关系,用于从数据集中寻找物品之间的隐含关系。通俗来讲,就是买了某商品的人,很有可能又会买另一种商品。
综上所述,笔者将关联规则有关算法应用于“快乐8”投注方式销售数据中,通过建立模型和进行算法分析,研究统计彩民在投注此游戏玩法时,选择的不同投注方式之间可能存在的内在关联。
根据中福彩官方网站的介绍,福利彩票“快乐8”游戏是经国家财政部门批准在我国境内上市销售的一款KENO型游戏,具体玩法是从1至80共80个号码中任意选择一至十个号码来购买投注,每一组一至十个号码的组合称为一注彩票。“快乐8”游戏包括选一、选二、选三、选四、选五、选六、选七、选八、选九和选十共计十种玩法。
上述玩法均支持单式投注、复式投注及胆拖投注。单式投注是指选一至选十单式投注的号码个数分别为一个至十个。复式投注是指包含两注及以上的单式投注,所选择的号码个数应大于单式投注号码个数,每一种单式投注组合均为复式投注。以选二玩法为例,某彩民的复式投注为3、56和78,那么其投注的选二玩法分别为(3、56)、(3、78)和(56、78)三注彩票。胆拖投注是一种较为特殊的复式投注,具体由胆码和托码组成。胆码是每注彩票必须包含的号码,不同的托码构成一注不同的彩票,胆码和托码的个数之和应大于单式投注所需号码总和。以选二玩法为例,某彩民的胆拖投注为3、56和78,其中3为胆码,托码分别为56、78,那么其投注的选二玩法分别为(3、56)和(3、78)两注彩票。“快乐8”游戏各奖级奖金设置结构如图1所示。
图1 奖金设置结构图
关联规则用于发现某些表面看似无关联实际上数据之间可能存在的关系。在数据挖掘的过程中,关联规则的生成主要包含两个步骤:一是在原始数据集合中找出出现频次较高的数据集合,在数据挖掘中通常也将其称为频繁项目集合;二是在这些频繁项目集中,找寻出满足预先设定的参数阈值的项目集合,也就是关联规则,语义解释是说明这些数据之间可能存在的关联程度。
关联规则挖掘的第一步是在原始数据集合中,挖掘找出所有频繁项目集合。频繁是指某一项目集合组出现的频率必须达到某一频次(相对于所有原始数据记录而言),实际上就是达到程序事先设计的参数阈值。某一项目组出现的频率又称为支持度,以一个包含与两个项目的项目集为例,可以由支持度计算公式得到包含{,}项目组的支持度,若支持度大于等于所设定的最小支持度,则{,}称为高频项目组。
关联规则挖掘的第二步是形成关联规则,从频繁项目组产生关联规则,即在第一阶段形成的高频项目组产生规则。在设定的最小可信度范围内,若某一规则的可信度满足最小信赖度,即将此规则称为关联规则。
2.2.1 支持度(support)
支持度表示购买某个(用表示)或某些商品与总体购买商品(用表示)之间的关系,那么的支持度可以用公式support()=#A/support()表示,实际使用过程中可以将出现的次数指定为阈值。
2.2.2 可信度(confidence)
可信度表示条件概率,即买了的人又买了的比例有多少,表示关联性的强弱,或者说是规则的可靠性,即confidence(—)=support(U)/support(),其 中∩=Ф,Ф表示空集。
总的来说就是,设定支持度阈值,找出所有的频繁项集,再针对每个频繁项集所有可能的关联项,计算其置信度,根据置信度阈值,得到最终符合要求的强规则。
针对早期Apriori算法的固有缺陷和先天不足,J. Han等人提出了不产生候选挖掘频繁项目集的方法,即FP-树频集算法。采用自顶向下逐层分解的策略,经过第一遍扫描后,将数据库中的频集压缩进一棵频繁模式树,同时保留其中的关联信息,随后将FP-tree分化成若干条件库(每个库与一个长度为1的频集有关),然后再分别对这些条件库进行挖掘。待统计分析的初始数据量较大时,也可以考虑将一棵频繁模式树直接放入主要存储器中,然后逐层逐步分解演绎。
笔者统筹考虑上述关联规则算法的核心推理逻辑,调用互联网开源算法fp-growth包,实现了“快乐8”游戏不同投注方式频繁项目集与强规则的生成。程序流程为数据文件—事务数据集—频繁集生成—频繁集集合—强规则生成—更新关联规则集,流程图如图2所示。
图2 流程图
其中,事务数据集主要接收原始游戏投注销售数据,经过固定字段的特殊提炼和处理,生成由某些字段组合而成的单一事务,事务的关键字用投注站编码唯一标识,所有被提取的游戏销售数据形成相应的事务数据集;在所产生的事务数据集的基础上,频繁集生成挖掘满足最小支持度的最大频繁项目集,并把相应的频繁集存放于频繁项目集合中;强规则生成主要是在最大频繁集中产生满足最小可信度的关联规则输出或更新。
数据来源于某福彩投注站数十位彩民在一段时间内购买“快乐8”游戏的销售记录,从中提取数个数据字段,具体包含投注站编号、票号、游戏玩法名称、投注方式、投注金额、投注时间等。如果投注方式为复式投注或胆拖投注,则需要手动拆分为单式投注。
数据用文件输入,每行代表某彩民某段时间内对“快乐8”游戏的投注方式,由于数据字段不算特别长,故每行文件代表一个事务,文件的所有行就组成了事务集合,文件总行数即为事务总数。以上事务集是关联规则挖掘的前提,从这些事务集中寻找最大频繁项目集与强规则。
十种投注方式分别为选一、选二、选三、选四、选五、选六、选七、选八、选九、选十,本程序产生的事务集共包含232条记录,假设最小支持度与最小可信度分别为0.4和0.8,表1、表2为部分事务集。
表1 部分事务集
表2 部分事务集
程序输出最大频繁项目集和每个频繁项目集所对应的强关联规则,每一行代表一个频繁项目集和一条强规则,在强规则集中可以查看每条规则的支持度与可信度。
从模型运行结果来看,产生的最大频繁项目集有4个,分别是{选一,选二,选三}、{选二,选三,选四}、{选五,选六,选七}、{选八,选九,选十}等。从中可以看出,选二与选三是“快乐8”彩民选用最多的投注方式。在每一个最大频繁项目集中,生成满足最小可信度的强关联规则,如表3所示。
表3 强关联规则表
提取两条规则来分析其语义,如:选一—选二、选三,:0.573 641 20、:1.0。可知该规则的支持度为0.573 641 20,可信度为1,即如果一个彩民投注了选一,那么该彩民约有57%的可能性也投注了(选二或选三)、(选八、选九—选十),:0.587 413 57、:0.901 456 31。可知该规则的支持度为0.587 413 57,可信度为0.901 456 31,即如果一个彩民投注了(选八和选九),那么该彩民约有58%的可能性也投注了选十。
由表3可以看出,选二和选三是彩民投注最多的方式,选一、选二和选三之间的关联程度最高,投注选一和选二之后,购买选三的可信度最高,可达到65%。从往期“快乐8”的部分历史中奖公告统计数据来看,如图3所示,相较于其他投注方式,选一、选二、选三的中奖注数都呈现出高位运行。绝大多数情况下,选一、选二的中奖注数分别大于选三的中奖注数,这也反向说明了彩民在购买选一、选二之后再购买选三的概率较大,但也不是百分百的可能性。彩民跳号投注的购买意愿较低,体现在四组频繁项目集中,例如,彩民投注选五和选七之后,再关联购买中间投注方式选六的支持度都相对较低,仅仅略高于程序设定的参数指标值。大号投注选八、选九、选十的关联程度也比较高,特别是连续性投注,例如选八之后,投注选九和选十的支持度较高,同样,彩民在购买选八和选九之后,再购买选十的意愿也远高于程序预先设定的可信度阈值0.4。
图3 部分历史中奖注数统计
由此可见,彩民在购买“快乐8”游戏时,连续性投注是他们比较青睐的投注方式,特别是选一、选二、选三的可信区间能达到1,这说明,彩票游戏设置简单化是进行市场推广和获得市场好评的关键性因素之一。对发行机构来说,可以在设置奖等奖金方面适度予以倾斜,提升游戏的趣味性和娱乐性。同样,选八、选九、选十组合投注方式的支持度也相对较高,原因是“快乐8”游戏的最大奖金设置在选十全中上,由此可见,中大奖对彩民有着不可低估的吸引力,目前“快乐8”游戏选十全中的中奖奖金主要取决于浮动奖奖池余额、当期销量以及中奖注数等几个因素,是一个多因素变量影响的函数。接下来,为保证选十全中的奖金金额,可以优化统筹考虑采用固定奖奖金加浮动奖奖金的模式。
综上所述,连续性投注和中大奖投注是彩民购买该游戏的两大特点,分散性投注的关联程度在本次数据分析中并不明显,也可能是与本次选取的数据样本量有关系,需要再次随机选取数据样本,创建模型统计分析验证。由于关联规则的提取需要预先设定支持度和可信度两个不同的参数指标,因此参数的设置比较重要,对于已经产生的强规则,表明可能存在某种联系,也可能只是同时出现而已,这种情况下,需要联系游戏玩法等实际情况进行具体分析。
针对“快乐8”游戏玩法,笔者选取部分历史投注数据,应用数据挖掘关联规则技术分析推理出连续性投注和中大奖投注是该游戏目前广受青睐的投注方式,特别是简单易玩的选一、选二、选三投注,为销售机构进一步优化游戏玩法规则,设置奖级奖等奖金,持续提高该游戏玩法的趣味性和娱乐性,降低博弈性和提升市场竞争能力提供一些思路。然而,关联规则数据挖掘受制于算法本身的局限性,可能提取的数据关联程度实际应用中并没有紧密关联,需要进一步做主观分析和判断,而且对彩民的投注习惯等也无法分析预测。下一步,将借助最新数据挖掘算法、人工智能、云计算等先进技术加大对历史销售数据的预处理和精准分析,不断提升数据处理的质量,让福彩大数据更好地服务于福彩发行的方方面面。