基于Apriori算法的国家经济数据分析

2020-02-27 02:02刘言哲柳炳祥
中国管理信息化 2020年4期
关键词:项集置信度事务

刘言哲,柳炳祥

(景德镇陶瓷大学 信息工程学院,江西 景德镇 333403)

0 引 言

有效的国家经济数据分析,能够为政府在宏观调控以及政策制定上提供非常有价值的参考,可以大幅度提高政府决策的准确性及工作效率,促进经济社会快速发展。同时,国家大数据分析也可以为企业的经营规划、采购运输和个人的工作规划、学习方向等方面提供可靠的指导。但是由于国家数据涉及的领域非常广,仅在国家数据网列出的第一大类指标就多达28项,导致以往数据分析往往比较片面,对于国家宏观调控意义不大。本文选取了国民经济、交通运输等对经济数据影响较大的6个方面21项指标,构建了基于Apriori关联算法的数据分析模型,以探索在宏观层面上国家各经济数据之间的潜在联系。

1 关联规则与Apriori算法

关联分析方法是用于挖掘大量数据中具有潜在联系的一种数据挖掘研究方法,其挖掘结果可用频繁集和关联规则表示。关联规则挖掘算法有搜索算法、宽度优先算法(分层算法)、深度优先算法、数据集划分算法、抽样算法、增量式更新算法和并行算法7大类。Apriori算法是宽度优先算法(分层算法)的典型代表,也是目前比较经典的挖掘频繁集和产生关联规则的挖掘算法。

1.1 关联规则

若有I={i1,i2,…,im},则I是m个不同的项目的集合,每个I称为一个项目,项目的集合I称为项集,其元素个数称为项集的长度,长度为k的项集称为k-项集,k项集⊆I,若干个项目组成一个事务T,事务T⊆I,事务全体构成了事务数据库D,|D|表示为事务数据库D中事务的总个数。一个项集X的事务数在事务数据库D中所占的比例称为项集X的支持度。

最小支持度是设定的项集的最小支持阈值,记为SUPmin,支持度不小于SUPmin的项集被称为频繁项集,长度为k的频繁项集被称为k-频繁集。

关联规则是一个蕴含式:R:X⇒Y,其中X⊂I,Y⊂I,且X∩Y=∅,关联规则的强度可以用他的支持度和置信度度量。关联规则的支持度是同时包含项集X和Y的事务在总事务中所占的比例,描述的是关联规则的普遍性,表达式为:

关联规则的置信度是同时包含项集X和Y的事务数与只包含X的事务数的比值,也是该关联规则的支持度与项集X的支持度之比,表达式为:

最小置信度CONFmin是关联规则必须满足的最小置信度阈值,若关联规则R的置信度和支持度都不小于最小置信度CONFmin和最低支持度SUPmin,则称规则R为强关联规则。

1.2 Apriori算法

关联规则挖掘主要有两个问题:频繁集的产生和关联规则的产生。针对以上两个问题,Agrawal等人在1993年提出了Apriori算法,该算法采用自底向上的方法,从1-项频繁集开始逐步找出高阶频繁集,Apriori算法的流程如图1所示。

其中,连接步是为了产生频繁k项集而通过JOIN运算得到候选频繁k项集的集合Ck的步骤,Ck中包含了所有有可能成为频繁k项集的项集;剪枝步是依据任何非频繁(k-1)项集必定不是频繁k项集的子集这一性质,从候选频繁k项集中去除非频繁的(k-1)子集,以减少Ck规模,大幅度减少计算量;剔除则是将Ck中不满足最低支持度SUPmin的项集剔除,最终形成由频繁k项集构成的集合Lk。

2 模型构建与数据分析

2.1 数据整理

本文数据源于国家统计局1999-2018年年度数据,选取的原始数据包括6个方面21项指标。因为近20年中国各方面均快速发展,因此各个指标都呈上升趋势,仅仅依据单个指标的增减无法表示真实变化,因此需要对数据进行预处理,通过占比、增速、相关数据比例等表示某项数据的实际情况,最终经过数据整理提炼出住宅房均价/城镇人均收入变化、国企经济占比变化、财政收入增速变化等19项指标,并以0(或1)代表该数据较去年降低(或升高)作为算法的输入数据,如表1所示。

2.2 结果与分析

图1 Apriori算法流程

将模型的最低支持度设为0.5,最低可信度设为0.9,将2001-2017年共17年323项数据作为输入值读取到模型中,最终产生频繁集3个(表2所示),强关联规则10个,先按支持度排序,再按置信度排序(表3所示)。

针对挖掘到的规则可以得到以下结论。第一,旅游花费的相对上升和第三产业占比的上升保持同步,验证了旅游业对于促进产业转型尤其是对于第三产业的发展具有较大影响这一规律,同时也为推动第三产业发展情况提供了新思路,可以根据旅游业的发展情况预测第三产业整体的发展情况。第二,第三产业的发展与第二产业占比的下降保持同步,即工业比重下降而服务业比重上升,此时工业部门的产出增长速度要快于农业部门,但要慢于服务业部门,此现象也代表中国目前已经进入“后工业化”阶段。第三,国企经济占比下降对应旅游花费相对上升,适当降低国企经济占比有助于激发多样性竞争,而旅游业多元化发展与经济发展呈正相关关系,经济发展程度越高,对应旅游业多元化程度越高。综合可知,国企经济下降推动旅游业发展,本质上是国企经济占比适当下降,促进了社会经济发展,国企经济占比下降的同时,旅游业继续发展,也说明了国企经济对旅游行业的贡献不大。

表3 强关联规则

3 结 语

将关联规则Apriori算法应用在国家经济数据中,可以分析出各经济数据中具有强关联的因素。该方法可以获得“意外性知识”的发现,但是不同的数据处理方式得出的结论也不尽相同,需要有较合理的数据处理方法。此方法对研究国家经济发展具有实际意义,对于验证国家政策执行效果、政府的宏观调控等具有一定的借鉴意义。

猜你喜欢
项集置信度事务
基于分布式事务的门架数据处理系统设计与实现
硼铝复合材料硼含量置信度临界安全分析研究
河湖事务
正负关联规则两级置信度阈值设置方法
置信度条件下轴承寿命的可靠度分析
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
SQLServer自治事务实现方案探析
多假设用于同一结论时综合置信度计算的新方法✴
移动实时环境下的数据一致性研究