数据挖掘在烟草零售市场检查APCD工作法中的应用

2021-03-07 13:07周文
现代计算机 2021年1期
关键词:数据挖掘样本零售

周文

(怀化市麻阳县烟草专卖局,怀化418000)

0 引言

烟草行业经过数十年的信息化建设,建立了统一的信息化平台及大量的应用系统,这些系统生成的海量数据已经成为行业进行科学决策和内部监管的重要依据。目前,烟草行业信息化建设正在从集成整合向综合集成转变,业务数据大融合不断加强,行业对应用系统的可持续运行、数据的安全保护和资源利用率的提升也提出了更高的要求[1-2]。简单的存储和查询信息利用方式缺乏对于数据中隐含的关联规则、隐藏信息和知识的挖掘,无法对事物发展的趋势进行预测,早已不能满足实际需要[3]。技术的创新推动着烟草行业业务模式的创新,如何充分挖掘行业大数据价值,将数据挖掘等自动化技术与烟草行业市场监管等核心业务相结合以提高工作效率的要求已经十分迫切。

数据挖掘是把大量模糊的实际数据进行提取和处理,从中发现数据间的相互关联,进而发现新的知识和规律的过程[4]。数据挖掘技术将是解决怎样把大量看似无用的数字信息转化为企业竞争优势这一问题的重要方法[5]。数据挖掘技术作为一项新兴的知识发现技术,已经在商业、物流、金融业等行业有了广泛的应用[6]。在烟草农业生产应用方面,孙微微等人[7-8]将决策树分析方法应用到植烟土壤质量评价中;陈桂芬[9]采用模糊空间聚类算法分析进行精准施肥、关联分析方法被应用于烟草品种选育;BP神经网络算法被应用于烟叶采收估产及烟叶分级等工作中。在烟草工业管理应用方面,分类、聚类等数据挖掘方法在卷烟物流配送、卷烟营销、卷烟原料感官质量评价等应用中已有不少研究[10-11]。在市场监管方面,汪立胜[12]从市场管理数据中比较提取出四个卷烟违规经营的因素,并基于BP神经网络建立了预测模型,对卷烟销售中违规行为进行预测。

市场监管是维护卷烟市场秩序,提高卷烟市场控制力和净化率,提升社会满意度,保护国家和消费者利益的重要环节。APCD工作法是市场检查的新方法,但其主要通过既定规则匹配的方式进行分析,对专家的依赖性高,对数据的有效利用不够充分,阈值设置缺乏灵活性。人们已经关注到数据挖掘技术在市场监管方面的应用,但与ACPD工作法融合还未有深入研究。为此,本文将数据挖掘的建模思想和方法应用到烟草APCD市场检查工作法的分析环节中,来弥补它的不足,进一步提高分析环节数据的利用率和分析的准确性。

1 专卖市场检查工作方法概况

零售市场检查是市场监管工作的重要内容,是烟草专卖管理检查人员依据相关法律法规对卷烟零售客户进行的监督检查,以发现零售市场中的违法违规行为,查处有关案件,维护零售市场秩序的执法活动。目前,湖南烟草已经建设了专卖信息管理系统,可以通过PC端进行日常各项业务的数据输入、查询和分析,但是在专卖执法移动端业务处理方面相对落后,执法与信息录入分离。专卖系统与营销、物流业数据的共享不足,数据利用不充分,导致专卖执法手段较为原始。卷烟市场监管工作多年来沿袭旧有的粗放式管理方式,市场检查没有针对性,已经严重不能满足当前工作的需要,市场监管效率和水平不高成为常态。

随着信息化在烟草行业的不断推进和深入,市场监管人员逐渐重视对辖区市场相关数据的分析,通过长期探索,总结出烟草零售市场检查信息分析指南,并形成一套相对合理的市场检查机制,即APCD市场检查工作法,该方法通过对市场相关信息先行性分析,下市场前发现异常并制定相应对策,带着问题有目的的下市场检查。APCD工作法较原始的市场检查管理办法在效率和准确性上有了很大的提高,从试点向全国各地逐渐传播开来,各地还根据各自市场特色建立自己的APCD市场检查信息化平台。APCD工作法信息化平台的建设有效地解决采用人工计算的方式去发现异常数据的困扰,其分析指标主要依靠专家设置与经验

2 APCD工作法的介绍与分析

卷烟零售市场检查“APCD”工作法是以控制论为原理基础,通过获取并应用监管对象在市场中反映出的信息,进而作用于监管对象,最终达到市场控制的目的。APCD工作法是对传统市场检查的突破,不再按固定线路、固定频次漫无目的地查市场,真正在实际工作中落实了“带着问题上市场、提高市场检查的针对性和目的性”的要求,是实现精细化监管,提高市场监管效率和水平的有效方法。

2.1 APCD工作法定义

APCD工作法分为“分析(Analysis)、计划(Plan)、检查(Check)、处理(Deal with)”四个步骤,上一步的输出是下一步的输入,步步衔接,形成闭环,循环运行。

ACPD工作法的具体流程是:市场监管员通过对问题反馈情况、营销数据、历史信息进行分析、筛选,找出存在的异常问题,明确工作目标以及工作重点,合理制定市场检查计划,有针对性和目的性地实施检查,在寻求答案的过程中纠正违规现象,查处违法行为,并将计划执行情况以及市场信息通过检查日记录、周小结、月总结的形式进行分析归纳,并持续改进,不断提高自身能力素质和市场管控水平。

2.2 APCD工作法分析的数据来源于评估标准

信息分析是烟草零售市场检查APCD(分析、计划、检查、处理)工作法的关键环节,分析环节的成功与否直接决定着整次APCD工作法运用的成败。因而,分析环节的数据来源、获取方式及分析方法都对整个工作法具有重要意义。

(1)分析数据的来源

数据是分析环节的基础,APCD工作法的数据来源主要包括零售户基本信息、零售户营销数据以及专卖管理数据。零售户的基础管理数据和相关扩展信息,主要包括零售户的许可证相关信息、业态、供应类别、所处商圈或地段、主要业务关系、停歇业状态及变更时间,零售店经营者的籍贯等。零售户在日常经营中形成的营销数据,主要包括订单总量、订单总价、订单结构等;还包括订货总量降(增)异常、订货结构降(增)异常、敏感品牌降(增)异常、无故拒绝订购卷烟、低价竞销、超过最高限价销售卷烟等。零售户的专卖管理数据主要包括违法经营的历史数据,如案件发生频率、案件情节、涉案卷烟数量及金额、处理情况等。

(2)分析数据的获取方式

数据获取方式主要有市场巡查走访、受理举报投诉、上级交办任务、其他部门移交、同级烟草专卖部门移交、市场信息反馈、相关岗位传递、对象服务信息、内部信息系统获取、互联网络获取。

(3)常用的数据分析方法

分析方法有单项数据法、双项数据组合法、多项数据组合法。单项数据信息是指能明确重点监管事项或重点监管对象的数据项,可直接应用。如:注销户、停业户、零进货户、家族或同乡聚集经营地区、不经销品牌等。双项数据组合法对于单项数据信息不能明确指出异常的,由另一项数据信息与之进行组合分析,加以验证,找出卷烟零售市场存在的异常情况,从而明确重点监管事项或重点监管对象。如:新办证零进货户等。对于单项数据信息不能明确指出异常,双项数据组合仍无法反映该异常在市场中全部情况的,则采用多项数据组合。

三种分析方法均依赖一定的评分机制,一般先将指标体系分层,再由专家打分确定每层权值,然后由多位专家从重要对比程度按10分制对各项指标打分,建立完整指标评价体系,通过设定阈值,根据零售户的综合得分与阈值的偏离程度,将该零售户判定为严重户、守法户、普通户等几个类别。分析出的问题可分为许可证问题,市场净化问题,规范经营问题,真烟流通问题,工作法根据不同的问题细分制定了不同的管理措施,实现精准施策。

3 数据挖掘在APCD工作法分析环节的应用

3.1 APCD工作法的特点

目前,APCD工作法此工作法经由浙江绍兴市局、山东泰安市局和贵州遵义市局多方试点、多次实践完善,最终于今年在浙江绍兴试点工作会议上讨论推出,相应信息化系统已基本建成。数据信息分析是烟草零售市场检查APCD工作法的关键环节,从现行的分析过程我们不难看出,APCD工作法的应用但其总体上还是存在很多不足:

问题1,一方面分析数据(特征)不够完善,许多有价值的要素有待被发掘与应用;另一方面,分析过程中特征的取舍不加区分,容易产生干扰,同时增加计算的复杂性。

问题2,分析过程人工参与的人力成本过高,市场监管追求时效性也难以得到保证。

问题3,分析方法强度不够,主要采用简单的同比、环比,分析强度不够,分析方法严重依赖一定的评分机制,专家打分对系统评判的结果具有决定性作用。

问题4,阈值设置不够灵活、普适性不强,未能按地区、时间等因素进行自动调整。

问题5,APCD信息系统的处理能力的局限性,只能处理结构化数据,对半结构化及非结构化数据无法利用。

可见,APCD工作法的不足就在于对于数据中隐含的关联规则却无法深入分析,因此,要通过数据挖掘来改善APCD工作法的不足,就得对数据充分利用。本文改变逐条指标对比的模式,将零售户作为一个数据实体,其相关数据作为属性特征,将实体对象是否属于违法对象这一分析过程当作分类问题来计算,通过建立空间向量模型,采用机器学习分类算法来自动归类。由于不同的对象属性对对象类别的表征强度不同,有些属性甚至会产生干扰性,所以需要通过特征提取的方法来提纯特征,起到降维、降噪的作用。其次在分类方法的选择,基于目前APCD工作法的进展使用情况,已有部分案例数据可作为样本数据使用,可以选择有监督或半监督的分类方法。

3.2 基于数据挖掘的APCD工作法的构建

“APCD”工作法其核心在于“分析”环节,数据挖掘在“分析”模块应当全力解决与相关业务系统数据的对接,实现不同格式数据的统一化处理;建立智能化分析模型,解决分析对比庞大的数据计算问题,通过自动预警方式解决专卖人员分析筛查工作量大的问题,从而确保“APCD”工作法运用效果[13]。

基于数据挖掘的APCD工作法主要对A环节采用分类算法建立分析模型代替原本公式化的计算过程,其分类算法的大致处理流程图3所示。

图1 基于分类算法的分析过程

(1)基于烟草市场监管的特征库构建

“分析”环节对信息分析处理的要求较高,需要从大量具有模糊性、偶然性、不确定性的异常订单信息中抽丝剥茧,找出可能真实存在违法违规行为的问题线索。分析的数据来自不同的业务系统,以及一些历史案件信息,所以原始数据是不同格式的结构化数据、半结构化数据及非结构化的数据集合。为了将这些不同格式的数据统一处理,可以将零售客户相关数据指标作为一个实体对象,将各个数据指表源转化成零售户数据实体的一个或几个数据特征,屏蔽掉数据来源与格式不同造成的操作难题。另外,零售户数据实体的特征数量巨大,在数据分析模型中往往采用的是空间向量模型,这些庞大的特征集合不仅会造成运算的维度灾难,并且这些特征数据对实体是否属于异常类别具有不同的影响力即权重系数,有些特征数据可能还会对实体整体的判别具有副作用,即所谓的噪声,因此在数据预处理过程中需对实体对象的特征集合进行特征选择,降低维度,同时减小噪声。

(2)数据挖掘算法的选择

从众多的零售户数据样本中找出其中的异常数据,这是数据挖掘中常见的分类任务。根据现有数据的多少决定采用不同的分类方法,当已经拥有一定数量标准数据(已知是正常数据或异常数据)时可以将标注数据作为训练集,采用有监督的分类方法,来提高分类的准确率;当拥有的已知数据很少或没有已标注数据时,可以采用半监督或无监督的分类方法。

KNN和SVM是两种效果比较好的有监督分类算法。KNN(K Nearest Neighbors),又叫K最近邻算法,该算法假设样本空间里每个样本都有唯一的类标记表示这些样本是属于某一个分类,其通过待分类样本周围最近的K个样本中分布数目最多类别确定待分类样本的类别,训练过程中可以不断调整K值的大小,来提高精确度。SVM(Support Vector Machine),又叫支持向量机算法,是一种基于结构风险最小化原则的分类方法,可以根据有限的样本信息在模型的复杂度和学习能力之间求得最佳折中,即获取局部最优解。

无监督聚类算法能在没有任何先验数据的条件下对样本进行聚类分析,但这种传统聚类算法的性能还有待进一步提高。在实际问题中,我们能获得少量先验知识,包括类别标签和数据点的划分约束条件等。利用少量先验知识对大量没有标注的样本数据来辅助无监督聚类分析的算法通常被称为半监督算法[14-15]。K-means是一种有效的基于样本间相似度的间接聚类算法,算法通过迭代将N个对象划分成K个簇,每次迭代利用各聚类中的对象与“质心”的相似度均值更新“质心”,使得同一簇中的对象相似度较高,不同簇中对象的相似度较低。

(3)基于特征的分析模型的建立

数据实体经过格式预处理并且分类方法已确定就可以构建基于指定分类器的分析模型了,分析模型的建立可以采用以下的步骤:

①根据待分类样本的特征,进行格式化处理,对同一零售户不同来源的数据进行特征化处理,即做特征提取;

②对提取的特征集合进行过滤,去掉所有实体共有、对分类结果没有意义甚至可以根据当地实际情况及工作经验,进行特征选择,优化特征集;

③然后是构建完整的零售户数据实体,可以采用空间向量模型,将数据实体(样本)进行向量化表示,作为分类算器的输入;

④选择合适的分类算法,对训练数据进行处理,根据已标注的类别对分类算法的参数进行调整优化,到此即构建了完整分类器;

⑤用已调整好参数的分类器来处理待分类的数据样本,有监督的分类器直接输出数据样本的类别,无监督的分类器还需要简单验证输出标签的类别;

⑥对分析模型的验证。实验数据最好能采用当地的真实数据(网络上有公布的案例集),分别将传统APCD工作法和基于数据挖掘的CPCD工作法来实验比较两种方法的准确率,也可以采用其他判别指标进行判别。

4 结语

互联网时代,信息技术在市场监管体系建设中举重若轻,“APCD”工作法的推广应用,离不开信息化、智能化手段的有力支撑。本文借用大数据时代互联网思维,将数据挖掘的方法应用到APCD工作法中,通过建立符合烟草领域的特征库,选着合适的特征提取方法,对APCD工作法的分析环节进行改造,由于笔者当地的APCD信息化系统尚处于建设阶段,不能采用大量样本集来做验证,只在小范围的数据样本中进行对比测试,实验数据采用的是网络公布的案例集,目前不成熟的分析模型已经能够达到较高的判别准确度。本文研究的分析模型是对数据在烟草业务中应用的一次尝试与探讨,目的是形成一种可自动识别的高准确率的市场检查工作法。

目前还存在的问题:改进方法还需在大量数据样本中进行试验,缺乏实际数据对分析模型进行验证,无法对两种方式进行客观准确的评价,在参数权重的自动调整上还需待下一步实验的验证;其次改进的方法如何与现有的系统进行融合还有很长的路要走,可以说本文研究给市场监管信息化系统提供了一个很好的改进方向,但如何对具体融入系统还有大量工作要做。

猜你喜欢
数据挖掘样本零售
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
“新零售咖啡”前景几何?
美妆零售新玩法! 化妆品市场现新零售模式
规划·样本
今年春节新兴消费亮点纷呈——2018年新零售走向
随机微分方程的样本Lyapunov二次型估计
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
基于支持向量机的测厚仪CS值电压漂移故障判定及处理