王琦 丁胜锋 安宇 徐子豪
(辽宁石油化工大学经济管理学院 辽宁省抚顺市 113001)
随着石油销售企业信息化建设的不断发展,以ERP系统为代表的信息系统得到广泛应用,这些系统积累了大量的管理数据和外部信息,但是这些海量数据并没有得到很好的分析和利用。大数据是云计算、物联网之后IT 行业又一大颠覆性的技术革命。大数据已被视为石油销售企业核心资产,利用大数据技术能够深入了解和获取用户的需求,并针对性地制定精准的油品营销方案,为客户提供个性化和精准化的服务,从而实现市场价值的最大化[1-3]。
到目前为止,大数据还没有一个统一的定义。一般来说,大数据(Big Data)是指数据量大小超出了传统数据库系统存储管理和分析处理能力的数据集合。大数据具有五个“V”的特征:大容量(Volume)、高速率(Velocity)、多样化(Variety)、真实性(Veracity)和价值性(Value)。石油产品销售大数据带有明显的行业特征,表现在:数据体量大;数据类型多;数据时效性快;数据显性和隐性信息复杂;数据来源复杂;数据质量参差不齐;与业务的紧密结合。
石油销售市场包括汽油市场、柴油市场、水上市场、国省道市场和网上营业厅等。汽油市场主要是政府采购、企事业单位、私家车三类客户,柴油市场是客运、物流、农机作业及施工作业四类客户。客户大数据采集的方式包括互联网营销类和物联网平台类,前者包括客户自助服务网站、客户APP、客户微信公众号和微商城,后者包括视频监控及车牌识别、加油站 Wi-Fi 和车联网[4]。石油销售大数据如表1 所示。
表1: 石油销售大数据
大数据的到来正好迎合了精准营销的实现,企业可以通过各种技术对大数据进行分析和研究,通过对大数据的挖掘和利用,制定出可以提高营销效率的并符合大数据应用的营销策略。在此基础上,对于消费者的需求和营销市场的动态也要有所掌握,充分了解掌握消费者的行为和心理,在一定程度上大大提高营销的效率,进而推动精准营销的实现。
大数据在精准营销中起着至关重要的作用,也可以说精准营销的实施离不开大数据的支持,在精准营销实施的过程中,大数据为其提供了技术平台和理论依据。大数据对精准营销如此重要,经研究发现,客户数据的挖掘是其主要影响因素。
数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[5]。数据挖掘主要包含商业问题定义、数据准备、挖掘实施、性能评估解释和知识应用等步骤[6]。
2.1.1 问题定义
弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务。
2.1.2 数据准备
数据准备是要根据问题定义阶段确定的数据挖掘任务,从各种数据源中抽取与挖掘任务相关的数据,并将其转化为挖掘算法所需要的组织形式存储起来,形成待挖数据集。
(1)数据抽取:从各种可用数据源中抽取与挖掘任务相关的数据。
(2)数据预处理:对已抽取的数据进行再加工,从而保证数据的完整性和一致性。主要包括消除噪声数据、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等。
(3)数据储存:数据先经过预处理,然后按照数据挖掘任务和数据挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象。
2.1.3 挖掘实施
根据选定的数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示。
2.1.4 评估解释
邀请企业高管和领域专家,对发现的知识、模式或规律进行性能评估,删除冗余或无关的模式,对保留的知识或模式进行解释,发现并理解其中有实际应用价值的知识。如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始。
2.1.5 知识应用
将经过评估解释,且被用户理解的知识,用于商业决策。
石油销售大数据挖掘过程包括石油销售数据的获取、清洗、存储及客户聚类细分、化工产品与非化工产品的交叉销售、高价值客户挽留等,如图1 所示。
图1: 石油销售大数据挖掘过程
3.1.1 k-means 聚类分析方法
k-means 聚类分析方法是先求解各个划分子集内全部样本的均值,该均值作为该子集类别的代表点,然后通过不断的迭代将原始数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类子集类别内尽量紧凑,子集类别之间尽量独立。k-means 聚类分析方法主要包括三个步骤:
(1)计算数据样本之间的相似性度量,通常选择某种空间距离。计算数据样本之间的空间距离时,可以根据实际需要选择明可夫斯基距离、二次型距离或欧几里得距离中的一种来作为数据样本间的相似性度量,其中最常用的是欧几里得距离。
(2)构造评价聚类性能的准则函数。k-means 聚类分析方法通常采用误差平方和准则函数来评价聚类性能。假定原始数据集合X,其中只包含描述属性,不包含类别属性。假设X包含k个聚类子集X1,X2,...,XK,k个聚类子集中的数据样本数量分别为n1,n2,...,nK,k个聚类子集中所有数据样本的均值(也称作聚类中心)分别为m1,m2,...,mK。则数据集X的误差平方和准则函数如公式(1)所示。
误差平方和准则函数衡量数据集中的所有样本与相应聚类子集中心的方差之和,当该准则函数的值达到最优时,各个聚类子集内的数据样本相对紧凑,而各个聚类子集之间则相对分散。
(3)选择某个原始分类之后,采用迭代优化的方法得到聚类结果,从而使得评价聚类的误差平方和准则函数达到最优值。为了得到最佳的聚类结果,首先要对原始数据集进行初始划分,常规的做法是事先从数据集中选择各个聚类的代表点,然后将其余的数据样本按照某种方式归类到相应的聚类子集中去。
3.1.2 基于k-means 聚类分析的客户价值细分模型
客户细分的主要思想是将所有的客户划分成具有不同交易习惯和内在需求的群体,同一群体中的客户在对产品的性能需求、交易习惯和交易文化等方面具有较大的相似性,而不同群体之间的差异较大。对于石油销售企业来说,将客户划分成高价值客户、低价值客户、负价值客户等层次,有助于优化配置资源和安排生产经营活动。
依据客户的描述属性、需求、行为、偏好和价值层次等因素,构建基于k-means 的客户聚类细分模型,建立客户画像和客户标签库,设置相应客户级别,即高价值客户、最具增长性客户、普通客户、负价值客户和新客户。企业可以针对不同客户群体制订有效的营销策略,实现销售资源的合理分配,从而达到减少营销成本,提高销售业绩的目的。
3.2.1 关联规则分析
关联规则是指在交易数据库中的项目或项目集合之间存在的一些潜在规则,这些项目或项目集合之间存在的紧密程度。例如某个项目或项目集合出现了,其他项目或项目集合也随之出现,隐藏在项目或项目集合之间的关系也称为关联规则。
关联规则分析可以找出交易数据库中项目或项目集合之间存在的有趣或潜在的关联关系。分析出这些规则,同时找到影响这些规则的重要因素。这些因素可以辅助企业在CRM 中对产品的性能进行定位,对客户群进行划分,对客户进行细分和保持,对销售业务活动进行分析,尝试策划有效的市场营销活动。
关联规则分析中的经典算法是Apriori 方法。Apriori 算法主要包括两个步骤:
(1)发现频繁项集。根据用户给定的最小支持度MinS,寻找出所有的频繁项集,即支持度Support 不低于MinS 的所有项集。由于这些频繁项集之间有可能存在包含关系,因此可以只关心所有的最大频繁项集,即那些不被其他频繁项集所包含的所有频繁项集。
(2)生成强关联规则。根据用户给定的最小可信度MinC,在每个最大频繁项集中,寻找可信度Confidence 不小于MinC 的关联规则。
3.2.2 基于关联规则分析的交叉销售
石油销售企业非油品业务已经涉及便利店、餐饮、住宿、汽车美容、汽车维修等多种业务形态。大数据可以帮助企业在油品销售的基础上,实现高质量的非油品交叉销售服务。交叉销售主要是从顾户的交易习惯和交易行为出发,挖掘顾户的多层次需求,通过满足客户的需求来实现相应产品和服务的销售方式。交叉营销能够在同一个顾户身上开发出更多的产品和服务需求,而不仅仅是满足顾户的某一次交易需求。
关联规则可以有效地分析不同商品之间的紧密程度,计算出客户购买某些商品组合的可能性,查找出哪些商品组合是客户一块购买的,因此关联规则分析结果可用于商品交叉营销。根据客户的购买历史和消费属性数据,采取关联规则建立数据分析模型,计算出顾户购买产品组合的可能性,采取增加顾户的转移成本方式,提升顾户忠诚度,同时降低边际销售成本,提高利润率水平。
3.3.1 基于混合模糊隶属度的模糊双支持向量机
双支持向量机是近年提出的一种新的支持向量机。在处理模式分类问题时,双支持向量机速度远远超过传统支持向量机,而且显示出较好的推广能力。但双支持向量机没有考虑不同输入样本点可能会对分类超平 面的形成产生不同影响,在某些实际问题中具有局限性。为了克服这个缺点,提出了一种基于混合模糊隶属度的模糊双支持向量机[7]。该算法设计了一种结合距离和紧密度的模糊隶属度函数,给不同的训练样本赋予不同的模糊隶属度,构建两个最优非平行超平面,最终实现二值分类。
3.3.2 客户流失分析过程
随着石油销售行业的竞争越来越激烈,企业在新客户上的成本开销正在不断上升,避免客户流失显得十分重要。一定时间内,未发生交易行为的用户定义为流失用户。流失客户有两大类,一类是单站流失客户,一类是公司流失客户,单站流失可能因为客户因搬家或工作调动发生迁徙,而公司流失客户,则多数是选择了其他成品油品牌。
确定濒临流失客户需要从用户画像标签提取特征,利用数据挖掘模型建立基于混合模糊隶属度双支持向量机的客户流失预警模型,根据模型得出流失倾向分值,按分值确定濒临流失客户。濒临流失客户确定后,可用于业务人员对流失客户制定营销及跟踪、挽回策略等。对濒临流失客户采取积极促销活动预防流失,对已流失客户进行一对一回访,找到流失原因,从客户保有、电子券、积分回馈等开展高价值客户挽留。