营销数据勘探的路径构建研究

2016-10-18 11:08范苗苗吴小丁
管理学报 2016年9期
关键词:网店语句数据挖掘

范苗苗 陆 颖 吴小丁

(吉林大学商学院)



营销数据勘探的路径构建研究

范苗苗陆颖吴小丁

(吉林大学商学院)

提出了数据勘探的构想,并构建了“聚”、“分”、“组”三个阶段的网店数据勘探路径,在PVP语法规则下,以维度组合的方式构造最终的数据语句,其中有挖掘意义的语句即可能是后续的数据挖掘方向。通过对网店企业数据的勘探与挖掘验证了该数据勘探路径的有效性,同时表明数据勘探能够提高营销数据挖掘的效率和挖掘方向的科学决策水平。

营销大数据; 数据勘探; 数据挖掘; 挖掘方向决策

大数据时代,数据将成为重要资源。在这样的时代背景下,数据积累和数据挖掘应用已成为企业经营的重要部分。利用数据挖掘手段将市场营销过程中产生的海量数据转换成有价值的信息和知识,是营销发展到现阶段的必然要求。作为一种技术手段,数据挖掘在具体的实现过程中离不开人的参与,任何一种数据挖掘软件在实现数据挖掘的过程中,都需要挖掘人员向计算机提供挖掘方向的指令,计算机执行该指令并反复计算,最终得到数据挖掘结果。然而,当前的企业数据挖掘存在的重要问题之一,是数据挖掘方向的决策多为经验判断,直接影响了数据挖掘的效率和挖掘结果的科学性。初入数据挖掘领域的人很难凭经验做出正确的指令决策;而经验丰富的人因过分依赖经验很可能忽略数据资源中其他有价值的数据信息。

在数据挖掘之前,如果进行勘探,应该可以减少盲目性、提高挖掘的效率。因此,本研究提出营销数据勘探的构想,并在此基础上构建可行的数据勘探路径,其目的是提高数据挖掘方向决策的科学性,寻找到一条从经验决策到科学决策的途径。

本研究以网店为研究对象,其中,网店特指B2C和C2C模式下的网店,是交易的卖方;买方特指个人消费者;商品特指有形商品。

1 文献回顾

1.1数据挖掘研究综述

本研究利用中国知网、维普中文期刊全文数据库、超星数字图书馆、中国社会科学引文索引(CSSCI)、EBSCO检索平台、哈佛大学出版社回溯电子图书以及综述期刊等11个管理学常用中英文数据库,对当前数据挖掘的研究现状进行了检索统计。分别以“数据挖掘”和“data mining”为搜索词,在“中文发现”和“外文发现”子系统*吉林大学图书馆,网址如下:http://lib.jlu.edu.cn/portal/database2/1/61.aspx.提交检索要求,对检索的结果以关键词为条件限制,以“重要期刊”为文献来源,得到数据挖掘研究关键词分布示意图(见图1)。结果显示,当前关于数据挖掘的研究中,中文研究更关注数据挖掘方法,外文研究同时关注数据挖掘方法和数据挖掘应用。这一结果与曾有学者[1]采用共词分析法对我国1997~2010年间数据挖掘研究状况的分析结果基本一致。但当前国内外研究都忽略了数据挖掘过程中技术人员对数据挖掘结果的影响,即数据挖掘决策科学性和有效性的问题。本研究从数据挖掘的前一环节入手,意图通过数据勘探,使数据挖掘更有方向性和目标性,甚至发现传统数据挖掘所忽略的有价值的挖掘目标。

图1 数据挖掘研究现状

1.2数据勘探的基本描述

在大数据时代,人们普遍承认大数据是一种资源,数据挖掘就是人们对大数据资源的开采。大数据分析的对象是与某种事物相关的所有数据,而非少量的样本数据[2],因此不存在对数据资源的普查问题。大数据在被开采利用之前,利用某种技术手段,对资源中可能存在的“矿藏”及其价值、储量以及开采条件等进行勘探,有助于为后续的开采利用活动提供依据。国内外当前关于大数据的研究多集中于数据处理(侧重数据采集和数据计算)、数据挖掘以及大数据应用等方面,缺少有关数据资源的勘探研究。不经勘探而直接挖掘,容易带来数据资源的浪费。本研究提出数据勘探的构想,并模仿矿产资源勘查的相关理论,给出数据勘探的基本描述:数据勘探是通过各种数据勘查技术手段,对大数据资源中可能存在的挖掘价值做出描述的过程,因勘查技术手段的不同,该过程可以有不同的表现形式,但最终的数据勘探结果,应能为后续的数据利用活动提供决策支持。

2 营销数据勘探理论构建

2.1营销数据勘探路径的开发

为开发出合适的数据勘探路径,本研究对悠易互通(以下简称悠易)公司提供的截至2015年4月底“汽车交通”、“数码家电”、“金融财经”、“手机通讯”、“快消日化”、“电子商务”以及“其他”7个领域共54个数据挖掘成功实例的挖掘结论进行了全面观察,并从每一板块中任意选取一项业务的数据挖掘结论制作成表(见表1),详细说明观察的结果。

观察发现,数据挖掘结论通常表述为语句形式,该语句一般由三部分构成,可暂将其称为“条件”部分、“谓词”部分和“条件结论”部分。例如,在“中小型办公用户喜欢选择功能全面、成本低廉的打印机”这一挖掘结论中,“中小型”、“办公用户”即所谓的“条件”部分,谓词是“喜欢选择”,而“功能全面”、“成本低廉”则是“条件结论”部分(见表1)。这一发现给研究带来了重要的启发:如果能将数据有效组合成类似的语句形式,那么该语句就可能是有价值的挖掘方向,至少在所有组成的语句中,存在有挖掘价值的语句。本研究在这一思路的指引下,构建数据勘探路径。为了与以后其他研究的数据勘探路径相区分,将其命名为“语句构造”勘探路径,如没有特殊说明,下文的勘探路径均指“语句构造”勘探路径。

表1 数据挖掘结论细分表

2.2营销数据勘探过程

营销数据勘探过程由“聚”、“分”、“组”3个阶段构成。首先将数据转化为适合语句构造的形态,然后依据一定的语法规则构造成语句形式。本研究在细化数据规模时,遵循“以特征描述总体,以维度描述特征”的细化规则,将维度作为数据归类的最小单位。

2.2.1数据勘探第一步——“聚”

所谓“聚”,就是将待勘探的全体数据按照某种原则归类。归类标准不同,最终得到的类也不同。本研究依据数据与交易主体之间的从属关系,将全体数据归为两大类:一类是与网店(卖家)相关的数据;一类是与消费者相关的数据。商品作为交易的客体,由卖家提供,卖家可通过直接的生产活动或间接的备货活动调节和控制其商品构成,商品在某种程度上可看作是卖家的备货,故将与商品相关的数据归于与网店相关的数据类中。其他由交易派生出的数据,如物流数据、订单数据,可依据数据所属的倾向性,将其相应地归为与卖家或消费者相关的数据类中。例如:网店提供的物流选择是关于卖家服务的描述,可将这类数据归于与卖家相关的数据类中;而消费者的物流选择描述的是消费者的物流偏好,可将这类数据归于与消费者相关的数据类中。

数据勘探的第一步“聚”,实现了对数据的总体细化,下一步,是对这两类数据的具体维度划分,即数据勘探过程中的“分”。

2.2.2数据勘探第二步——“分”

所谓“分”,是指将“聚”的过程中得到的数据类,划分到更细小的维度层面。本研究中以特征描述总体,以维度描述特征。

根据交易流程,卖家的行为主要包括备货行为、营销行为、支付方式提供的行为(以下简称支付方式行为)和售前/售后服务行为,下文简称网店的SMPS行为,并以网店的SMPS行为特征描述网店总体。网络环境下的消费者研究以消费者心理和消费者行为为核心领域[3],在实际的电子商务运营中,网店利用推荐系统,通过挖掘消费者偏好和消费者习惯为消费者提供恰当的商品或服务[4]。因此,网店数据勘探与挖掘研究的理论归宿,应集中于消费者行为、心理、习惯和偏好领域,下文简称消费者BPHP研究。具体的维度划分如下:

2.2.2.1网店SMPS行为特征的维度选取

(1)网店备货行为特征备货是为了满足目标顾客的需求,从一个或几个供应商处分别把一些同质异种的商品集中起来。除了商品的种类外,还包括不同的品牌、价格、规格以及数量[5]。本研究中网店备货行为主要描述商品构成特征,包括商品的①价格,②种类,③多样性、性能及功用,④质量。

其中,种类有其电子商务环境下的独特含义。不同于广义概念上的商品基本种类划分,电子商务环境下的种类是网店人为制定的、依照网店独特的划分规则对商品的内部归类,通常作为网店后台数据库中的字段而存在。每个网店对种类的归类方法不尽相同,但其归类目的都是为了统计商品状况。本研究将种类作为数据库中的字段进行分析。多样性描述的是商品属性的取值范围,如价位、种类、尺码、颜色、形状、口味、材质、产地等商品属性的取值范围。

(2)网店营销行为特征网店最常见的营销行为是价格策略和促销策略。移动互联技术的发展和智能终端的全面普及,使电子商务的主战场从PC端转移到移动端*中国互联网中心《第34次中国互联网络发展统计报告》显示,截至2014年6月,我国网民上网设备中,手机使用率达83.4%,首次超越传统PC整体80.9%的使用率,手机成为第一大上网终端。,有的网店还开设了线下体验店(如韩都衣舍开设线下体验店)。因此,本研究将渠道策略作为网店营销行为特征的一个维度。网店的营销行为特征主要有①价格策略,②促销策略,③渠道策略。

网店的价格策略主要体现在商品价格的表达方式上,而非传统意义的定价策略。框架效应[6]认为,如果内容相同的信息以不同的表述方式呈现给决策者,决策者可能会对相同的决策状况形成完全不同的理解。因此,网店将不同的价格表现方式作为一种营销手段。主要有以下几种方式:原价与现价在绝对数值上的对比,如:原价198元,现价168元;相对价格,如:168元(8.5折);套餐价格,如:护肤品洗护套装238元,低于分别购买的总计价格268元。

网店促销策略的独特性主要体现在促销方式和促销平台两方面。网店促销方式可分为捆绑式促销和宣传性促销。捆绑式促销通过有代价地向消费者提供优惠,将促销与商品购买相捆绑,意在发展直接客户。如:打折销售、满减满赠、优惠券、满包邮等;宣传性促销不与直接的商品购买挂钩,为宣传产品或品牌而向消费者提供优惠,意在发展潜在客户。如:免费邮寄商品小样、免费提供试用装、包邮试吃等。网店的促销平台包括网络运营平台和媒体推广平台两种。

网店渠道策略主要描述电子商务环境下网店销售产品的渠道,包括PC端销售、移动终端APP销售和线下实体店销售。

(3)网店支付方式提供行为特征主要描述网店支持的支付手段,包括在线支付、货到付款、积分支付和分期付款。这一特征体现的是网店为消费者提供的多样化便捷服务。

(4)网店售前/售后服务行为特征网店售前承诺包括关于商品质量、物流服务、售后服务以及纠纷的处理等承诺;售后服务包括对商品的持续性后续服务,如保修期限、退换货、退款、纠纷处理等。售前承诺与售后服务是影响消费者满意度、消费者忠诚的重要因素,是顾客关系管理的重要内容。

2.2.2.2消费者人群特征的维度选取

分析消费者人群特征是消费者BPHP研究的前提。本研究将消费者人群特征划分为:①自然属性,②兴趣、爱好、品味,③上网习惯,④生活习惯,⑤购买特征。

(1)自然属性本研究将性别、年龄、地域、受教育程度、收入水平、职业、婚姻状况等人口统计特征命名为消费者的自然属性,描述的是消费者固定的或相对稳定的属性。

(2)兴趣、爱好、品味这一特征是消费者受后天环境影响,逐渐形成的、对事物较为固定的态度,能够影响消费者对商品及网店行为的评价。移动互联时代消费者行为带有社交性,拥有共同兴趣、爱好、品位的消费者在自发形成的社交网络中,相互交流商品信息、商品体验及商品评价。

(3)上网习惯该特征描述的是消费者在使用网络过程中形成的较为固定的行为模式,包括上网时间段、上网时长、上网频次、登陆习惯、浏览习惯等。

(4)生活习惯这一特征描述的是消费者在生活中形成的较为固定的带有某种规律的生活模式,例如定期旅行、定期健身、定期体检、定期理发等。

(5)购买特征购买特征描述的是消费者在购买过程中形成的,较为规律的行为特点,包括购买数量、购买金额、购买方式(自助购买或者与卖家沟通后购买)、支付方式、物流选择等与购买过程相关的行为表现。

2.2.2.3消费者BPHP研究

消费者BPHP研究即关于消费者消费行为、心理、习惯和偏好的研究,这四者之间存在着内在关联,很难明确地将消费者的某一表现归为BPHP中的某一类。

科特勒[7]从构建消费者行为模型的角度分析,认为营销刺激和其他环境刺激经由消费者意识激活消费者心理,消费者心理又与特定的消费者特征相结合,共同决定消费者的购买决策过程和最终的购买决策结果。可见,消费心理与消费行为统一于整个消费过程,二者不可分割,消费心理更倾向描述人的内心活动,消费行为更多地体现为人的外在表现。

消费习惯、消费偏好是消费心理和消费行为共同作用的结果。消费习惯是消费者在消费过程中逐渐形成的、长期的、较为稳定的并具有一定规律性的行为,是消费者较为稳定的消费心理状况在消费行为方面的体现[8]。消费偏好多描述“消费者对产品的喜爱程度”,是消费者的一种心理反应[9]。因此,不能将消费者的BPHP研究完全独立分析,可根据分析目的和消费者表现的倾向性具体问题具体分析。本研究对消费者的BPHP分析研究做出如下界定:

(1)消费者行为本研究中的消费者行为侧重研究消费者购买决策阶段的行为表现,包括产品选择、品牌选择、经销商选择、购买数量、购买时间、付款方法等方面的行为以及购后行为。其他方面的行为表现,如问题认识(即消费者需求)、信息收集、可供选择方案的评价等,可视消费者的具体表现,将其划分到相应的BPHP研究范畴。

(2)消费者心理本研究根据消费者心理学杂志(《Journal of Consumer Psychology》)关于消费者心理研究的界定及网店运营的实际情况,将消费者在信息搜集、购买商品等阶段涉及的心理活动,以及影响消费者心理变化的因素(如网店的营销刺激等)归为消费者心理研究范畴。某些消费行为,反映了具体的消费者心理变化过程,如消费者多次取消订单并重新下订单,可根据具体的研究情境,将其归于消费者心理研究。

(3)消费者偏好有研究表明,消费者偏好是内生、变化的,会受到购物经验、人格特性、市场环境等因素的影响[10],在电子商务环境下,消费者偏好随着交易情境的改变具有权变的性质[11]。因此,本研究中的消费者偏好是一个变动的过程,描述的是消费者面临多种选择时,根据某种排序规则做出的选择。另外,本研究中的消费者偏好分为显性偏好和隐性偏好[4]。其中,显性偏好可直接获得,如物流选择偏好、套餐选择偏好等;隐性偏好需要通过挖掘消费者的网店交易行为进一步明确其真实偏好,不能直接获得,如基于消费者浏览行为、上网轨迹、历史记录等挖掘消费者真实偏好。

(4)消费者习惯按照消费者习惯的指向性,通常将消费习惯细分为对特定商品品牌的消费习惯、对特定商品类型的消费习惯、对特定商品风格的消费习惯、对商品特定属性的消费习惯、购买商品时表现的习惯性行为以及商品使用过程中表现的习惯[8]。本研究关注网店行为对消费者BPHP研究的影响,不考虑品牌效应;另外,消费者对特定商品类型、商品风格、商品特定属性的消费习惯更符合本研究中关于消费者偏好的描述。因此,本研究中的消费者习惯侧重于消费者购买商品时表现出的习惯性行为和商品使用过程中的习惯,如习惯的购买时机、购买数量、购买总金额、购买方式等。

根据以上的维度选取,在数据勘探“聚”的过程中得到的数据类被具体划分到维度层,下一步即是对这些维度层面的数据以特定的语法规则构造成有意义的挖掘语句,即数据勘探过程中的“组”。

2.2.3营销数据勘探过程第三步——“组”

所谓“组”,就是将数据勘探“分”的过程中得到的维度以特定语法规则组合成有意义的语句。本研究中用于组合维度的语法规则为PVP语法结构。

PVP语法结构,即“前件(the pre-)+谓词(verb)+后件(the post-)”结构,其中前件和后件与传统的理解有所差异。在逻辑学范畴,前件和后件用于假言判断命题,规定条件的判断叫做“前件”,以前件为条件的判断叫做“后件”,二者之间存在着因果联系或类似因果关系的联系。在数据结构中,二者描述的是数据元素之间“前驱”和“后继”的逻辑关系。本语法规则中的前件和后件没有强烈的“因”与“果”、“前驱”和“后继”的逻辑关系,只是挖掘语句中“前面的表述”(the pre-)和“后面的表述”(the post-),在逻辑上二者可以互换位置。PVP语法结构中的谓词,来自对数据字段的抽象提炼。一般能够表明某种状态或某种动作的字段可抽象成谓词,如“白领女性的订单创建时间多为20:30之后”,可抽象出谓词“创建订单”。PVP语法结构中的前件和后件可以选自不同“聚”类中的维度,此时多用于描述消费者对网店行为的反应;也可以选自相同“聚”类中的维度,此时多用于描述消费者行为(或网店行为)的组合特征。

挖掘语句的组合过程有两种方式,一种方式可称作“事先遴选”,即根据电商的实际需要,在构建挖掘语句之前选择电商感兴趣的某些维度,然后利用计算机对这些维度进行PVP语法组合,从而分析出数据挖掘方向。这种“事先遴选”的组合方式要求电商有一定的前件、后件、谓词指向(或数据挖掘指向),这种指向可以是明确的挖掘目标(如,电商想挖掘某几个数据之间的关系),也可以是模糊的挖掘倾向(如,电商想知道某些或某类数据之间的内在相关性)。传统的数据挖掘过程类似“事先遴选”的组合方式,数据分析人员多依据经验引导电商向可能的数据挖掘目标靠拢,最终确定挖掘方向。这种经验性判断存在遗漏挖掘方向的风险,不同技术人员的主观能动性和不同的从业经验,会带来不同的组合结果。经过数据勘探的“事先遴选”组合能更全面的覆盖可能的挖掘目标,降低遗漏风险。

另一种组合方式可称作“事后选择”,即先将电商的数据按照“聚”、“分”的勘探过程划分为细小的维度;然后,利用计算机技术依照PVP语法规则进行维度组合,得到所有可能的数据挖掘路径;最后,电商根据实际需要在所有路径中进行挖掘方向的抉择。电商对挖掘方向的选择,可参考以下两个原则:“谓词优先”原则和“前件(后件)优先”原则。谓词由表示某种状态或某种动作的字段抽象而成,如果电商想探求某种经营状态的形成原因或某种电商行为的后续结果,则可以根据相应的谓词选择优先挖掘的语句;前件和后件是描述消费者特征或电商行为特征的维度,如果电商想进行市场细分、目标市场选择、市场定位和营销组合策略决策等,则可以根据相应的前件、后件选择优先挖掘的语句。

通过“聚”、“分”、“组”的勘探过程,能够积累形成关于前件、谓词、后件以及消费者BPHP研究的数据库,即“数据勘探中心”。当网店的数据存储符合某种形式的前件、谓词、后件结构时,网店就能通过“数据勘探中心”,找到对应的消费者BPHP研究领域,便可明确其数据利用的方向。当网店有明确的关于消费者BPHP研究需求时,也可通过“数据勘探中心”回溯所需要的数据,进而有目的地存储数据。以下用网店的数据来检验所构建的数据勘探路径。

3 网店数据勘探路径的实证检验

以网店ZMT2014年6月5日~8月30日的销售数据为分析对象,进行数据勘探路径的检验。ZMT是一家以经营保健品为主兼营保健护理化妆品的企业。ZMT希望通过数据挖掘得到一些有价值的信息,但对信息价值的预期并不明确。换言之,ZMT没有明确的数据挖掘目标。在这种情况下,数据勘探便显得尤为重要了。ZMT的数据勘探与挖掘过程分为数据准备、数据勘探和数据挖掘3个阶段。

3.1数据准备

这一阶段的主要工作是剔除无用的数据,以提高数据挖掘的准确性和效率。包括数据筛选、数据净化和数据缩减。ZMT提供的销售数据共计28 491条,包含“订单编号”、“标题”等30个字段(见表2)。

表2 字段统计表

对这些字段分析简化,过程如下:

“订单编号”、“外部系统编号”、“商家编码”、“买家会员名”、“物流单号”、“店铺ID”是身份识别编号,多用于查询功能,不作为数据勘探与挖掘的分析对象,将其排除。

“标题”和“宝贝标题”分属不同数据库,但描述内容一致,二者任选其一,在本研究中保留“标题”字段,排除“宝贝标题”字段;买家实际支付金额=总金额=买家应付货款+买家应付邮费,但当订单关闭时,买家实际支付金额为“0”,总金额不变。总金额更能表述消费者的购买消费极限,因此保留“总金额”字段,排除“买家实际支付金额”字段;同时排除“买家应付货款”字段,以“总金额”字段和“买家应付邮费”字段代表;“运送方式”字段的数据值均为“快递”,不具备挖掘价值,故排除。在订单成功的状态下,买家可支付积分与买家实际支付积分完全相等,不存在差异,表明所有买家都选择了以积分代替部分消费金额,不具备挖掘价值,故排除这两个字段。

创建订单时间与订单付款时间存在一个时间间隔,对这两个字段计算,得到一个新的“付款时间间隔”字段。

至此,用于ZMT数据勘探与挖掘研究的数据由19个字段构成,包括原30字段中的18个字段以及“付款时间间隔”字段(见表3)。

数据准备完毕后,运用本研究构建的“语句构造”数据勘探路径对ZMT数据做挖掘前的数据勘探。

表3 最终字段统计表

3.2数据勘探

3.2.1数据勘探过程

根据“聚”、“分”、“组”的数据勘探路径,本研究对ZMT的数据进行了数据勘探(见表4)。现对某些特殊字段的维度划分做进一步说明:

表4 ZMT数据勘探过程

“标题”字段的数据描述两部分内容,包括促销信息和商品信息,如:“买1送3,热销45万瓶,ZMT胶原蛋白粉,鱼胶原蛋白正品,咨询有礼”。因此将其划分为备货和营销两个维度;

“订单备注”字段是根据消费者留言、备注以及售后服务结果(如退款)对订单的总结性概括,该字段的数据更多的描述了网店对消费者的售前售后服务行为,因此将该字段数据划分为网店的售前/售后服务维度;

“备注”和“买家留言”字段的数据反映的是消费者的服务要求,倾向于描述消费者购买特征,故将其划分到消费者购买特征维度;

“订单状态”描述的是消费者对购买行为的某种反馈,是对最终交易结果的刻画。网店最为关注交易结果,因此将其划分为与网店相关的数据类中,并以谓词的方式构造挖掘语句。

“订单关闭原因”字段实质上描述的是网店对消费者反馈的反应,属于网店的售后服务,故将其划分到售前/售后_售后维度。

3.2.2数据勘探结果

数据勘探结果从不同“聚”类间和同一“聚”类内的维度组合两个方面进行描述。

“聚”类间的组合路径所得到的挖掘语句,前件和后件的维度分别来自与网店相关的数据集和与消费者相关的数据集,谓词为订单状态,最终形成的挖掘语句归于消费者BPHP分析(见表5)。与传统数理统计注重变量间的因果关系相比,大数据分析更侧重由大数据计算得到的相关关系,只要某种关系得到了大数据的支持验证,即可为实践所应用,不必细究背后的因果逻辑。“聚”类间的组合路径旨在发现前件后件间的关系,适合关联分析的挖掘方法。

表5 “聚”间组合路径

“聚”类内的组合路径所得到的挖掘语句,其前件和后件均来自同一个“聚”类。前件和后件均是消费者特征的维度,意在帮助网店识别细分消费群体。谓词由字段“订单关闭原因”或“创建订单时间”“订单付款时间”“付款时间间隔”等抽象而来,最终形成的挖掘语句为网店的行为决策提供支持(见表6)。“聚”内组合研究的是消费者特征维度之间的相关关系,同样适合关联分析的挖掘方法。

表6 “聚”内组合路径

“聚”类内与“聚”类间组合路径的语句构造原理相同。但需注意,由于前件、后件、谓词是源于同一“聚”类的维度,因此,一个维度不能同时出现在前件、后件、谓词的维度组合中。

3.3数据挖掘

经过与电商ZMT沟通发现,当前ZMT最关心的是消费者的“下单”能否最终成功转换为网店的“订单”。本研究根据“事后选择”的PVP组合方法,以“谓词优先”为原则,选择最终的挖掘语句。经过对所构造挖掘语句的甄别,选取“消费者购买总金额、宝贝总数量、付款时间间隔可能影响最终的购买结果”这一语句为例,做数据挖掘实证分析。该挖掘语句的构成规则为“总金额/宝贝总数量/付款时间间隔/订单状态”,意在挖掘消费者的购买特征与最终交易结果之间的关联关系。下面以Clementine软件为数据挖掘平台,应用Apriori算法构建关联模型,对上述语句进行挖掘实验。

3.3.1数据处理

为了挖掘总金额、宝贝数量、付款时间间隔和订单状态4个字段之间的关联关系,首先需要对待挖掘的数据做预处理,剔除异常数据。

通过数据筛选发现,当网店开展“会员活动、补差价、补运费”的活动时,商品价格为“1”;当网店开展“试用中心免费试用”活动时,总金额为“0”,这两种情况都属于交易中的特例,在研究变量间的普遍关系时,应剔除特例的影响,故删除总金额为“0”和商品单价为“1”的数据。

3.3.2数据转换

将原始数据转换为可供数据挖掘软件识别的数据类型。即将字符型数据转换为逻辑型数据,用T代表“交易成功”的订单状态,用F代表“交易关闭”的订单状态;将数值型的数据根据一定的规则分组;将时间型数据先转换为数值型数据,再按照数值型数据进行处理。详细的转换规则见表7。

表7 数据转换规则

每一字段的转换规则具体如下:

筛选“总金额”字段数据发现,其取值范围为(0,19600],但数值集中在(0,300]的范围内,以100为单位试分组,发现落在(0,100]范围内的数据个数约为(0,300]区间数据总数的一半,因此在(0,300]范围内将总金额数值分为两个区间(0,100]和(100,300];在(300,500]区间段,保持与(100,300]区间相同的划分单位,剩余的数值区间作为最后一组。

“宝贝总数量”字段的分组方法与“总金额”字段的分组方法相同。需要特别强调的是,由于购买数量不能为空,所以该字段的值至少为1,试探性的以1作为组内距离单位,因此,第一组的区间范围是[1,2]。

“付款时间间隔”字段分组中,(0,1]表示一分钟之内付款;以15分钟和30分钟作为分界点,源于淘宝与天猫商城在实际运营中关于限时抢购活动的付款间隔限制,这两个数值已经过了实践的检验;剩余数值作为最后一个分组区间。

“订单状态”字段的数据类型是字符型,将其转换为逻辑型数值,用T代表“交易成功”的订单状态,用F代表“交易关闭”的订单状态。

3.3.3数据挖掘结果

在Clementine的操作平台上应用Apriori算法构建关联分析模型。为了发现消费者购买特征对最终交易结果的影响,建模时将“订单状态”作为输出项,将“总金额”、“宝贝数量”和“付款时间间隔”作为输入项。为了挖掘出消费者购买特征与最终购买行为之间较强的关联关系,将最低条件支持度设为30%,最小规则置信度设为90%。得到的最终挖掘结果见表8。

表8 数据挖掘结果

3.3.4数据挖掘结果分析

分析表8中的数据挖掘结果,可以得到以下结论:

与消费总额在100元之内的订单相比,消费总金额在100~300元间的订单更容易交易成功(第1、5条);

在15分钟之内付款的订单,其交易成功的可能性大于1分钟之内付款的订单(第2、9条);

宝贝数量为3~5个的订单比2个之内的更容易交易成功(第3、10条);

宝贝数量为3~5个,并在15分钟之内付款的订单,其交易成功的可能性大于宝贝数量在2个之内且付款时间间隔少于1分钟的订单(第4、11条);

付款时间间隔为1~15分钟且总金额为100~300 元的订单组合比付款时间间隔为1分钟之内且总金额为 0~100]元的组合相更容易交易成功(第6、12条);

宝贝数量为(2,5]个且总金额为(100,300]元的订单组合比宝贝数量为[1,2]个且总金额为(0,100]元的订单组合更容易交易成功(第7、11条);

总金额为(100,300]元、付款时间间隔为(1,15]分钟且宝贝数量为(2,5]个的订单组合比三者的(0,100]元、(0,1]分钟且[1,2]个的订单组合更容易交易成功(第8、14条)。

在上述挖掘结论中,消费者购买习惯组合的挖掘结论更能体现数据挖掘的价值。单个购买习惯与最终交易状态之间的关联关系,虽然可以通过简单的统计绘图直接得到,但消费者购买习惯的组合与最终交易状态的关联关系,却是传统的数理统计所不能发现的。

从以上挖掘结论中得到的有价值的市场信息是:当消费者的购买总金额在(100,300]范围,付款时间间隔在(1,15]范围,购买数量在(2,5]范围内,或者消费者的购买习惯是这三者的任意自由组合时,消费者最终更倾向于决定购买。根据这一信息,ZMT可采取适当的行为刺激消费者的习惯向以上方向靠拢,特别是对消费习惯组合的刺激,可以更大程度促使交易成功。

通过对ZMT的数据勘探与挖掘的实证检验,可以确认本研究构建的数据勘探路径的可操作性及数据勘探的价值所在。即当企业的数据挖掘需求或大数据利用方向不明确时,数据勘探能够提供多个数据利用方向的选择,经由数据勘探所构造的数据挖掘语句,能够为后续的数据挖掘提供清晰的挖掘目标。

4 研究结论、意义及未来研究方向

4.1研究结论

为了提高营销数据挖掘的有效性,本研究提出了数据勘探的构想,以维度组合的方法,构建了“聚”、“分”、“组”的数据勘探路径,并以网店企业数据的勘探与挖掘对其进行了实证检验,证明了该数据勘探路径的适用性和实践性。

研究结果表明,经由数据勘探路径所构造的最终语句,能够发现数据资源可能存在的挖掘价值,为后续数据挖掘工作指引挖掘方向和挖掘目标;当网店对大数据“无处下手”时,可尝试用数据勘探的方法分析数据利用的可能方向;网店也可以利用“数据勘探中心”,有意识地存储相关数据、实现自主数据挖掘。总之,数据勘探能使网店数据挖掘工作更具有目标性、效率性。

4.2研究意义

这一研究结果可以推广到网店之外的其他企业,其营销实践意义在于,数据勘探能够为企业的数据挖掘工作提供挖掘方向的参考和借鉴,使企业的数据挖掘活动更有目标和效率。当企业数据挖掘没有明确方向或挖掘目标不明确时,可以利用数据勘探路径明晰数据利用方向,并根据数据勘探路径有目的、有选择地积累所需数据;当企业有明确的数据挖掘目标时,数据勘探有助于帮助企业发现有价值的其他挖掘目标,使企业能够更充分合理地利用大数据资源,避免数据资源的浪费。另外,企业可建立“数据勘探中心”,有目标地进行数据挖掘工作,更有效、更快速、更自主地实现对大数据资源的开发利用。本研究的结论如果能扩展到全数据挖掘领域,将可以为其他行业的数据挖掘方向决策提供理论支持。

本研究的理论意义在于首次提出数据勘探的构想,开拓了数据勘探研究领域,使流通数据挖掘研究从挖掘过程向挖掘之前的环节延伸,从挖掘技术(或技术应用)研究向挖掘决策研究拓展。同时,本研究开发并验证了数据勘探路径的价值并为数据挖掘方向决策探索出一条从经验决策通向科学决策的道路。另外,本研究构建的数据勘探路径的有效性如果能够得到进一步证实,将能提高企业数据挖掘的效率,帮助企业科学制定竞争策略,真正将数据资源转变成能创造新的经济利益的商业资本,进而推动企业营销与大数据的深度融合。

4.3未来研究方向

本研究是对数据勘探的初步探索,数据勘探路径的构建尚不完善,相关的概念界定、维度划分标准有待进一步规范。文中关于数据勘探的研究尚处于理论形成阶段,勘探路径的构建比较粗糙,仅仅是一个理论构想的展现过程,数据勘探路径的理论性、技术性有待进一步优化,下一步的研究方向定位于数据勘探路径的优化研究。数据勘探过程中的“聚”和“分”的过程,其实质是数据挖掘中的分类问题,如何通过技术手段使 “聚”、“分”过程中的分类问题更具科学性,更少受到人的主观思维影响,是下一步数据勘探路径优化研究的重点,目的是使路径更精确、科学和有效。数据勘探路径优化研究是一个持续的过程,需要在不断的实践检验中发现、提出和解决问题。下一阶段的研究目标是至少找出一种优化数据勘探路径的方法,使前一阶段构建的数据勘探路径相对更优。在优化数据勘探路径的研究阶段,计划通过专家咨询和小组讨论发现路径中存在的问题,并拟借鉴人工智能领域的遗传算法、粒子群算法等技术手段解决该问题,达到优化数据勘探路径的目的。另外,如何在所构建的语句中快速识别出传统数据挖掘所不能发现的、更有意义、更具价值的挖掘方向,是数据勘探能否快捷有效的关键,这也是未来营销数据勘探研究的重点。

鸣谢本研究得到浙江工商大学现代商贸研究中心和浙江省2011协同创新中心——现代商贸流通体系建设协同创新中心的项目(15SMGK15YB)资助,特此致谢。

[1] 张玉,郭会雨,陈建青. 我国数据挖掘研究现状分析——基于共词分析视角[J].情报科学,2011,29(10):1589~1593

[2] WU X D, ZHU X Q,WU G Q, et al. Data Mining with Big Data [J].IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97~107

[3] 戴丽娜. 改革开放以来中国消费者研究探析[J]. 社会学,2012(4):40~50

[4] 刘枚莲,刘同存,吴伟平. 基于网络消费者偏好预测的推荐算法研究[J]. 图书情报工作,2012,56(4):120~125

[5] 吴小丁. 商品流通论[M]. 北京:科学出版社,2015:10

[6] KÜHBERGER A. The Framing of Decisions: A New Look at Old problems: Organizational Behavior and Human Decision Processes [J]. Organizational Behavior and Human Decision Processes, 1995,62(2):230~240

[7] 科特勒 F. 营销管理[M]. 汪涛,译. 北京:中国人民大出版社,2012:71,73

[8] 罗子明. 消费心理学[M]. 北京:清华大学出版社,2002:144,145~146

[9] CARPENTER G S, NAKAMOTO K. Consumer Preference Formation and Pioneering Advantage [J].Journal of Marketing Research, 1989,26(3):285~298

[10] KWON K, CHO J, PARK Y. Influences of Customer Preference Development on the Effectiveness of Recommendation Strategies [J]. Electronic Commerce Research and Application,2005,8(5): 263~275

[11] 崔艳武,苏秦,李钊. 基于电子商务环境的顾客消费偏好研究[J]. 软科学,2007,12(6):19~23

(编辑刘继宁)

A Research on Building the Path of Data Exploration in Marketing

FAN MiaomiaoLU YingWU Xiaoding

(Jilin University, Changchun, China)

The present research proposes the idea of data exploration and builds a path composed of the stages of “gathering”, “separating” and “grouping” for the data exploration of online stores. By using the method of PVP, we construct the meaningful data mining statements with dimension combination to get meaningful data mining statements, among which the valuable statements might be the future direction of data mining. We verify the rationality of the theoretical system on the data exploration path through exploring and mining the data from online stores. The results shows that the data exploration path constructed in the research can improve the efficiency of data mining in marketing and the decision making level in data mining direction.

marketing big data; data exploration; data mining; decision-making for data mining direction

2016-03-07

教育部人文社科重点研究基地资助项目(15SMGK15YB)

C93

A

1672-884X(2016)09-1400-10

吴小丁(1954~),女,满族,吉林省吉林市人。吉林大学(长春市130012)商学院教授、博士研究生导师,博士。研究方向为零售管理,商品流通等,E-mail:xiaoding_wu@126.com

DOI编码: 10.3969/j.issn.1672-884x.2016.09.016

猜你喜欢
网店语句数据挖掘
农产品网店遭“打假”敲诈 价值19.9元农产品竟被敲诈千元
探讨人工智能与数据挖掘发展趋势
重点:语句衔接
基于并行计算的大数据挖掘在电网中的应用
网店随意买卖 假货“借壳”横行
北村返乡开网店:卖的不只是“乡愁”
一种基于Hadoop的大数据挖掘云服务及应用
如何搞定语句衔接题
高级数据挖掘与应用国际学术会议
作文语句实录