数据挖掘技术应用于淘宝网客户获得、客户细分、客户维系、个性化服务、市场预测等方面。通过基于淘宝网评论数据自动分词的数据挖掘方法,对一款一体机的商品评论数据进行分析,旨在于根据各项相关指标挖掘出有价值的商业信息,基于淘宝用户的评价,发现消费者的消费水平与消费者消费关注度与影响因素是否不,提高经济效益。
1.首先在八爪鱼数据采集页面输入需要采集的淘宝店铺网址https://detail.tmall.com/item.htm?spm=a230r.1.14.200.j4t24A&id=544107804633&ns=1&abbucket=18),在输入网址点击“转到”,采集平台上则会跳转至网址所对应的淘宝界面。
2.在淘宝商品页面中选中“累计评价”,页面弹出内容如图1所示:
图1 执行动作页面
图2 八爪鱼数据采集操作页面
在上述页面中,我们点击“点击这个元素”,再针对刚刚点击的元素进行一定的设置。设置结束点击“保存”之后,页面则会跳转至累计评论界面,所有客户对宝贝的评论都在此展示,将评论页面下滑,在评论下方页码处,选择点击“下一页”,页面弹出窗口中,我们选择“循环点击下一页”选项。点击完“循环点击下一页”之后,我们在设置窗口选择自定义,我们选择“元素文本=下一页”,然后点击“确定”。接着我们在评论区域,随意点击一条客户评论内容,弹出窗口后选择继续添加,然后再选中一条评论内容点击之后,弹出的窗口则会自动搜集呈现该页所有的评论。在弹出窗口中点击“创建列表完成”,在页面跳转图中,我们点击图中的“循环”按钮。点击“循环”后,我们继续在页面随意点击一条客户的评论,在弹出的窗口中选择“抓取该文本”,将点击的评论成为我们需要抓去的数据字段,点击“保存”,运用上述方法我们采集到了某淘宝店铺该商品的235条评论,本次评论数据采集工作就基本完成了。
通过八爪鱼数据采集器采集的评论是没有规则的、随机的。并且格式混乱,在进行数据筛选和数据分析之前我们需要对淘宝评论数据进行预处理。这里我们主要做的处理工作时,对一句一句的淘宝评论分成一个词一个词,采用EXCEL的分词处理技术,编写分词的VB代码,代码函数如图3,参数说明如表1将数据导入EXCEL中,EXCEL自动根据所编代码将词语进行分词。
图3 分词VB代码函数参数
表1 分词VB代码函数参数说明
通过取得的挖掘结果,对数据进行分析,找出联系,发现之间的规律。由于样本容量过大,分析起来需要有一定的难度,所以在本次论文分析实例中,我们着重选取评论中较为有代表性,评论较为鲜明具有特色的20条进行详细的分析研究。图4是分词之后的词语,去除评论中与分析无关的词语,保留能够体现店铺特征的评论词语,例如安装、质量、正品、物流、价格、功能、画面等词语。
图4 淘宝评论分词
分词处理完成之后我们进行词频统计。我们运用EXCEL进行词频统计。编写相应的VB程序,对词频进行统计。统计词语为动词、形容词、名词这三类,将每个店铺评论再进行词语初步属性分类。词语初步属性分类如表2。将这些词语初步分为五类,分别是质量、物流、体验、价格、服务。将词语中的质量、运行、操作、高端、大气、上档次等归类为质量属性,将物流、速度、很快等归类为物流属性,将画面、清晰、流畅、手感等归类为体验属性,将价格、实惠、便宜、值得等归类为价格属性,将服务、态度等归为服务属性。
表2 词语初步分类
经过对我们筛选后的的淘宝评论数据高频词的分类分析,我们发现出五个类别客户类型:
第一种类型是价格物流型,这类消费者会将商品的价格作为他们选择商品的重要因素,并且会将该商品的价格与实体店的价格进行对比,其次会考虑物流,因为电脑属于贵重物品且在物流运输过程中极有可能受到损坏,所以该类型的消费者会将物流作为首要考虑的条件之一;第二种类型是价格质量型,也就是说这类消费者在质量与价格方面的关注度比较强,而在物流体验方面表现为中度关注,对服务方面表现为弱度关注;第三种类型注重体验价格,这类消费者表现为对商品的价格和体验会优先考虑,对质量物流服务这些方面的关注度会稍微弱一点;第四种类型表现为对服务与质量关注较高;第五种类型则是服务体验型,这类消费者在消费过程中,尤其注重卖家的服务水平以及产品本身的体验,而对商品的价格等方面不甚关心。
这五种类型消费者在购买商品时对产品的关注度也存在着明显的差异,这就告诉我们卖家,在面对不同类型以及不同消费层次消费者时,我们所采用的营销策略是有差异的。在本案例中,面对价格质量型的消费者,这类消费者大部分消费层次中等偏下,他们对产品的要求其实就概括为物美价廉,所以卖家在对这种类型消费者进行营销的时候,我们需要从性价比方面着手,他们着重关注于商品的价格,要求价格实惠并且质量不错,而对商品的体验并没有太多的要求;而对于服务体验型的消费者而言,这类消费者的消费能力大多不差,在进行营销的时候就不能采用价格优势来吸引他们,而应该从产品的外观、用户的极致体验等方面来做文章。
(湖南女子学院信息技术系,湖南 长沙 410004)