崔泽豪 罗养霞 刘卓文 董雨萌
摘要:基于大数据分析指导销售策略,提高经济销售量是网络销售的核心问题之一。论文基于数据分析挖掘情感词,构建词向量矩阵;通过最小平方拟合动态分析产品评级变化趋势;然后通过互信息法构建评级模型,研究市场关注的商品属性及满意度关系;进而确定产品的设计特征与成功和失败的衡量标准,从而找到合适的销售策略。
关键词:在线销售;情感特征词;互信息度量;KNN分析算法
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2020)06-0219-02
0 引言
在线销售蓬勃发展,带来了大量的产品评论,产品评论对潜在顾客具有参考价值,对商家具有商业价值,基于大数据分析经济销售在线评论以促进销售策略。在线评论依附于某种产品存在,针对产品本身以及其具有的属性进行评价,研究采用依存句法分析对评论文本进行长句分割,然后对分割后的评论文本构建词向量,再对单字进行过滤,提取出特征词,进而统计特征词出现的次数;为了方便分析评论文本特征词和评级与时间的关系,将时间划分为片段化,利用最小平方拟合得出指数和线性趋势线,分析在线评论文本特征词与产品评级随着时间动态变化特点和趋势,以此来确定可以作为追踪的数据指标并关注产品声誉的变化;按照文本和评级,采用KNN算法对在线评论文本的产品属性词在每个产品评级下的出现频率进行统计,进而确定产品失败和成功的衡量标准与销量的关系,确定产品销售决策。
1 基于数据挖掘的销售行为分析模型构建
1.1 构建评论句词向量
数据预处理直接影响数据的分析结果,会干扰结果的解释,所以需要进行词性标注预处理,构建评论句词向量[2]。通过获取词频、定义和捕捉情感词、计算每个等级中情感词的频率,计算互信息值,来获取名词、形容词和动词组成评论词向量,其中表示名词,表示形容词,表示动词。
1.2 基于特征词信息熵的特征评级
信息熵来度量特征词分类的稳定性,特征词熵愈小,系统的稳定性愈大。首先,给予每个情感特征的权重计算,再通过训练文本分类,对情感特征词进行评分,计算特征词信息熵,熵值越小,系统的确定性越大,然后对所有情感词进行权重的归一化处理。
1.3 基于互信息的特征项过滤
基于互信息对情感词进行分析,统计每个等级出现的情感词频,并且计算每个词在每一类的互信息值[1],如公式(1)所示。
互信息的特征项过滤,仅保留特征性较高的词,对普遍性较高的词,如分布较均匀、不同类中分布差异不大的词,则过滤掉。
1.4 基于依存句法分析构建属性词-词频模型
对评论句进行依存句法分析,并且将句子按照词性分割。通过匹配句子中词性的不同,寻找句子成分的边界,并添加逗号,完成分割[2]。词性标注能判定句子中每个词的词性,判定该词在剧中所处的成分外,更能体现词与词之间的依存关系,通过联合多个词的句法和词性标注的方式,加入了大量的上下文特征。
实验通过Python程序,在Matplot仿真情感词在不同评级下的互信息值,采用KNN分类算法对文本进行分类,系统在训练集中对待分类文本,找与其最近的个近邻,这个近邻中的大多数属于哪一类别,就把待分类文本归为哪一类。具体步骤如图1所示。
建立了基于依存句法分析构建属性词-词频模型,以此来为后续的基于时间模式的情感词评论文本和评级模型来做基础模型,便于统计和观察基于时间模式下,产品评论和评级的变化趋势,对产品声誉好坏进一步挖掘评定。
2 基于时间模式的情感词评论和评级模型
2.1 基于时间的用户评论行为分析
从两方面进行分析:一是分析在线用户评论行为的时间分布规律,分别以月和年为时长片段,作为统计用户评论行为的基础时间序列;二是将评论的时间间隔作为时间序列,分别计算不同时间序列的用户评论行为规律,并将时间间隔进行阶段划分,分析各个阶段用户评论数据的特征[3]。
2.2 不同评级的趋势线拟合
应用趋势线,即回归分析,应用趋势线拟合数据,预测未来销售情况[4]。将产品评级作为因变量,按时间段(年)作为数据自变量,进行趋势分析[5],如图2所示。
可以看出,不同评级数据变化与年阶段增长数据趋势线拟合。包含情感的评论文本和产品评级有直接紧密的联系,随着评论文本里负面情感词的增加,产品的评级降低,直接影响客户对产品的购买和评价,决定下一步的销售策略因素最大。
3 结语
此模型从从多个角度分析商业行为,注重各个因素之间的关系,运用大量数据进行仿真和模拟,使数据挖掘更具有说服力。不足之处是对噪音数据的处理不够,下一步将引入评论中的否定词、无特殊意义的字母,符号等,结合时效性进行深度分析。
参考文献
[1] 胡云凤.基于主题模型的在线评论分析方法研究[D].西安:西安电子科技大学经济与管理学院,2017.
[2] 石翠.依存句法分析研究综述[J].智能计算机与应用,2016,3(6):47-48.
[3] 安静.基于依存句法分析与序列标注的英文长句机器翻译[J].兰州理工大学学报,2018,44(1):101-102.
[4] 张艳丰.在线用户评论行为时间序列关联特征规律研究[D].吉林:吉林大学管理学院,2018.
[5] 崔永生.在線评论文本挖掘对电商的影响研究[J].中国商贸,2018(33):17-23.