施滢萍,徐晓敏
(北京信息科技大学 信息管理学院,北 京 100192)
目前,我国快递业已进入发展快车道,不论是业务规模还是服务范围都在不断扩大。截至2017年底,我国快递总量突破400亿件,已连续4年保持全球第一[1]。《国务院关于促进快递业发展的若干意见》预估到2020年我国快递业务总量将达到500亿件。然而,快递行业在为民众生活提供便利的同时,在发展过程中也暴露出一些问题,如快件丢失、货物先签后验、货物损坏、快件延误、快递公司无法保证送货上门等物流服务问题[2],影响着快递物流行业的健康发展。
针对目前快递行业存在的问题,许多专家学者从不同角度提出了一些研究分析方法。针对物流服务现状,陈碎雷[3]利用因子分析法对物流服务问题进行了相应研究,提出了解决对策;兰莉等[4]建立了带时间窗的整数规划模型来优化物流服务的配送时间;唐秀丽等[5]提出采用“AHP+模糊综合评价”的方法,对快递众包模式进行可行性分析来提高快递配送效率。但针对电子商务发展的特点,以用户在线反馈评论信息出发对物流服务进行评价分析无疑更加具有客观性和真实性,目前基于在线评论文本的情感倾向性分析的准确率最高达到90%以上。利用不同的情感分析方法对文本形式的交互资源进行情感分析研究,探索其背后的实用价值是自然语言处理的一大热点。情感分析法主要是对各种新闻资源、社交媒体评论、网络购物在线评论等富有感情色彩的主观性文本进行提取、分析、处理、归纳及推理。本文采用情感分析方法对用户在线评论数据中物流信息进行研究和分析,从中挖掘用户对物流服务的需求,分析用户对快递物流服务的满意程度,是解决目前快递服务问题的一种有效研究方法。
常用的情感分析方法有基于词典、基于统计、基于语义规则、机器学习方法等。陈国兰[6]利用开源情感词典和文本特点来构建情感词典,对文本进行语义规则分析,进而提出情感计算方法;卢兴[7]使用支持向量机和卷积神经网络作为分类器,设计了基于统计的情感分析方法;杨佳能等[8-9]通过对文本进行依存句法分析,构建模糊情感本体、情感表达式树对文本进行情感分析;沈磊[10]将基于规则与机器学习方法相结合来对中文文本进行情感分析;张成功等[11]提出了一种通过构建极性词典的方法来进行情感分析。目前情感分析的研究大多借助文本分类器等机器学习的方法,还没有根据文本自身的特点形成一套独立的研究方法及标准。情感词典是情感分析的基础,基于情感词典的方法重点分析文本中出现的情感词及关联词附近的修饰词来表达句子的情感倾向。当句子结构复杂且无情感词出现,但有明显情感倾向时,基于词典的方法将无法实现分析目的。基于统计的方法主要利用文本中相邻字与字出现的概率来反应词的可信度,但语法之间的互相关联性需要深度解析文本来获取。基于规则的方法主要利用句法信息和语义信息对文本进行分词自动推理,来补充语义相近的词进而判断词语的情感倾向。基于监督学习的机器学习法需要大量带标注的语料样本库,非常费时费力;相反无监督学习方法在实现上较为简单。机器学习法中基于监督学习情感分析的研究已经很成熟,而在实际文本中测试集的数量远远多于训练集的数量,测试集的文本领域也不像在监督学习中要被限制成和训练集一样。也就是说目前情感分析所应用的归纳偏置假设和实际文本不相一致。为了使分析结果与实际相符合,基于无监督学习的情感分析法是将来的研究方向之一。
本文采用结合关键词识别和无监督学习的情感分析方法,利用它们的优势结合来弥补其他方法的局限和不足。主要基于关键词识别是一种近似匹配技术,该方法最大的优点是允许输入的句子不一定要遵循规范的语法考虑。同时,借助机器学习中的无监督学习方法,设定一些已知极性的关键词,根据新词与关键词之间的紧密联系程度,对新词进行情感极性判断,来提高情感分析的精确度,而不需要大量的语料文本库。本文情感分析法应用于用户对于整个快递物流服务的满意度分析,分为4个模块:数据获取、数据处理、数据分析、数据分析结果。快递物流服务情感分析法框架如图1所示。
图1 快递物流服务情感分析法框架
主要研究框架为:
1)数据获取。采用网络爬虫软件八爪鱼对在线评论数据进行抓取;
2)数据处理。对评论数据进行数据清洗,利用波森分词软件对数据进行中文分词及词性标注、关键词提取,根据情感词汇文体库和语义联想等选取关键词及其同义词归类;
3)数据分析。根据关键词及其同义词来提取物流服务要素,定位情感词短语的取值范围,对取值范围内的程度副词进行情感强度划分,对情感词进行极性归类及赋值;
4)数据分析结果。通过计算得出每一条评论数据对应的物流服务要素情感得分,最后综合得出整体情感得分。
采用八爪鱼对购物平台下的在线评论数据进行抓取,抽取字段选取为用户名、评论正文、商品类型、评论时间,抓取结果如表1(部分)所示。抓取数据中有多个用户共同使用一个用户名的情况,也有一个用户名在不同时期进行评论的记录。因此,在抓取每一条评论数据时产生的序号作为数据表的主键,避免出现后续数据清洗时可能因为同一用户名而将数据删除的情况。
表1 评论数据表(部分)
2.2.1 数据清洗
将抓取的数据导入SQL Server数据库中,编写SQL语句去除缺失值、重复数据,如用户名、评论正文、商品类型和时间等字段内容都重复,或者某一个字段有缺失的数据。同时,针对快递物流研究对象,利用SQL中Like语句来筛选出包含“物流”、“送货”、“快递”、“服务”、“包装”、“态度”、“完整”、“给力”、“完好”、“发货”、“收到”等词语的评论数据,从而获得跟物流服务相关的评论数据,加快后续进行分析的速度,减少工作量。
2.2.2 数据标注与提取
数据标注与提取主要是对评论数据进行中文分词及词性标注、关键词提取。常用的分词系统有语言云、NiuTrans机器翻译系统、NLPIR分词系统、波森BosonNLP、结巴分词、SCWS分词系统、盘古分词等。葛达明[12]通过比较使用多种分词系统对评论样本进行分词测试时发现,波森分词系统对于未登录词、新词有较好的分词效果,能结合上下文识别生词,自动消除歧义,词性切分速度快,正确率较高。因此,本文采用波森系统对评论数据进行分词、词性标注。以表1中序号90的部分评论数据为例,分词及词性标注结果如图2所示。
图2 分词及词性标注
关键词提取是分析用户评论数据中是否具有快递物流服务要素情感倾向的前提,其全面性和准确性非常重要。利用波森系统对评论数据进行关键词提取,其关键词提取引擎可对样本数据自动进行关键词分析,计算出每个词语相应的权重。以表1中序号90的评论数据为例,提取的关键词有:“下单”、“速度”、“满意”、“收到”、“宝贝”等。由于通过初步筛选得到的评论数据其准确性不是很高,所以提取的关键词不仅包含了和快递物流服务相关的,可能还存在着跟其他因素(产品名称、质量等)相关的关键词。
因此,需要通过人工定义关键词主观性特征的方式来选取系统提取的关键词。在此,选取跟物流服务相关且权重排名靠前的关键词,它是物流服务要素形成的主要依据。在本例提取的关键词中,选取“速度”作为本条数据的关键词。
2.2.3 同义词归类
主要是对选取的关键词进行同义词归类。对每一条评论数据提取关键词时,有些数据中提取的关键词不能明确指定使用几项关键词中的哪一项,因此,不能忽略评论数据中关键词的同义词所存在的意义。本文以大连理工大学整理的情感词汇文体库中的词性种类和波森分词系统中语义联想功能为基础,设定关键词同义词表(如表2),当提取的关键词不能明确指定时,对它进行同义词归类来提高评论数据中关键词匹配的效率,保证了关键词提取的准确性。
表2 关键词同义词表(部分)
2.3.1 形成物流服务要素
想要知道用户对不同物流服务要素的满意度如何,首先需要根据评论数据形成物流服务要素。从与物流服务相关的关键词:“物流”、“配送”、“快递员”、“送货”、“快递”、“服务”、“包装”、“态度”、“完整”等可以看出它们对应在线评论数据中用户最为关注的物流服务要素,根据关键词来判断用户对于快递物流服务要素的情感倾向,具有一定的可靠性。如“快递”、“服务”、“态度”的结合,表达的是用户对快递员(客服)服务态度的满意度。本文结合服务行业SERVQUAL模型的指标因素和提取的物流服务关键词,整理得到快递物流服务要素14项:物流配送系统的完善程度;快递公司的派送范围;快递公司的价格标准;快递员取(送)件的速度;快件派送速度;快递员的服务态度;快递员的操作规范性;客服的服务态度;客服可得性;快件包装的完好程度;配送地址的准确性;消费者的信息安全性;快递公司的承诺完成度;派件的突发处理能力。
针对评论数据中意思表达较为模糊的语句,例如“物流给力”、“快递速度给力”等,不能很明确地指明特定的物流服务要素,将类似这样的表述理解为用户对快递物流整个运作过程的评价。即“物流给力”表示的是用户对快递员取(送)件的速度,快件派送速度,快递员服务态度等的满意度。因此,在提取评论数据中的物流服务要素时,需要对类似上述的评论信息进行补充、修改。
2.3.2 定位情感词短语
利用提取的物流服务要素对评论内容进行情感极性判别和情感强度计算,以此来表达用户对物流服务的满意度,这样的计算可归结于对评论词语的情感极性判别和情感强度计算。那么,定位出用户表达物流服务要素情感倾向的情感词短语的范围,将会加快评论词语情感极性判别和情感强度计算的速度,节约时间成本。本文采用无监督学习方法和句法依存关系定位情感词短语的范围。情感词短语一般由副词和形容词(动词)组成,情感强度用副词强度来表示,情感极性判别依据形容词或动词的极性。关键词的词性多为名词,以关键词位置为基准,在关键词附近创建[-a,a]字符区间作为情感词短语定位区间。以表1中序号90的评论数据“宝贝收到了,速度非常满意,昨晚下单的今天中午就到了。”为例,其关键词为“速度”,情感词短语的取值范围为“非常/adv满意/v”。提取的物流服务要素是:快递员取(送)件的速度、快件派送速度、物流配送系统的完善程度。
2.3.3 情感强度分析及赋值
情感强度一般通过程度副词来体现。如上例中情感词短语的范围“非常满意”,其中“非常”作为程度副词,对后面“满意”的情感极性强度起到了加强的作用。程度副词与其修饰的情感词组成的情感词短语,其情感倾向程度往往会比情感词本身有所加强或削弱。评论词语的情感极性判别及其强度计算需要借助情感词表,在此使用的程度副词表主要来源于HowNet整理的程度级别词词典,参照对程度副词划分规则的研究[13-14],依据不同程度副词对情感词强度的影响将它划为5个强度量级,如表3所示,通过不同分值的强度量级赋值比较,发现赋值为[2,6]分值使结果的区分度较高,如果没有出现程度副词则默认为1分。否定词的出现会使情感词短语的情感倾向发生翻转,是情感倾向分析不可缺少的因素。如“速度非常不满意”中的否定词“不”对情感词“满意”的情感倾向由正向情感翻转为负向情感。由于否定词不需要进行程度划分,因此给否定词赋值为-1分。
对于情感词的极性判别,借助学生褒贬义词典的整理,将情感词划分为积极情感词和消极情感词。其中,将“满意”、“高兴”等归类为积极情感词,“不爽”、“垃圾”等归类为消极情感词。情感词极性可用具体的数值来表示,程度副词的赋值大小对情感表达强度的影响是最明显的,而情感词极性赋值大小对情感表达强度的影响并不明显,因此,对于情感词极性的赋值没有具体要求。在此给积极情感词赋值为5分,消极情感词赋值为-5分。上例中情感词是 “满意”,属于积极情感词,赋值为5分。
表3 程度副词赋值表(部分)
综合上述分析,用户对物流服务要素的满意度可通过情感词短语范围内程度副词和情感词极性的情感得分来体现,情感词短语的情感得分F=A(C)×B,A为情感程度副词得分,B为情感词得分,C为否定词。以表1中序号90的评论数据为例,情感程度副词得分为4分,情感词得分为5分,情感得分为F=20。本例中,关键词为“速度”,由于速度涉及整个物流运作过程,且没有其他情感词短语取值范围,因此,本条数据中提取的3个物流服务要素情感得分均为20,其他没有提取到的物流服务要素情感得分为0分。最后,综合全部在线评论数据中物流服务要素的情感得分均值,作为分析用户对于快递公司物流服务要素满意度的依据。
以某购物平台一款双肩包销售(链接:https://detail.tmall.com/item.htm?spm=a230 r.1.14.22.282f6f737pFR2l&id=41986869647&ns=1&abbucket=6)的在线评论数据为例进行实例验证。通过抓取该店2017年1月至12月的在线评论语料3254条,通过数据清洗,获得跟物流相关的评论数据2407条。采用波森分词系统对评论数据进行分词及词性标注、关键词提取,选取了跟物流服务相关且权重排名靠前的几项关键词进行其同义词归类;随后利用关键词之间表达的物流服务信息得到上述描述的物流服务要素。针对评论数据中提取的物流服务要素,进行情感词短语取值范围的定位,参照表3对情感词短语范围内的程度副词进行强度分析,给情感词进行极性归类并赋值;最后,通过情感词短语的情感得分来体现物流服务要素情感得分,计算得出全部评论数据中物流服务要素的情感得分均值如表4所示。
表4 物流服务要素情感分析结果
将表4情感得分情况作折线图,如图3所示。
图3 物流服务要素情感分析结果折线图
从折线图可明显看出,用户对于物流快递公司的快递价格标准和承诺完成度的满意度较低。可推断这家快递公司对于某些交通运输不方便的地区,可能存在快递价格标准明显高于同行业收费标准的现象,或者即使交通方便也同样存在高于同行业收费标准的现象,以至于用户对快递价格标准的满意度较低。可能存在如送货上门、送达时间比预计时间晚一天等没有按承诺要求完成的现象,导致了用户对于物流承诺完成度要素的满意度相比于其他物流服务要素低。那么,针对为本产品销售服务的这家快递公司,在这2个物流服务要素方面需要采取改善措施,以提高用户对物流服务的满意度,促使销售商继续和它续约,为其销售进行物流配送。若这家快递公司一直没有为用户满意度较低的物流服务要素做出整改措施,影响了销售商的销量,销售商可以选择其他快递公司为其销售进行物流配送服务。
伴随着电子商务的快速发展,网络购物平台下在线评论数据信息量越来越大,以在线评论数据作为数据源进行数据分析和挖掘保证了数据的可靠性与客观性。本文采用关键词识别和无监督学习结合的情感分析法,对在线评论数据中用户关于物流服务的数据进行处理,挖掘出用户关注的物流服务要素,并对评论数据进行赋值计算,得到用户对物流服务要素的满意度结果。从分析结果可以清晰具体地看出快递公司有哪些物流服务要素的优势以及需要改善的要素,同时购物平台销售商也可通过参考物流服务优势作为评价选择物流快递公司的科学依据,来提高用户对物流服务的满意度。因此,将此情感分析法应用于物流服务在线评论数据分析,是解决目前快递行业关于物流服务质量瓶颈的途径之一,对快递业服务发展具有一定的研究价值和现实意义。