张聪慧
【摘 要】针对电信客户数据量庞大的特点,采用基于python语言的朴素贝叶斯分类算法,对电信客户的投诉内容进行分类,以便在更短的时间内对客户的投诉意见作出有效的处理,从而提高客户的满意度。
【关键词】贝叶斯分类;多项式模型;高斯模型;伯努利模型
中图分类号: TP23 文献标识码: A 文章编号: 2095-2457(2019)02-0122-002
【Abstract】In view of the huge amount of data of telecom customers, the naive Bayesian classification algorithm based on Python language is adopted to classify the complaints of telecom customers, so as to effectively deal with the complaints of customers in a shorter time, thereby improving customer satisfaction.
【Key words】Bayesian classification; Polynomial model; Gauss model; Bernoulli model
0 引言
樸素贝叶斯(Nave Bayes)是一种简单但是实用性很强的分类模型,其构造基础是贝叶斯理论。朴素贝叶斯模型有较强的特征条件独立假设,被广泛应用于海量文本分类任务。本文首先简述贝叶斯分类算法的原理和常用的三种模型,然后基于Python编程语言和sklearn自带的贝叶斯分类器对电信客户的投诉内容进行分类,计算分类的准确率,并输出投诉内容的分类结果,进而提高客户的满意度。
1 朴素贝叶斯分类算法原理简述
1)朴素贝叶斯分类算法是贝叶斯分类算法的一种,它基于一个实例在给定类别值的条件下各特征属性值间是相互独立的,利用类别的先验概率和样本信息通过贝叶斯公式计算未知文本属于某一类别的后验概率,最大的后验概率即为文本分类的判别结果。
2)朴素贝叶斯分类的原理:
3)朴素贝叶斯分类器是基于朴素贝叶斯理论的分类器,通常有三种实现方式,分别是基于多项式模型实现、基于高斯模型实现和基于伯努利模型实现。其中多项式模型主要用于文本的主题分类,会考虑单词在文档中出现的次数,而伯努利模型不考虑词频,只考虑这个单词有没有出现,假设词是等权重的,主要用于文本情绪分析。
(1)多项式模型
使用多项式模型进行分类,假设N是样本总数,k是总的类别个数,n是特征的维数,NYK是类别为yk的样本的个数,N是类别为yk的样本中第i维特征的值为xi的样本的个数。多项式模型在计算先验概率P和条件概率时P(x|y),会做一些平滑处理,设α是平滑值,则:
(2)高斯模型
高斯模型适用于输入特征是连续值的随机变量的情况,假设每一维特征都服从高斯分布(正态分布)。在高斯模型中,假设:y~Bernoulli(φ)=pφp1-φ
(3)伯努利模型
在伯努利模型中,每个特征的取值是布尔型的,即true和false,或者1和0。以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0。当特征值为1时,条件概率的计算公式为:
2 程序设计
2.1 文本分类步骤包括
(1)文本预处理:对于中文文本分类来说,主要是分词、去停用词,然后随机抽取部分文本作为训练数据,剩余部分作为测试数据;(2)文本特征提取:特征权重计算,并保存特征化后的特征提取对象;(3)训练分类器:建立分类器对象,并调整模型参数,利用经特征提取的训练数据对分类器训练、评估并保存;(4)待分类文本预处理:加载特征提取对象;(5)加载分类器,对测试样本进行分类,输出分类预测结果。
下面以基于多项式模型的python语言为例,对72243条电信客户投诉文本进行分类。随机抽取80%的数据作为训练集,20%的数据作为测试集,进行文本特征提取,训练分类器,进行评分并保存。
部分实现代码如下:
2.2 实验结果输出
2.2.1 分类器评估
分类器评估结果输出如图1所示,分类的准确率可达到91.1%,后续将增大训练样本空间,优化分类器参数,分类器的准确率可获得进一步提高;
2.2.2 分类结果及应用
分类器的部分输出结果如图2所示,将客户口语化的投诉内容,转换成某种业务投诉分类的标准化类别,根据投诉内容对故障现象进行分类。基于朴素贝叶斯分类算法可准确分类的能力,配合前端语音识别系统,可在客户服务系统中实现投诉内容的识别与预分类,从而按分类结果自动反馈处理建议,在提升用户体验和投诉处理效率的同时,也可节约人力成本;
3 结束语
基于朴素贝叶斯理论的贝叶斯分类器是一种常用的分类器,分类器利用已标注好的训练文本训练得到,然后对测试文本进行测试,求得文本属于某个类别的概率。本来利用python语言和sklearn库,实现了电信客户投诉文本的自动分类,分类过程实现比较简单,分类效果良好,能在较短的时间内对客户的投诉作出处理,从而提高客户的满意度。
【参考文献】
[1]蒋盛益,李霞,郑琪著.数据挖掘原理与实践[M].北京:电子工业出版社.2013.