褚金鹏 刘昕武 唐超伟 曹德洪
摘要:历史故障记录数据对产品的质量分析和提升有重大意义。现存大量由售后人员手动录入的故障及维护记录,带有强烈的个人风格,标准化缺失。一方面提升售后数据的分析难度,另一方面也会因错误信息的存在而降低数据价值。为解决上述问题,此处给出一种基于文本结构和关键词的售后文本分类方法。首先,采用经典分词方法对文本进行分词,然后基于临近词的条件关系,提出一种基于字词信息熵增益的临近词关联方法,针对专业售后文本提出更优的关键词提取方法;在该分词方法的基础上,利用TF-IDF算法筛选关键词,利用关键词和词性的统计分布特征,建立文本的评价特征;最后以少量标记文本为训练样本,采用决策树进行模型训练,实现全量文本的分类算法。实验结果表明,基于熵信息的词关联方法有效提升分词准确性,提取的文本特征和训练的模型在文本的分类筛选上表现良好。
关键词:售后故障数据;熵增益;TF-IDF;决策树;文本分类
引言
文本数据的分析需求不仅存在于工业界,也是学术界一直都关注的热点之一。这方面的研究工作很多。按照应用领域划分,有互联网的汉语术语提取研究[1],按照方法划分则有基于中文词语的结构定义研究[2],也有纯粹按照统计方法的分词研究[3].一系列研究成果表明,文本的分析和评价方法都是从字到词再到段落再到文章的顺序开展。
方法主要分三步进行,首先基于随机分布熵对现有的分词结果进行迭代关联优化,然后利用TF-IDF进行关键词提取,最后在提出的关键词和文本自身的结构之上建立故障记录的准确性、文档简洁性、完备性三个维度的特征,通过少量文本数据的人工标注,建立决策树分类模型,实现文本的有效分类。数据实验表明,本方法能够提升关键字的提取效果,且筛选的优质文本描述与业务人员分类结果一致。
1 故障记录的分类评价模型
对售后文本的分类评价可以有效从大量故障记录中筛选出优质的故障记录,降低分析样本条数;基于以上字词关联迭代算法后的分词进一步降低字词的维度,通过TF-IDF方法对新的词组对进行关键词提取后,则具备按照关键词的分布特征进行分类模型的构建,完成文本的评价。
1.1 分類模型特征工程
1.1.1 准确性特征
根据TF-IDF方法选出N个关键词,分别为则对应这N个关键词,其在文本集中的词频分别记为。
从统计的角度出发,准确性高的词语具有更大的出现概率,因此将词频作为单个词的准确性评估,考虑到词频的量级问题,对单个词的准确性进行归一化转换,即对关键词,其准确性为:
由于本部分是探讨单挑记录的描述准确性,因此将各个字词的准确性特征加权作为记录的准确性。
假设记录包含个关键词,分别为其中依照设定,的准确性为:
1.1.2简洁性特征
以下构造的简洁性特征也是基于关键词构建。考虑到关键词在记录的纲领性作用,本文采用单句的含关键字量进行单句的简洁程度描述。
对记录的单个句子,假设按照前述分词方法分解成维词序列:,其中的关键字子序列:则的简洁性特征。记录的整体简洁性表征值参照前述准确性特征的方式构造如下:
其中表示记录中的句子总数。
1.2 基于决策树的文本分类
按1.1描述的步骤,对全量数据进行分词和特征提取,将故障记录被转化为的三元数组,从全量故障记录中抽取一定比例的故障记录进行人工分类打标签,利用决策树模型,基于前述记录长度、用词准确性、简洁性三维特征,训练出对应的文本分类模型,通过分类模型对大量文本进行自动分类,实现低质量售后故障记录的过滤。
2 数据实验及结果分析
本次数据实验的样本来源为2009-2015年部分机车模块故障数据,初始故障条数为2308条,经过对重复记录和删除部分过于简短(描述字数少于10字)的故障描述后,剩余1918条数据样本。
2.1 基于熵的临近词组关联
以下是词组关联的两点结果,一是本文研究的数据集合中临近条件熵的分布,确定文本的关联初始阈值,二是词组关联前后的分词效果比较。
图1.将1918条数据样本进行分词,计算每对临近词的条件熵,得到。
按照临近词组的关联选取方法,对出现次数超过5次以上的数据以上的关联词组。
2.2 分类模型及测试结果
将构造的数据按照80%:20%的比例,分别作为训练集和测试集,并采用决策树进行分类模型训练,决策树采用的分类度量是基尼纯度,决策树的最大分层数5。可知,模型在测试文本集上的分类准确率为90%,且对标签为“好”的文本具有非常高的准确率,说明本文提出的文本分类方法对文本的筛选具有极佳适应性。
3 结语
本文基于计算机分词算法,首先创新性地提出基于临近二元词组的条件分布熵的临近词组迭代关联算法,显著提升机车故障售后维护记录文本的分词表现,准确有效地从故障文本中提取到专业关键词;然后从关键词出发,利用关键词在记录中的分布规律,提出两种表征描述的准确性和简洁性的特征构造方式,并引入文本长度作为完备性的特征,采用决策树分类算法,仅需通过少量文本的人工标记,就能够实现优质售后文本的准确筛选。该方法操作简单,且需要人工干预少,就能够方便地从海量售后文本中快速筛选出优质的故障记录,进一步准确开展后续的文本分析工作,节省大量的文本数据预处理工作。
参考文献
[1]张榕, 宋柔. 基于互联网的汉语术语定义提取研究[C]// 全国计算语言学联合学术会议. 2005.
[2]张艳, 宗成庆, 徐波. 汉语术语定义的结构分析和提取[J]. 中文信息学报, 2003.