基于非参控制图的文本分类方法

2020-06-18 06:10健,玉,
关键词:类别分类样本

熊 健, 鲍 玉, 徐 芃

(广州大学 经济与统计学院, 广东 广州 510006)

随着互联网的发展,可获取的数据呈爆炸式增长,迫使人们需要在大量杂乱无章的数据中采集和提炼信息,从而找出研究对象的内在规律,使得人们可以精确地从海量数据中筛选出真正需要的信息.阅读新闻是人们日常获取信息、了解社会动态的重要途经,如何使读者快速获取有效信息、提升用户体验,寻找一种对新闻文本进行分类的高效、准确及便捷的方法,是一项在研究和应用方面都具有积极意义的工作.

传统的文本分类方法大多数都是基于词语本身,但是中文词语数量庞大,并且还在不断增长,直接用词语作为研究对象,会导致维数过高、难以计算和实际处理过程中耗时长.但是词性的种类是固定不变的.Jozef等[1]利用词性特征差异对新闻数据集进行分析,发现动词和名词在真新闻和假新闻上有显著性差异,并发现不同词性是分类变量的重要信息.随着中文分词和词性标注的快速发展,使得用词性特征代替词语本身进行文本分类成为可能,词性的特征可以概括为两个方面:一是文本中词性含量,二是文本中词性位置.不同类型的文本用到词性比例不同,就新闻来说,财经类新闻的数词、量词会明显较多,而社会类新闻中名词、动词会较多,娱乐类新闻的形容词会较多.

在工业生产中,统计过程控制(SPC)是产品质量控制与设计中的重要研究内容,它包含直方图、茎叶图、检查表、因果图和控制图等,其中质量控制图是SPC技术的核心工具,它可以通过带有控制限图形的方式区分出数据波动是由于偶然性因素还是系统性因素,当某一点超出了控制限,则认为它受到系统性因素的影响处于失控状态.许姣姣[2]利用质量控制图对化妆品成分含量进行监控,仲开心[3]利用质量控制图对白葡萄酒生产过程的指标进行监控,如果图形产生异常波动说明该样本不符合质量要求.词性占比和工业中的成分含量占比具有相似性,可以将这种找出异常波动样本的思想,应用到文本分类上,找出不属于该种文本类别的样本.

本文的研究目的就是利用统计质量控制图可以精准识别生产过程中的异常情况的原理,把质量控制图引入文本分析,仅将句子中的各词性出现次数做为文本分类研究的特征值,提出基于非参控制图的文本分类方法,文本中如果词性的分布不一致,就会引起控制图的报警,说明是不同类文本.该方法在不损失正确率的情况下大大简化了传统文本分类中用每一个词语作为变量的计算量.用词性来代替词语,把原来由词语组成的句子替换为词性序列,在保留文本特征的基础上,可以达到降维的目的.并且思想原理简单,容易实现,训练后处理速度快,通过实验证实可以很好地区分文本类别.

1 研究现状

目前文本分类大多是基于语义分析的,如TF-TDF方法,通过统计某个词在一篇文档中出现的频次,以及出现该词的总文档数,计算出该词的权重作为特征,进行文本分类;信息增益法是通过统计某个词条在一篇文本中出现或不出现的次数来进行分类的,除此之外,还有互信息法、CHI统计法和布尔检索模型.

词语是文本分析的基本单位,通常在研究文本问题时,把文本切分成一个一个词语组成的序列,把研究对象从长句变成了短词.在以往基于词语的研究中,编辑距离、最长公共子序列、汉明距离和N元模型等都是常用的方法[4].分词是中文自然语言处理技术不可或缺的一部分,并且中文与英文不同,词与词之间没有明显的界限区分,加大了中文分词的难度.一开始梁南元[5]和揭春雨等[6]提出逐词遍历法、逆向最大匹配法等,这些方法被统称为词典匹配法.但是运用这些方法的前提是词典足够大,现实情况下这个假设很难满足,所以汪华峰等[7]针对词表中没有出现的新词,建立一个辅助词典作为原词典的补充,并赋予原词典较高的权重.由于同一个字在不同的语境下可能语义不同,所以提出词典匹配与歧义矫正联合,提高了切分的精度.中文分词的科研工作相应受到了专家学者的广泛关注,研发出了各种各样有效的分词系统,同时这些模型的分词性能和效率也逐步得到改进和提高.

随着机器学习的发展,机器自动化操作逐渐代替了繁杂的人工操作.机器学习分为有监督学习和无监督学习,文本分类是一种有监督的学习,是根据大量已有分类标签的数据,经过训练得到规律,并根据该规律预测新数据分类的过程.文本分类的经典算法有朴素贝叶斯分类算法、支持向量机分类算法、K近邻分类算法和决策树算法等,但这些方法的泛化能力较差,并且难以适用于海量数据的智能分类.Milkolov等[8-9]提出word2vec模型,利用特征词及其上下文之间的关系,得到词向量,可以很好地表达语义信息,提高了文本分析的准确度.

2 等距对数比变换

成分数据是生活中常见的数据类型,比如工业产品中各种成分的含量占比,或者地质检测中各种元素的含量占比等,这类数据的最大特点是“定和限制”,即各成分的累加和是一个定值,并且成分数据的协方差矩阵具有负偏性,若不对这个限制条件加以处理,可能会造成统计分析结果失效,与真实结果相差甚远.Atichison[18]先后提出了非对称对数比变换(alr)、中心对称对数比变换(clr)和等距对数比变换(ilr)等针对成分数据处理的方法,使得处理后的数据不受“定和限制”的影响,并且常常服从正态分布.

对于含有D个成分的成分数据,其对应的单形空间为SD,定义为

(1)

其中,每一个成分数据都要求大于0,并且满足累加和为定值的限制,为了便于计算,通常C取1.

非对称对数比变换:

(2)

经过alr变换将成分数据从单形空间SD映射到欧氏空间RD-1,使得数据不受定和限制,但是变换后的结果不唯一.

中心对称对数比变换:

(3)

经过clr变换,解决了alr变换结果不唯一的问题,同时保持了分量的维度,使得结果更具有解释性,但是变换后的数据具有共线性.

等距对数比变换:

(4)

(5)

ilr变换保持了协方差矩阵的对称性和满秩要求,解决了clr变换产生的共线性问题,是一种较好的处理成分数据的方法.本文处理的新闻文本数据,使用重点词性在句子中的占比作为分析依据,所以也是存在定和限制的成分数据,在应用质量控制图前要先对数据进行等距对数比变换.

3 MSEWMA质量控制图

在数据不满足多元正态性的情况下,传统的控制图效果不佳,因此,应使用多元非参控制图,经过对比,本文最终选择多元符号指数加权移动平均(MSEWMA)质量控制图.

假设训练数据集中包含独立同分布m0个观测值,X1,…Xm∈RP,p≥1且为整数,其中p是X的维数,Xi独立来自于如下的模型:

(6)

其中,F(·)为一个未知的连续分布,μ0表示过程可控时的位置参数,μ1表示过程失控时的位置参数,τ是一个未知变点,即在τ时刻后,观测值来自于另一个分布.

Zou等[19]提出了使用空间符号和空间秩的多元EWMA控制图(MSEWMA).首先给出空间符号的定义:

(7)

其中,║X║=(XTX)1/2是向量X的欧式长度.U(Xi)是p维单位球面上的一个点,表示一个方向.但是在非参的情况下,不能直接使用上述的空间符号,需要使用一个散度矩阵来标准化Xi,Hettmansperger[20]提出一个仿射不变的多元中心θ0和变换矩阵A0,根据式(8)可以标准化Xi得到Vi.

(8)

其中,多元中心θ和变换矩阵A需要满足式(9)和式(10):

(9)

(10)

在利用MSEWMA质量控制图训练数据时,第一步是从m0个训练数据中提取信息,确定可控中心θ0和变换矩阵A0.把训练集数据代入式(11)和式(12):

(11)

(12)

在求解上述方程组时需要用到迭代的方法,迭代过程如下:

(13)

其中,arg min是指使得式(13)达到最小值时θ的值.

(14)

求解A0时需要内嵌一个小迭代:

(a)以初始值Ω=IP为开始,其中,IP是指P×P维的单位矩阵.

(b)令Ωx=[p/trace(Ω)]Ω,其中,trace是指矩阵的迹,也就是主对角线元素之和.

(c)选择AΩ使得A′ΩAΩ=Ωx-1,其中,A为上三角矩阵.为了保证解唯一,通常提取出一个常数使得左上角元素为1.

(d)利用式(15)一次迭代,更新Ω.

(15)

(e)重复(b)~(d)直至Ω收敛.

Σ‖yi-θ‖最小化的θ值为θy,令

(16)

④重复②~③直至满足下列条件:

(17)

第L次迭代的(0,0)作为(θ0,A0)的最后估计.

迭代流程图见图1.

图1 流程图

在训练集数据找到(θ0,A0)之后,可以构建基于符号检验统计量的多元EWMA控制图.首先将剩余的样本根据式(18)标准化得到Vi.

(18)

然后根据式(19)及式(20)获得多元EWMA向量序列和检验统计量,其中W0=0,当检验统计量Qi超出控制限时,控制图报警.

Wi=(1-λ)Wi-1+λVi

(19)

(20)

4 实证分析

4.1 数据处理

本文数据来源于THUCNnews数据集,选取了财经、科技、社会、时政、教育和娱乐等6大类,总计4 736条数据.首先使用中科天玑自动中文分词系统中的计算所一级标注,对句子进行词语切分以及词性标注,表1为计算机所一级词性对照表.在数据处理前为了后文统计词性频次不受原来文本中小写字母的干扰,首先把文本中原有的小写字母转换为大写字母,然后计算出每一词性在整个数据集中出现的词频,最后对词频进行排序,结果如图2所示.出现次数多的词性表示在文章中必不可少,需要进行分析,因此,本文根据词性排序,选取词性出现最多的5项作为分析对象,由于标点符号w、副词d、助词u和介词p等虚词对文本分类没有太大的贡献,所以依次顺推,最终选取名词n、动词v、数词m、形容词a和代词r作为待处理对象.经过处理,所有语句中仅保留这5个词性,图3展示了处理后的词性序列.

图2 词性排序

图3 语句示例

表1 词性对照表

比如随机抽取一条财经新闻.“十二五期间钢铁业重组将纵深推进…”分词后结果为“十二五/m 期间/f 钢铁/n 业/k 重组/v 将/p 纵深/n 推进/v…”筛选词性后变为“十二五/m 钢铁/n 重组/v 纵深/n 推进/v…”,可以看出句子的主干被保留,修饰成分被剔除,句子的整体意义并没有改变,所以这样处理是合理的.

图4中类1表示财经类新闻,类2表示科技类新闻,类3表示社会类新闻,类4表示时政类新闻,类5表示教育类新闻,类6表示娱乐类新闻.结合图4组间差异以及图5组内差异,可以看出各个类别的词性含量的差异较明显.

图4 组间差异

图5 组内差异

财经类新闻的代词与其它类相比较少而数词在所有类别中最多,同类之间比较看出数词、形容词及代词之间呈现递减的趋势;科技类新闻与其它类相比形容词、代词明显多而动词含量在所有类别中最少,同类之间比较发现数词、形容词和代词分布较均衡;社会类新闻与其他类别相比代词、动词明显多而名词和形容词明显少,同类之间比较发现形容词含量最少;时政类新闻与其他类相比名词在所有类别中最多而代词在所有类别中最少,与同类相比形容词含量较多;教育类新闻与其他类相比词性含量处于所有类的中间水平,与同类相比词性含量差异也不明显;娱乐类新闻与其他类相比动词、形容词和代词在所有类别中最多而名词、数词的含量在所有类别中最少,与同类相比代词较多、数词较少.分析发现,不同类别的新闻在词性含量方面的确有较大差别,因此,可以用词性差异作为新闻文本的分类依据.

4.2 建立模型

对筛选词性后的数据,划分为训练集和测试集,由于该方法暂时只能识别二分类的数据,也就是说仅能识别测试集的数据样本与训练集相比是同一类别还是不同类别的,所以对6个大类的样本,分别进行训练.每个类别选取500个样本作为训练集,并把所有数据作为测试集.分别计算每一个样本中的各个词性出现的频次,以及每一个样本的句长,两者相除,分别得到5个词性在该样本中的占比,如图6所示.由于词性占比属于成分数据,可以看出,5个成分累积和为1,有定和限制并且有协方差矩阵的负偏性,所以对词性占比数据进行等距对数比变换.最终处理好的数据集如图7.

图6 词性占比

图7 ilr变换

训练过程如下:

把处理好的数据放入基于空间符号和空间秩的多元EWMA控制图(MSEWMA)中判别类型,首先以财经类的500条数据为训练集,选取迭代初始点,求出使得arg min∑‖Xi-θ‖取得最优解的θ,这里用每一列的平均值作为搜寻最优解的初始起点,以得到的θ作为仿射不变的多元中心θ0迭代的初始点,以P维单位矩阵Ω0为迭代的初始矩阵,使得满足

(21)

(22)

最小化的θ值,得到新的θ0,重复前面的步骤,直到原来的θ0和迭代后新的θ0相差小于10e-5停止迭代,把终止迭代时的(θ0,A0)作为测试时MSEWMA控制图的仿射不变的多元中心θ0和变换矩阵A0.然后同样根据(θ0,A0)求出控制限,首先用式(18)标准化Xi得到Vi,再代入式(19)、式(20)求得Wi和检验统计量Qi.训练集理论上检验统计量应该大部分都处于控制限以下,所以取控制限满足训练集上95%的检验统计量都小于该值.至此,(θ0,A0)和控制限都已求出.对于MSEWMA控制图来说光滑参数λ的选择同样重要,当λ的取值较小时对小漂移更有效,而且控制图较稳健.所以本文经过重复对比实验,最终给每一类样本都选取了较小的λ,得到表2.

表2 θ0,A0, λ和控制限

(续上表)

测试过程如下:

根据式(18)~式(20)求得训练集上的检验统计量Qi,当检验统计量Qi超出控制限时,控制图报警,表示该样本和训练集不属于同一类,反之,属于同一类.这样就可以根据样本是否受控来判断是否属于和训练集同类的样本.图8和图9分别为财经和社会类的分类结果,图8中的左边部分,小于控制限表示属于财经类新闻,右边部分大于控制限表示不属于财经类新闻.图9中两边部分大于控制限表示不属于社会类新闻.其他类别也类似,从图中看出该方法可以明显区分出是否属于同一类样本,具有很好的分类效果.

图8 财经新闻分类结果

图9 社会新闻分类结果

4.3 实验结果

利用分类算法得到分类结果后,需要对结果进行评估,评价文本分析效果的指标主要有:准确率(Precision)、召回率(Recall)、F测度(F-measure,简写为F)以及分类准确率(Accuracy),各指标的计算公式如下:

(23)

(24)

(25)

其中TP表示实际为A也被分类为A的数量,FN为实际为A但被分类为-A的数量,FP表示实际为-A但被分类为A的数量,TN表示实际为-A也被分类为-A的数量. 准确率P表示实际为A也被分类为A的数量除以被分类为A的数量,召回率R表示实际为A也被分类为A的数量/实际为A的数量,F测度表示准确率P和召回率R的调和平均数,F测度是综合衡量准确率和召回率的,是评价文本分类效果的重要指标,见表3.

表3 参数含义

最终的运行结果见表4.

表4 实验结果与评价

与传统word2vec、TF-IDF和CNN文本分类模型进行对比,MSEWMA在准确率P、召回率R和F测度三个指标都有不同程度的提高.

由表4可以看出引入控制图来进行文本分类的效果很好,并且该方法原理简单且容易实现,在训练过程中,保存仿射不变的多元中心θ0和变换矩阵A0以及控制限这三个训练结果,后续在测试时不需要重复计算,仅使用测试数据集的句子中的5个重要词性的占比,代入简单的公式就可以得到该样本是否和训练集属于同一类,相比于传统文本分类方法,大大简化了繁琐的计算步骤,避免了维度灾难(图10).

图10 不同分类模型的结果

5 结 语

质量控制图在工业生产中应用已经相当广泛,本文提出引入非参数MSEWMA质量控制图应用在新闻文本的分类上,仅需关注词性含量即可得到正确的分类结果,该方法原理简单应用便捷计算速度快,避免了使用词语为分析对象造成的维度灾难.从测试结果可以看出,该方法能够有效利用词性含量信息,综合了质量控制图的高效以及仅关注词性含量的计算便捷等优点,能较好地解决新闻文本分类的问题,简化了运算过程.但该方法仍存在不足之处,一方面当前方法仅用于二分类,无法一次性识别多种类别,需要重复操作;另一方面仅关注含量,忽视了上下文的信息.在下一步的工作中,将考虑如何有效地一次性识别多种分类效果,以及加入上下文信息,以进一步改进控制图在文本分类上的方法,更为全面地应用全文信息,提高分类的准确性.

猜你喜欢
类别分类样本
分类算一算
用样本估计总体复习点拨
分类讨论求坐标
推动医改的“直销样本”
数据分析中的分类讨论
壮字喃字同形字的三种类别及简要分析
教你一招:数的分类
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
服务类别