基于受限玻尔兹曼机的中文文档分类

2012-04-29 00:44:03杨莹吴诚炜胡苏

科技创新导报 2012年16期

杨莹吴诚炜胡苏

摘要:最近,许多不同类型的人工神经网络(Artificial Neural Network)已经应用于文档分类,并且得到了较好的结果。但是,大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对文档进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(Restricted Boltzmann Machine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本文中,我们使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(Support Vector Machine)作为回归模型。

关键词:文档分类受限玻尔兹曼机低维特征支持向量机

中图分类号:TP393 文獻标识码:A 文章编号:1674-098X(2012)06(a)-0035-02

目前,随着社会网络化信息化的日益发展,网络上充斥着越来越多的各类文档,给用户检索带了诸多不便。如何对文档进行并自动分类已经成为机器学习的重要研究课题之一。由于大多数模型只选择少量的特征作为输入,因此可能导致模型没有足够的信息来泛化模式。如果加入更多的输入特征,训练时间将会明显上升,而且模型的泛化性能也可能会恶化。

受限玻尔兹曼机 (Restricted Boltzmann Machine)是一种由可视层和隐藏层组成的马尔可夫随机场(MarkovRandomField),并且处于相同层的节点相互无连接。受限玻尔兹曼机还可以组成深度信念网络(DeepBeliefNetwork),深度信念网络可以从复杂的高维输入数据中抽取维数更低、区别度较高的特征。

这篇论文的主要贡献是将受限玻尔兹曼机和支持向量机结合起来,采用受限玻尔兹曼机对原始输入的高维特征抽取低维高度可区分特征,并将其作为回归模型支持向量机的输入,对文档进行分类。

1 受限玻尔兹曼机

1.1 基本概念

受限玻尔兹曼机(Restricted Boltzmann Machine) 是一种没有可见节点与可见节点或者隐藏节点与隐藏节点之间的连接的玻尔兹曼机。标准的受限玻尔兹曼机如图1所示。受限玻尔兹曼机一个最主要的优点是所有可见的节点是独立于其他可见节点(对于隐藏节点亦然),因此可以通过使用基于层的快速学习算法如对比散度(Contrastive Divergence)来训练网络。

受限玻尔兹曼机的能量函数如下所示:

其中代表可视节点的状态,代表隐藏节点的状态,为参数集合,在代表可视节点与隐藏节点的连接权重,,分别是可视节点和隐藏节点的偏置向量。

受限玻尔兹曼机归一化因子(配分函数)定义如下:

对于受限玻尔兹曼机的某一状态的概率如下所示:

。

可视节点的条件概率如下所示:

隐藏节点的条件概率如下所示:

其中,表示权重矩阵的第个行向量,表示权重矩阵的第个列向量。

高斯-伯努利受限玻尔兹曼机(Gaussian-Bernoulli Restricted Boltzmann Machine)[1]将二进制可视节点替换为具有高斯分布的实数可视节点,高斯-伯努利受限玻尔兹曼机的能量函数如下所示:

其中,为高斯可见节点的标准方差向量。

高斯-伯努利受限玻尔兹曼机的可视节点条件分布服从如下高斯分布:

其中代表均值为,标准方差为的高斯分布。

高斯-伯努利受限玻尔兹曼机的隐藏节点的条件概率如下所示:。

1.2 特征抽取

由于受限玻尔兹曼机采用隐藏节点为输入数据库建模,采用受限玻尔兹曼隐藏节点的期望值作为抽取的特征是一种最直截了当的做法。近来的研究表明,某些问题使用受限玻尔兹曼机抽取的特征作为回归模型的输入,比采用原始数据作为输入在分类性能上得到了显著的改善。

1.3 深度信念网络

受限玻尔兹曼机的另外一个优点是可以将受限玻尔兹曼机堆叠起来组成深度信念网络(Deep Belief Network)抽取的更加抽象的特征。图2展示了一个三层深度信念网络。

深度信念网络可以采用无监督的分层对比散度算法训练:1)底部受限玻尔兹曼机以原始输入数据训练。2)将底部受限玻尔兹曼机抽取特征作为顶部受限玻尔兹曼机的输入训练。3)过程1)和2)可以重复来训练所需要的尽可能多的层数。无监督的分层训练完毕后,还可以采用反向传播法(backpropagation)微调权重和偏置来提高深度信念网络的抽取性。

1.4 对比散度学习算法

2 基于受限玻尔兹曼机的文档分类

由于文档的文本内容本身是不规范的,而且直接将文本内容作为输入,将会导致输入数据的维数过高而无法处理。因此对文档进行预处理是必要的,抽取代表其本质特征的元数据,以结构化的形式保存。文档原始特征的提取一般可以选择某些字、词组的出现频率作为特征项。

由上所述,即使进行了预处理,原始特征的维数仍然很庞大,对原始特征进一步抽取也是很必要。传统的降维技术有主成份分析法(Principal Component Analysis)[2]等。本文采用深度信念网络对原始特征进行抽取低维高度可区分特征,然后将抽取的特征作为支持向量机的输入,进行回归分析,从而达到文档分类的目的。

3 实验

3.1 实验数据

国内目前还没有标准的且普遍接受的中文文档分类测试文档库,我们使用自己建立的测试文档库测试我们的文档分类器。测试文档库中的文档均来自腾讯门户网站,它们被分为40个类,我们取其中的包含文档数最多的20个类进行测试,训练集总共包含10033篇文档,测试集包含8032篇文档。

3.2 实验设置

实验环境为Intel Core Quad 2.4GHz、4GB内存和GeForcegt240显卡,显存为1GB.权重矩阵的元素初始为的随机数,偏置和初始化为0,高斯可视节点的标准方差固定为1.0。采用Java实现受限玻尔兹曼机框架,并且通过JCDUA(http://www.jcuda.org)使用GPU进行加速运算。支持向量机框架的实现是采用LIBSVM[3]开源代码。

3.3 实验结果

为了测试受限玻尔兹曼机及其深度体系的分类性能,我们进行了三种不同类别的实验:

使用300常用词的统计频率作为支持向量机的输入。(SVM+300)

使用3000常用词的统计频率作为原始特征,使用PCA对高维文档进行降维处理,将抽取出的低维特征作为支持向量机的输入。(SVM+PCA)

使用3000常用词的统计频率作为原始特征,使用4层深度信念网络抽取低维高度可区分特征,并将抽取的特征作为支持向量机的输入。深度信念网络的节点数分别为3000,500,100,30。(SVM+DBN)

对于每一种类型的实验,我们对支持向量机采用不同的配置参数,并将最好的实验结果作为其代表,实验结果如表1所示。由表1可以看出,采用深度信念网络抽取低维高可区分特征有助于提高支持向量机的回归性能,从而提示文档分类的准确度。

4 Conclusion

本文采用了基于受限玻尔兹曼机抽取低维高可区别特征对中文文档进行分类。深度信念网络抽取低维高度可区分特征有助于提高支持向量机的回归性能,从而提示文档分类的准确度。实验结果表明这种方法获得令人满意的分类结果。尽管如此,本文原始特征的提取过于简单,采用一些更加成熟的方法将有助于提高分类性能。

参考文献

[1] 王自强,钱旭.基于KDA和SVM的文档分类算法[J].计算机应用,2009,2,416～418.

[2] 王自强,钱旭,孔敏.面向文档分类的LDE和简化SVM方法研究[J].计算机工程与应用,2009,45(22):1～6.

[3] 何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3～5.