陆正球 毛焕宇 王海颖
摘 要:随着移动互联网的发展,如何从大量的文本中挖掘出有价值的信息并提供参考成为一种新的需求,文本分类作为信息检索和挖掘的关键技术,能够实现对不同类型文本的自动分类。文章提出了基于卷积神经网络的短文本分类方法,首先通过jieba实现文本的分词,然后通过开源工具word2vec实现了词向量,最后通过卷积层、最大池化层和全连接层完成新闻数据的分类。实验结果显示,基于卷积神经网络的文本分类具有较高的分类效果。
关键词:文本分类;卷积神经网络;word2vec
随着移动互联网的飞速发展和个人移动终端功能的日益强大,人们从网络中获取的信息越来越多,由此产生的大量信息数据多以文本的形式出现,如何从这些文本中挖掘出有价值的信息并给用户提供参考价值就显得尤为重要。
1 卷积神经网络
卷积神经网络是一种专门用来处理具有类似网络结构的数据的人工神经网络,使用的是普通的神经元网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。卷积和池化作为一种无限强的先验[1],在提取特征上体现了高度的置换不变性,局部感受与权值共享两个主要特征使得卷积神经网络可以有效地减少参数学习的数量级,从而降低了模型的复杂度,提高了模型的可用性。
通常卷积神经网络中一般包含4层:输入层、卷积层、池化层以及全连接层。
2 基于卷积神经网络的文本分类
基于卷积神经网络的短文本分类的过程一般包括数据预处理,特征提取、文本分类3个阶段。
2.1 数据预处理
由于数据集来源于互联网,因此首先需要对数据集进行一系列预处理,包括去掉文本中的所有标点符号、数字和符号,只保留下含有较多语义信息的中文文本。而后通过Jieba分词开源库的精确分词模式来完成对短文本数据集的分词步骤。
经过数据预处理后,得到的数据和格式如表1所示。
2.2 特征提取
本文采用Mikolov等提出的Skip-Gram神经网络语言模型,在完成基础数据集的预处理和分词操作后,利用无监督学习方式的Skip-Gram模型训练出每个词的分布式特征表示,即词向量,然后,将训练好的词向量进行组合得到每条短文本的分布式特征。相比传统的人工特征提取方式,此次提取的方式既可以控制特征维度,又可以不影响词与词在空间中的相对位置关系。
在具体实现的过程中,使用Google在2013年开源的词向量计算工具—Word2vec,不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,而且该工具实现了训练结果—词向量(Word Embedding),可以很好地度量词与词之间的相似性。
2.3 文本分类
在文本分类中,本文将采用卷积神经网络模型完成最终的分类任务。卷积神经网络在结构上最大的特点就是卷积层和Max-pooling层的交替累积[2]。其中,卷积层接收来自通过word2vec处理后的词向量,在该层共设置256个卷积核,设置每个卷积核的大小是5。每类卷积核都能够提取出不同的局部特征图,并且对输入数据的局部特征进行描述,Max-pooling层可对每张特征图中表达能力最强的特征进行二次提取,全连接层部分完成了文本的分类任务,并最终通过Softmax实现归一化操作,如图1所示。
3 实验
首先从互联网上获取并经过处理的文本数据进行训练和测试,包括体育、财经、房产、教育、科技、体育、娱乐、时政、游戏等10个大类,其中每个分类有6 500条数据。为了便于进行数据的训练、验证和测试,将其中5 000条用于训练,500条用于验证,1 000条用于測试。
本文所使用的开发与训练的实验环境如表2所示。
首先进行数据训练,在验证集上经过5轮迭代后的最佳分类效果是96.1%。其中准确率和误差loss如图2—3所示。
同时,使用测试集上的数据进行测试,得到的数据集结果显示如下,其中测试的误差是0.13,测试的准确率是96.27%,除了时尚类别外,其他类别的预测准确率都高于95%。其中体育类的测试为100%,整体的precision、recall和F1值都是96%,如图4所示。
最后,使用剩余的10 000条数据进行预测,系统随机选择其中6个类别,从实验结果可以发现原文的标签和预测的标签结果都是一样的,如图5所示。
4 结语
通过对短文本分类问题的研究,本文提出了一种基于卷积神经网络算法的短文本分类模型。经过大量的文本数据进行了测试,实验结果表明,基于卷积神经网络的文本分类方法具有较高的分类效果。
[参考文献]
[1]高云龙.基于改进卷积神经网络的短文本分类研究[D].长春:吉林大学,2018.
[2]蔡慧萍.基于卷积神经网络的短文本分类方法研究[D].重庆:西南大学,2016.