“智慧政务”文本挖掘研究与应用

2020-07-04 15:34魏川程刘清文王柄钞黄胤秋
科学与财富 2020年14期
关键词:文本分类

魏川程 刘清文 王柄钞 黄胤秋

摘 要:近年来,随着网络问政平台逐步成为政府了解民意、汇聚民智、凝聚民气的重要渠道,各类社情民意相关的文本数据量不断攀升。针对传统人工处理网络问政平台的群众留言分类的工作量大、低效率和不准确等问题,依据机器学习理论、深度学习理论,利用数据清洗、文本向量表示、改进卷积神经网络多文本分类器构造、F-score评价等方法,确定了留言内容以及标签分类模型。

关键词:改进CNN ;F-Score聚类;文本分类;政务处理

1挖掘目标

群众留言分类。在处理网络问政平台的群众留言时,当前的处理方法是工作人员首先按照一定的划分体系对留言进行分类;然后将群众留言分派至相應的职能部门处理。请你们针对目前大部分电子政务系统还是依靠人工根据经验处理中存在的工作量大、效率低、且差错率高等问题,根据给出的数据,建立关于留言内容的一级标签分类模型,并考虑用F-Score对分类方法进行评价。

2问题分析

根据数据可知群众留言一级分类标签总共为7个,因此我们建立的标签分类模型是要解决一个文本多分类问题。因此第一问要做的工作就是,首先对给出的留言详情数据清洗,包括去除字母、数字、汉字以外的其他字符,Jieba进行分词,去除停用词等过程;随后进行特征向量表示,构造文本分类器,将数据分为测试数据和训练数据,分别进行模型的训练和测试;最后再利用F-Score、查准率、查全率对分类器的留言分类效果进行检验,最终评价构造的文本分类模型的好坏。

3基于卷积神经网络的多文本分类模型的求解与评价

(1)数据清洗

在留言详情文本中,总共清洗出9210条留言作为样本数据,再按照每类留言平均分成10等份,每次实验抽取各类留言的8份组成训练集,剩余2份组成测试集,每次实验训练集数据为7638个,测试集数据为1842个。

(2)文本表示

将文本映射为词向量,造一个 M. embedding Size大小的随机矩阵,M是字典dic的大小embedding Size词向量的位数,我们设定为128,并将随机向量矩阵作为卷积神经网络模型的输入。

(3)模型训练与测试

在CNN模型完成之后,再将样本数据输入其中进行测试,本次数据挖掘采用十折交叉验证法进行CNN模型能力评估,将数据集划分为训练集和测试集,训练集用于模型训练,测试集用于评估模型性能,CNN参数使用默认设置。

最终得到卷积神经网络的分类器在留言分类文本数据集上的训练过程,并求得各评价指标的值,取10次实验结果的均值进行评估。模型训练过程中的Loss曲线如图3-1所示,ACC曲线如图3-2所示。

在图3-1中横坐标为训练时时长,纵坐标为Loss绝对值,可以发现训练过程中Loss 曲线有明显下降的趋势,且后期开始慢慢收敛。

由图3-2中横坐标为训练时时长,纵坐标为ACC绝对值,ACC指标呈快速上升趋势。可以发现随着训练进行,损失函数Loss明显降低,而ACC则明显上升,两者呈明显反比,符合预期。

为了对比CNN模型的分类效果,本次也选取了传统机器学习朴素贝叶斯文本分类方法[4]做对比,最终分类效果如表3-3所示。

由表3-3可知,最终构建的卷积神经网络多文本分类测试结果, 均值和ACC可以达到90%,且在文本预处理和特征词项,都一致的条件下,基于卷积神经网络模型的分类算法的分类精度略比朴素贝叶斯算法高一些,可见本次挖掘所构建的基于卷积神经网络模型的文本分类器,不仅可行,而且有着更好的分类效果。

4总结

本文通过深度学习、机器学习等技术,使用卷积神经网络分类构造器、DB-SCAN聚类、层次分析等方法构造了多文本分类模型、热点提取模型以及答复意见的评价系统来解决“智慧政务”中的文本挖掘问题,得到以下结论:

对于“智慧政务”中文本多分类问题而言,文本预处理和特征词项都一致的条件下,基于卷积神经网络模型的分类算法的分类精度略比朴素贝叶斯算法高一些,可见本次挖掘所构建的基于卷积神经网络模型的文本分类器对于“智慧政务”的文本分类有着不错的效果。对于词向量生成而言,使用Skip-gram模型生成的词向量一定程度上弥补了随机向量词之间缺乏联系的不足,更能体现词向量之间的联系。最后我们改进了模型,使用改进的双通道文本表征方式,双通道相比单通道,输入特征更丰富,而深度学习模型在特征提取方面有天然的优势,两者得到了很好地融合。

综上所述,我们的模型能够高效、准确地解决“智慧政务”中的文本挖掘问题,实现真正的智慧政务管理。

参考文献:

[1]白璐.基于卷积神经网络的文本分类器的设计与实现[D].北京交通大学,2018.

[2]黄鹤,荆晓远,董西伟,吴飞.基于Skip-gram的CNNs文本邮件分类模型[J].计算机技术与发展,2019,29(06):143-147.

[3] 孙璇. 基于卷积神经网络的文本分类方法研究[D]. 上海: 上海师范大学,2018.

作者简介 :

魏川程(1998-),男,四川省广安市人。西南石油大学计算机科学学院软件工程专业学生.

刘清文(1999-),女,山东省淄博市人。西南石油大学化学与化工学院化学工程与工艺专业学生.

王柄钞(1997-),男,四川省达州市人。西南石油大学计算机科学学院软件工程专业学生.

黄胤秋(1999-),男,四川省遂宁市人。西南石油大学计算机科学学院网络工程专业学生.

猜你喜欢
文本分类
基于朴素贝叶斯的Web文本分类及其应用
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
不同情境下中文文本分类模型的表现及选择
多核SVM文本分类研究
基于PCA和kNN混合算法的文本分类方法