面向新闻的文本分类研究

2019-08-12 01:27严石
电脑知识与技术 2019年16期
关键词:文本分类测试算法

严石

摘要:随着网络的普及以及互联网的飞速发展,在网上获取信息已经成了一种重要的方式,互联网充斥着大量的新闻数据,如何有效的获取利用这些数据已经成为当务之急。本文介绍了文本分类的原理,以及解决文本分类问题的流程,通过真实新闻数据集对相关算法进行测试,并给出了实验结果。

关键词:新闻数据;文本分类;算法; 测试

中图分类号:TP311   文献标识码:A

文章编号:1009-3044(2019)16-0283-02

开放科学(资源服务)标识码(OSID):

Abstract: With the popularity and the rapid development of the Internet, it has become an important way to obtain information on the Internet. The Internet is full of a large number of news data. How to effectively obtain and use these data has become an urgent matter. This paper introduces the principle of text categorization and the flow of solving the problem of text categorization. The related algorithms are tested by real news datasets, and the experimental results are given.

Key words: news data; text classification; algorithms; test

文本分类,就是利用计算机相关技术将具有相同特征的文本信息根据一定的规则划分到事先预定好的类别之中。朴素贝叶斯方法是一种基于贝叶斯定理和特定条件独立性假设的分类方法。相关研究的实验表明,这种方法应用到文本分类的任务上效果较好[1]。

1 文本分類的流程

文本是一种非结构化的数据,在进行分类之前,先要进行分词、去停用词,并通过一定的方式将文本用向量表示出来,将处理过后的数据输入到分类模型中才能到的结论[2]。为了测评分类器的效果,我们采用通用的准确率P(Precision)、召回率R(Recall)、以及F值(F-score)作为实验的评价指标[3]。

2 朴素贝叶斯算法

1) 设D是训练元组和它们相关联的类标号的集合,每一个元组用一个n维属性向量[X={x1,x2,…,xn}]表示,描述由n个属性[A1,A2,…,An]对元组的n个测量。

2) 假设有m个类[C1,C2,…,Cm]。给定元组X,朴素贝叶斯分类法预测X属于[Ci]类,当且仅当

3 实验结果及分析

我们准备了科技、汽车、娱乐、军事、体育五类新闻数据,并选取五组不同数目的样本,把样本的75%用作训练集,剩下的25%用作测试集。下图为测试后平均精度最高的一组数据:

我们发现不同类别的新闻在同一次测试中,其准确率、召回率、F值也有细微的差别,而分类的精度随着测试样本数目的增大会有一定的提高,同时,在样本数目不变的情况下,分类的精度会随着特征值的数目增大而提高。

4 结语

本文分析了新闻文本分类的流程,并用朴素贝叶斯算法构造分类器,通过大量的分组实验,获取了在不同样本数目、不同特征值数目下的精度,在下一步实验中,我们将测试该方法应用于其他的类型分类下的精度问题。

参考文献:

[1] 靳小波.文本分类综述[J].自动化博览, 2006 (S1) :24, 26, 28, 29.

[2] 刘测,韩家新.面向新闻文本的分类方法的比较研究[J].智能计算机与应用,2018,8(5):38-41.

[3] 杨娟,王未央.几种文本分类算法性能比较与分析[J].现代计算机(专业版),2016(25):12-16.

[4] 刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术,2017,13(35):87-91.

【通联编辑:梁书】

猜你喜欢
文本分类测试算法
幽默大测试
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
“摄问”测试
“摄问”测试
“摄问”测试
进位加法的两种算法
基于组合分类算法的源代码注释质量评估方法
一种改进的整周模糊度去相关算法