基于Web技术的航天文本分类系统研究与应用

2017-01-10 07:36徐建忠朱俊赵瑞张亮李娇娇
军民两用技术与产品 2016年23期
关键词:分词分类器类别

徐建忠朱俊赵瑞张亮李娇娇

(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌卫星发射中心,文昌 571300;3. 装甲兵工程学院,北京 100072)

基于Web技术的航天文本分类系统研究与应用

徐建忠1朱俊2赵瑞3张亮1李娇娇1

(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌卫星发射中心,文昌 571300;3. 装甲兵工程学院,北京 100072)

海南发射场的海量文档缺乏有效的组织和管理,急需开发一种快速、有效的方法以实现文档的自动整理、归类。针对这一实际需求,基于Web技术和文本分类技术,通过Web服务器构建、训练文本数据收集、文本预处理、文本特征表示和分类模型训练,研发了一套服务器—客户端模式的航天文本分类系统。经测试,该分类系统在测试数据集上的准确率和召回率均达到90%以上,具有良好的分类性能。

Web技术,文本分类技术,航天文本,贝叶斯算法建好的分类器对用户上传的待分类文档自动分类,最后向用户返回分类结果。

1 基于Web技术的航天文本分类系统设计与实现

1.1 系统整体架构

本文设计的航天文本分类系统整体框架如图1所示。

图1 航天文本分类系统整体框架

由图1可以看出,该航天文本分类系统的核心包括分类器训练和用户文档分类两个阶段。在分类器训练阶段,系统收集航天领域的文本,并将这些文本按照办公类文档和任务类文档进行人工预先标注,然后对这些训练文本进行文本预处理、文本特征提取,以构建特征向量,最后训练并构建文本分类器。在用户文档分类阶段,系统获取用户通过网络上传到服务器的待分类文档集,然后对这些文档进行文本预处理,分析并比对其特征向量,最后利用构建的分类器完成文本自动分类,再向用户返回分类结果。此外,研究人员还设计了方便用户上传文档和展示文本分类结果的界面。

1.2 系统实现

1.2.1 服务器架构和用户界面设计

为了方便用户上传待分类文档数据集,该航天文本分类系统设计有简单的用户使用界面,如图2所示。用户可通过文件上传页面,向服务器上传doc、docx和pdf格式的文档。通常,用户需要分类的文档比较多,为了加快文档上传速度,用户可以将文档压缩成zip格式上传。当待分类文档分类完成后,服务器会以表格形式返回文本分类结果。另外,该航天文本分类系统还会将分好类的文本分别放入以类别名称命名的文件夹中,并压缩成zip格式供用户下载。

1.2.2 训练数据集

图2 航天文本分类系统文档上传页面

研究人员从已累积的航天文档中选择出83篇文档,让从事航天领域工作的技术人员进行人工阅读标注。人工阅读时,技术人员根据自己的经验,按照任务类文档和办公类文档对待分类文档进行类别标注。最终的标注结果为:41篇任务类文档,42篇办公类文档。研究人员以标注好的文档集合作为该航天文本分类系统的训练数据,用于分类模型的构建。

1.2.3 文本预处理

文本的预处理主要完成中文分词、过滤停用词和常用词等工作。中文分词是后续进行特征提取和模型训练的基础,常用的中文分词方法包括3种:基于统计的分词方法[9]、基于词典的分词方法[10]和基于AI的分词方法[11]。另外,该航天文本分类系统还去除了不表达信息的停用词和常用词,如“我们”、“这”、“那些”等。

1.2.4 文本特征提取

该航天文本分类系统采用常用的向量空间模型[12,13]来完成文本的特征向量表示。向量空间模型是将每个文本d描述成数值向量特征w(d),(d)=(t1, t2, t3, …, tm),其中,ti(i=1, 2, 3, …, m)表示词条在文本中的权重。通过建立文本特征向量,将文本分类转换成对多维向量分类。

本文选择常用的TF-IDF特征权重来表示文本向量。TF-IDF实际上是TF和IDF的乘积。TF指的是词频(term frequency),即词条t在文档d中出现的频率;IDF指的是逆向文件频率(Inverse document frequency),度量的是词条t区分不同文档类别的能力。

TF的计算公式为:

其中,ni,j表示词条ti在文档dj中的出现次数,而分母则表示文档dj中所有词条出现的总次数。

IDF的计算公式为:

其中,|D|表示训练集合中的文档总数,│{j∶ti∈dj}│表示包含词条ti的文档数。

通过上面的计算处理,可以将每个文档通过TF-IDF权重向量进行表示。

1.2.5 分类模型

适用于文本分类的机器学习算法有多种,如朴素贝叶斯算法[14]、决策树[15]、人工神经网[16]、SVM算法[17]等。

本文建立航天文本分类系统的目的是将海量航天文档按照办公类文档和任务类文档进行分类,是一个典型的二分类问题,朴素贝叶斯模型具有训练速度快、判断预测准确等优点,因此,本文的航天文本分类系统选用了朴素贝叶斯算法,其描述如下:

令C={c1, c2, …, c|c|}为预先定义的类别集,d={w1, w2, …, wn}表示文档向量,则可以用P(ci|d)表示文档d属于类ci的概率。文档d将被分类到使P(ci|d)最大的类别ci中。直接估计P(ci|d)是比较困难的,但根据贝叶斯公式:

可以通过估算P(d)、P(ci)和P(d|ci),然后将估算出的值代入贝叶斯公式中,计算出P(ci|d)的估计值。一般情况下,P(d|ci)的估计值难以确定,因为d是一个n维向量,n的取值可以很大,所以,d有很多可能值。为了简化对P(d|ci)的估计,朴素贝叶斯模型有一个简单的假设:当文档d属于类别ci时,向量d中各个分量取值是相互独立的。这样,文档d在给定类ci的条件概率就可以表示为:

由于上式中,P(d)对于任意类别ci都是一样的,所以,仅需考虑上式中分子的取值,即当类别为ci时,分子取最大值,则文档d属于ci类。

2 实验及结果分析

为了验证该航天文本分类系统的效果,采用其它测试数据集(不包含已用于训练的文档)对系统的可靠性进行了测试。测试数据集包含30篇办公类文档和30篇任务类文档,这些文档的类别都已经过人工验证。另外,对于文档分类的评价标准指标有多种,本文选取准确率(Precision)和召回率(Recall)两个指标作为评价标准,其具体表达式为:

其中,TPc表示真阳性(正确分类成c类的文档数)、FPc表示假阳性(错误分类成c类的文档数)、FNc表示假阴性(属于c类但分类器并没将其分到c类的文档数)。将测试数据集上传到服务器进行测试,并对分类结果进行统计,统计结果见表1。

从表1可以看出,该航天文本分类系统能够按照办公文档和任务文档,准确地分类航天文档,准确率和召回率均达到90%以上。因此,该航天文本分类系统具有良好的分类效果,能够满足航天文本的实际分类需求。

表1 分类结果

3 结束语

本文基于Web技术和文本挖掘技术,构建了一套航天文本自动分类系统。该航天文本分类系统可以接受用户上传的多种格式的待分类文档,然后自动完成分类,最后向用户返回分类结果。测试结果表明,该航天文本分类系统对航天文本的分类能够达到较高的准确率和召回率,可基本满足航天文本分类的实际需求。

目前,该航天文本分类系统的文本分类功能相对单一,仅能粗略将航天文本按照任务类文档和办公类文档分成两类。在未来的工作中,研究人员将构建更为精细的文本分类模型,进一步丰富和完善航天文本分类系统的功能和性能。

1 高洁, 吉根林. 文本分类技术研究[J]. 计算机应用研究, 2004, (7)∶ 28~30

2 张浩, 汪楠. 文本分类技术研究进展[J]. 科技信息(科技教研), 2007, (23)∶ 95~96

3 张春燕. 基于自然语言处理的文本分类分析与研究[D]. 江西理工大学, 2011

4 刘冬雪. 文本分类技术在信息检索中的应用[J]. 科技资讯, 2010, (18)∶ 11

5 郭峰, 徐玉生, 陈晓云, 等. 基于信息提取的面向行业应用文本分类算法[J]. 清华大学学报, 2005, 45(S1)∶ 1810~1813

6 胡新海. 数据挖掘与决策树J48算法在文本分类中的应用[J]. 甘肃高师学报, 2015, 5(20)∶ 25~29

7 王欢, 武刚, 杨抒. 基于文本分类的林业Web黄页分类系统[J]. 计算机系统应用, 2012, (1)∶ 21~24

8 赵月斋. 一种基于词频统计的中文分词方法[J]. 科技展望, 2016, (10)∶ 280~283

9 周祺. 基于统计与词典相结合的中文分词的研究与实现[D]. 哈尔滨工业大学, 2015

10 司志刚, 牛琳, 常朝稳. 基于SVM的公安情报自动分类系统的研究与设计[J]. 计算机工程与应用, 2008, 44(28)∶226~229

11 黄昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3)∶ 8~19

12 周洪翠, 庄新妍. 基于向量空间模型的文本信息表示[J]. 呼伦贝尔学院学报, 2011, (19)∶ 111~116

13 Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11)∶ 613~620

14 Dumis S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization[C]. Proceedings of the seventh international conference on Information and knowledge management. ACM, 1998∶148~155

15 Baker L D, Mccallum A K. Distributional clustering of words for text classification[C]. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998∶96~103

16 Chickring D M, Heckerman D, Meek C. A Bayesian approach to learning Bayesian networks with local structure[C]. Proceedings of the Thirteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc.ACM, 1997∶ 80~89

17 Schutze H, Hull D A, Pedersen J O. A comparison of classifiers and document representations for the routing problem[C]. Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1995∶ 229~237

Research and Application on Aerospace Text Classification System Based on Web Technology

Xu Jianzhong1Zhu Jun2Zhao Rui3Zhang Liang1Li Jiaojiao1
(1. Hangzhou Shiping Information and Technology Co., Ltd, Hangzhou 310012;2. Xichang Satellite Launch Center, Wenchang 571300;3. The Academy of Armored Forces Engineering, Beijing 100072)

Hainan Launch Center has no effective organization and management of massive documents, which is urgent for establishing an effective method to automatically categorize documents. To solve this problem, a serverclient model text classification system has been implemented based on text classification technology and Web technology, through Web construction, text training data preprocessing, feature vectorizing and classification training. Testing results suggest that this classification system has good performances, and both the precision and recall of the data testing are above 90%.

Web technology, Text classification, Aerospace text, Bayes algorithm

1009-8119(2016)12(1)-0048-03

海南发射场是我国目前正在进行建设的新一代航天发射基地,其在建设和运行过程中会产生各种类型的海量文档。这些海量文档大致分为两个类别:一是办公类文档,包括日常管理、规章制度、会议记录等;另一类是任务类文档,包括航天发射任务的技术方案、任务训练、任务记录等。目前,这些海量文档尚未实现分门别类的有效组织和管理。文档资料的整理归档是海南发射场正规化建设的重要内容之一,因此,随着各类文档数量的不断增长,急需一种快速、有效的方法来进行文档整理归类。文本分类技术,作为一种更为高效的自动分类方法,能够很好地满足现实需求。

文本分类技术是根据文本的内容,在给定分类类别的情况下,自动确定文档集合中每个文档类别的过程[1,2]。该技术在自然语言处理[3]、信息检索[4]、信息提取[5]和数据挖掘[6]等领域应用广泛。例如,王欢[7]等人将文本分类技术应用于林业Web黄页的分类,从而辅助Web信息的管理。司志刚[8]等人结合SVM算法设计实现了公安情报的自动分类系统。另外,存放航天文档的计算机通常以局域网的方式进行连接,所以,本地模式的航天文本分类软件不利于航天文本分类系统的应用和版本升级维护。

因此,本文基于Web技术和文本分类技术,设计并实现了一种航天文本分类系统。该系统采用服务器—客户端模式,用户可以将待分类的文档通过网络上传至服务器,服务器利用人工标注的训练数据完成分类器构建,并用构

猜你喜欢
分词分类器类别
学贯中西(6):阐述ML分类器的工作流程
论陶瓷刻划花艺术类别与特征
分词在英语教学中的妙用
基于朴素Bayes组合的简易集成分类器①
一起去图书馆吧
基于特征选择的SVM选择性集成学习方法
结巴分词在词云中的应用
结巴分词在词云中的应用
基于差异性测度的遥感自适应分类器选择
选相纸 打照片