面向科研与教学的文本分类平台构建

2015-12-15 01:57路永和彭燕虹刘文秋
现代情报 2015年9期
关键词:文本分类语料库

路永和+彭燕虹+刘文秋

〔摘 要〕为提高中文文本分类科研与教学人员的工作效率,本文针对国内现有中文文本分类系统的研发现状,构建一个包括预处理、特征选择、权值计算、自动分类和分类效果测评等文本分类全过程的管理平台。开发过程中,本文使用系统集成思想和方法将自编软件代码与相关的开源软件代码进行集成。经测试,该系统实现了文本自动分类过程的全部功能。

〔关键词〕文本分类;MVC;语料库;训练集;测试集

DOI:10.3969/j.issn.1008-0821.2015.09.011

〔中图分类号〕TP391 〔文献标识码〕B 〔文章编号〕1008-0821(2015)09-0056-07

〔Abstract〕In order to improve the working efficiency of the people which are occupied in scientific research and teaching of Chinese text categorization and considering about the research and development status of the text categorization system in China,a management platform of text categorization for the whole process,including pre-processing,feature selection,weighting calculation,automatic classification and classification evaluation were built.In the process of the development,based on the principle and method of system integration,the coding of ourselves and the ones of the related open source software were integrated.After testing,the system implemented the whole functions of automatic text categorization.

〔Key words〕text classification;MVC;corpus;training set;testing set

文本分类是基于内容的自动文本信息管理,随着网络文本数量呈几何级数增长,文本分类已成为处理和组织海量文本信息的关键技术[1]。文本分类就是将文本信息分到已定义好的一个或多个类中,从而帮助人们更好更快的检索到有用信息,过滤掉无用信息。一般而言,文本分类分为以下5个环节,包括:文本预处理、特征选择、权值计算、分类算法、分类效果测评。当前,文本分类技术被广泛应用于日常数据管理的各个方面[2-4],如浏览器的资源分层、垃圾短信邮件的过滤、敏感信息的预警、网络舆情监测[5]等。但由于文本分类流程的复杂性,需要撰写大量的代码,不仅耗时耗力、成本代价高昂,且造成了严重的代码重复,浪费了研究者们的宝贵时间、延长了科研进度,使很多学者不能在第一时间完成自己的最新研究。对致力于学习文本分类技术的高校学生而言,由于文本分类过程的抽象复杂,他们很难学习到相应知识内核。基于上述原因,研发一个面向教学与科研的文本分类平台,实现数据集导入、训练集与测试集索引、特征选择、权值计算、文本分类并提供可视化的界面,使得科研人员、高校学生甚至包括无技术背景的人员均能利用此文本分类系统进行文本分类领域的相关研究与应用。

1 系统需求分析

目前,国外已经开发出了一些成熟的文本分类平台,如著名的IBM商用数据挖掘平台IBM Intelligent Miner,是一款包含文本分类、预测、关联规则产生等基础研究成果在内的可伸缩性平台。该平台提供了丰富的数据分析技术和算法集,具有大量易于开发者使用的编程接口,是市场上最强大的数据分析平台之一[6]。但是作为商用挖掘工具,该平台价格较高且不宜用于学术研究。斯坦福大学自然语言处理组提供了开源的Natural Language Toolkit(NLTK)平台用于进行分词、词性标注、文本分类等工作[7],但NLTK只适用于Python语句且主要支持英文及其他一些拉丁语系,无法处理中文语料。Waikato大学研究的开源平台Waikato Environment for Knowledge Analysis(WEKA),它包含对数据进行预处理、关联规则挖掘、分类、聚类等多种功能,并提供了易于交互的可视化界面[8]。Weka的源码是公开的,因此使用者可以根据自身需要对Weka进行二次开发,拓展其功能或者整合到相应的系统中。相比国外,国内在文本分类平台开发上发展较慢,主要是基于国外著名开源平台进行的二次开发。自主研制的相关平台主要有复旦自然语言处理(FudanNLP,FNLP)、中科院汉语分词系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)以及谭松波的DRAP文本分类系统。FNLP主要包括了以下功能:文本分类、实体名识别、新闻聚类、词性标注、中文分词、关键词抽取、依存句法分析等。工具采用Java编写,并提供了API的访问调用方式[9]。但此平台初始化时间有点长,并且加载模型时占用内存较大,在进行语法分析时分析的结果也不是十分准确。ICTCLAS主要包括以下功能:中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典。目前,ICTCLAS30分词速度单机996KB/s,分词精度9845%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器[10]。但是ICTCLAS并非完整的文本分类系统,只包含了文本分类过程中文档预处理环节的切分词操作。DRAP文本分类系统,支持中英文分类、中文最大匹配分词、特征选择、英文词根还原、停用词去除、双语种分类和多线程分类,其中双语种分类、多线程分类需要定制后才可使用[11]。但是该分类平台并不能进行特征选择方法以及分类器的选择,各个分类环节采取系统默认设置,同时系统实用性不强、极易闪退。综合而言,国内尚未有成型且使用效果良好的文本分类系统平台,开发一个易于使用、功能简捷、操作简单的文本分类系统,将为自动文本分类技术的使用者提供极大的便利。endprint

基于此,本系统平台搭建的主要目标是为从事文本分类教学、科研的人员提供一个易于使用、功能简捷、对系统运行环境要求不高、具有可视化功能的文本分类系统。为了达到此目标,系统的功能性需求包括:(1)提供可视化的使用界面,用户只需点击相应按钮,即可执行所需的文本分类各个环节的操作,不再需要人为进行代码撰写;(2)提供单篇文档分类、多篇文档分类两个入口,以满足不同需求;(3)提供各个环节的运行结果,使得用户能够及时了解文本分类各个环节的运行情况。同时,系统需要满足以下2个非功能需求,才能更好地服务于使用者,包括:(1)易使用性:系统具有良好的交互界面,界面功能描述清晰,步骤明确,用户只要执行选择、确定操作,即可顺利使用平台;(2)健壮性:系统平台应该可靠有效,即使出现系统故障或是用户输入、操作错误或者其它异常,也能够迅速捕获并进行处理。

2 系统构建

21 系统总体架构

本系统使用MVC三层架构设计,包括表示层、业务逻辑层以及数据访问层,开发语言采用Java,如图1所示。

用户通过表示层进行界面操作。第一步:索引训练集、索引测试集以进行文本预处理操作,通过用户请求监听模块访问业务逻辑层文本预处理模块,调用文本预处理接口,运行文本预处理各个环节,包括ICTLAS分词、去停用词、Lucene特征词索引以及统计词频,生成一个wordCount.txt文件(即词频统计文件)存储于数据访问层中。第二步:用户通过界面操作特征选择环节,包括选择特征选择方法以及输入特征维数,通过用户请求监听模块访问业务逻辑层特征选择模块,调用特征选择接口,读取wordCount.txt文件,运行特征选择业务,生成特征选择方法维数txt文件,存储于数据访问层中。第三步:用户通过界面选择所需的权值计算方法以进行权值计算操作,通过用户请求监听模块访问业务逻辑层权值计算模块,调用权值计算接口,分别读取各个特征选择方法维数txt文件,运行权值计算业务,生成相应TrainSet权值计算方法aff文件和TestSet权值计算方法aff文件,存储于数据访问层中。第四步:用户通过界面选择所需的分类算法以进行分类操作,通过用户请求监听模块访问业务逻辑层WEKA分类算法模块,调用Weka分类算法接口,分别读取成对的TrainSet权值计算方法aff文件和TestSet权值计算方法aff文件,运行分类业务。第五步:第四步运行分类业务后,直接访问业务逻辑层分类效果测评模块,运行分类效果测评业务,包括单篇测试文档分类结果(分类结果、实际类别),测试集分类结果(准确率、宏平均值、微平均值),业务逻辑层运行结果直接返回表示层,在用户界面显示分类效果测评(准确率、宏平均值、微平均值)。

22 主要功能模块

本系统主要功能大致可以分为四大模块:表示模块,用户请求监听模块、业务逻辑模块和数据存储模块。

221 表示模块,即系统平台界面

表示模块即文本分类系统的UI,负责接受用户的请求并返回请求内容,该模块使用JFC技术,界面中使用了Java Swing和Java AWT等UI组件。在Java Swing中,每一个组件都包含一个MVC模型,Model模块决定组件的行为,View模块决定组件的UI。以JButton为例,按钮表面提示文字,如“特征选择”按钮,这部分就是View。而当前按钮是被锁定的还是处于激活状态,如“按钮是否能被点击”,这部分就是Model。

222 用户请求监听模块

使用ActionListener接收表示层所发出的请求,对请求进行相应处理,并将处理后的结果返回给表示层。用户请求监听模块主要负责监听用户的操作,并根据用户的请求,更新文本分类子系统的配置信息。该模块主要为表示层提供服务,同时充当表示层和业务逻辑层间沟通的桥梁,包括:监听用户操作和控制输入规范。因此,该模块主要解决以下两个问题:①系统能够精确地捕获用户的操作并可以为用户提供即时反馈;同时,在响应用户的请求过程中,需要保证不会错过用户的其它操作。②系统接受的数据需要控制在一定的范围内,同时保证数据是有效的输入。对于规范要求以外的输入,系统能够正确地判断出来,并且以合理的方式处理。

223 业务逻辑模块

本系统的业务逻辑模块即文本分类的流程操作,包括:①文本预处理:ICTCLAS分词、去停用词、Luence建立索引和统计词频;②特征选择:信息增益、卡方检验和互信息;③权值计算:TF-IDF;④分类算法:K最近邻算法、朴素贝叶斯算法、支持向量机算法和J48决策树算法;⑤分类效果测评:准确率、宏平均F值和微平均F值。

224 数据存储模块

即包括系统所涉及的所有数据文件的安全持久存放。数据主要保存为txt格式和arff格式。其中:①txt格式:wordCount.txt主要的作用是保存词频统计的结果,如某文本出现在类别Ci中的频次,出现在类别Ci的文本数量等。后续特征选择模块和特征权值计算模块在使用特征词的词频等数据能够直接从这个文件中调取。特征选择方法维数txt主要的作用是保存某一维数下采用某一特征选择方法得到的特征词;②arff格式的文件是Weka默认的储存数据集文件。每个ARFF文件对应一个二维表格。表格的各行是数据集的各实例,各列是数据集的各个属性。因为本文设计的文本分类系统平台在分类算法模块中调用Weka开源工具,所以特征权值计算模块的最终输出为arff格式文件,方便分类算法模块的调用。

3 系统设计与实现

31 用户请求监听子系统

用户请求监听子系统主要基于GUI类。首先,GUI类继承了JFrame类,同时实现了ActionListener接口,故其本身是一个具有监听事件行为的窗口。其次,GUI类作为用户界面,是整个系统的入口。在GUI类的构造过程中,将按钮和文本框布局到GUI类上,并分别为它们设置对应的监听事件。整个用户界面设置的事件有5种:endprint

(1)分类算法的单选按钮事件RadioListener1。该事件用于更新文本分类算法。当用户选择了某种文本分类方法,那么用户请求监听子系统就会把文本分类子系统的分类算法设置为对应的值。

(2)特征选择方法的单选按钮事件RadioListener2。该事件用于更新特征选择方法。当用户选择了某种特征选择方法,那么用户请求监听子系统就会把文本分类子系统的特征选择方法设置为对应的值。

(3)权值计算方法的单选按钮事件RadioListener3。该事件用于更新权值计算方法。当用户选择了某种权值计算方法,那么用户请求监听子系统就会把文本分类子系统的权值计算方法设置为对应的值。

(4)特征维数文本框的内容更新事件KeyAdapter。该事件用于检测特征维数的有效性。如果用户填写的特征维数不在有效范围内,那么系统就会提示特征维数无效。

(5)文本分类子系统激活事件GUI(GUI实现了ActionListener接口)。该事件主要用于执行文本分类子系统的任务,包括索引训练、特征选择、权值计算和分类。

用户请求监听子系统的类图,如图2所示,这里略去函数和属性。

32 文本分类子系统

文本分类子系统包括文本预处理、特征选择、权值计算、文本分类、文本分类效果测评等,系统流程图,如图3所示。

321 文本预处理

文本预处理是文本分类环节中重要的一环[12]。文本预处理的主要目的是抽取代表文本特征的元数据(特征项),一般包括去除标记、去除停用词以及在特定情况下进行分词处理等工作[13]。本系统中,文本预处理主要用于实现中文文本分词、特征词索引和特征词词频统计。本文的文本预处理操作,通过将中科院分词器ICTCLAS整合进Lucene平台完善了Lucene平台对中文分词的不足,在利用ICTCLAS进行分词后,用Lucene实现后续的去停用词、建立索引、统计词频等文本预处理操作。为文本预处理设计的类包括:

GUI类:主要负责前台界面展示和人机交互控制。

MainText类:主要设计文本分类全部流程的接口,包含文本预处理、特征选择、文本分类的接口。

TermStatistic类:包含文本分词、特征词索引、特征词词频统计操作接口。

ICTCLASAnalyzer类:主要实现中文文本的分词操作。

Indexer类:将分词后的单词按照字典顺序进行索引操作,便于下一步词频统计。

WordFrequence类:利用分词和索引的结果,统计特征词词频,为下一步特征选择和特征权值计算做数据准备,运行后生成wordCount.txt。

用户选择完训练集路径后,用户监控系统把用户的请求提交给业务逻辑层,MainTest类调用函数setTrainpath和getTestpath分别记录训练集和测试集路径。当用户点击“索引训练集”按钮后,用户监控系统把用户的请求提交给业务逻辑层,MainTest类调用类TermStatistic对训练文档和测试文档进行索引。索引完毕后,TermStatistic的对象调用WordFrequence类进行词频统计,统计后的结果保存到wordCount.txt文件上。

322 特征选择

特征选择用于从原有的特征中提取出少量的、具有代表性的特征,并替代原始特征集进行文本分类。在文本分类中,特征选择是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果[14]。本文的文本分类平台中整合了经典的特征选择方法,包括信息增益IG、开方检验CHI以及互信息MI。其中本文设计的平台设置CHI作为特征选择的默认方法。为特征选择设计的类包括:

GUI类:主要负责前台界面展示和人机交互控制。

MainText类:主要设计文本分类全部流程的接口,包含文本预处理、特征选择、文本分类的接口。

FeatureSelection类:特征选择基类,在基类上派生具体的特征选择类,如CHI-FS类。

Parameter类:保存训练文本集、测试文本集以及新生成特征词及其词频文件的存放路径。

Method类:主要包含词频以及CHI方法中所需参数。

用户提交请求后,用户监控系统把用户的请求提交给业务逻辑层,MainTest类通过函数setFSType()来设置用户特征选择的方法,在执行特征选择操作之前,先通过setFeatureNum函数获取用户设置的特征维数,然后调用FeatureSelection()函数来执行特征选择操作。FeatureSelection()函数通过变量FSType确定调用哪个特征选择方法类并生成一个实例。假设用户使用默认特征选择方法CHI,将特征维数getFeatureNum()作为参数传入其中。通过Method类下的getDocNumInC()函数获取训练集中的文本数,通过调用termCountSum()函数获取预处理后的每个类别下的特征项。

323 权值计算

特征权值就是用来表示某个特征项分类能力的强弱。现行的很多分类算法都利用向量空间模型(Vector Space Model,VSM)来进行文本表示,用特征项和特征权值来代表特征信息[15]。本文设计的平台中设置TF-IDF作为权值计算的默认方法。为权值计算设计的类包括:

GUI类:主要负责前台界面展示和人机交互控制。

MainText类:主要设计文本分类全部流程的接口,包含文本预处理、特征选择、文本分类的接口。

TermWeightCalculation类:特征权值计算基类,在基类上派生具体的特征权值计算类,如TFIDF类。endprint

Parameter类:保存文件路径,具体包括:训练文本集、测试文本集、新生成特征词、词频以及特征权值计算生成的文件。

用户提交请求后,用户监控系统把用户的请求提交给业务逻辑层,MainTest类通过函数setWeightType()来设置用户权值计算的方法,然后调用TrainWeightCalculate()函数以及TestWeightCalculate()函数来分别执行训练集以及测试集权值计算操作。TrainWeightCalculate()函数以及TestWeightCalculate()函数通过变量WeightType确定调用哪个特征权值计算方法类并生成一个实例。

324 分类算法与效果测评

文本分类算法是文本分类中的核心问题,也称为文本分类器或分类模型[13]。文本分类根据文本的特征和权值,将文本按照一定的分类规则自动标注文本类别的过程。作为一个文本分类系统平台,应整合多种经典的算法,供平台使用者进行实验对比。由于Weka已经涵盖了大部分的分类算法,本文介绍的平台上的分类算法是调用Weka的分类算法,其中包括KNN算法、朴素贝叶斯算法、支持向量机(SVM)算法和J48决策树算法。其中本文设计的平台设置KNN为默认的分类算法。为分类算法设计的类包括:

GUI类:主要负责前台界面展示和人机交互控制。

MainText类:主要设计文本分类全部流程的接口,包含文本预处理、特征选择、文本分类的接口。

WekaClassifier类:整合了Weka开源平台中大部分文本分类方法的类接口,调用Weka中的类IBk、LibSVM、J48、NaiveBayes,并根据Weka中的分类算法返回的结果生成分类器。

Classifier类:分类算法基类,在基类上派生具体的分类算法类,如KNN类、SVM类、J48类以及BAYS类。

ArffLoader类:读取训练文件和测试文件。

ArrayList类:输出每一个测试语料的文本分类测评结果,包括分类结果和实际类别。

用户提交请求后,用户监控系统把用户的请求提交给业务逻辑层,MainTest类通过函数setClassifierType()来设置用户分类算法,然后在wekaClassifier类中调用Classify()函数来执行分类算法操作。Classify()函数通过变量type确定调用哪个分类算法并生成一个实例。通过ArffLoader类下的getDataSet()函数获取训练集及测试集文件,通过各个实例类的buildClassifier()函数进行分类训练,通过调用classifyInstance()函数及classValue()函数获取分类后的每个测试语料的分类结果,通过ArrayList类循环输出分类结果。

4 系统功能测试

采用复旦中文分类语料库作为系统测试的语料库,选取其中的9个类别,包括Agriculture、Art、Computer、Economy、Environment、History、Politics、Space以及Sports。各个类别均有400个文本,按1∶1随机分配,训练集与测试集各为200个,数据集共有3 600个文本。本文设计的文本分类系统可在“中大极天智能信息处理实验室”[16]上下载,安装后可对平台的各项功能进行测试。

41 文本预处理

索引训练集和测试集过程中,系统会对训练语料和测试语料进行分词、去停用词、索引和统计操作。具体操作包括:对每个文档进行切分词操作,并对每个特征项评估其词性,从而便于在去停用词阶段排除某些词性的特征项。在进行分词处理后,对训练文本集建立索引,便于后续进行词频统计等工作。索引结束后系统会输出建立索引所花费的时间。针对复旦中文分类语料库,1 800篇训练文档,共花费了127 910毫秒来建立索引;1 800篇测试文档,共花费了237 385毫秒来建立索引。

42 特征选择

任意选择平台上一种经典的特征选择方法,输入特征维数然后点击“特征选择”按钮,后台运行特征选择操作,在系统平台结果区会出现经过特征选择后被选出的特征项列表。以特征维数600为例,分别利用CHI、IG、MI进行特征选择操作,得到前20个特征词如表1所示。

观察各个特征选择方法得到的前20个特征词可知:CHI、IG得到的特征词较为类似,而MI与CHI、IG的特征词差别较大。

43 权值计算

选择权值计算方法,进行“训练集权值计算”和“测试集权值计算”,运行完成后生成相应的训练集与测试集的arff格式文件,以供分类算法环节使用。以特征维数为600的CHI特征选择方法为例,利用TF-IDF进行特征权值计算,得到TrainSetTFIDF.arff和TestSetTFIDF.arff,分别包含了各个训练文本和测试文本的向量空间,如图4所示。

44 分类算法与效果测评

任意选择分类算法进行文本分类操作,在系统平台结果区会输出各个测试文档的分类情况,包括分类结果以及实际类别;界面右侧会输出各个类别的分类效果,包括精度、召回率和F1测度;界面下端会输出整体数据集分类效果,包括准确率、宏平均以及微平均。基于特征维数为600的CHI特征选择方法以及TF-IDF特征权值计算方法,分别利用K邻近算法(KNN)、支持向量机(SVM)、决策树(J48)、贝叶斯算法(BAYS)进行分类操作,得到各个类别的分类效果(见表2)和数据集整体分类效果(见表3)。

由表2及表3可知,对于复旦中文分类语料库的9个类别而言,J48决策树分类算法的分类效果明显优于KNN、SVM、BAYS 3种算法,各个类别分类精度分布于[086,098]之间,召回率分布于[086,097]之间,F1测度分布于[086,097]之间,均达到较好的分类效果;对于整体分类效果,其分类准确率高达930556%,宏平均值为09302,微平均值为09306。其它3种分类算法的分类效果相对较差。整体分类效果BAYS优于KNN、SVM,SVM最差。不同的语料库,应用不同的分类算法得到的分类效果会有差别,对于复旦中文分类语料库而言,其可能更适合利用决策树分类算法进行文本分类。endprint

5 结 语

随着文本分类领域的深入研究和应用,越来越多的应用者不得不进行文本分类技术相关代码的撰写,耗费了大量的人力物力。本文针对此种问题,开发了文本分类系统平台。基于java开源组件,整合中科院分词器ICTCLAS、Lucene平台以及WEKA源码,对文本分类系统进行设计和开发,不仅实现了文本分类各个流程的操作,还向用户提供了一个可视化操作界面。该系统具有可拓展性,且操作简单,用户无需了解平台代码即可自行传入数据集文件,点击相应的文本分类环节即可完成相应操作。

除了已实现的功能外,系统平台还存在一些有待完善和扩展的地方,主要包括以下方面:

(1)将文本分类流程进一步细化,为用户带来更多的灵活性。可将文本预处理操作细分为分词、去停用词和统计词频等方式。分词可以提供多种分词器,去停用词可以使用去停用词表和词性筛选两种方式,给予用户更多的选择。

(2)搭建Web端平台界面,采用B/S模式提供服务,提供扩展接口,用户可将自己设计的特征选择方法、特征权重计算方法以及分类算法等嵌入平台,进行对比实验,有助于同行交流,了解最新的算法改进研究及进展。

(3)在现有系统UI的基础上,进一步优化用户界面,在保证平台实用性的同时,使平台更具美观性、吸引更多用户。

(4)支持多种语言,将平台推向国际化。

参考文献

[1]苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004:273-307.

[2]Elsayed E,Eldahshan K,Tawfeek S.Automatic evaluation technique for certain types of open questions in semantic learning systems[J].Human-centric Computing and Information Sciences,2013,3(1):1-15.

[3]Sarkar K.Automatic single document text summarization using key concepts in documents[J].Journal of information processing systems,2013,9(4):602-620.

[4]Guo X,Sun H,Zhou T,et al.SAW Classification Algorithm for Chinese Text Classification[J].Sustainability,2015,7(3):2338-2352.

[5]马海兵,毕久阳,郭新顺.文本分类方法在网络舆情分析系统中的应用研究[J].情报科学,2015,33(5):97-101.

[6]Cabena P,Choi H H,Kim I S,et al.Intelligent Miner for Data Applications Guide[J].IBM RedBook SG24-5252-00,1999.

[7]Bird S.NLTK:the natural language toolkit[C]∥Proceedings of the COLING/ACL on Interactive presentation sessions.Association for Computational Linguistics,2006:69-72.

[8]陈慧萍,林莉莉,王建东,等.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2009,44(19):76-79.

[9]Qiu X,Zhang Q,Huang X.FudanNLP:A Toolkit for Chinese Natural Language Processing[C]∥ACL(Conference System Demonstrations),2013:49-54.

[10]NLPIR汉语分词系统[EB/OL].http:∥ictclas.nlpir.org,2015-05-24.

[11]DRAP文本分类系统简介[EB/OL].http:∥www.searchforum.org.cn/tansongbo/software.htm,2015-05-24.

[12]Uysal AK,Gunal S.The impact of preprocessing on text classification[J].Information Processing & Management,2014,50(1):104-112.

[13]肖可,奉国和.1999-2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687.

[14]郑伟,吕建新,张建伟.文本分类中特征预抽取方法研究[J].情报科学,2011,29(1):86-88,92.

[15]Salton G,Buckley B.Term-weighting Approaches inAutomatic Text Retrieval[J].Information Processing & Management,1998,24(5):513-523.

[16]中大极天智能信息处理实验室[EB/OL].http:∥iipl.sysu.edu.cn/,2015-05-24.

(本文责任编辑:郭沫含)endprint

猜你喜欢
文本分类语料库
《语料库翻译文体学》评介
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
文本分类算法在山东女子学院档案管理的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语料库语言学未来发展趋势