面向传媒领域文本分类训练器的设计

2017-09-29 11:19宋燕燕
科学家 2016年12期
关键词:训练器特征提取分类

宋燕燕

摘要 传媒领域存着在大面积的领域知识,这类领域知识将特征项与文本类别相关联在一起,非常有助于区分文本的具体类别。本文设计方面一种面向传媒领域知识的文本分类训练器,旨在提高传媒领域文本的分类性能。训练器将以非常直观的方式实现关键词检索,特征词提取,文本分类功能,可以方便地对未知的文件进行分类,统计文本关键词出现的频率和文本内容的训练。

关键词 文本分类;传媒领域;词频统计;特征词

中图分类号 TP3 文献标识码A 文章编号2095—6363(2016)12—0032—02

伴随着互联网的迅猛发展和日益遍及,互联网数据量剧增,电子文本信息迅速的扩大,如何有效地安排和管理这些信息,并且迅速、精确地找到用户所需要的信息是当时信息技术领域面对的一大应战。文本分类作为处理和安排很多文本数据的关键技术,能够在较大程度上处理信息乱现象的问题,便利用户精确地定位所需的信息和分流信息。

文本分类是指采用计算机程序对文本集按照一定的分类体系进行分类标记和有效管理,方便用户进行查询。文本分类训练器的设计通常包括文本的特征向量表示、文本特征向量的降维,以及文本分类器的设计与测试等。

本文通过分析利用Java技术构建分类训练器的结构框架,明确了基于Java构建分类训练器理论可行性,并进一步设计了系统的技术流程和功能实现,从而为面向传媒领域的文本分类训练器的研究和应用提供了一种方法。

1相关技术介绍

文本分类问题的困难之一便是特征空间的高维性,而特征提取的主要功能就是在保留文本核心信息的情况下尽量减少要处理的单词数,也就是降低向量空间维数,从而提高文本处理的效率和精度。特征提取方法成为文本分类中首先要解决的问题。

特征提取的常用办法分为根据概率的特征提取办法和根据语义的特征提取办法。根据概率的特征提取办法是先对文档进行分词,过滤掉停用词,并用传统算法对词语权重进行核算,得到权重的排序后,按权重值的大小选择相应的特征作为文档的特征关键字。而根据语义的特征提取办法是在过滤掉停用词后对词语构建网络结构,经过词语网络结构对特征权值进行核算,从而得到终究文档的特征词。

现在选用的分类办法根本都是根据机器学习的思维。对于传媒范畴,有些专业词具有显着的种类倾向性,是判别文本种类的重要依据,如:当文本中较多的呈现“新媒体”“媒体”“移动媒体”等这些词语时,咱们就简单将文本联想到媒体工业这一种类。咱们把这些行业内流转度高、尽人皆知、与具体种类有关的语义常识称为范畴常识,把握住范畴常识有助于文本分类。

2文本分类训练器功能需求以及设计

面向于传媒领域的文本分类训练器的功能需求有以下的几个大的方面:该系统要可以对文本或文件夹进行分类、训练、关键字检索、词频查询、清屏等具体操作来满足用户的多种需求;要给用户提供直观方便的操作界面,设计的图形界面方便用户直观快速的找到自己需要的功能和其它的一些信息;尽可能详细的优化输出功能,让使用者可以更直接看到所需要的文本和训练结果;尽可能多的训练文本,合理设置传媒领域关键词才会使文本分类更加准确。

根据功能需求对系统进行设计,主要设计流程如图1所示。

3文本分类训练器的实现

文本分类训练器采用Java开发,分类训练器的属性数据可直接存储于XML文档中,在系统内部可以方便地实现属性数据的读入和读出,满足用户对属性数据直观的获取需求。

1)分类模块的实现

每个关键词在此类文章里出现的平均比例等于關键词出现次数除以文章总字数,统计关键词种类和数量,然后把这些关键词所对应的类枚举出来,然后将关键词出现数量乘以在训练里面的平均占比,得出概论,再归一化成百分数排列。部分代码如下:endprint

猜你喜欢
训练器特征提取分类
连续被动式运动训练器转速切换协调控制方法
分类算一算
虚拟维护训练器在飞机维修课程中的应用实践
分类讨论求坐标
基于Daubechies(dbN)的飞行器音频特征提取
数据分析中的分类讨论
Bagging RCSP脑电特征提取算法
腹腔镜手术训练器的摄像头影像滞后现象及分析
基于MED和循环域解调的多故障特征提取
Walsh变换在滚动轴承早期故障特征提取中的应用