文本分类算法在山东女子学院档案管理的应用

2016-10-11 09:36法汉英

科技视界 2016年24期

法汉英

【摘要】高等教育的快速发展使学校档案馆要管理的档案越来越多，许多学校针对这种情况采用档案管理软件对档案进行管理，据调查在我校没有对档案文件进行自动分类功能，为减轻档案工作人员工作量便研究一种适合我校档案的文本自动分类方法。本文大体论述文本分类算法的知识点和文本分类算法的应用。根据山东女子学院档案的重复性、周期性等特点，询问档案馆工作人员采用手工对档案进行分类时，需要知道档案主题名和档案人信息确定归属于哪一个类别。本文将档案按照主题名看作不同类别应用加权分类算法对属于不同的类别的档案进行自动分类处理。

【关键词】文本分类；山东女子学院档案；短文本；加权分类算法

1 研究背景和意义

对于档案人员来说文本分类不是一个陌生的概念，过去用手工进行档案分类。随着计算机快速发展出现了许多文本文件。对文本进行有效的分类，利用计算机进行文本分类研究和应用尤为重要[2]。

分类的意思是将具有共同特定特征的事物放在一起方便检索。最典型的分类应用是在超市里商品排放，例如把不同品牌薯片放在一个货架上，把饼干放在另一货架上。这种好处是让顾客在买东西时能比较品牌信息为购买做决定。用户在下次购买东西的时候会直接前往该位置。

文本分类是把有相似特征的文本归纳到一起方便查询。面对海量的档案信息，目前的管理模式是依靠专业人员在档案管理系统中进行手工分类工作，利用文本分类算法对山东女子学院档案系统进行管理以提高档案管理水平。

2 文本分类相关技术

2.1 文本分类的概念

文本分类是指在一定的分类体系下根据文本的内容自动确定文本类别的过程[1]。文本分类是文本挖掘的一个分支。

2.2 文本分类和文本挖掘

文本知识又称为文本数据挖掘。文本挖掘不同于数据挖掘，数据挖掘面对的是结构化数据。文本挖掘面对是非结构化的文本，因此决定它采用的方法与数据挖掘不同。文本分类属于文本挖掘的范围。

2.3 文本预处理

文本预处理在分类中很重要。文本预处理包括以下几个方面：1）中文分词[3]。中文分词是将句子分为单词和词组的过程。2）词性标注[4]。词性是词语的属性，例如名词，形容词等。3）停用词过滤[5]。停用词指的是辅助词。如“的”这些词出现在大量的句子中如不处理会影响分类效果。4）实体识别[6]。实体识别是指对人名、地理位置等实体名字的识别。

2.4 文本表示

文本表示就是将文本预处理得到的特征词表示成计算机所能处理二进制数。

2.5 文本特征选择与特征抽取

对文本特征进行筛选，选出最能代表文本类别的特征，这个过程就是特征选择[7]。对每个特征计算其统计的度量值，设定一个阈值T，把度量值小于T的特征值过滤掉，剩下的是有效特征。特征抽取通过对初始特征空间进行扭曲、拉伸或者旋转等变换得到一个新的低维数特征空间的过程。

3 针对山东女子学院档案的基础词库的创建

根据学院档案管理的特点结合文本分类技术的发展，提出一种用于学院档案的基于语义的短文本加权自动分类算法。

3.1 基于山东女子学院档案自动分类算法的基础库设计

对于一份档案而言，其名字包括该档案的所有内容，档案进行计算机分类无需全文分析，只需对档案的名字分析。

本算法通过对档案名字信息中特征词提取和分析来进行档案的归类。通过对已分类的档案名字进行统计分析，将与各个类别相关度高的关键词提取出来建类别词库并根据关键词与类别之间的关联度的强弱为其分配相应的权值，可创建词库表。在档案名字中存在大量的词如“关于”、“通知”等与分类无关词，为提高文本在提取特征词的准确度减少冗余词的出现，需创建停用词库。通过对档案文件责任者信息提取创建一个责任者词库。通过分析确定该档案所属的大类类别。

3.2 分类词库的创建

类别词与类之间的关联度能够区分，需要为其类别词与类之间的关联度建立权重来表达这两者的不同。当某一类别词与类之间的关联度非常紧密时，需要为其赋予较高的权重系数，是该类别词的档案文件能够分到指定的类别。当一份档案中有多个类别词，且这些类别词的档案有属于不同的类别号时，可以通过权重计算来确定该份档案应该分到哪个类号中。

4 基于语义的短文本的加权分类算法

在完成基础词库的创建后，采用加权分类算法对档案文件进行分类。算法的步骤为：

1）在责任者词库搜索该档案责任者信息，确定该档案属于的大类类别。2）用停用词表对档案文件名字进行遍历去除停用词。3）根据1）确定的类别在类别词库中遍历，提取文本类别词及其对应的权值。4）将获得的类别词及其对应权值进行分类加权汇总并进行比较取得最大值即为该份档案所属的类别。

4.1 基于语义的短文本加权自动分类算法

经过这些工作后，对档案文件进行自动分类可以分为以下步骤：1）获得待分类档案责任者信息，用责任者信息在责任者词库中检索获得待分类档案的类别。2）对名字进行停用词操作，去除文本中的停用词，将待分类的短文本进一步缩短。将相同的分类号合并并计算类别词的权值进行比较确定最大值，最终确定待分类档案所属的类别。

4.2 短文本的处理

首先对短文本进行遍历，去掉其中的停用词，再根据类别词库中的词汇与题名中的内容进行比较，最后从中提取出的类别词作为分类结果。

4.3 合并分类号并权值求和

经过之前的工作，所有的分类主题词所归属的分类号及对应的权重全部得到，即可开始计算权重最终确定其类别。最终运行步骤如下：1）从待分类档案表中读取第一条记录。2）根据该条档案的责任者信息，判断其所属的大类。3）在该大类下的二级类别词库中对档案文件的名字进行遍历，取得类别词及相应的权值。4）合并相同类号，对权值求和。5）判断是否存在唯一最大值，若存在则可直接确定类别；若不存在则转入人工处理。6）读取下一条，循环直至完成。最终便完成了对山东女子学院档案的分类。

4.4 档案分类应用分析

通过对山东女子学院档案的自动分类，可以大大减轻了档案管理工作人员的工作量，对文件进行分门别类的整理，做到井井有条，层次鲜明。通过文本自动分类对各类文本信息进行有效的组织分类，可以高效的为用户提供信息检索和信息存储形成了学校对档案的独特管理。

5 总结

跟其他类的文本分类方法相比较，本文所设计的基于山东女子学院档案的文本自动分类算法的复杂度大大降低了，取消了文本训练的复杂过程，直接将学校档案的各类关键词和停用词依靠人工经验学习进行了手工构建，然而词库的构建很复杂，需要根据分类情况的反馈不断的调整补充。由于学校所管理的档案内容的特殊性，为了提高分类的效率，本文中所采用的这种简单实用的算法经过分析可以减少档案工作人员的工作量，达到了预期目的。

【参考文献】

[1]程传鹏.中文网页分类的研究与实现[J].中原工学院学报，2007（1）.

[2]中国互联网网络信息中心.第三十一次互联网发展统计报告[R].2013-01.

[3]龙树全，赵文正，唐华.中文分词算法概述[J].电脑科学与技术，2009，10：2605-2607.

[4]陈晓文.自动词性标注方法的比较[J].温州大学学报，2009，01：53-57.

[5]化柏林.知识抽取中的停用词处理技术[J].现在图书馆情报技术，2010.08：48-51.

[6]孙镇，王惠临.命名实体识别研究进展综述[J].现在图书馆情报技术，2012，06：42-47.

[7]张东礼，汪东升，郑伟民.基于VSM的中文文本分类系统的设计与实现[M].清华大学出版社，2003.

[责任编辑：李书培]