戴丽贞
【摘要】 随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,本文在基于文本分类、聚类算法的基础上,提出了一套移动IP化网络文本分类聚类模型,该模型能够对移动IP化网络文本进行自动分类,并进行系统化管理。实验结果表明,该模型的文本分类准确率很高,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性、和前瞻性。
【关键词】 IP化网络文本 文本分类 文本聚类 组织框架
一、引言
随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,而如果移动IP化网络文本无法快速、准确地进行分类,将会直接造成网络维护工作无章可循,进而影响到网络的安全性。现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,因此,迫切需要人们研究出相关工具以对大规模的文本信息进行有效的过滤并进行自动分类组织。
本文在基于文本分类[1] [3]、聚类算法的基础上实现了一种建立移动IP化网络文本组织框架的方法,提出了一套完备且可完善的文本组织框架:采用人工聚类与机器聚类相结合的方式得到了一套科学合理的文本组织方法;采用重复分类训练学习过程及定期重复框架聚类过程的方式实现了该套文本组织框架的动态完善;将移动IP化网络文本进行系统化管理,网管人员可随时根据需要从文本库中搜索和查询所需要的文本,获取相关知识。对文本分类聚类模型进行测试,结果显示,多聚类算法得出的第二文本框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。系统的部署与应用,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性和前瞻性。
二、文本分类聚类技术模型设计
2.1 现有文本处理方式存在的问题
现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,网管人员通过查看一定数量的移动IP化网络文本的全部内容、摘要或关键字根据个人的工作经验、理解预先建立移动IP化网络文本组织框架,然后根据建立的移动IP化网络文本组织框架以及新的移动IP化网络文本中包含的相关内容,对该新文本进行手工分类归档,并通过不定期的检查和整理的方式维护分类归档的移动IP化网络文本。当需要查询IP化网络相关文本时,输入相关搜索特征词,系统从移动IP化网络文本组织框架的相应分类中查询特征词对应的文本,并输出给查询人员。
有上述可见,现有移动IP化网络文本(以下简称为文本)处理方式存在以下缺点:(1)文本组织框架缺乏科学性及一致性。现有的文本处理方式属于粗放式的文档管理方式,文本组织框架以及文档的整理分类完全取决于网管人员的专业知识水平、业务能力及工作态度,分类的方式受个人主观因素影响较大,不同的人有不同的看法,在这样的方式下,很难保证各个网管人员构建的文本组织框架采用统一客观的分类标准,缺乏科学合理性。(2)效率较低,准确率不能保证。人工归档的方式需要消耗较多的时间,尤其在文本数量较大的情况下,不能实现较高的处理效率;并且这种人工归档的分类方式还会受到一些个人因素的影响,如专业知识水平、人为判断的失误等的影响,使得分类准确率不高[2]。(3)不利于网管人员的检索、利用现有文本知识。采用现有的处理方式处理移动IP化网络文本,即网管人员按照自身已经建立的文本组织框架以及阅读文本后的理解来对文本分类,使得不同专业人员的分类方式存在偏差。由于未能采用统一客观的分类标准,从而使得相应的网管人员对该文本的搜索、查询与利用变得十分困难,致使文本知识的利用率低下,而且,检索得到的文本出现重复,也增加了检索所需的时间,浪费了系统资源。
2.2 文本分类聚类模型的设计思路
该模型的主要理论基础是文件聚类和文本分类算法,前者的基础是先把文本进行分词[4]和向量化表示[5] [6],即预处理过程,之后根据一定的聚类算法把具有相似性质的文本归为一类,以此为基础可形成文本组织框架;分类的过程则是在已有文本框架的基础上进行数据的训练过程,形成一定的分类器模型,当有新文本进来时可以自动根据文本内容进行文本分类。具体过程如图1所示。
为了改变目前IP化网络文本管理过程中的不足,本文在对文本挖掘进行较为广泛的探索与研究的基础上,结合人工分類及基于统计方法的文本聚类与文本分类方法,设计了一种面向IP化网络文本挖掘算法模型。该模型充分利用了IP化网络中专业术语较多的特点,通过总结归纳这些术语,形成分词库,抽取文本的特征词[8-11],计算文本特征向量[8-11],实现文本聚类及文本分类算法的应用。
2.3 文本分类聚类模型
对文本数据的建模和处理思路如图2所示。
(1)模型数据源
IP承载网建设与维护相关OA文、维护管理办法、建设文档等。核心网VOIP改造相关OA文、维护管理办法、建设文档等。
(2)模型大致流程
首先为保证所形成的文本组织框架的质量,需要选择精度高、适应性强的聚类算法作为聚类工具,在流程的开始阶段需要进行小样本的数据实验,对K-means[7]、模糊C、蚁群以及层次聚类算法所形成的文本框架进行比较,并结合人工分类框架进行评估,最后选出蚁群算法这种最适合IP化网络安全文本的聚类算法作为后续流程的主要聚类算法。
在选出最优的聚类算法之后开始使用该算法对全部的文本集进行聚类,形成初步的文本组织框架;该框架作为分类的先验知识进行分类的训练形成分类器,训练方法有很多,本文采用了支撑向量机(SVM [6])和KNN[7]两种方法进行训练,通过比较发现前者较优。
分类器形成之后,当有新的文本进来时,分类器会自动根据文本内容对其进行分类,并将文本归入相应的文件夹下。每周一段时间可以结合专家知识对误判率进行计算和评估,如果误判率高于临界值,就说明原来的文本框架已经不再适用于新的文本集,需要对现有的全部文本集进行重新聚类形成新的文本分类框架,这样就实现了文本组织框架的更新和完善过程。基于所形成的文本框架,网络安全维护人员可以进行方便快捷的检索和学习。
(3)模型预期效果
①可优选一种与人工分类结果较为接近的文本聚类算法,可实现大数据量文本的准确聚类;②可对新增文本进行较为准确的分类,减轻网管人员进行文本管理的压力;③可实现对文本的多为搜索,帮忙网管人员更为精确地找到所需要的文本。
三、文本分类聚类技术模型的实现
3.1 文本分类聚类技术模型实现概述
所述的数据输入模块用于采集IP化网络安全文本数据;所述的数据分析模型用于接收数据输入模块传递来的数据,并且对接收到的数据进行挖掘分析,形成四个数据分析子模块;所述的分析结果输出模块用于把数据分析模块分析的结果结合输出要求呈现给输出端;在模型中,所述的移动IP化网络文本数据包括设备指标文本、IP承载网文本、交换设备文本、全网业务文本及安全管理与网管支撑文本;所述的数据分析模块中的四个数据分析子模块分别是:专家处理子模块、多聚类算法子模块、文本分类及文本框架完善子模块和文本组织框架合成模块。具体如图3所示。
本文同时提供上述文本数据分析模型的实现方法,具体步骤如图4所示。
下面结合实例给予说明:
1.数据输入步骤:通过数据输入模块导入IP化网络文本数据,IP化网络文本数据包括集团公司、省公司、地市公司的很多发文、管理办法和不同地方网络维护案例文本及不同部门交流文本数据。
2. 数据分析步骤:
A.专家处理子模块步骤:本文的方法以IP化网络文本数据为基础,先通过专家处理子模块让专家对现有小样本的文本数据进行整理,得出IP化网络文本数据的分类框架。比如框架第一层氛围分为指标类材料、IP承载网类材料、交换设备类材料、全网业务材料、安全管理与网管支撑材料五大类,每一大类都又分为不同子类。如表1所示。
B.多聚类算法处理子模块:通过聚类算法子模块采用不同的聚类算法对小样本的IP化网络文本数据进行分析,得出不同的分类结果;比如通过k-means聚类算法、模糊c均值聚类算法、蚁群聚类算法、层次聚类算法等不同聚類方法进行聚类计算,并输出聚类结果。通过对小数据样本聚类得出的结果作为评价来选出适合IP化网络文本的聚类算法,当遇到大的数据样本时,应用已经选出的聚类算法进行挖掘。比如小样本中蚁群聚类算法结果最为贴近专家分类结果,后面的聚类方法就都采用蚁群聚类算法来进行挖掘。
C.文本组织框架合成模块:把聚类算法子模块输出的分类结果和专家分类结果比对,采用专家分类结果作为文本数据分类的框架,将小样本的专家分类结果作为指导,将和专家分类结果最相近的聚类算法的聚类结果填入专家分类结果中,实现全部文本数据的合理分类。
D.文本分类及文本框架完善子模块:新的文本进来,文本分类及文本框架完善模块会依据现有合理的文本组织通过文本分类算法对新进入的文本进行分类,专家判断错误率到达了多少,如果错误率高于阈值,就会记录为误判,把所有的数据用在阶段最优的算法重新进行聚类计算,然后通过文本组织框架合成模块合成新的文本组织框架;具体的逻辑框架图如图5所示。
3.分析结果输出步骤:在数据分析结果输出模块,用户可以根据自己的需求通过树形框架结构找到自己想要的文本,也可以通过关键词搜索,得到最相关的搜索结果。大大提高对公司现有文本资源的利用效率。
3.2 文本分类聚类技术模型的具体实现
本模型是一种建立移动IP化网络文本组织框架的方法。该方法根据预先设定的样本量建立第一文本组织框架,应用多聚类算法对所述预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法建立的第二文本组织框架,根据所述第一文本组织框架和所述第二文本组织框架建立文本组织框架。本模型在实现过程中具体流程如图6所示。
步骤1:根据预先设定的样本量建立第一文本组织框架。本步骤中,预先设定的样本量为一定数量的IP化网络文本,本实验中,预先设定的样本量为小样本量,IP化网络领域内的专业技术人员根据已有的专业技术框架、自身的工作过程中积累的经验及对文本的理解来实现IP化网络文本组织框架的制定,比如,根据各文本的文本特征向量[8-11],建立五大类的IP化网络文本组织框架,即文本组织框架包括:指标类材料、IP承载网类材料、交换设备类材料、全网业务材料及安全管理与网管支撑材料,并计算每类对应的分类文本特征向量[8-11]。当然,实际应用中,也可以根据实际的需要,按照文本特征向量[8-11]构造其他类型的IP化网络文本组织框架,比如,将IP化网络文本按照集团公司、省公司、地市公司的发文、管理办法、不同地方网络维护案例文本及不同部门交流文本数据进行划分,构造相应类别的IP化网络文本组织框架。
在模型实现过程中,对于IP化网络文本组织框架下的每个大类,又可以分为不同的子类并设置每个子类对应的子分类文本特征向量[8-11],比如,将IP化承载网类材料分为五大子类,分别为:设备建设方案、日常维护管理办法、安全评估与巡检、省际IP承载网相关文件、网络改造与调整;交换设备类材料分为工程建设方案及管理办法、专项提升活动等子类;全网业务材料分为网络运行维护实施、应急处理与重大故障等子类;安全管理与网管支撑材料分为账号与口令安全管理办法、其他安全管理办法及文件等子类。请参见表2所示的IP化网络文本组织框架示例。
本步骤中,由于专业技术人员具有良好的专业技术水平及丰富的经验,对文本的理解较为全面、准确,使得对文本进行分类的准确性高,描述各个分类的文本特征向量[8-11]恰当、准确性高。从而使得建立的文本组织框架科学性强、可信度高,可作为优选聚类算法的主要依据;同时,由于预先设定的样本数量不会太多,分类、归档所需的时间较少,属于在人工可处理的范围内。
步骤2:应用多聚类算法对预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法作为优选聚类算法。
该优选聚类算法将在第一文本组织框架已无法进行准确分类的情况下,启动计算,得出第二文本组织框架,用于文本分类。
本步骤中,多聚类算法(文本挖掘算法)包括:k-means[7]聚类算法(k-means Clustering Algorithm)、模糊c均值聚类算法(Fuzzy C-means Clustering Algorithm)、蚁群聚类算法(Ant Colony Optimization Algorithm)、层次聚类算法(Hierarchical Clustering Algorithm)等。各算法及对文本的聚类流程属于现有技术,其详细描述请参见相关技术文献,在此不再累赘。
实际应用中,由于不同的聚类算法对相同数量的样本进行聚类时,其聚类结果可能存在较大的差别,且各聚类算法的聚类结果真实可靠性也无从评估,因而,采用不同的聚类算法将对聚类结果产生实质性的影响。本示例中,通过选用不同的聚类算法对预先设定的相同数量的样本进行聚类,对聚类结果(文本组织框架)与第一步中建立的IP化网络文本组织框架进行比较,选取与人工分类结果的相近程度最好的聚类算法结果对应的聚类算法,作为优选聚类算法。
步骤3:以第一为文本组织框架作为文本分类依据。本步骤中,在得到第一文本组织框架及优选的聚类算法的基础。
步骤4:根据所述文本组织框架,对新文本进行分类。本步骤中,导入IP化网络文本数据后,按照每个样本包含的内容,抽取文本中的关键词,构造各文本的文本特征向量[8-11],以文本组织框架为依据,将新文本的文本特征值与文本组织框架中各类包含的文本特征值进行匹配,将该新文本分类至文本组织框架中相应的类别中。
被分类的样本经过预处理,抽取文本中的特征词[8-11],获取各文本的文本特征向量,与文本组织框架中各子类包含的文本特征向量进行匹配,将各文本分类到文本组织框架中相应的子类;于此同时,抽取新增的部分文本进行人工分类,比较人工分类与自动分类的误差,当误差超过阈值时,启动已选出的优选聚类算法建立的第二文本组织将文本分类,比如,上述示例第二步中,假设蚁群聚类算法对预先设定的样本的算法结果(第二文本组织框架)最为贴近建立的第一文本框架。当误差超过阈值时,重新启动蚁群聚类算法计算第二文本组织框架。
本模型实现过程中,还可以利用文本分类結果,对所建立的文本组织框架进行调整,参见步骤5。
步骤5:从新的文本中,选取一定数量的文本,根据第一文本组织框架进行人工分类;本步骤中,选取的这一定数量的文本,在步骤4中已进行了自动分类,将自动分类结果与人工分类结果进行比较。
步骤6:将自动分类结果与人工分类结果进行比较,如果自动分类结果误差大于预先设定的阈值,启动优选聚类算法,计算新文本组织框架,作为第二文本组织框架,代替第一文本组织框架。本步骤中,预先设定的阈值可以是自动分类结果与人工分类结果中包含的相异的文本个数与人工分类结果包含的文本个数之比。如果没有超出该阈值,表明当前建立的文本组织框架运行良好,可靠性高;如果超出该阈值,需要按照人工分类结果调整文本组织框架中各大类相应子类对应的文本特征向量[8-11],或者重新应用前述优选的聚类算法对所有文本(新旧文本)进行聚类,得到新的文本组织框架,用该新的文本组织框架代替原有的文本组织框架,当自动分类结果误差大于预先设定的阈值时,重新启动优选的聚类算法进行聚类得到新的文本组织框架。
实际应用中,上述对所建立的文本组织框架进行调整,主要是在利用第一文本组织框架对新文本分类时,由于建立的第一文本组织框架是基于有限的样本量,因而,在大样本量的情况下,可能存在一定的分类误差,而且随着样本量的不断增大,其误差可能也越来越大,因而,通过人工评估,当误差超出预先设定的阈值时,可以用前述的优选文本聚类算法结合人工评估结果重新生成文本组织框架,以替换该第一文本组织框架。
当然,在建立文本组织框架后,网管人员就可以利用该文本组织框架进行搜索和查询,获取所需的文本,例如,网管人员可以输入搜索特征词,文本组织框架查询关键词对应的文本特征值[8-11],将该文本特征值所属的搜索结果(文本概述等信息以及文本所属的大类及子类)输出给网管人员,这样,与传统的关键词的搜索方式不同,由于可根据文本特征值进行搜索,搜索情况更接近文本的内容,每个文本可供搜索的内容更多,使用文本搜索更贴近文本内容。
四、测试与分析
通过模块层次图和数据流图的进一步设计,基于VC编程环境,本研究将设计的模型进一步在机器上实现,开发出IP化文本分类组织框架和基于文本内容的搜索。测试结果表明多聚类算法得出的第二文本组织框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。
4.1 测试系统
对于中国运营商来说,3G的日益临近,网络IP化成为一种不可逆转的趋势。通过对现有网络进行IP化的改造来实现多网融合最终完成3G网络的建设已经成为国内外各大运营商的共识,IP化网络在核心网的比重越来越大。目前,对计算机IP网络的评估已经有一些研究成果及应用系统。但是,针对运营商中IP化网络具体特点,建立科学、可行的安全评估模型但成了摆在中国运营商面前的一个重要的问题,同时也是在地市公司在从事具体维护工作中不得不去思考的一个问题。
目前,对于IP网络的评估方法一般需要一些先验知识,如威胁出现的概率、无形资产赋值等,而准备获得这些数据是存在困难的,为此,已有的模糊、神经网络等方法建立的安全估计模型只能对于局部系统进行评价,且多局限的理论的说明,未能有一些全面的,可行的安全评估模型及可投入使用的评估系统的产生。因此,本产品希望从移动运营商IP化网络的运营实际出发,从技术、管理、安全意识等更加宏观的层面来审视安全评估问题,并依托省网管已经建立的“网络运营支撑平台”,建立基于粗糙集的IP化网络安全评估系统。
对于地市公司公司来说,随着公司网络集中化建设的进行,地市公司对IP网络的维护权限多停留在设备的维护方面,维护行为也多以被动实施为主,往往缺乏对自身网络安全性的科学及客观的把握。为此,该系统所采用的模型也从地市公司IP化网络的具体建设及维护实践出发,采用粗糙集的理論来建立网络的安全模型、采用粗糙集理论来分析网络各项安全因素的轻重关系,输出决策规则,建立IP网络下客户感知及网络质量的共同提升模型,从而建立起一套科学完善的IP网络评估算法,从而为地市公司从事IP化网络的建设和维护提供指导,变被动为主动,全面提升IP化网络建设与维护的有效性。
本文设计的文本挖掘模块作为该系统中重要的一个组成部分,对于IP化安全文的深入挖掘,实现IP化网络的安全保障起着重要的作用。对于粗糙集实现网络安全评估方面因为不是论文的主要内容。因此不作主要描述。本文重点描述了一种面向IP化网络文本挖掘模型在系统中的具体实现。
文本模块从文本导入、文本框架导入、聚类方法选择、文本聚类、文本分类、文本搜索和浏览等方面把模型中的主要功能分别在不同模块中实施。其中聚类方法选择模块中集成了K-means聚类算法、模糊C聚类算法、分层聚类算法和蚁群聚类算法,是模块中的核心部分。系统的模块层次如图7所示。
在系统的模型层次图的基础上,进一步设计研究了系统的数据流图,从数据输入层、数据预处理层、核心算法层、用户使用层等层面围绕文本组织框架为核心全面铺开。找出系统输入、处理、输出过程中的关键数据存储和逻辑处理,理清了内部逻辑的相互关系。系统的数据流图如图8所示。
4.2 系统相关模块的功能说明
在系统实现过程中,主要实现了如下几个模块:IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,各模型具体功能如下:(1) IP化网络安全文本数据导入模块:用于导入IP化网络安全文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2) 第一文本组织框架处理模块:用于对接收的文本进行分类整理,建立第一移动IP化网络文本组织框架,并将建立的第一移动IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法模块:用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;(4) 聚类结果匹配模块:用于根据接收的第一移动IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(5) 文本组织框架生成模块:用于根据接收的第一移动IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。
IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块等5模块具体逻辑关系如图9所示。
在实现过程中,该模块可以进一步包括如下可扩展模块:(1)文本分类模块,用于依据文本组织框架生成模块中存储的文本组织框架信息,对来自IP化网络文本数据导入模块的文本进行自动分类。(2)文本组织框架调整模块,用于接收来自文本分类模块的自动分类结果、以及来自第一文本组织框架处理模块对同批量文本的人工分类结果并进行比较,如果自动分类结果误差大于预先设定的阈值,按照人工分类结果调整文本组织框架生成模块存储的文本组织框架信息。(3)搜索和查询模块,用于接收来自外部的搜索关键词,发送至文本组织框架生成模块,将文本组织框架生成模块根据存储的文本组织框架信息查询得到的关键词对应的文本信息进行输出。
系统中各模块相互协同共同完成模型所要求的功能,流程如下:(1)IP化网络文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,其中,IP化网络文本数据导入模块,用于导入IP化网络文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2)第一文本组织框架处理模块,主要有领域专家来完成,领域专家通过人工的方式来获取接收的文本信息中包含的关键词,根据关键词构造各文本的文本特征向量[8-11],利用文本特征向量对所述预先设定的样本量的IP化网络文本进行分类整理,建立第一IP化网络文本组织框架,并将建立的第一IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法处理模块,用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;聚类结果匹配模块,用于根据接收的第一IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(4)文本组织框架生成模块,用于根据接收的第一IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。
4.3 系统相关模块的功能说明
通过移动公司的IP化网络文本测试了本研究设计的功能模块,测试结果显示文本框架与专家分类框架具有很大区分特征,文本分类的正确率达到70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。
4.3.1 文本聚类测试结果分析
该部分通过文本聚类实现文本框架的形成。系统提供四种聚类方法的实现:K-means[7]、模糊C聚类、层次聚类、蚁群聚类算法;每种聚类之后,都将在下方的显示框中展示聚类的结果,也即文本组织框架。之后通过比较不同聚类的聚类结果,选出最优的聚类算法。
K-means[7]聚类算法可以调整三个参数:聚类数目、最大迭代次数、文档向量维数。现有文本专家聚类分为3类:IP承载网、全网业务、安全管理与网管支撑。
模糊C均值聚类算法可以调整五个参数:聚类数目、误差限、参数m、最大迭代次数、文档向量维数。其中参数m的调整范围为1.5~2.5。如图10所示。
其中K-means[7]聚类算法将文本通过迭代1000次,采用100个特征词提取出文档向量,分出第一类的文本数量為67,第二类的文本数量为2,第三类文本数量为1。如图11所示。
4.3.2 文本分类测试结果分析
该部分暂时无需选择路径,仅采用样本数据实现,因为专家分类文档没有经过聚类算法,提取不出特征值,无法作为分类;此环节耗时较长,可能需2-3分钟,各机器性能不一可能略有差别。
本部分工作的基础是使用上一步骤选取最优的聚类算法对所有文本进行聚类形成合理的文本组织框架并训练形成分类器。分类器形成后,就可以对新进入的文本进行分类,一般分类正确率在70%以上。
图12展示了对实验数据进行分类的结果,对34个文本进行分类,分类正确率达到80%。证明该文本框架所形成的分类器具有较好的分类能力。图中标红的文本本分到了错误的类别中了,其余是被正确分类的文本;分完后可以查看通过上面的选择查看单个文本分类情况,如图13。
4.3.3 文本搜索测试结果分析
本部分是基于前述文本组织框架的文本搜索模块,目前系统可供使用的检索词包括发文单位(集团、省公司、使公司)、文本类别(通知、申请、报告、自查报告、紧急通知等)、文件名(输入要找的关键词,系统将使用该关键词在所有文本的文件名中进行检索)、发文时间等。系统正在实现的功能是基于特征词的检索,在文本分词阶段每一个文本都被分成若干特征词所表示的向量,输入特征词就可以实现基于内容的检索,大大提高了检索的效率和准确度。
其中基于内容的特征词的搜索是一个创新,通过文本训练,提取出所有搜索范围内的文本的特征词,通过特征词的频率来确定不同文本的区别,如100维特征词的训练结果就将不同文本通过挑选出来的100个文本特征词的频率来表示,实现文本的向量化,如果某一特征词在文本中没有出现,则向量这个点上的取值为0。训练后的文本集就形成了一张二维表,一个维度是文本,一个维度是特征词,这个二维表是基于文本内容训练出来的,通过此二维表的特征词来搜索文本比其他几个维度效率更好,效果更好。
如图14所示,搜索范围选择IP化安全管理系统文件夹中的clusters文件夹(因为要基于特征词搜索需要有能提供特征词的文件夹)。
查询得到的文本可直接在检索结果栏中打开阅读。如图15所示。
五、结束语
本文主要围绕运营商内部积累的数量惊人的IP化网络安全相关文本的智能化处理这一问题展开讨论。针对人工处理的方式迅速慢、准确率低,耗时长,不利共享这一难题,创造性地将文本聚类与文本分类算法用于该问题的解决。