基于内容的中文网页自动分类系统

2009-08-14 07:41孙瑶琴
中国校外教育(下旬) 2009年7期
关键词:分类器特征文本

孙瑶琴

[摘 要]文章阐述了国内在基于内容的中文网页自动分类方面所做研究工作的发展现状,分析了已有工作的特点;在此基础上,结合自己的工作提出了一个基于内容的中文网页自动分类系统分析。给出了系统的总体结构设计思想和总体结构框架,以及组成系统的各个模块的功能和结构描述。按照该系统的设计思想和进一步的详细设计可以搭建一个系统化的、功能较为全面的、具有较高效率的中文网页自动分类系统平台。

[关键词]中文网页自动分类系统 文本 特征 分类器 测试

人们在享受Internet给现代文明带来划时代的变革的同时,越来越感觉到在知识检索上面临许多需要改进和解决的问题。Web自动分类涉及Web的文本信息、结构信息和超连接信息。目前人们研究的热点集中在基于Web文本信息的自动分类,即基于文本内容的分类。基于内容的文本分类的研究内容主要包括文本特征的表示、特征提取、分类器设计等,其中每一阶段的研究以上一阶段的工作为基础。基于内容的Web自动分类系统平台的研究是上述研究内容的基础工作,是实现网页自动分类的工具,目前在该领域的工作者都是根据自己的侧重点不同搭建各自的平台,并在此基础上开展一系列的工作。

一、系统的用户需求

粗略地讲,该系统的需求可描述为:建立网页自动分类系统平台。要求该平台存储大量的领域相关网页,并动态调整网页;该平台能够动态生成网页特征向量,对特征向量做维数压缩;该平台能够提供若干分类或聚类算法,对网页对应的特征进行一定正确率的分类或聚类;该平台提供友好的测试界面,能够对随机选取的领域网页进行自动分类;该平台提供在线帮助系统,能够使得用户在尽可能短的时间内熟悉和实用该系统。

二、系统的总体结构

系统分析的目的是在需求分析的基础上,为实现系统的功能要求而设计系统的结构,划分系统的功能模块,确定各个模块之间的逻辑顺序关系。从整体上把握系统的组织结构,直观地了解系统的构成和各个部分之间的相互关系。

整个系统主要有三部分组成,数据库管理系统、任务管理系统、用户界面部分。

三、系统的结构分析

(1)数据库管理系统:该系统主要由4种数据库,分别为原始网页数据库、词典库、文本特征库、系统开发文档库。

(2)任务管理系统:该系统是整个平台的主要前台组成部分,用于完成网页分类的各个环节,在实现上具有一定的前后逻辑关系。

(3)网页自动下载系统:完成指定领域的网页按类自动下载与存储

(4)网页版面分析系统:该系统实现网页版面结构分析与结构特征提取。

(5)切词系统:切词系统用于统计领域网页库中各词条出现的频率。

(6)特征压缩系统:该系统的目的是特征向量空间压缩。

(7)学习系统:该系统给用户提供学习方法集。

(8)测试系统:系统测试是为了发现错误而执行程序的过程。

(9)帮助系统:在线帮助功能。该系统应提供给用户较为友好的交互界面,帮助用户了解各个部分的功能,提供操作错误分析和系统运行错误分析和提示等。

四、系统模块实现

模块实现部分提供系统的各个模块具体实现的方法、步骤、流程和实现的工具等。在前述功能和结构描述的基础上,规范各个模块的程序接口、统一风格、注意事项等。整个系统开发平台选择VC++6.0系统,其中的核心算法部分若不涉及交互界面可以使用标准C。网页文件管理的操作借助于操作系统的文件管理系统,网页文件索引文件和文本特征向量数据库系统采用Access的数据表*.ndb格式。

(1)数据库管理系统:数据库管理系统具备一般数据库的操作,根据数据库管理内容的区别,在上述操作内容上有所不同。管理系统应充分利用windows提供的功能和设计风格实现数据的可视化、实现快速化等特点。

(2)任务管理系统:整个任务管理系统是系统的方法集中部分,为了缩短开发周期和提高整个系统整体性能,特统一系统的开发规范如下:

a)使用统一的编程工具:VC++6.0,便于整个系统的集成;

b)使用统一的程序接口格式;例子如下:

FunctionName(parameter1, parameter 2,…, parameterN)

{//模块说明:模块功能描述,参数设置,调用模块;输出结果说明;

变量说明;

调用函数说明;

模块主体;

返回值;

}

c)使用统一的局部变量规定;变量的取名规定为与物理意义的变量对应的英文单词或组合词使用。

五、系统模块测试

模块测试又称单元测试,是针对软件设计的最小单位-程序模块,进行正确性检验的测试工作。其目的在于发现各模块内部可能存在的各种差错。单元测试需要从程序的内部结构出发设计测试用例。多个模块可以平行地独立进行单元测试。需要从以下五个方面测试:模块接口测试、局部数据结构测试、路径测试、错误处理测试、边界测试。

六、系统测试

在系统测试之前需要做的是联合测试:在单元测试的基础上,需要将所有模块按照设计要求组装成为系统。需要考虑的问题:

(1)在把各个模块连接起来的时候,穿越模块接口的数据是否会丢失;

(2)一个模块的功能是否会对另一个模块的功能产生不利的影响;

(3)各个子功能组合起来,是否达到预期要求的父功能;

(4)全局数据结构是否有问题;

(5)单个模块的误差积累起来,是否会放大,从而达到不能接受的程度。

系统测试的目的是通过与系统的需求定义作比较,发现软件与系统定义不符合或与之矛盾的地方。系统测试的测试用例应根据需求分析说明书来设计,并在实际使用环境下来运行。

七、总结

中文文本的自动分类是中文信息处理领域中的一项重要研究课题。本文对中文信息分类技术及其应用作了初步的探讨,并从实际应用出发给出一个基于内容的中文网页自动分类系统分析。描述了系统的总体结构设计思想和总体结构框架,以及组成系统的各个模块的功能和结构。按照该系统的设计思想和进一步的详细设计可以搭建一个系统化的、功能较为全面的、具有较高效率的中文网页自动分类系统平台。

由于整个系统涵盖的范围大,设计到的技术细节多,在很多实现细节上采用了比较简单的方法,以便于整个系统的顺利实现。在很多方面需要进行继续深入的研究,以提高整个自动分类过程的识别准确率。

参考文献:

[1]王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展.计算机研究与发展,2006,38(2):187-193.

[2]王继成,潘金贵,张福炎.Web文本挖掘技术研究.计算机研究与发展,2005,37(5):513-520.

[3]吕津,赵明生.对因特网上自动信息提取的研究.数据通信,2007.

[4]朱明,王军,王俊普.Web网页识别中的特征选择问题研究.计算机工程,2006,26(8):35-37.

[5]肖明,沈英.自动分类研究进展.现代图书情报技术,2000.

猜你喜欢
分类器特征文本
如何表达“特征”
在808DA上文本显示的改善
不忠诚的四个特征
基于doc2vec和TF-IDF的相似文本识别
BP-GA光照分类器在车道线识别中的应用
抓住特征巧观察
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别