一种基于人工和机器学习相结合的教学网络资源分类方法

2013-12-29 00:00:00许琦
中国信息技术教育 2013年12期

摘要:本文探讨了教学网络资源的分类方法,对如何应用人工与机器学习相结合的方法建立类别特征模型进行了研究。简述了K最临近分类法的基本思想。提出在领域专家的帮助下,采用人工的方法选取类别特征项,建立类别特征模型;在小样本集环境下,采用机器学习的方法训练类别特征项权重。并给出了教学网络资源和类别特征模型匹配程度的计算方法。通过实验,对所提出的分类方法的可行性和有效性进行了验证。

关键词:资源分类;K最临近分类法;类别特征模型;机器学习

● 引言

为了实现教学网络资源效用的最大化,必须对这些资源进行有效的组织管理。分类是教学网络资源组织管理的重要方法。由于教学网络资源多维性、动态性、交互性的特点,使得教学网络资源分类体系缺少逻辑性和规范化,不能揭示资源之间的逻辑关系,主要体现在以下几方面[1]:①类别设置缺少规律性。教学网络资源分类中,其类别设置往往同时采取多个标准,每个标准在使用时又并不完整,有时甚至列出不同等级的类别,使得类别的设置显得很混乱,缺乏逻辑性和规律性,从而影响用户查找信息的效率。②类名不规范。有些类别有多个名称,其归属也很随意,不利于用户的检索。③类别没有注释或提示,用户不能直接找到所需类别,必须逐级翻寻。

因此,有必要建立一个规范的分类体系,来组织管理教学网络资源。

● K最临近分类法概述

现有的分类方法主要包括以下几种:K最临近分类、决策树归纳法、贝叶斯分类法、遗传分类法等,各种方法分别适合不同的数据模型。[2]

K最临近分类法(K Nearest Neighbor,KNN)是基于类比学习的方法。其基本思想是:类别样本用n维数值属性描述,每个样本表示为n维空间的一个向量,这样所有的类别样本都存放在n维模型空间中,给定一个待分类资源,K最临近分类法搜索模型空间,找出最接近待分类资源的k个类别样本,待分类资源就被分配到k个最临近样本的最公共的类中。当k=1时,待分类资源被指定到模型空间中与之最临近的类别样本的类中。该方法的优点是容易实现和训练快速,并且该方法的启发性搜索是简单的。同时也存在一些缺点,首先如果将所有的类别样本都存起来,分类器就变得笨重并且反应变慢。其次,对于高维向量的资源,对分类起主要作用的维数远远低于资源本身的维数,相当多维对于资源分类意义不大甚至成为噪声数据,这将增加分类的时间和空间复杂度。

● 分类方法

本文对K最临近分类法做简约化处理,取k=1,并对类别特征模型构建和分类算法做出如下改进。

1.类别特征模型构建

K最临近分类法是通过搜索与待分类资源最临近的(相似度最大)k个类别样本来分类的,因此分类的准确程度很大程度上取决于类别特征项选取的合理性和分类算法的科学性。相关学者提出了许多选取类别特征项的方法:有的提出了基于CHI概率统计选取类别特征项的方法[3];有的提出了基于互信息差值选取类别特征项的方法[4];有的提出了基于正交质心算法选取类别特征项的方法。[5]这些方法的基本思想是为类别选择一定数量51a2dd7ace0c6cd667456bd3b3d5ad4381220ed961ee6136af9f979b70812323的样本,按一定的算法从样本集中训练得到类别特征项,建立类别特征模型,本质上是基于机器学习的方法。这些方法是从一定数量的样本出发,而不是从类别层次出发来考虑类别特征项的重要性和价值的,因此训练得到的类别特征项的权威性和合理性无法验证。本文考虑将人工和机器学习结合起来构建类别特征模型。具体步骤如下:

(1)在领域专家的帮助下,采用人工的方法选取类别特征项。

在领域专家的帮助下,综合考虑重要性、代表性、权威性、合理性等因素,人工选取类别特征项。考虑到不同的特征项对类别的贡献是不一样的,因此把类别特征项分为三部分:一级核心特征项、二级核心特征项和外围特征项。其中,外围特征项具有一定的类别特征信息,但不丰富;二级核心特征项含有比较丰富的类别特征信息;一级核心特征项含有最丰富的类别特征信息。通常情况下,外围特征项占大部分,而一级、二级核心特征项只占其中的小部分。类别特征项以关键词来表示,如下所示:

其中,Cj表示类别j,CjF、CjS和CjN分别表示类别j的一级核心特征、二级核心特征和外围特征,kjFx、kjSy和kjNz分别表示类别j的第x个一级核心特征项、第y个二级核心特征项和第z个外围特征项,l、n、m分别是一级核心特征、二级核心特征和外围特征中特征项的个数,λf和λs分别是一级核心特征项和二级核心特征项的权重,由第二个步骤训练得到。公式(2)则表示CjF、CjS和CjN互不包容。

(2)在小样本集环境下,采用机器学习的方法训练类别特征项权重。

设训练集包含num个样本,Tr={D1,D2,…,Dnum},权重向量λ=[λf, λs]T,最优权重向量为λbest=[λfbest, λsbest]T,权重增量(训练步长)λa=[λa1, λa2]T,训练集人工标定类别向量Vt=[t1,t2,…,tnum]T,训练集分类结果向量Va=[a1,a2,…,anum]T,预测误差为Eo,最小误差为Emin,分类误差为E,计算公式如下:

为了得到最优的λf和λs,在小样本集环境下,训练方法如下:[6]

(a)初始化: λ=[1, 1]T, λa=[1, 0.5]T, λbest=[1, 1]T, Eo=1, Emin=1, times=0;

(b)while (E o>0.05 or times<100)

(c) times++;

(d) Va=Class(Tr, λ); //调用分类函数对训练集进行分类

(e) 按公式(3)计算分类误差E;

(f) if (E< E o) λ=λ+λa;

(g) else λ=λ-0.5λa;

(h) End if

(i) Eo =E;

(j) if (Eo < Emin) {Emin =E; λbest =λ;}

(k) End if

(l) End while

训练结束之后,λbest=[λfbest, λsbest]T就是得到的最优核心特征项权重。

2.分类算法

分类算法是计算待分类资源与类别的匹配程度(相似度),将待分类资源分配给与之最匹配的类别。那么资源分类则转换为计算待分类资源与类别特征模型的相似度问题。待分类资源Di与类别特征模型Cj相似度计算公式如下:

相似度包括三部分:待分类资源与一级核心特征的相似度、待分类资源与二级核心特征的相似度以及待分类资源与外围核心特征的相似度。

三者计算方法类似,因此这里只讨论计算待分类资源与一级核心特征的相似度。

相似度计算公式如下:

该公式在计算Di与CjF两个向量的余弦相似度的基础上,引入特征权重λf以表征一级核心特征、二级核心特征和外围特征不同的重要程度。

● 实验验证

1.实验方法

为了检验所提出的分类方法的有效性,笔者以中国职业教育信息资源网(http://www.tvet.org.cn/)为实验数据源,通过实验进行验证。从该网站的远程教育、数字校园、精品教材、院校改革等栏目中下载了3213个样本,以保证各栏目样本分类正确。然后下载其他非栏目样本400个,掺入栏目样本中。实验原始数据如下:远程教育栏目489个样本,数字校园栏目1203个样本,精品教材栏目429个样本,院校改革栏目237个样本,名优设备栏目188个样本,产业升级栏目31个样本,企业创新栏目217个样本,国际合作栏目52个样本,国家战略栏目94个样本,地方行动栏目273个样本,其他非栏目样本400个。

2.性能评价指标

为了评价分类方法的性能,分类结果的统计数据一般采用关联表来表示,如下表所示。其中,真正确tp(true positive)和真错误tn(true negative)表示分类正确的样本数目,伪正确fp(false positive)表示被错分为栏目类的非栏目样本数目,伪错误fn(false negative)表示被错分为非栏目类的栏目样本数目。

网络资源分类的性能评价可以参考信息检索的性能评价指标:查全率(recall)和查准率(precision)。这种评价方法在自然语言处理研究中具有通用性。[7]

查全率定义为分类正确的样本数量与该样本数量的比值,反映了对分类方法某一类别的识别正确程度。

查准率定义为分类正确的样本数量与分为该类别的样本总数的比值,反映了分类方法对非栏目样本的排斥能力。

此外,查全率和查准率还可以采用一个更全面的综合度量尺度F测度(F Measure)。F测度定义为查全率和查准率的函数。

3.实验结果

实验样本包括远程教育、数字校园、精品教材、院校改革等栏目的3213个栏目样本和400个非栏目样本,特征空间总维度为100。实验分别采用本文提出的分类方法(以下简称为方法1)和K最临近分类法(以下简称为方法2)对3613个样本进行分类,方法1和方法2的查全率、查准率和F测度等性能评价指标分别如图1和图2所示。

从图1可以看出,和方法2比较而言,方法1具有较好的栏目识别性能和分类效果,各项性能评价指标均有一定程度的提高,其中各栏目的Recall基本上达到80%以上,Precision达到90%以上,F达到85%以上。在实验中发现,个别栏目如企业创新、国家战略等,分类效果欠佳,Recall、Precision等较低。分析表明,是由于建立类别特征模型时选取栏目特征项不够科学造成的,即未充分考虑栏目特征项重要性、代表性、权威性和合理性等因素。因为这部分工作是由人工完成的,所以受主观影响较大,争取在以后的工作中对此加以改进。从总体上讲,方法1达到了较好的分类效果,在一定程度避免了非栏目样本的误判所引起的栏目模糊效应。实验表明,在行业网站中,尤其是门户网站,本文提出的方法具有一定的应用价值。

● 结束语

针对教学网络资源多维性、动态性、交互性的特点,本文提出了一种基于人工和机器学习相结合的分类方法。采纳K最临近分类法的基本思想,在领域专家的帮助下,综合考虑重要性、代表性、权威性、合理性等因素,从类别层次出发人工选取类别特征项。在小样本集环境下,通过机器学习的方法训练类别特征项权重。在向量余弦相似度的基础上,引入类别特征权重以表征一级核心特征、二级核心特征和外围特征不同的重要程度,计算待分类资源与类别的匹配程度。最后通过实验验证得出:本文提出的分类方法具有较好的栏目识别性能和分类效果,查全率、查准率以及F测度等各项性能评价指标均有一定程度的提高。

参考文献:

[1]张帆.信息存储与检索[M].北京:高等教育出版社,2003.

[2]方金城.分类挖掘算法综述[J].沈阳工程学院学报,2006,2(1):73-76.

[3]钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554.

[4]胡鑫.中文文本分类的特征选取研究[J].甘肃科技,2006,22(5):119-120.

[5]余俊英,王明文,盛俊.文本分类中类别信息特征选择方法[J].山东大学学报(理学版),2006,41(3):144-148.

[6]万乐,刘万春.类别特征词权重加权文本分类方法[J].军民两用技术与产品,2006,(3):38-39.

[7]董宝力.Web制造资源的语义发现关键技术研究[D].博士学位论文,浙江大学,2006.

基金项目:浙江省哲学社会科学规划课题“基于专利引证网络的知识基因提取方法探索”(13NDJC19YBM),浙江省软科学研究计划项目“技术标准下提升企业自主创新能力——基于专利池的组建与管理”(2013C35064),台州市哲学社会科学规划课题“技术标准下面向自主创新的专利池构建与管理研究”(12GHB02),台州市高校重点学科“机械制造及其自动化”(台教高[2010]28号),台州市教育科学规划研究课题“网络环境下基于VRML的虚拟机械加工实验室建设探索”。