章林柯,崔立林
(海军工程大学 振动与噪声研究所,武汉430033)
在潜艇低速隐蔽工况下,机械振动通常是其水噪声的主要来源。所以研究潜艇机械噪声源识别或者噪声的传播途径识别问题对于保证潜艇隐身性是至关重要的。而且,当机器出现故障的时候,其振动或声信号特征一般会发生改变,因而通过噪声源识别定位的研究,也有助于对机器的状态监测及故障诊断[1-2]。
考虑到:(1)因为潜艇内部机械设备众多、结构复杂和运行工况多变等多方面因素的影响,导致潜艇机械噪声源分类模式具有多样性;(2)潜艇试验成本昂贵,采集样本也相对困难,通常难以获得“足够多”的训练样本;(3)有时常因为测试采集时间过短导致训练样本的数据长度不够;(4)一些偶发或新的噪声源的出现(发生次数本身就很少)导致能够获得的训练样本不可能覆盖所有的模式类型;(5)实际复杂环境中存在多种干扰样本有效获得的因素;所以,潜艇机械噪声源分类识别中的一个突出的问题是缺乏足够的训练样本,使得识别系统构建过程中难以很好地实现对源识别模式空间的完整覆盖。因此,潜艇机械噪声源分类识别是一个典型的小样本模式识别问题[3]。
小样本条件下模式识别面临的主要困难是:其一、由于训练样本的不足,导致通过学习得到的分类器往往存在欠学习(Underfitting)或过学习(overfitting),从而难以获得理想的泛化性能(Generalization Ability);其二、由于已有训练样本数据覆盖的模式类别较少,导致对新出现的模式无法进行有效识别。
本文尝试从“信息”角度入手,归纳分析国内外已进行的有关小样本条件下模式识别问题的一些主要研究,指出其中存在的一些问题,进而结合作者自己的观点,对潜艇机械噪声源识别研究中下一步可能需重点讨论的问题作了展望。
在传统模式识别领域已过去的几十年间,国内外很早就开始关注对小样本问题的研究[4-5],但真正意义上探讨小样本条件下模式识别问题却还是近十多年来的事[6-8]。从信息论的角度来看,国内外就小样本条件下模式识别问题的研究包括两个方面:其一、针对已有模式训练样本不足的情况,尽可能挖掘并充分利用小样本本身所含的信息,其实质是一个基于已有样本信息的挖掘问题;其二、尽可能集成已有相关有用知识,对小样本数据所含信息加以合理扩充,其实质是试图将一个小样本问题转化为一个“相对足够大样本”问题。前者集中在构建适合小样本条件的分类器的研究,后者重在信息如何扩容。
根据现有理论[9]:对于模式识别系统而言,训练样本的数量不应小于特征空间维数的5-10倍。而要得到较高的模式分类正确率,样本数应是特征空间维数的10倍以上。所以小样本模式识别分类器研究又主要集中在两个方面:第一、如何通过样本预处理尽可能地控制输入维数;第二、改善学习方法以提高分类器性能。
2.1.1 样本的预处理
很多情况下能否有效降低训练样本的维数是学习系统成功与否的关键,当样本数量有限时尤其如此[10]。降维的手段主要是特征提取(Feature Extraction)和特征选择(Feature Selection)[11-12]。特征提取主要是通过对原有样本特征进行某种特定变换以得到降维后的新特征,常用算法包括处理线形问题的主元分析(Primary Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)以及近年来提出的针对非线性情形的局部线性嵌入算法(Locally Linear Embedding,LLE)和等距映射算法(Isometrical Mapping,ISOMAP)等[13-15]。这方面其他可资借鉴的研究还包括直接线性判别分析(DLDA)和针对非线性问题提出的各类基于核技巧的学习算法[16-17]。特征选择则是通过对原有样本的特征进行选取以得到一个维数较小的特征子集。Kohavi等人提出的特征子集选择方法 (Feature Subset Selection Method)应用较广。2003年,Guyon[12]在其文章中给出了利用特征选择进行降维的一般性步骤。特征提取和特征选择的基本思想都是通过特征的提取和压缩,来控制输入维数,从而提高分类器的学习效率,获得较好的学习效果。
2.1.2 改进学习方法
一种典型的学习分类器是人工神经网络(Artificial Neural Network,ANN)。传统的人工神经网络是以传统的统计学作为重要理论基础,而传统统计学研究的是样本数目趋于无穷大的渐近理论,因而传统神经网络的学习方法也多是基于此假设,遵循的是经验风险最小原则,追求的是在样本趋于无穷时的最优解。1995年,Vapnik等人[18-19]运用统计学习理论对神经网络进行研究,创立了一种全新的通用学习方法—支持向量机(Support Vector Machine,SVM)。与传统统计学相比,统计学习理论是一种专门研究小样本(样本数有限)条件下机器学习规律的理论。支持向量机的核心思想是把样本非线性映射到高维特征空间(甚至无穷维空间),以结构风险最小化为归纳原则,在高维空间中构造具有低VC维的最优分类超平面作为判决面,使分类风险上界最小,从而兼顾了训练误差和泛化能力。虽然SVM有比较坚实的理论基础和严格的理论分析,但在实际运用中仍存在大量问题,如结构风险最小化原则中的函数子集结构的设计和内积函数的选择等,目前尚无明确的理论指导[20]。著名SVM学者Lin[21]于2003年1月在德国马克斯—普朗克研究所(Max Planck Institute)所作的报告中说,支持向量机虽然是一个非常热门的话题,但目前最主流的分类工具仍然是决策树和神经网络。
1990年,Hansen和Salamon[22]开创性地提出了神经网络集成方法(Neural Network Ensembles)。他们证明,可以通过训练多个神经网络并将其结果进行合成,显著地提高神经网络系统的泛化能力。由于该方法易于使用且效果明显,因此它被视为一种非常有效的工程化神经计算方法。1996年,Sollich和Krogh为神经网络集成下了一个定义,即神经网络集成是用有限个神经网络对同一个问题进行学习,集成在某输入示例下的输出由构成集成的各神经网络在该示例下的输出共同决定[23]。Bagging[24]和Boosting[25]是目前研究中最有代表性的集成方法。以周志华教授为代表的国内学者[26]从2002年开始对神经网络集成进行了深入研究,并取得了一些有意义的成果。
小样本扩容研究的核心思想是基于一定的先验知识的分析,尽可能集成已有相关信息,对原有小样本集加以合理扩充,使得新样本集在数量和质量上都能满足分类系统训练的需求。从已有国内外研究来看,主要涉及到两个层面的问题:(1)同一个模式下包含的训练样本数据过少无法覆盖整个模式空间;(2)已有训练样本覆盖的模式类型较少。
2.2.1 针对某一个模式类,训练样本不完备
(1)结合研究对象引入先验知识
作为有效利用先验信息(Prior)的手段之一,虚拟样本(Virtual Sample)生成受到了广泛关注[27]。1995年,Abu-Mostafa[28]提出了利用待解决问题的背景知识(Domain knowledge of the problem)来生成虚拟样本的研究思路,他称这种知识为“暗示”(Hints)。文中对Hint的定义是:已知的独立于训练样本的目标函数的特性。例如已知目标函数为偶函数时,则可生成对应于训练样本(x,y)的虚拟样本(x,-y)。作者认为Hints的作用相当于在学习过程中引入先验规则(Rule),与正则化(Regularization)方法类似。使用Hints最主要的步骤包括:1)利用虚拟样本来表达Hints和2)利用目标函数(Objective Function)来整合Hints。但作者同时也指出:Hints的形式化绝非易事。
在另一篇重要文献中Niyogi等人[27]明确指出,在缺少先验知识(Prior)的情况下,需要更大量的样本来进行学习。文中归纳了在学习过程中集成Prior的几种方式:1)利用Prior指导特征选择;2)利用Prior改进学习方法;3)利用Prior生成新样本;4)通过Prior提取Hints。同时作者利用径向基函数的径向对称性(Symmetry of Radial Base Function)生成虚拟图像,提高了人脸识别的正确率。
另外,如何将函数内在的某些不变性(Invariance)引入生成算法亦是研究热点之一[29]。文献[30]提出了虚拟支持向量(Virtual Support Vector)的概念及基于此的支持向量机算法。
在工业应用上,有限元方法(Finite Element Method,FEM)也被引入用于生成虚拟样本[31-32]。
(2)基于已有样本的虚拟样本添加
常用的方法包括bootstrapping,cross-validation和Monte Carlo仿真等重采样技术[33-35]。一般而言,在先验分析的基础上运用上述手段,其得到的数据质量是有一定保证的(数量当然不是问题)。国内在这方面也有尝试性的研究,比如余嘉元等[36]基于均匀分布采用IRT模型用Monte Carlo方法产生虚拟的被试能力和项目参数,满足了神经网络训练时所需用到的较多的训练模式;2006年王卫东等[37]在模式特征子空间中选取一组标准正交向量,使用这组向量可以生成大量的虚拟训练样本,使模式分类正确率有显著提高。2004年Huang Chongfu和Moraga等[38]提出了一种DNN(Diffusion Neural Network)模型,试图借用信息扩散理论对原有小样本隐含的模糊信息加以利用,从而增大样本量,满足后继神经网络训练的要求。但至今就如何寻找合适的信息扩散函数尚没有提出一般性的办法。类似地,蔡东亦等[39]利用Mega-fuzzification技术来填补小样本之间的样本间距,并通过母体值域估计技术预测样本行为,获得了较好的效果。
还有一种比较常见的方法是采用噪声叠加[40](Noise Injection,可理解为一种特殊的Injecting Randomness[41])。文献[42]的结论表明在训练样本中加入噪声能够有效提高系统的泛化性能。1995年,Bishop[43]从理论上证明了噪声叠加相当于进行光滑正则化操作(Smoothness Regularization)。
(3)利用未标注样本
随着数据采集与存储技术的发展,很多领域都面临一个问题,即要对实际样本进行详细精确的标注(Labeled)需要进行代价昂贵的实验,而获取这些样本(不标注类别)的代价要小得多。所以使用主动学习或半监督学习技术[44]尽可能利用大量未标注样本来提升分类器的泛化能力也是一条有效途径。主动学习需要一部分已标注样本训练基准分类器,而后使用不确定度缩减、版本空间缩减、误差最小化等方法选择未标注样本交给领域专家标注,再在标注后样本上训练基准分类器,通过多次循环提高泛化能力[45]。半监督学习不需要人工干预,如常用的Co-Training[46]和Tri-Training[47]方法。Co-Training方法基于多视图思想,使用两种相互独立的完备特征来描述对象,对应地建立两个分类器,互相选择样本交对方更新训练集,并不断重复这个过程[48],但在很多应用领域中,这种相互独立的完备性特征是很难划分的[49]。Tri-Training方法使用重采样技术,在不同数据集上训练三个分类器,而后对未标注样本进行分类,如果任两个分类器分类结果相同,则标注该样本并将其加入第三个分类器的训练集中,以此互相扩充训练集并不断重复这个过程[50]。
2.2.2 训练样本所覆盖的模式类别不完备
针对训练样本覆盖模式类不完备的小样本情况,确保机械噪声源识别分类器具有输出类增量学习能力非常重要。输出类增量学习的研究主要包括三部分内容:第一、对于没有学习过的样本应该能够加以有效拒识;第二、对于被拒识的大量样本应该能够自动聚类;第三、针对第二步骤中得到的新的训练样本,在原有知识库的基础上能够对学习模型进行更新。
在进行输出类增量学习以前,已经训练好的学习系统必须能够对新增类样本进行判别,也即上面提到的第一部分内容,这是一个异类样本的有效识别问题。针对异常类样本的检测,哥伦比亚大学的Eskin[51]等提出的基于聚类的估计算法、改进的K近邻方法以及one-class SVM方法是其中最为著名和具有影响力的3种方法。然而,现有异常检测技术大都具有较高的误报率,并且由于计算量过大而导致其实用性不强。针对这些情况,文献[52]中提出了一种新型的基于TCM-KNN算法的异常检测方法,其相对于传统的方法具有较高的检测率和较低的误报率,并且,通过引入遗传算法(Genetic Algorithm)[53]对算法的训练集进行样本选择,以减少算法的运算量,从而来提升其在真实网络环境中的实用性。但该方法要穷尽未知样本的所有可能分类,加之最近邻分类器自身的特点,导致该算法的计算代价高昂,难以控制计算花费;而且对训练集的质量要求较高,如果训练集中混有异常类样本,往往会极大影响最终的异类样本检测结果。
针对第二部分内容,即被拒识样本的自动聚类问题,其主要任务是把一个未标记的样本集按某种准则划分成若干类,要求同一类中的对象尽可能相似,而不同类中的对象尽可能相异。事实上,聚类是一个无监督的分类,它没有任何先验知识可用[54]。聚类算法有多种分类方法,一般可分为层次化聚类算法、划分式聚类算法、基于密度的聚类、基于网格的聚类和其他聚类算法[55]。2004年,Ma[56]提出一种新的基于移位网格概念的基于密度和网格的聚类算法SGC。2005年,Pileva等人[57]提出一种用于大型、高维空间数据库的网格聚类算法GCHL。2007年张枫等提出了基于网格的DBSCAN算法GbDBSCAN[58]。2009年,程国庆等[59]提出网格相对密度的概念和边界点提取技术,在此基础上给出了一种多密度聚类算法。但是,目前尚没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构[60]。在实际应用中一般应根据数据类型选择合适的聚类算法和恰当的相似性度量方式,以取得最佳的聚类效果。
因为在解决真实世界的问题时,往往很难在训练好的系统投入使用之前就得到所有可能的训练例。所以上面提到的第三部分内容,即机器学习方法的增量学习能力是非常重要的。在面临新训练例时,学习方法应该能够对训练好的系统进行某些改动,以对新示例中蕴含的知识进行学习,而且,对一个训练好的系统进行修改的时间代价通常低于重新训练一个系统所需要的代价[61]。一般将增量学习问题划分为三类,分别称之为E-IL问题、C-IL问题和A-IL问题,这三个问题定义如下[61]:E-IL(Example-Incremental Learning)是学习系统训练好之后,又得到了新的训练例。C-IL(Class-Incremental Learning)指学习系统训练好之后,输出表示发生了变化,增加了新的输出分类。A-IL(Attribute-Incremental Learning)则是在学习系统训练好之后,输入表示发生了变化,增加了新的输出属性。现有的大多数增量学习方面的工作都是在解决新训练例引起的问题,在已有的支持向量机增量学习方法中,也主要是研究A-IL型的增量学习问题,目前对C-IL进行研究的相对较少[62-65]。
综合以上分析,目前国内外尚没有建立起系统、完善的小样本模式识别理论,仅就解决潜艇机械噪声源识别问题而言,本文作者认为下一步应该优先研究以下问题:
(1)要明确“潜艇机械噪声源识别小样本”的定义。目前国内外尚没有统一的“小样本”定义,给出的几种常见定义是:
a.统计学的定义。最早的小样本统计量是1908年由戈塞特提出的。他提出t-统计量如下[66]:
设X1,X2,…Xn是来自正态总体N(μ,σ2)的一个样本,则,其中:。
因为在机械噪声源识别中,通常对采集得到的数据采取减去均值,除以方差的处理,所以如果该数据来自正态总体,则处理后的数据应该满足t分布。一般说来,当n>30时,t分布与正态分布N(0,1)就非常接近了,但n的值较小时,t分布与正态分布之间有较大差异,在t分布的尾部比在标准正态分布的尾部有着更大的概率。所以只有当数据样本的个数大于30时,得到的参数评估值才能准确地代表正态总体的值,也就是参数估计才准确,所以认为当样本小于30时为小样本。
b.一个不完备的数据集被称为不完备样本。在不完备样本条件下,我们说我们面对的是一个小样本问题[67]。
c.若目前所得到的样本数,没有办法使得所选用的方法,其准确度随着样本数增加呈现递增函数,或者偏误率随着样本数增加呈现递减函数,那就称目前的样本数为小样本[39]。
d.在机器学习中,若训练样本个数为n,学习机器函数的VC维为h,如果n/h的比值较小,例如小于20,则认为这种训练样本集是小样本[5]。
(2)样本特征选择和特征提取已在人脸识别、互联网文本搜索等领域得到大量应用,取得了不少有价值的研究成果,但就如何将其应用于潜艇等复杂系统机械噪声源识别研究,还需要进一步探索。
(3)通过引入新的信息或先验知识对小样本加以扩容必须要结合应用背景,而如何实现相关信息的合理添加有时往往不是一件容易的事情。
(4)基于已有样本的虚拟样本添加存在两个问题:一个是已有样本并不一定能够代表该模式下真实样本空间的分布,导致该种情况下得到的虚拟样本可能是错误的;另一个问题是,如果已有的小样本训练集不包含其他工况模式的信息,则无法通过该种方法得到新模式的训练样本。
(5)研究如何利用实艇可能获得的未标注样本,可能是解决小样本条件下潜艇机械噪声源识别的一个有效手段。
(6)目前几乎所有增量学习方面的工作都是在解决新训练例或新训练属性引起的问题,只有较少的研究者对输出类增量学习(C-IL)进行了深入研究。而这恰恰是解决潜艇机械噪声源识别问题的一个重要方面。
小样本模式识别问题也广泛存在于其他领域,像医学上的疾病诊断、化学领域中的炸药判别、小子样机械系统的寿命预测、宏观经济分析中的协整检验、以及机械、冶金、航空、航天、船舶、海洋工程、石油化工等行业中普遍存在着的故障诊断和缺陷检测问题等等。目前虽然没有建立起系统、完善的小样本模式识别理论,但结合各自不同的应用领域,国内外学者已取得了不少的研究成果。本文在系统评述小样本条件下模式识别方面的一些主要工作基础上,结合作者自己的研究领域,分析指出了潜艇机械噪声源识别研究中存在的一些主要问题,并对下一步工作重点作了展望。
总的说来,基于“系统”和“信息”的分析观点,综合集成“信息挖掘”和“信息扩容”两条技术路线,尽可能融合利用相关有用信息,将“小样本”问题转化为一个“相对足够大样本”问题,这是从根本上解决已有小样本模式识别问题的出路所在。
致谢:本文工作得到了国家自然科学基金(编号:50775218)和国防预研基金(编号:9140A0050506JB11)的资助。
[1]杨德森.水下航行器噪声分析及主要噪声源识别[D].哈尔滨:哈尔滨工程大学,1998.
[2]Tarassenko L,Nairac A,Townsend N.Novelty detection in jet engines[C]//In:IEE Colloquium on Condition Monitoring.Imagery,External Structures and Health.Birmingham,UK,1999.
[3]章林柯.潜艇声学故障识别方法及应用研究[D].武汉:海军工程大学,2006.
[4]Raudys S J,Jain A K.Small sample size effects in statistical pattern recognition:Recommendations for practitioners[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1991,13:252-264.
[5]张恒喜,郭基联,朱家元.小样本多元数据分析方法及应用[M].西安:西北工业大学出版社,2002.
[6]Hamamoto Y,Uchimura S,Kanaoka T,et al.Evaluation of artificial neural network classifiers in small sample size situations[C].International Joint Conference on Neural Networks,1993:1731-1735.
[7]Ueda N,Nakano R.Estimating expected error rates of neural network classifiers in small sample size situations:A comparison of cross-validation and bootstrap[C].International Joint Conference on Neural Networks,1995:101-104.
[8]Twomey J M,Smith A E.Bias and variance of validation methods for function approximation neural networks under conditions of sparse data[J].IEEE Trans on Systems,Man and Cybernetics,1998,28:417-430.
[9]Jain A K,Chandrasekaran B.Dimensionality and sample size considerations in pattern recognition practice[M].Handbook of Statistics,vol 2,Amsterdam:North Holland,1982:835-855.
[10]Skurichina M,Duin P.Stabilizing classifiers for very small sample sizes[C].13th International Conference on Pattern Recognition(ICPR’96)-Volume 2,1996:891-895.
[11]Yan J,Zhang B,Liu N,et al.Effective and efficient dimensionality reduction for large-scale and streaming data preprocessing[J].IEEE Trans on Knowledge and Data Engineering,2006,19:320-333.
[12]Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of Machine Learning Research,2003,1:1157-1182.
[13]Tenenbaum J,Silva V D,Langford J.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290:2319-2323.
[14]Roweis S T,Saul L K.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science,2000,290:2323-2326.
[15]Saul L K,Roweis S T.An introduction to locally linear embedding[J].Journal of Machine Learning Research,2003,7:119-155.
[16]Chen L F,Liao H Y,Ko M T,et al.A new LDA-based face recognition system which can solve the small sample size problem[J].Pattern Recognition,2000,1(33):1713-1726.
[17]Zheng W M,Zhao L,Zou C R.Foley-sammon optimal discriminant vectors using Kernel approach[J].IEEE Transacions on Neural Network,2005,16(1):1-9.
[18]Vapnik V N.The nature of statistical learning theory[M].NY:Springer-Verlag,1995.
[19]Vladimir N,Vapnik.Statistical theory[M].New York:Jonhn Wiley & Sons,Inc,1998.
[20]边肇祺,张学工.模式识别(第二版)[M].北京:清华大学出版社,1999.
[21]周志华,曹存根.神经网络及其应用[M].北京:清华大学出版社,2004.
[22]Hansen L K,Salamon P.Neural network ensembles[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1990,12:993-1101.
[23]Sollich P,Krogh A.Learning with ensembles:How over-fitting can be useful[M].Advances in Neural Information Processing Systems 8.MA:MIT Press,1996:190-196.
[24]Breiman L.Bagging predictors[J].Machine Learning,1996,24:123-140.
[25]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55:119-139.
[26]Zhou Z H,Wu J,Tang W.Ensembling neural networks:Many could be better than all[J].Artificial Intelligence,2002,137:239-263.
[27]Niyogi P,Girosi F,Poggio T.Incorporating prior information in machine learning by creating virtual examples[C].Proceedings of IEEE,1998:2196-2209.
[28]Abu-Mostafa Y S.Hints[J].Neural Computation,1995,7:639-671.
[29]Scholkopf B,Burges C,Vapnik V.Incorporating invariances in support vector learning machines[C].ICANN,1996:47-52.
[30]Decoste D,Scholkopf B.Training invariant support vector machines[J].Machine Learning,2002,46:161-190.
[31]Rodrıiguez P V J,Negrea M,Arkkio A.A simplified scheme for induction motor condition monitoring[J].Mechanical Systems and Signal Processing,2008,22:1216-1236.
[32]Novak D,Leh K D.ANN inverse analysis based on stochastic small-sample training set simulation[J].Engineering Applications of Artificial Intelligence.
[33]Efron B,Tibshirani R.An introduction to the bootstrap[M].London:Chapman and Hall,1993.
[34]Lachenbruch P A,Mickey R M.Estimation of error rates in discriminant analysis[J].Technometrics,1968,10:1-11.
[35]Neal R.Bayesian learning for neural networks[M].New York:Springer,1996.
[36]余嘉元.基于联结主义的连续记分IRT模型的项目参数和被试能力估计[J].心理学报,2002,4:522-528.
[37]王卫东,郑宇杰,杨静宇.采用虚拟训练样本优化正则化判别分析[J].计算机辅助设计与图形学学报,2006,18:1327-1331.
[38]Huang C,Moraga C.A diffusion-neural-network for learning from small samples[J].International Journal of Approximate Reasoning,2004:137-161.
[39]蔡亦东.以整体扩展技术协助小样本之学习[D].台湾:台湾国立成功大学,2005.
[40]Grandvalet Y,Canu S,Boucheron S.Noise injection:Theoretical prospects[J].1996.
[41]Dietterich T G.Machine learning research:Four current directions[J].AI Magazine,1997,18(4):97-136.
[42]Sietsma J,Dow R J F.Creating artificial neural networks that generalize[J].Neural Networks,1991,4:67-79.
[43]Bishop C M.Training with noise is equivalent to tikhonov regularization[J].Neural Computation,1995,7(1):108-116.
[44]龙 军.主动学习关键技术研究[D].长沙:国防科技大学,2008:1-6.
[45]龙 军,殷建平,祝 恩.主动学习研究综述[J].计算机研究与发展,2008,45(S1):300-304.
[46]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory.Madison,1998:92-100.
[47]Zhou Z H.Tri-training:Exploiting unlabeled data using three classifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1529-1541.
[48]王 路,卓 晴,王文渊.基于Co-Training的协同目标跟踪[J].计算机工程,2009,35(3):201-204.
[49]唐焕玲,林正奎,鲁明羽.基于差异性评估对Co-Training文本分类算法的改进[J].电子学报,2008,36(12A):138-143.
[50]王 娇,罗四维,曾宪华.基于随机子空间的半监督协同训练算法[J].电子学报,2008,36(12A):60-65.
[51]Eskin E,Arnold A,Prerau M,et al.A geometric framework for unsupervised anomaly detection:Detecting intrusions in unlabeled data[C].Applications of Data Mining in Computer Security,2002:78-99.
[52]Li Yang,Fang Binxing,Guo Li,Chen You.A network anomaly detection method based on transduction scheme[J].Journal of Software,2007,18(10):2595-2604.
[53]李 洋,方滨兴,郭 莉.基于TCM-KNN和遗传算法的网络异常检测技术[J].通信学报,2007,28(12):48-52.
[54]孙吉贵,刘 杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.
[55]扬小兵.聚类分析中若干关键技术的研究[D].杭州:浙江大学博士学位论文,2005.
[56]Ma W M,Chow E,Tommy W S.A new shifting grid clustering algorithm[J].Pattern Recognition,2004,37(3):503-514.
[57]Pilevar A H,Sukumar M.A grid-clustering algorithm for high-dimensional very large spatial data bases[J].Pattern Recognition Letters,2005,26(7):999-1010.
[58]张 枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169.
[59]程国庆,陈晓云.基于网格相对密度的多密度聚类算法[J].计算机工程与应用,2009,45(1):156-169.
[60]Sambasivam S,Theodosopoulos N.Advanced data clustering methods of mining web documents[J].Issues in Informing Science and Information Technology,2006(3):563-579.
[61]周志华.神经计算中若干问题的研究[D].南京:南京大学,2000.
[62]Syed N,Liu H,Sung K.Incremental Learning with support vector machines[C]//Proceedings of the Workshop on Support Vector Machines at the International Joint Conference on Artificial Intelligence(IJCAI-99).Stockholm,Sweden:Morgan Kaufmann,1999:876-892.
[63]萧 嵘,王继成,孙正兴等.一种SVM增量学习算法α-ISVM[J].软件学报,2001,12(12):1818-1824.
[64]李 凯,黄厚宽.支持向量机增量学习算法研究[J].北方交通大学学报,2003,27(5):34-37.
[65]Pavel L.Incremental support vector learning:Analysis,implementation and applications[J].Journal of Machine Learning Research,2006,7:1909-1936.
[66]天津大学概率统计教研室.应用概率统计[M].天津:天津大学出版社,1990.
[67]Huang C,Moraga C.A diffusion-neural-network for learning from small samples[J].International Journal of Approximate Reasoning,2004:137-161.