程玉胜 钱坤 王一宾 赵大卫
摘 要:已有的多标签懒惰学习算法(IMLLA)在利用近邻标签时因仅考虑了近邻标签相关性信息,而忽略相似度的影响,这可能会使算法的鲁棒性有所降低。针对这个问题,引入萤火虫方法,将相似度信息与标签信息相结合,提出一种融合萤火虫方法的多标签懒惰学习算法(FFMLLA)。首先,利用Minkowski距离来度量样本间相似度,从而找到近邻点;然后,结合标签近邻点和萤火虫方法对标签计数向量进行改进;最后,使用奇异值分解(SVD)与核极限学习机(ELM)进行线性分类。该算法同时考虑了标签信息与相似度信息从而提高了鲁棒性。实验结果表明,所提算法较其他的多标签学习算法有一定优势,并使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。
Abstract: The existing Improved Multilabel Lazy Learning Approach (IMLLA) has the problem that the influence of similarity information is ignored with only the neighbor label correlation information considered when the neighbor labels were used, which may reduce the robustness of the approach. To solve this problem, with firefly method introduced and the combination of similarity information with label information, a Multilabel Lazy Learning Approach based on FireFly method (FFMLLA) was proposed. Firstly, Minkowski distance was used to measure the similarity between samples to find the neighbor point. Secondly, the label count vector was improved by combining the neighbor point and firefly method. Finally, Singular Value Decomposition (SVD) and kernel Extreme Learning Machine (ELM) were used to realize linear classification. The robustness of the approach was improved due to considering both label information and similarity information. The experimental results demonstrate that the proposed approach improves the classification performance to a great extent compared to other multilabel learning approaches. And the statistical hypothesis testing and stability analysis are used to further illustrate the rationality and effectiveness of the proposed approach.
英文關键词Key words: multilabel learning; firefly method; label correlation; Improved Multilabel Lazy Learning Approach (IMLLA); Extreme Learning Machine (ELM)
0 引言
多标签学习作为处理具有丰富语义真实世界对象的学习框架之一,且其研究成果已经广泛应用到文本分类[3]、基因工程[4]、图像识别[5-6]、Web数据挖掘[7]和视频自动标注[8]等多个领域。对此许多学者提出了针对多标签分类的学习算法,例如BR(Binary Relevance)算法、LP(Label Power)算法[9]等,它们通过增加分类器个数或者标签的种类来解决多标签问题,但在一定程度上影响了分类器效率。经典的MLKNN(MultiLabel K Nearest Neighbors)算法[10]利用最大化后验概率(Maximum A Posteriori)来解决多标签学习预测问题,虽提升了分类器的性能,却增加了其计算的复杂度。
而针对标签间的相关性,许多学者提出了相关算法,取得了不错的效果。例如,RankSVM(Ranking Support Vector Machine)算法[12]采用最大间隔策略以适应多标签学习,采用类似BR策略构建SVM(Support Vector Machine)多标签分类器,但其时间消耗较大。由于极限学习机(Extreme Learning Machine, ELM)[13]训练速度快,MLRKELM(MultiLabel algorithm of Regression Kernel Extreme Learning Machine)算法[14]使用回归模式的核ELM,缩短了算法的运行时间。MLASRKELM(MLRKELM with Association Rules)算法[14]在MLRKELM算法的基础上引入了关联规则,保留了标签之间的信息。针对标签之间的相关性,张敏灵[15]在MLKNN算法基础上提出一种新型的多标签懒惰学习算法(Improved Multilabel Lazy Learning Approach, IMLLA)。IMLLA利用近邻的标签信息构建一个标记计数向量来进行分类, 此算法在构建标签计数向量时使用了近邻标签信息,认为近邻的标签具有相同的重要性。然而,近邻与样本间的相似度越大,此近邻的标签越重要, IMLLA因未考虑近邻相似度信息所以其泛化性有所降低。
在上述研究成果上,对于样本分布问题,本文在IMLLA的基础上引入萤火虫方法[16-17]。萤火虫方法作为模仿自然界中萤火虫发光行为而构造出的元启发式算法,具有操作简单、易于并行处理、鲁棒性强等特点。故利用萤火虫方法将近邻的标签信息与近邻的相似度信息相融合,以提高算法的鲁棒性,而提出一种融合萤火虫方法的多标签懒惰学习算法(Multilabel Lazy Learning Approach based on FireFly method, FFMLLA)。本文通过萤火虫方法根据相似度来计算样本与近邻间的吸引度,吸引度越大则该近邻的标签越重要。然后将吸引度作为权重与标签信息相结合,对IMLLA中的标签计数向量进行重构。由于Huang等提出的极限学习机算法[13]具有训练速度快、泛化能力强等优点,所以在使用线性分类器进行分类时,引入ELM进行权重求解。此外,还使用了奇异值分解(Singular Value Decomposition, SVD)求解权重。为了验证本文算法的有效性,本文将FFMLLA与标准IMLLA,以及其他经典的多标签算法在多个公开数据集上进行实验对比。实验结果表明,本文算法较其他对比算法具有一定优势。
1 理论介绍
1.1 多标签学习
MLKNN是一种经典的多标签分类算法,它先获取近邻样本的标签信息,再通过“最大化后验概率”的方式推理未见实例的标签集合, 但它未充分考察标签之间的相关性。基于此问题,张敏灵提出一种新型的多标签懒惰学习算法IMLLA。IMLLA首先将测试样本在训练集中找出k个近邻及其k个近邻的标记信息,然后根据k个近邻的标记信息生成各标签计数向量,并提交给已训练的分类器进行标签预测。
4 结语
