数据挖掘旨在利用智能数据分析技术,从海量数据中提取或挖掘潜在的知识和规律,为决策任务提供有效支撑.在大数据时代背景下,数据挖掘技术已在工业、金融、医疗、教育、交通、媒体等领域取得广泛应用.然而,大数据的复杂多样性也为数据挖掘研究在理论、方法、应用等多个层面提出了新的挑战.
为及时反映国内同行在数据挖掘方面的研究进展,促进该领域的学术交流,并推动我国数据挖掘领域的创新发展,《计算机研究与发展》本次推出“数据挖掘前沿进展”专题.本专题得到了国内同行的广泛关注,经公开征文共收到投稿65篇,审稿过程历经2个月,每篇投稿由数据挖掘及相关领域的2位专家进行评审,3位特约编辑参考初审意见进行复审,最终有10篇优秀稿件入选本专题.此外,专题与第九届中国数据挖掘会议(CCDM 2022)合作,所有专题录用稿件在CCDM 2022会议报告交流.
首先,基于机器学习的智能数据分析技术是数据挖掘研究的基础,同时也是热点.姜高霞等人的论文“面向回归任务的数值型标签噪声过滤算法”证明了针对回归任务中数值型标签噪声数据的泛化误差界,由此提出一种可解释的噪声过滤框架,并结合相对噪声估计方法提出一种具体的相对噪声过滤算法RNF;在标准数据集和年龄估计数据上的实验结果表明,RNF算法不仅能够适应各类噪声数据,而且能够显著提升模型泛化能力.梁新彦等人的论文“多粒度融合驱动的超多视图分类方法”针对现有融合算子在视图数增多时面临的诸多挑战,采用由易到难建模视图特征间关系的多粒度策略,提出了一种多粒度融合的超多视图分类方法.刘兆清等人的论文“面向特征继承性增减的在线分类算法”针对开放动态环境,提出了一种可处理特征继承性增减的在线分类算法OFID,从理论上证明了OFID的损失上界,并通过大量的实验验证其有效性.任嘉睿等人的论文“基于元图卷积的异质网络嵌入学习算法”通过基于元图的异构邻接矩阵融合多条元路径上的不同语义的计算,提出了一种基于元图卷积的异质网络嵌入学习算法MGCN,能够挖掘节点间的高阶间接关系,并降低图卷积方法的嵌入维数,减少计算时间;在公开异质网络数据集上的实验表明,MGCN在节点分类、聚类任务上能获得更好的性能且需更少的训练时间.马昂等人的论文“基于强化学习的知识图谱综述”对基于强化学习的知识图谱相关研究进行了全面综述,介绍了基于强化学习的知识图谱方法如何应用于智能推荐、对话系统、游戏攻略、生物医药、金融、安全等领域,并对知识图谱与强化学习相结合的未来发展方向进行了展望.
其次,研究特定类型数据挖掘技术在大数据时代具有重要意义.魏秀参等人的论文“面向增量分类的多示例学习”针对多示例学习下的增量数据挖掘任务,提出一种基于注意力机制和原型分类器映射的多示例增量数据挖掘方法,能够在多示例学习下以极低的存储代价保留模型的旧知识,有效地进行增量数据挖掘.武越等人的论文“点云配准中多维度信息融合的特征挖掘方法”针对点云配准任务,提出一种新颖的基于多维度信息融合的特征挖掘网络,充分挖掘点云中的高维全局和低维局部信息,有效弥补了点云配准的全局特征提取阶段局部特征的缺失;ModelNet40数据集上的大量实验表明,该方法可获得更高的精度,同时对噪声具有较强的鲁棒性.郭正山等人的论文“面向知识超图链接预测的生成对抗负采样方法”针对知识超图链接预测任务,提出了生成对抗负采样方法HyperGAN,无需预训练,通过对抗训练生成高质量负样本以解决“零损失”问题,在性能与效率方面均优于已有方法.范伟等人的论文“基于时空Transformer的社交网络信息传播预测”针对社交网络信息传播预测任务,提出了一种基于时空Transformer的新模型STT,首先使用图卷积网络从由社交网络图和动态传播图组成的异构图中学习用户的结构特征,然后使用Transformer融合用户的时序特征和结构特征,从而进行信息传播预测.姚丽等人的论文“基于校园上网行为感知的学生成绩预测方法”收集构建了一个同时包含学生校园上网行为和成绩数据的真实数据集,并通过分析揭示了两者之间存在一定的关联性,由此提出一种端到端的双层自注意力网络DEAN,并通过结合多任务学习策略解决了面向不同专业的学生成绩预测问题;实验结果表明,提出方法DEAN具有更好的预测精度.
本专题主要面数据挖掘及相关领域的研究人员,反映了我国学者在数据挖掘等领域的前沿进展.在此,我们要特别感谢《计算机研究与发展》编委会对专题工作的指导和帮助,感谢编辑部各位老师在专题征文、论文评审与意见汇总、论文定稿、修改及出版各个阶段付出的辛勤工作和汗水,感谢专题评审专家及时、耐心、细致的评审工作.此外,我们还要感谢向本专题踊跃投稿的作者对《计算机研究与发展》的信任.最后,感谢专题的读者们,希望本专题能够对相关领域的研究工作有所促进.