克隆代码有害性预测中分类不平衡问题的解决方法

2017-01-13 01:29王欢张丽萍闫盛

计算机应用 2016年12期

王欢+张丽萍+闫盛

摘要：针对克隆代码有害性预测中有害和无害数据分类不平衡的问题，提出一种基于随机下采样（RUS）的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集；然后选取比例不同的分类不平衡新数据集；接着对已选取的新数据集进行有害性预测；最后，通过观察分类器的不同表现自动选择一个最适合的分类不平衡比例值。在7款C语言开源软件共170个版本上对克隆有害性预测模型的性能进行评估，并和其他分类不平衡解决方法进行对比，实验结果表明所提方法对有害和无害克隆的分类预测效果（受试者工作特征曲线下方面积（AUC）值）提高了2.62个百分点～36.70个百分点，能有效地改善分类不平衡的预测问题，为软件质量评估提供了参考。

关键词：克隆代码；有害性；不平衡分类；随机下采样；参数搜索

中图分类号： TP311.5

文献标志码：A

文章编号：1001-9081（2016）12-3468-08

计算机应用2016年12期

计算机应用的其它文章: 全卷积网络结合改进的条件随机场循环神经网络用于SAR图像场景分类; 大输液异物检测图像快速位移补偿方法; 基于组合分类算法的源代码注释质量评估方法; 基于软件层次化模型的软件测试数据生成; 基于软件代码演化信息的克隆谱系提取方法; 基于用户兴趣迁移的Web日志仿真生成算法