样本

  • 基于自然最近邻的不平衡数据欠采样方法
    衡数据是指各类别样本的数量有巨大差异的数据集,其广泛存在于金融欺诈检测、医疗诊断、故障预测等实际应用中。在将支持向量机、贝叶斯分类器、神经网络等传统的分类模型用于不平衡数据的分类时,分类器倾向于学习多数类样本的特征而忽略了少数类,容易将少数类样本识别为多数类,无法保证少数类样本的分类准确率。而由于少数类样本往往具有重要价值,因此其类别的误判会造成严重的损失。以保险欺诈检测为例,欺诈行为的数量远远小于正常交易的数量,如果不能检测出欺诈活动,那么将会造成机构资

    统计与决策 2023年15期2023-08-23

  • 噪声主观评价中的白噪声标准样本法及其应用
    时,选取确定的声样本作为参考声样本能得到一致性更高的结果,因此人们更多地采用参考评分法[7-9]。使用该方法时,一般会在全体待评价声样本中选取感知特性适中的待评价样本作为参考声样本,因而被称为待测样本法。在评价过程中,如果参考样本与待评价样本类型相同,可比性强,则被试评分一致性高,可得到准确的评价值。但不同实验中选取的参考样本往往不同,使得实验结果之间不具可比性。为此,Nilsson[10]提出将每个实验声样本的烦恼度表示为粉红噪声等效声级,即用具有相同烦

    西北工业大学学报 2022年4期2022-09-09

  • 采用双层优选策略的主动学习算法及其应用
    的限制,采集到的样本中通常无标签样本占比大,有标签样本占比少。为充分利用这些样本信息,半监督学习和主动学习算法相继提出并应用于图像分类[1-2]、故障检测[3-4]、工业过程建模[5-6]等领域。传统的半监督学习算法通过对无标签样本进行标记以扩大有标签样本集,以此达到提升模型精度的目的[7-10]。区别于半监督学习算法仅利用无标签样本来提升模型性能,主动学习借助专家知识,对优选出的无标签样本进行人工标记[11-12],获取其真实标签,并将标记后的样本加入有

    智能系统学报 2022年4期2022-08-19

  • 一种改进的不平衡数据过采样算法BN-SMOTE∗
    不同类别之间数据样本的不均衡分布,其中大多数样本属于某种类别,而剩余的样本属于其它类别。许多实际的应用领域中都存在不均衡数据集的分类问题,例如医疗诊断[1]、信息检索系统[2]、欺诈性电话的检测[3]、直升机故障检测[4]等。传统的分类方法倾向于对多数类有较高的识别率,对于少数类的识别率却很低。因此不均衡数据集的分类问题的研究需要寻求新的分类方法和判别准则。目前最流行的处理不平衡学习问题的方法多是基于过采样方法来延伸的。在本文中,首先介绍了SMOTE 算法

    计算机与数字工程 2020年9期2020-11-02

  • 不平衡分类的数据采样方法综述
    ]中,在几百万个样本基因里可能仅有一个基因是癌症基因;电信通讯中只有少数通讯是具有欺诈行为的通讯记录[4-5];软件检测中也只有不到10%的软件是具有缺陷的[6]。不平衡数据普遍存在于人类生活的方方面面,不仅数据分布广泛,而且数据比例不均衡。在不平衡数据中数量多的样本称为负样本,数量少的样本称为正样本。正负样本拥有较大的比例差距,例如:全国1年中雷电天气(正样本)天数占全年天数的比例不到10%;新生体检中患肺结核疾病的学生人数占比不到1‰。在数据分类评价指

    重庆理工大学学报(自然科学) 2019年7期2019-08-17

  • 一种基于混合采样的非均衡数据集分类算法
    数据,是指某一类样本的数量明显少于另一类样本的数量,即多数类(负类)和少数类(正类)存在比例失衡[5].在非均衡数据集中少数类可能比多数类包含着更多有价值的信息,在这种情况下,正确识别少数类比正确识别多数类更加重要.随机森林[6]通过自助采样[7]获取样本集,从而构建决策树得到很好的分类预测效果,常被用于数据集分类研究[8,9]中.但在实际应用中,因为所获得的数据常常表现为非均衡数据[10],所以在数据处理方面经常引入欠采样和过采样方法,对于非均衡数据集的

    小型微型计算机系统 2019年6期2019-06-06

  • 中国生物样本库资源管理与应用现状分析
    090)探讨生物样本库的管理与应用,首先需要明确生物样本的定义,生物样本是指从生物个体获得的物质,生物资源是指融合生物样本实体、生物分子信息及生物样本表型数据的综合资源[1]。生物样本库是指所有涉及生物资源收集、处理、保存和使用的机构,包括人类生物样本库、动物样本库、植物样本库和微生物样本库。人类生物样本库是针对人类生物资源收集、处理、保存和使用的机构,人类生物样本包括原始样本如:血液、组织、尿液、唾液、粪便、毛发和皮屑等,还有很多衍生样本,如细胞、DNA

    实用器官移植电子杂志 2017年6期2017-09-10

  • 基于核方法的虚拟样本构造
    基于核方法的虚拟样本构造刘鹏飞,何良华(同济大学 电子与信息工程学院,上海 201804)样本不平衡问题已经成为机器学习领域的研究热门。虚拟样本生成方法是一种重要的解决样本不平衡问题的方法,它通过线性生成少数类样本来实现。在以往的大多数研究工作中,虚拟样本的生成是在原始的特征空间中进行的,样本通常处于线性不可分的状态,将会导致生成的虚拟样本丢失几何特性。因此,文章提出了一种基于核方法的虚拟样本构造方法,虚拟样本在线性可分的核空间中生成。样本不平衡;支持向量

    网络安全与数据管理 2017年3期2017-02-22