特征选择

  • 基于哨兵二号的大豆、玉米遥感识别
    兵二号影像;特征选择;遥感识别中图分类号:TP79      文献标识码:A      文章编号:1000-4440(2023)08-1698-09Recognition of corn and soybean based on Sentinel-2 imagery: a case study in Xuhuai area, Jiangsu provinceWANG Jing-jing1 LAN Shi-hao2 QIU Lin1 WANG Shu1 SH

    江苏农业学报 2023年8期2024-01-30

  • 基于数据挖掘的田径运动员训练质量评估研究
    ;数据挖掘;特征选择;模型构建随着竞技体育水平的不断提高,田径运动员的训练质量成为关键的竞争要素。通过数据挖掘技术对训练过程中的数据进行分析,可以找出提高训练质量的关键因素,从而为教练员和运动员提供科学的训练建议。本研究基于数据挖掘的田径运动员训练质量评估方法,旨在提高运动员的整体竞技水平。1 数据挖掘在田径运动员训练质量评估中的应用探讨1.1 提高田径运动员训练质量的重要性田径运动是体育竞技的基础项目,涵盖了跑、跳、投等多个子项目。训练质量直接影响着田径

    拳击与格斗·上半月 2023年7期2023-09-18

  • 多策略增强型麻雀搜索算法
    叉优化算法;特征选择中图分类号:TP18  文献标识码:A      文章编号:2096-4706(2023)13-0039-08Multi-Strategy Enhanced Sparrow Search AlgorithmCHEN Jiandong, NIE Bin, LEI Yinxiang, ZHANG Yuchao, CHEN Xingxin, MIAO Zhen(College of Computer Science, Jiangxi Univ

    现代信息科技 2023年13期2023-09-14

  • 基于卷积神经网络的脑卒中中医辨证分型舌象分类研究
    支持向量机;特征选择〔中图分类号〕R288       〔文献标志码〕A        〔文章编号〕doi:10.3969/j.issn.1674-070X.2023.08.019Convolutional neural networks-based TCM pattern differentiation and classification of tongue manifestations in stroke patientsWANG Zhaoyu1,

    湖南中医药大学学报 2023年8期2023-09-07

  • 基于优化CS-SVM算法的DGA域名检测研究
    型。关键词:特征选择;DGA域名;布谷鸟搜索算法;支持向量机中图分类号:TP393.0  文献标识码:A  文章编号:2096-4706(2023)11-0077-03Research on DGA Domain Name Detection Based on Optimized CS-SVM AlgorithmLU Jiaqi, LYU Guangxu, WEI Xianyan, FENG Yanru, WANG Xiaoying(Institute o

    现代信息科技 2023年11期2023-08-01

  • 航班到港延误时长预测及特征分析
    消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降

    河北科技大学学报 2023年3期2023-07-18

  • 基于Hilbert-Schmidt独立准则的多标签学习算法
    词:多标签:特征选择:相关性:Hilbert-Schmidt中图分类号:TP181文献标志码:A0 引言在实际生活中,数据多以多标签的形式存在的,使得多标签特征选择、分类和识别成了机器学习中重要的研究方向之一。对比传统的单标签数据,多标签数据由于存在复杂多变的目标对象以及庞大的标签组合空间,变得十分具有挑战性[1]。多标签数据最主要的特点是数据的多个标签之间存在着相关性。探索标签的语义信息和相互联系,是提高多标签学习方法的性能的重要手段之一[1]。如在经典

    无线互联科技 2023年4期2023-06-22

  • 基于相对混乱度特征选择的船舶风机智能状态监测与故障诊断
    、特征提取、特征选择和故障识别组成的智能状态监测和故障诊断框架,以及基于相对混乱度的特征选择方法和基于特征选择的支持向量机训练方法。该方法相比传统方法在故障识别准确率上有所提升,可达到94.46%,并且可有效缩短分类器计算耗时,最快可将其缩短77.8%。文中提出的算法框架、特征选择方法、基于特征选择的支持向量机训练方法和智能故障诊断方法相比现有方法有一定的优势,对机舱中回转机械设备的状态监测和故障诊断有一定的参考价值。关键词:智能故障诊断; 特征选择; 支

    上海海事大学学报 2023年1期2023-06-22

  • 改进的ReliefF-BPNN分类模型
    。关键词: 特征选择; ReliefF算法; 交互增益; BP神經网络;分类中图分类号:TP181          文献标识码:A     文章编号:1006-8228(2023)06-20-05Improved ReliefF-BPNN classification modelLi Yupei, Wang Xinli(College of Science, University of Shanghai for Science and Technolog

    计算机时代 2023年6期2023-06-15

  • 云环境下基于模糊C均值的入侵检测系统
    ;入侵检测;特征选择;模糊C均值1引言云计算是IT领域中一种按需取用及付费的全新商业模式。云计算因其节约成本、维护方便、配置灵活,能够应对大数据时代的产生的IT资源问题,已经成为企业、个人等优先选择的一项服务。然而,云计算其巨大的市场对入侵者也有着巨大的诱惑力。由于规模巨大、结构复杂、用户繁多,其潜在攻击面较大,网络安全机制亟待完善,云环境相应的安全问题也呈直线上升趋势。本文将聚类分析应用到云环境中检测异常流量数据,是对入侵检测系统的一种完善。2云环境下入

    计算机应用文摘 2023年5期2023-05-30

  • 云环境下基于模糊C均值的入侵检测系统
    ;入侵检测;特征选择;模糊C均值1引言云计算是IT领域中一种按需取用及付费的全新商业模式。云计算因其节约成本、维护方便、配置灵活,能够应对大数据时代的产生的IT资源问题,已经成为企业、个人等优先选择的一项服务。然而,云计算其巨大的市场对入侵者也有着巨大的诱惑力。由于规模巨大、结构复杂、用户繁多,其潜在攻击面较大,网络安全机制亟待完善,云环境相应的安全问题也呈直线上升趋势。本文将聚类分析应用到云环境中检测异常流量数据,是对入侵检测系统的一种完善。2云环境下入

    计算机应用文摘·触控 2023年5期2023-03-22

  • 基于l2,0范数稀疏性和模糊相似性的图优化无监督组特征选择方法
    两种方式: 特征选择[5-6]和特征提取[7-8].特征提取是对原始特征空间进行映射或变换,得到原始特征线性组合或非线性组合生成的一组特征.与特征提取不同,特征选择是在原始特征空间中进行,通过某种评价策略,从原始特征集上选择最具有代表性的特征子集.因此,相比特征提取,特征选择保留数据的原始物理意义,具有更强的可解释性.根据数据标签的使用情况,特征选择可分为3类:监督特征选择[9-10]、半监督特征选择[11]和无监督特征选择[12].在实际生活中,数据标签

    模式识别与人工智能 2023年1期2023-02-25

  • 基于粗糙集的动态特征选择算法研究
    糙集;动态;特征选择;信息量;可分辨矩阵;正域1 引言所谓特征选择,顾名思义是从原始特征空間中筛选与任务相关的特征,剔除无关、冗余及噪声特征等[1]。 在大数据时代下,由于信息量急速增加,数据集的构成具有动态变化和不确定性的特征,传统特征选择方法普遍面临不能适应的问题[2]。 粗糙集理论作为一种数据分析理论,是一种处理不精确、不确定与不完全数据的数学方法,被广泛应用于知识发现、模式识别、生物学及数据挖掘等领域,使得应用粗糙集理论解决数据特征选择面临的上述不

    计算机应用文摘·触控 2022年21期2022-12-12

  • 基于遗传算法的封装式特征选择研究
    机器学习中,特征选择在数据预处理阶段被用来剔除数据集中的冗余特征。特征选择分为嵌入式、过滤式、封装式。其中,封装式特征选择在监督学习中应用广泛。本文主要研究将遗传算法用于封装式特征选择时,不同的个体选择策略与种群更新策略的结合对监督学习算法预测准确率的影响。实验结果表明,锦标赛选择法与精英个体参与遗传操作的精英保留策略相结合的方式,能够得到最好的效果。通过在所有数据集上的计算总平均准确率发现,这种结合方式比将所有特征用于学习的平均准确率高出1.2%。关键词

    电脑知识与技术 2022年19期2022-08-31

  • 文本分类中TF-IDF算法的改进研究
    :文本分类;特征选择;CHI平方统计;TFIDF;分类准确性随着在线信息的快速发展,如何有效地处理大量文本成为一个热门的研究课题,文本分类是其中的关键任务之一。文本分类是将新文档分配给预先存在的类别,并且已广泛用于许多领域,如信息检索、电子邮件分类、垃圾邮件过滤、主题定位。近年来,大多数研究集中在寻找新的分类算法上,对信息检索的文献表示模型的改进研究很少。传统模型有三种:向量空问模型、概率模型、推理网络模型。向量空问模型把对文本内容的处理简化为向量空间中的

    计算技术与自动化 2022年2期2022-07-04

  • 基于特征选择和CNN+Bi-RNN模型的小麦抗寒性识别方法
    究对象,利用特征选择算法和深度学习方法实现小麦抗寒性识别研究。首先,使用集成学习中的自适应增强(adaptive boosting,简称AdaBoost)算法和极端梯度提升(extreme gradient boosting,简称XGBoost)算法进行特征选择;然后,将卷积神经网络(convolutional neural networks,简称CNN)抽取的局部特征和双向循环神经网络(Bi-direction recurrent neural netw

    江苏农业科学 2022年10期2022-06-12

  • 基于决策树的代码异味优先级评估
    决策树; 特征选择; 软件可维护性中图分类号: TP 311    文献标志码: A    文章编号: 1000-5137(2022)02-0210-07GUO Di, WU Haitao(College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China) Based on the priori

    上海师范大学学报·自然科学版 2022年2期2022-06-01

  • 基于混合特征选择的脑电解码方法
    脑电解码中,特征选择非常重要。由于运动想象脑电存在个体差异,因此需要特征选择方法选择被试特异的频带特征、时间窗特征、通道特征等[1]。另外,融合特征也需要特征选择方法选择更具判别性的特征。单一特征或者少数特征不需要特征选择,但是单一特征通常不能更好地表征完整的脑电信息。融合特征有利于实现信息互补[2],但是通常也包含噪声和冗余信息。因此,融合特征需要特征选择剔除无效信息。此外,特征选择可以降低特征维数,减少分类模型的复杂度,避免维数灾难和过拟合。现有特征选

    计算机与现代化 2022年4期2022-05-05

  • 改进的KNN分类异常点检测方法
    亮河关键词:特征选择;孤立森林算法;NSL-KDD中图分类号:TP3910引言随着信息技术的发展,在大数据时代,准确收集各方面的数据格外重要,然而数据容易被异常点污染,因此数据质量的监测被越来越多的学者重视。在异常检测系统研究领域中,异常点检测是其中一项非常重要的环节。在物联网领域中,前人提出了许多方法处理研究数据异常值来保证检测结果的准确性,例如SVM、KDE、聚类、贝叶斯、决策树等方法,但是很少有方法是通过研究数据的相关性去进行异常点检测研究。通常我们

    甘肃科技纵横 2022年1期2022-05-01

  • 基于特征选择集成学习的军事体育训练成绩分析
    基础上,结合特征选择集成学习模型一般步骤,建立基于特征选择集成学习的军事体育训练成绩分析模型。模型按照军事体育训练成绩的数据规范化准备,按照身体素质建立特征子集和基学习器,按动态权值构建集成学习模型三步完成模型构建。通过试点应用,在历史训练数据发现集成学习模型具有更高的预测效能和更好的可解释性。关键词:军事体育训练;特征选择;集成学习;数据预处理中图分类号:TP 181      文献标识码:A文章编号:1009-3044(2022)03-0081-03开

    电脑知识与技术 2022年3期2022-03-12

  • 基于LSTM的智能家庭用电预测模型研究
    基础上设计了特征选择方法,对多个特征进行重要性计算,选取其中重要性高的部分进行建模,然后利用LSTM网络与全连接层对时间序列数据进行训练,得到预测模型。实验结果表明,所提方法的预测效果明显优于其他三种模型,能与真实数据较好地拟合。关键词:智慧能源;用电预测;特征选择;时间序列;LSTM网络中图分类号:TP399     文献标识码:AResearch on Smart Power Consumption Prediction Model of Smart

    软件工程 2022年2期2022-03-09

  • 正交基低冗余无监督特征选择
    要的意义,而特征选择是数据降维的一种常用手段,本研究分析数据集的特征选择.特征选择旨在从原始数据集中选出具有判别特性且相关的特征子集,同时减少冗余、不相关、高噪声的特征.许多研究人员提出了各种特征选择法,并广泛应用于机器学习的各个领域.根据样本的标签信息,特征选择可以分为有监督特征选择、半监督特征选择和无监督特征选择[1].由于获得样本的类别信息需要大量的工作,因此研究无监督的特征选择具有重要意义.不仅如此, 无监督特征选择在发现数据集内部隐含的信息也有一

    福州大学学报(自然科学版) 2022年1期2022-01-21

  • 基于属性相关性与特征选择的K-近邻缺失值顺序填充算法
    补时难以进行特征选择,提出一种基于属性相关性的对于多维数据缺失按顺序并进行特征选择的填充方法,在解决相关性计算的问题同时提出了采用相关性进行填充顺序选择。算法首先提取完整数据集或者投影计算距离相关性,并按照一定的方式按相关性从大到小进行填充,保证在填充时不会因为特征选择出现参照数据集为空的情况,在填充时选择大于相关性临界点的特征在投影的基础上进行近邻填充。实验分别在不同缺失率下计算该方法与其它算法的均方误差结果,结果表明,该算法在填充效果上明显优于其它算法

    锦绣·下旬刊 2021年11期2021-10-12

  • 基于邻域区间扰动融合的无监督特征选择算法框架
    这种境况下,特征选择技术显得尤为重要。特征选择技术的主要目的是在一个特定的评估标准下,从原始的高维特征中选择出最重要的特征子集,然后利用选择出的特征子集结合一些有效的算法去完成数据聚类、分类等任务。根据数据样本是否含有标签信息,特征选择算法可分为有监督特征选择[1,2]、半监督特征选择[3-5]和无监督特征选择[6-8]3类。有监督和半监督特征选择通常会用到样本的标签信息,通过特征和标签信息之间的相关性来评定特征的重要性。现实中采集到的数据很少有标签信息,

    南京理工大学学报 2021年4期2021-09-15

  • 基于K-means算法的企业信用无监督分类研究
    算法;分类;特征选择Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and

    电脑知识与技术 2021年22期2021-09-14

  • 基于LSTM模型的国民经济GDP增长预测建模研究
    ;LSTM;特征选择;随机森林中图分类号:F12        文献标志码:A      文章编号:1673-291X(2021)19-0005-05引言近几年,全球经济和贸易增长逐渐放缓。国际环境复杂多变,贸易壁垒不断增加,世界经济面临增长乏力的局面。中国经济正在由高速增长阶段转向高质量发展。受全球经济放缓和中美贸易摩擦不确定的影响,经济运行总体平稳,GDP增速放缓。GDP增速反映经济发展趋势,与人民的生活水平息息相关。中国国家统计局数据显示,中国经济经

    经济研究导刊 2021年19期2021-09-12

  • 一种新的最大相关最小冗余特征选择算法
    30006)特征选择是数据挖掘、机器学习和模式识别中的一项重要技术,是当前信息领域的研究热点之一[1-3]。它在数据分析和预处理过程中起着非常重要的作用。特征选择在不改变特征原始表达的基础上,仅从特征集中筛选最能代表数据特点的最优特征子集。因此,不仅可以去除不相关和冗余信息,降低训练样本的维度和分类样本的复杂度,而且能很好地保持原始特征包含的信息,对于人们理解和判断观测来说更加容易。特征选择根据其是否与后续学习算法独立可以分为过滤式和封装式两种。过滤式特征

    智能系统学报 2021年4期2021-09-11

  • 基于邻域粗糙集的莆田地区肺癌特征选择
    临床数据进行特征选择是必要的。本文提出一种基于变精度邻域粗糙集的特征选择算法,并对从医院采集的病例进行特征选择,然后用多种机器学习的方法验证特征选择的有效性。1     邻域粗糙集和变精度邻域粗糙集粗糙集理论(Rough Sets,RS)是Z.Pawlak[1]在上世纪90年代初提出的理论,通过上、下近似集,将知识分为模糊的知识和精确的知识,这使得RS理论具备从不确定、不一致、不完备的知识中,找出潜藏知识的能力。随后,为了解决经典粗糙集抗干扰能力差的问题,

    廊坊师范学院学报(自然科学版) 2021年2期2021-09-10

  • 粗糙集属性约简在客户流失预测中的应用
    效地实现客户特征选择,从而降低客户流失预测的运算难度,提高预测性能。【Abstract】Customer churn prediction, as the main problem of customer relationship management, has always been the focus of researchers. Based on internal and external data information, enterprises

    中小企业管理与科技·中旬刊 2021年7期2021-08-06

  • 基于图像识别的水果分拣系统
    :图像识别;特征选择;实时统计;水果分拣中图分类号: S126;TP391.41  文献标志码: A  文章编号:1002-1302(2021)10-0170-06传统水果分拣主要采用人工分拣,而人工分拣效率低、易造成水果损坏、准确率低、人力物力消耗较大,极大增加了分拣成本。为了降低水果分拣成本,亟需探索出一种分拣效率高、准确率高、人力物力消耗小的自动化系统。关于农产品的品质鉴定和分级研究,主要涉及农产品的大小、形状、颜色、表面损伤与缺陷检测等[1-5]。

    江苏农业科学 2021年10期2021-07-01

  • 精准扶贫视角下高校家庭经济困难学生认定预测机制探究
    于差分进化的特征选择为数据进行预处理,去除冗余特征,降低数据维度,以2个标准数据集与1个采集数据集对特征选择结果在2个分类器上进行有效性验证。以近2000名学生的信息为数据样本,通过K近邻分类预测算法预测学生家庭经济困难程度,验证了算法的可行性以及准确性。为大数据在高校教育中的应用提供了新的模式和方法。关键词:精准资助;大数据;差分进化;特征选择;K近邻预测中图分类号:G640        文献标志码:A         文章编号:2096-000X(2

    高教学刊 2021年3期2021-06-20

  • 网络入侵检测场景下的特征选择方法对比研究
    ,采用适当的特征选择算法来缩减流量特征规模对于提高网络入侵检测系统性能来说具有重要意义[6-7].特征选择作为一项数据预处理手段早已发展多年,它对提高机器学习模型的性能起到了重要作用. 然而,面对众多的特征选择算法,如mRMR[8]、马尔科夫毯[9]、卡方检验、互信息、梯度下降树[10]、随机森林[11]、CART决策树[12]、最小二乘法[13]等,如何选择适合于应用场景下的算法以及所选特征选择算法是否能够有效缩减特征规模以去除冗余特征,且不会影响入侵检

    河南科学 2021年3期2021-05-06

  • 基于卷积神经网络与特征选择的医疗图像误差预测算法
    积神经网络与特征选择的医疗图像误差预测算法. 首先,选取5种集成规则构建自适应多分类器,对医疗图像区域进行分类;其次,训练卷积神经网络,利用训练完成的神经网络提取不同类别医疗图像区域特征,以此为基础计算区域距离,寻找出相似度最小的区域,完成图像可疑区域定位;再次,融合多评价标准生成特征子集,从中搜索得到最优特征子集,完成可疑区域图像特征选择;最后,以选择得到的特征区域像素点作为训练样本,建立预测样本与训练样本之间的多元线性回归矩阵,实现误差预测. 实验结果

    湖南大学学报·自然科学版 2021年4期2021-05-06

  • 基于LightGBM算法的中小上市公司财务困境预测研究
    五种方法构建特征选择集成评分模型并筛选出关键特征,利用SMOTE算法处理非平衡数据,在此数据预处理基础上基于LightGBM算法建立财务困境预测模型并将实验结果与以逻辑回归、支持向量机、决策树、XGBoost等算法为基础建立的预测模型对比。结果显示,在测试集上LightGBM集成学习模型对中小企业财务困境预测准确率高达0.950 877、AUC值为0.975 8远远高于基于其他算法的预测模型。这对金融企业精准评价中小企业的财务风险以及政府实施中小企业政策扶

    荆楚理工学院学报 2021年3期2021-03-29

  • 藏文文本分类技术研究综述
    表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号: TP391        文献标识码:A文章编号:1009-3044(2021)04-0190-03Abstract :This article introduces the rese

    电脑知识与技术 2021年4期2021-03-22

  • 基于改进人工蜂群算法的大数据特征选择方法
    摘 要:数据特征选择就是从初始的数据特征中选择指定数据进行子集筛选。目前,通常使用人工蜂群算法进行特征选择,但由于收敛慢、寻优差,无法满足人们的需求。因此,本文提出一种改进人工蜂群算法,通过特征选择绘制大数据特征选择框架图,建立多项搜索渠道;利用改进的人工蜂群算法提取并行特征,使用MapReduce模型降低编程难度,获取并行特征最优解;设计特征选择复杂粗糙集模型,并构建特征学习模型来实现大数据特征选择。试验结果表明,设计的特征选择方法性能优于传统方法。关键

    河南科技 2021年19期2021-03-10

  • 一种面向对象的人工草地遥感监测方法
    2)最优分类特征选择对于面向对象遥感信息提取至关重要,验证了J-M距离对特征选择的有效性,该方法可以适用于不同影像,但所选的特征依赖于具体影像和待提取要素的特性;(3)试验区人工草地呈现团块状的集聚分布,主要分布在城镇周边,多沿道路分布。2013-2017年,人工草地草种植范围呈扩张趋势,增加的区域大部分来自耕地。关键词:人工草地;遥感监测;面向对象分类;多尺度分割;特征选择中图分类号:TP75文献标识码:A文章编号:1000-4440(2021)06-1

    江苏农业学报 2021年6期2021-01-29

  • 双重代价敏感随机森林算法
    在随机森林的特征选择阶段和集成投票阶段引入代价敏感学习。在特征选择阶段提出了生成代价向量时间复杂度更低的方法,并将代价向量引入到了分裂属性的计算中,使其在不破坏随机森林随机性的同时更有倾向性地选择强特征;在集成阶段引入误分类代价,从而选出对少数类数据更敏感的决策树集合。在UCI数据集上的实验结果表明,提出的算法较对比方法具有更高的整体识别率,平均提高2.46%,对少数类识别率整体提升均在5%以上。关键词:随机森林;不平衡数据;特征选择;代价敏感DOI:10

    哈尔滨理工大学学报 2021年5期2021-01-16

  • 多标记特征选择算法的综述
    一类为多标记特征选择方法。特征抽取是指对原始特征空间进行特定组合(线性组合)将其映射到一个低维空间,该类方法通常可以有效降维并取得不错的分类效果,但是不能保留原始特征的物理意义,对应分类过程不具有解释性。而现实领域中的很多问题,往往需要更好的解释性,例如医疗领域,好的解释性有助于医生更好地运用模型;金融领域,好的解释性有助于金融公司了解为用户推荐基金的原因。相较于特征抽取,特征选择方法不仅可以有效去除特征空间中冗余、无关特征,而且可以保留原始特征的物理意义

    郑州大学学报(理学版) 2020年4期2020-11-18

  • 面向高新企业审计数据的特征选择算法研究
    ,采用二阶段特征选择算法进行特征筛选与建模分析。随着近年来模式识别和数据挖掘等领域中数据规模和特征维数的快速增加,特征选择已成为去除数据中非相关和冗余特征的重要手段。在特征选择中,最好的特征子集是维数最少且满足对分类准确性贡献最大的子集[1]。本文从二阶段特征选择算法展开,基于过滤式(Filter)和包裹式(Wrapper)的特征选择算法进行设计建模,论证所提出的特征选择方法的有效性。1 基于最大互信息系数的第一阶段特征选择算法在原特征子集中存在大量的噪声

    科技创新发展战略研究 2020年6期2020-09-08

  • 基于进化计算的特征选择方法研究概述
    的广泛关注。特征选择(feature selection, FS)是从一组初始特征中挑选出一些具有代表性的特征以降低特征空间维数的过程,是数据挖掘和机器学习的关键问题之一。对于数据挖掘和机器学习,一个好的学习样本是训练分类器的关键,样本中是否包含有不相关或冗余特征直接影响着分类器的性能。特征选择的目的是寻找解决问题所必须的、足够的最小特征子集。通过从原始特征集中剔除不相关和冗余特征以减少数据的维数,加速学习过程,简化学习模型和提高学习算法的性能[1]。有效

    郑州大学学报(工学版) 2020年1期2020-02-25

  • 特征选择算法研究综述
    2)一、引言特征选择在文本分类、文本检索、基因分析和药物诊断等场合有广泛应用,是模式识别领域的研究热点之一。例如,自动文本分类是指按照给定的分类体系,依据文本的内容自动进行文本所属类别判别的过程,是一种有监督的学习过程。自动文本分类在信息过滤、信息检索、搜索引擎和数字图书馆等领域有广泛应用。分类系统主要包括数据预处理、文档分词、特征表示、特征选择、文本表示、分类器选择和训练以及分类结果评价等过程。1975年,文献[1]提出向量空间模型(Vector Spa

    安徽开放大学学报 2019年4期2019-12-06

  • 基于词向量的文本特征选择方法研究
    .因此,进行特征选择,对提升分类的准确率和速度具有重要意义.传统的文本特征选择大多基于统计的方法,通过计算特征词在语料中的词频或特征词与类别的关系,来评价每个词对分类的贡献度.常用的特征选择方法有以下几种:DF[3](Document Frequency,文档频率)特征选择,利用训练集中特征词出现的文档数进行特征选择.通过设置阈值,过滤文档频率较低的特征词.该方法会忽略掉一些文档频率过低但对分类影响较大的特征词.CHI[4](Chi-square test

    小型微型计算机系统 2018年5期2018-07-04

  • 基于特征变权的动态模糊特征选择算法
    du.cn)特征选择是数据挖掘和机器学习中的一个重要课题,它不仅有助于理解数据、节约计算成本、减少特征之间的相互影响,而且可以提高预测的准确率[1-2].特征选择也称特征子集选择,是指从原始特征中选择出一些最有效特征以降低数据集维度的过程[3].目前,特征选择已经应用于多个领域,例如工业传感器数据分析[4]、空气质量分析[5]、健康数据分析[6]等等.在一些现实的系统中,人们往往利用一些模糊语义将原始特征集转化为模糊特征集,提高系统的可解释性.然而,模糊化

    计算机研究与发展 2018年5期2018-05-28

  • 网络视频流量分类的特征选择方法研究
    频流量分类的特征选择方法研究吴争,董育宁南京邮电大学通信与信息工程学院,南京2100031 引言近年来,随着互联网和流媒体技术的迅速发展,网络视频业务的增长非常迅速。在2016年互联网流量中,视频流量的比例已达到73%,根据思科[1]的预测,到2021年将达到82%,并且每秒钟将有1 000 000 min的视频内容通过网络。通过网络视频业务流的分类,可以为互联网提供商(ISP)更好地依据不同视频业务的服务质量(QoS)要求提供不同等级的服务。由于动态端口

    计算机工程与应用 2018年6期2018-03-19

  • 基于结构化多视图稀疏限定的监督特征选择算法研究
    疏限定的监督特征选择算法研究史彩娟,段昌钰,谷志斌(华北理工大学,河北 唐山 063210)为了有效利用多视图数据信息提升监督特征选择的性能,构建了一种结构化多视图稀疏限定,并基于该稀疏限定提出了一种监督特征选择方法,即结构化多视图监督特征选择方法(SMSFS)。该方法在特征选择过程中能够同时考虑不同视图特征的重要性以及同一视图中不同特征的重要性,从而有效的结合多视图数据信息,提升监督特征选择的性能。SMSFS目标函数是非凸的,设计了一个有效的迭代算法对目

    图学学报 2018年6期2018-02-23

  • 基于特征聚类集成技术的在线特征选择
    成技术的在线特征选择杜政霖1*,李 云1,2(1.南京邮电大学 计算机学院,南京 210003; 2.桂林电子科技大学 广西高校云计算与复杂系统重点实验室,广西 桂林 541004) (*通信作者电子邮箱simondzl@163.com)针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集

    计算机应用 2017年3期2017-05-24

  • 两种基于K近邻特征选择算法的对比分析
    种基于K近邻特征选择算法的对比分析薛又岷,严玉萍,古嘉玲,包晓蓉(江苏科技大学 计算机科学与工程学院,江苏 镇江212003)在特征选择过程中,针对近邻错误分类率较低的问题,分别采用正向贪心和逆向贪心思想设计了两种启发式特征选择算法,其目的是在降低数据集中特征数量的同时,能够进一步降低近邻错误分类率。通过8组UCI数据集上的交叉验证结果表明,相比于正向贪心算法,逆向贪心算法能够删除较多的冗余特征,从而得出逆向贪心算法能够更有效地提高近邻算法的分类精度的结论

    电子设计工程 2016年1期2016-09-08

  • 不平衡情感分类中的特征选择方法研究
    特征的问题,特征选择方法在文本分类研究中占有非常重要的地位[5]。然而,对于情感分类,特别是不平衡情感分类,特征选择方法的研究还非常缺乏。如果在不平衡分类任务中进行特征选择还是一个迫切需要解决的问题相关研究表明,在不平衡情感分类中,欠采样(Under-sampling)方法是一种表现较好的方法[6]。为了能够降低不平衡分类中高维度特征空间问题,本文以欠采样方法为基础,结合四种经典的特征选择方法,提出三种特征选择模式。本文结构安排如下: 第2节介绍了不平衡情

    中文信息学报 2013年4期2013-04-23

  • 稳定的特征选择研究*
    有用的知识,特征选择已成为高维数据分类或者回归中的关键问题[1],目前已被广泛应用于文本分类、图像检索、基因分析和入侵检测等。所谓特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数或者发现自然模型真实变量的过程,其通常包括两个关键问题:搜索策略和评价准则。参考文献[2-4]对已有特征选择方法以及特征选择统一框架进行了全面的综述。特征选择算法根据训练的数据集中样本有无标记通常分为监督、非监督和半监督特征选择算法。在评价过程中,监督的特征选择

    网络安全与数据管理 2012年15期2012-02-28

  • 基于模拟退火的多标记数据特征选择
    性,其降维和特征选择方法的研究仍然很少。目前多标记学习技术大体可以分为两类[1-2]:转化问题方法,改写算法方法。转化问题方法独立于算法,把多标记学习任务转化为一个或多个但标记分类任务,如单标记学习打分、组合类标、继承学习方法等;改写算法方法通过扩展特定的学习算法(如Boosting,支持向量机,决策树等)来直接处理多标记数据。对于特征维数高影响学习器效果方面,近年发表的一个特征抽取方法是多标记最大依赖维数约简(MDDM)算法[9-10],这个方法采用希尔

    计算机工程与设计 2011年7期2011-09-07