赵磊 金蕾 黄俊涛 张乾坤 宋云奎
摘要:本文讲述机器学习通过计算信息增益值降低特征维数,选择云用户隐性反馈信息特征,利用筛选后的特征构建特征子集,进而通过反馈信息文本来处理,统计每个特征项的文本频率,识别筛选反馈信息,实现对云用户隐性反馈信息的分类。
关键词:机器学习;隐性反馈;信息分类
中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2020)06-0000-00
0 引言
随着互联网大数据的发展,数据信息的传播速度和传播范围远超出人工可以观察和总结的范畴,互联网上的云用户隐性反馈信息数据变得越来越多。想要快速在大量的互联网数据中找到想要的云用户隐性反馈信息,需要先对云用户隐性反馈信息进行分类[1]。传统的用信息分类方法分类准确度有限,且应用范围较窄,己经无法应对当前的数据量,因此,基于机器学习的云用户隐性反馈信息分类方法成为研究的热点。
1 基于机器学习的云用户隐性反馈信息分类方法设计
1.1 选择云用户隐性反馈信息特征
为达到提升分类效率、增强分类准确度的目的,需要进行云用户隐性反馈信息特征选择。反馈信息特征的选取需要通过计算特征的信息增益值来实现[2]。第一步,计算特征增益数据;第二步,以上述增益数据为依据,对特征项进行排列;第三步,根据预设的特征项数据,剔除与之不相符的特征项[3]。若存在特征和类别,需计算特征对类别的信息增益值,需要分别计算类别中出现特征的概率和类别中不出现特征的概率,计算公式如(1)所示:
其中,表示类别为的信息在训练信息集中出现的概率,表示包含特征的文本信息集中出现的概率,表示包含特征的文本信息且属于类别的条件概率,与对应,可知=1-,表示不包含特征的文本信息且属于类别的概率,m表示类别数。
由公式(1)可得各特征的信息增益值,以增益值作为排序依据,选取出最具代表性的反馈信息特征,以此形成原始特征集合的子集。
1.2 进行反馈信息文本处理
利用特征选择后构成的特征子集,进行反馈信息文本处理。文本处理过程主要分为文本标记、分词处理和去除停用词处理。文本标记通过标记反馈信息中一些控制文本显示形式的标记,比如图片、链接、动态图等,解决无法识别反馈信息的内容的问题。以分割单词的形式将文本中的分词加以处理,根据相邻字出现次数,分析其是词语的可能性并。根据分类,对字符串中字的组合频率进行统计,当这个组合频率高于一定的阈值时,则认为字的组合是可以组成一个词语的,将该字视为无词组。并且删除停用词处理,设计停用词表,即不需要的用户反馈信息,将分词后的词汇和停用词表内词汇做对比,若能匹配成功,则需要删除。若未匹配成功,则表示该词汇为有用特征,保存。反馈信息文本处理提高了文本分类效率,降低了处理复杂度。
1.3 识别筛选云用户隐性反馈信息
在对云用户隐性反馈信息文本进行处理后,开始识别筛选所需的反馈信息,以便于进行归纳分类。先统计每个特征项的文本频率,也就是计算文本集中包含某个特征词条的文本数。应预先设置大、小极值文本频率阈值,统计所有特征项的文本频率,并将统计值与预设阈值作对比,若属于预设阈值范围,则予以保留,若不属于预设阈值范围,则删掉该项。文本频率越小,說明该特征项蕴含的反馈信息越少,越应予以剔除;反之,文本频率越大,该特征项蕴含的反馈信息越多,越应予以保留,基于此实现云用户隐性反馈信息的识别筛选。
2 对比实验
2.1 实验设计
为保证云用户隐性反馈信息分类方法的可行性,需要进行对比实验。本次实验在PyCharm4.5.4编译器上进行,通过SVM算法进行仿真实验。在本实验中,设置基于机器学习的云用户隐性反馈信息分类方法为实验组,传统的云用户隐性反馈信息分类方法为对照组,实验次数设置为实验目标为测试不同反馈信息分类方法的分类准确率。
2.2 实验结果分析论证
根据上述提出的实验环境及实验步骤,将云用户隐性反馈信息分类方法的分类准确率作为此次实验的关键对比指标,将实验结果描绘成折线图,如图1所示。
通过图1分析可知,基于机器学习的云用户隐性反馈信息分类方法的分类准确率明显高于传统分类方法,证明了该方法的可行性和有效性。
3 结语
基于机器学习的云用户隐性反馈信息分类方法有效解决了传统信息分类方法准确度低、应用范围较小的问题。但是云用户隐性反馈信息分类是一个不断完善的方法过程,机器学习理论本身也是一个漫长的发展进程。此次进行该信息分类方法相关研究的整理和评述,对学术研究以及实际应用都具有较大的指导意义。
参考文献
[1] 崔鸿雁,徐帅,张利锋,等.机器学习中的特征选择方法研究及展望[J].北京邮电大学学报,2018,41(1):1-12.
[2] 只莹莹.机器学习在图书馆知识发现系统中的应用初探——以基于知识图谱的发现工具Yewno为例[J].农业图书情报学刊,2018,30(7):47-50.
[3] 艾达,卢雪磊,高阳,等.基于机器学习的HEVC快速帧内预测算法研究进展[J].现代电子技术,2018,41(18):178-181+186.
收稿日期:2020-05-11
作者简介:赵磊(1979—),男,河南焦作人,本科,网络工程师,研究方向:云计算、云灾备、网络分布式系统。