关于集成学习的中文文本欺骗检测探讨

2021-12-24 12:46王治军罗江洲
消费电子 2021年10期
关键词:分类器文本实验

王治军 罗江洲

在当前社会发展过程中,信息交流、文本信息交换是社会发展的主要环节。然而在数据化时代,数据文本信息的交流和交换仍然存在诸多问题,有很大一部分数据信息存在虚假和欺骗行为,影响到数据信息的安全性。因此,在现代网络信息甄别过程中,应该落实好欺骗检测方法的研究,做好对中文文本信息的欺骗检测。

欺骗属于社会科学范畴,其具体是指在当前社会信息交流过程中,存在有虚假信息,处于目的性发送错误信息,导致信息接收者得到错误信息的结论。欺骗行为是一种影响到事物讨论结果的行为,大多数欺骗行为具有危害性,危害到社会公众或者个人利益。从现代检测过程中,中文文本欺骗检测的有效方法还比较少,这会影响到信息欺骗检测效果。

集成学习在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现得比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成学习在各个规模的数据集上都有很好的策略。

(一)欺骗检测模型

基于集成学习的中文文本欺骗检测过程中,文本信息检测非常关键。本文研究了一种基于集成学习的中文文本欺骗检测方法。其方法本身也是建立于欺骗检测模型基础之上,在其技术的应用过程中,主要针对欺骗检测模型进行分析,确保中文文本欺骗检测更加有效,也能够最大程度上提升欺骗检测的技术效果。在本次欺骗检测过程中,针对集成学习方法的中文文本欺骗检测建立非常关键,一定程度上关系到欺骗检测技术的效果。在进行欺骗检测过程中,其主要包括欺骗线索选择、样本集划分与个体分类器训练、个体分类器集成等多个检测模块。通过不同的检测模型应用,实现对欺骗的检测。而在其文本建立的过程中,为了实现对文本信息的优化采集和优化分析,应用二分K-means的划分方法,同时也应用了SVM分类器进行结果输入输出的有效控制,实现对其信息的有效分类采集,最大程度上提升信息分类的技术效果,确保其技术的应用更加合理,最大程度上解决信息分类技术效果。

(二)二分类任务分解与集成策略

在基于集成学习的中文文本欺骗检测过程中,还应该做好对二分类任务的分解和集成策略研究,通过分类任务分解以及集成策略研究,实现对中文文本欺骗信息的有效检测,确保信息检测更加合理,也能够最大程度上提升信息检测效果。

1、二类问题的任务分解分析。在本次中文文本欺骗检测过程中,针对文本信息进行有效的检测,提升检测效果。在对二类文本信息进行检测过程中,发现二类信息分析非常关键,一定程度上关系到信息检测效果。同时,在检测研究中,其需要针对相对平衡的二类子问题进行信息分析,实现对文本信息的检测控制分析,确保技术的应用更加合理。在二类任务分解过程中,首先需要完成对分解子任务进行实际的分析,主要针对正类和负类的文本数据进行分析,实现对训练样本总数的分析,设计其文本数目为N=N++N-。建立数据集,也方便后续的数据分类管理。在进行二类任务分解过程中,也应该做好训练阶段的数据管控。主要的任务是实现确定分解常数,并按照完成的文本数目对数据集进行原训练分解,完成N++N-的数据集分解,得到其互不相交的子集,才能够完成对信息的优化管理,也可以实现对信息的综合优化管控,确保信息分析更加有效。

2、在本次项目研究过程中,还包括对文本信息的分类集成,将数据进行集成,也有助于对欺骗信息的分类分析,将欺骗和非欺骗信息进行良好的分类,能够实现对其数据信息的分类管控,也可以在进行信息分析过程中,完成对项目的综合优化管控,确保信息查询更加有效。本次项目进行集成学习过程中,还可以完成对个体分类器的有效集成分析,通过个体分类器的集成分析,完成对数据的集成分析应用。在集成策略应用过程中,主要完成min规则和max规则的集成应用。以下表1为min规则和max规则的分析。在进行欺骗信息分析过程中,完成数据集成分类研究非常重要,能够做好对其数据的集中处理,实现对欺骗信息的分析研究,落实好相关信息管控。

(一)实验方法

在本次进行集成学习的中文文本欺骗检测过程中,还针对文本信息进行学习检测,实现对该方法的实验,通过建立相关实验,来完成对该欺骗检测方法的有效分析,落实好的有效的检测效果,确保检测更加合理。本次实验展开过程中,主要选择随机划分、K-means划分以及改进的二分K-means划分方法作为样本,对改进之后的二分K-means划分方法进行实验分析,在进行实验检测分析过程中,都是完成了个体分类器的检测,最后完成对各种检测方法的实际应用分析,确保其检测分析展开更加合理,也能够最大程度上提升检测分析的有效性。而在本次进行实验检测过程中,还应该建立良好的检测实验指标,通过检测指标的有效分析,确保其实验结果得到有效的检验。在传统的实验检测指标分析过程中,主要是通过新评价指标进行分析,而且也能够同时描述非平衡指标分析,做好对其指标的分析,实现对其文本数据的分析研究,做好对中文文本欺骗检测的实验分析。其检测评价过程中,主要包括样本标注结果检测、不同平衡数据集上不同分类器的实验结果分析等相关内容。通过对检测结果进行检测分析,也能够完成对其检测效果的综合应用控制,确保其检测更加合理,也能够最大程度上落实好相关检测效果。通过多种检测结果的技术对比分析发现,完成对实验方法的优化分析,也更能够做好对文本欺骗的检测应用效果,进行中文文本检测过程,更可以落实好实验检测效果。

(二)实验结果与讨论

本次实验展开过程中,应该做好对其实验数据的主要分析,通过实验数据分析,完成对整个项目的检测结果分析,确保其检测更加合理,也能够在最大程度上落实检测应用效果。本次结果分析过程中,主要针对平衡数据集上不同分类器的实验结果进行数据分析。实验过程中,使用到随机抽取的实验方法,抽取700篇的随机文章,同时也有1000篇的欺骗性文章进行混合测试分析。以下是对平衡数据集上不同分类器的实验结果分析、无样本划分的非平衡数据集的实验结果分析、随机划分方法的实验结果以及K-means划分方法的实验结果分析。通过具体的实验结果对比分析,分析出哪种划分方法更适合应用于文本信息欺骗检测,通过文本信息的有效检测分析,落实好对文本信息的综合交流,确保其信息交流更有效果。在实施的实验结果分析过程中,主要针对随机划分方法的实验结果、随机划分方法的实验结果以及K-means划分方法的实验结果的RS值进行对比分析。RS值代表了测试结果的精准程度,也就是利用该种划分方法之后,中文文本欺骗性检测更加精准。以下表2为本次实验分析过程中,各种划分方法的实验分析内容,通过实验分析展开,确保其分析应用更加合理。落实好分析控制策略,也能够提升实验的检测效果。通过本次实验数据对比发现,三种检测方法的精度比分别为:无样本划分的非平衡数据集RS>随机划分方法RS>K-means划分方法RS值,而不同的划分值,其检测结果不同,但是明显是K-means划分方法的RS值更低,其检测精度也就最高。所以,在基于集成学习理论下,采用K-means划分方法对中文文本欺骗性信息检测具有更高的检测精度,适合应用于现代文本信息检测,这对于文本信息检测精度提升有重要的作用。

表2 三種划分方法的检测精度对比

本文主要针对基于集成学习的中文文本欺骗检测技术进行研究,文章中利用集成学习建立相关模型,并利用二分K-means划分方法完成对数据样本的分解,最终完成对中文文本欺骗检测分析,实现了检测应用效果。

猜你喜欢
分类器文本实验
在808DA上文本显示的改善
做个怪怪长实验
基于doc2vec和TF-IDF的相似文本识别
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
NO与NO2相互转化实验的改进
实践十号上的19项实验
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别