摘要摘要:在大数据环境下对网络上的不良内容进行识别是实现网络侦查和信息监管的重要手段。当前主要采用人工识别方法,效率低下,可靠性差。提出一种基于奇异特征提取和聚类的大数据环境下不良网络内容识别技术,构建大数据环境下网络不良内容的存储和数据传输模型,对不良内容进行信号模型构建,采用奇异特征提取方法对内容进行特征提取,以此为数据基础进行数据聚类分析,以实现对不良内容的准确识别。仿真实验表明,采用该算法对不良网络内容进行识别准确率较高,可有效实现网络信息的监管和跟踪。
关键词关键词:大数据;网络内容识别;聚类;特征提取
DOIDOI:10.11907/rjdk.1511045
中图分类号:TP301
文献标识码:A文章编号文章编号:16727800(2015)011001903
基金项目基金项目:2014年河南省教育厅科学技术研究重点项目 (14A520011);2015年河南省高等学校重点科研项目(15B520027);2013年河南省教育厅科学技术研究重点项目(13B820209)
作者简介作者简介:孟彩霞(1982-),女,河南濮阳人,硕士,铁道警察学院公安技术系讲师,研究方向为网络犯罪侦查。
0引言
在大数据技术高速发展的今天,网络在各领域应用广泛,网络信息的安全管理和识别成为当前网络监管的一个重要课题。对大数据环境下信息系统的安全性作出评估,涉及到网络监管、移动Agent代理和云计算身份认证机制等。在大数据环境下,网络内容具有开放性和不可预测性,网络数据在多通道平台中进行网络切换和数据通信,会产生一些不良信息和内容,需要对其进行有效预测和识别,对网络的污秽和谣言信息进行检测,并实现对网络威胁的预测[13]。
在大数据环境下对网络上的不良内容进行识别是实现网络侦察和信息监管的重要内容。文献[4]采用基于决策树特征分类方法进行网络不良内容的检测识别,当检测识别中出现干扰项数据集时,在网络不良内容序列的广域子空间中产生大量干扰噪声,识别效果较差;文献[5]采用模糊C均值检测识别算法,但是该算法需进一步考虑时间尺度的影响,提高置信概率,而且计算量大,识别效果差。为了克服传统方法的弊端,本文提出一种基于奇异特征提取和聚类的大数据环境下不良网络内容识别技术[6]。仿真实验表明,本文算法对于不良网络内容识别准确率较高,具有较高的应用价值。
1大数据环境下网络不良内容数据存储和传输模型
1.1模型构建与问题描述
本文采用决策树模型构建大数据环境下网络不良内容数据存储和传输模型,包括3种节点模式,并由节点和边组成层次结构模型。3种节点模式分别为:根节点、内部节点和叶节点。大数据环境下网络不良内容数据存储和传输模型如图1所示。
3仿真测试
为了测试本文算法在大数据环境下不良网络信息内容识别中的性能,进行仿真实验。实验的硬件环境描述为:Intel(R)Core(TM) i5-2450M,CPU @ 2.5GHz,内存4GB。仿真实验中,研究的网络信息内容数据采集于某大型网络交友网站内部网络中心的监测数据,采集样本每天为一段,作为一组实验样本集。采集方法是等时间间隔监测网络流量的数据包个数和数据量信息,采样时间间隔为10s。基于上述参数设定,可见网络不良内容的信号模型表示为一组频带为2~10KHz、时宽为4 ms的LFM信号。通过上述仿真环境构建,进行仿真实验,得到网络不良内容识别仿真过程如图4所示。
由图4可见,采用本文算法能有效实现对网络不良内容的识别,识别准确率为98.65%。为了对比算法性能,采用传统方法进行对比,得到传统算法下网络不良内容的识别准确率为76.90%,仿真结果展示了本文算法的优越性。
4结语
针对当前主要采用人工识别方法,导致效率低下、可靠性差的问题,提出一种基于奇异特征提取和聚类的大数据环境下不良网络内容识别技术。采用奇异特征提取方法对大数据环境下网络不良内容进行特征提取与数据聚类分析,准确识别不良内容。仿真实验结果证明,本文算法在提高不良网络内容识别率上具有优越性能,应用价值高。
参考文献参考文献:
[1]王进,阳小龙,隆克平.基于大偏差统计模型的HttpFlood DDoS检测机制及性能分析[J].软件学报,2012,23(5):12721280.
[2]郑海雁,王远方,等. 标签集约束近似频繁模式的并行检测识别[J]. 计算机工程与应用, 2015, 51(9): 135141.
[3]张永铮,肖军,云晓春,等.DDoS攻击检测和控制方法[J].软件学报,2012,23(8):20582072.
[4]吴春琼.基于特征选择的网络入侵检测模型[J].计算机仿真,2012,29(6):136139.
[5]张国良,姚二亮,汤文俊,等.一种自适应的Graph SLAM鲁棒闭环算法[J].信息与控制,2015,44(3):316320, 327.
[6]TIPALDI G D, BRAUN M, ARRAS K O. FLIRT: interest regions for 2D range data with applications to robot navigation[C].Experimental Robotics, Berlin, Germany: Springer, 2014: 695710.
责任编辑(责任编辑:黄健)