摘 要:本文首先分析了虚假数据注入攻击的现状,接下来详细阐述了虚假趋势时间序列分析,希望通过本文的分析研究,给行业内人士以借鉴和启发。
关键词:虚假数据;时间序列;趋势性;随机性分析;基函数
引言
虚假数据是为了达到一种预期目标而人工伪造的带有一定虚假价值的数据,它的存在严重影响了数据分析结果,并给数据处理、信息安全、资源利用、控制决策等工作带来了巨大威胁。随着大数据时代的到来,信息资源的利用频率急剧增长,虚假数据分析作为改善数据质量、提高管控能力、增强安全性、提升数据价值的关键环节愈来愈被人们所重视,众多学者更是从网络服务、控制系统、多媒体信息等视角开展了虚假数据识别的研究。
一、虚假数据注入攻击的现状
虚假数据注入攻击(FalseDataInjection,简称FDI)是通过劫持网络节点或物理设备,向系统注入错误的或无用但存在安全隐患的数据信息,破坏数据的完整性,导致系统失去系统稳定性甚至崩溃的一种恶意网络攻击。与其他网络攻击相比,FDI更加的巧妙、复杂以及具有很高的隐蔽性,可以成功骗过普通的攻击探测机制,进而达到破坏系统的关键数据信息的目的。目前针对虚假数据注入攻击下信息物理系统的安全控制问题的研究还存在很多的不足之处,所设计的攻击检测方法的检测效率很低甚至无法判断是否存在FDI攻击入侵行为;而至于系统防御的安全控制策略都是以改变或者损害控制系统本身性能来抵御FDI攻击,而且计算繁琐,浪费了有限的系统资源。
二、虚假趋势时间序列分析
时间序列是按照时间顺序记录的社会经济、自然现象的数量指标,其数值随时间发展变化,起伏不定,具备某种趋势。通常时间序列可表示为xt*,t=0,1,...,n,并由长期趋势量d*、季节变动量s*、周期变动量c*、随机变动量r*四个部分构成,亦即xt* =f(dt*,st*,ct*,rt*),t=0,1,...,n当被测对象依时间变化呈现某种上升或下降态势,且没有明显的季节波动、周期变动时,时间序列简化为一种趋势时间序列,此时可构造一个合适的函数曲线反映这种变化趋势。虚假趋势时间序列则是指为了到达商业欺诈、掩盖事实等目的,由不诚信者在已知历史数据资料基础上伪造的趋势时间序列,以实现恶意的利益诉求。虚假趋势时间序列类似趋势时间序列,也包含长期趋势量和随机变动量两部分,但这两部分中至少一部分是虚假的。对虚假趋势时间序列进行分析,就是探索该虚假序列的长期趋势量和随机变动量的构建动机和方法,以便于通过相应检测手段予以甄别。虚假趋势时间序列并不是观测得到的真实数据,而通常由伪造者按照某一企图而构建。为了便于区分不同伪造能力,此处将伪造者分为简单伪造者和复杂伪造者两类。其中,简单伪造者大多对照历史数据凭借个人经验以及预期目标估计出一系列虚假数值tx。受限于人工的编制效率和构造能力,一般来说序列tx仅部分含有虚假随机成分tr,因此主要体现为对虚假趋势时间序列中随机变动量的一种简单伪造。而复杂伪造者则运用程序算法按照预期目标构造一个虚假趋势td,然后再按照随机生成规则构造虚假随机tr,并将其叠加到td上,因此体现为对虚假趋势时间序列中长期趋势量和随机变动量两部分的复杂伪造。如图1所示,依照来自美国加州米克斯湾(MeeksBay;经纬度-120.11,39.05;编号:10336645)水质数据库的水温真实序列图1(a),手工给出伪造目标趋势的关键点位并进行样条插值获得一个虚假趋势图1(b),然后将均匀分布的随机数据叠加到该虚假趋势上,最后为了增强虚假数据的逼真性,对图1(c)手工调整获得最终伪造序列如图1(d)。无论是简单伪造者还是复杂伪造者,。然而由于真值通常未知或被隐藏,故而只能通过构成虚假趋势时间序列tx的虚假趋势td和虚假随机tr两部分加以分析。(1)虚假趋势:虚假趋势td是虚假趋势时间序列中的长期趋势量部分。它是由伪造者参考历史数据、背景信息、经验估算、推演分析等,按照预期目标建立且类似于真实的序列。通常在未知情况下难以辨别真伪,而只有在虚假序列出现违背常理、突发跳跃等时可通过M-K等突变检测加以判别,或者在特定滑动窗口下通过与历史数据之间的相似性分析来加以初判,因此采用虚假趋势甄别序列的真伪并不具有代表性。(2)虚假随机:虚假随机tr是虚假趋势时间序列中的随机变动量部分。简单伪造者往往通过简单推理计算、数值估计形成带有部分虚假随机特性的虚假趋势时间序列tx,由于其随机变动量部分伪造方法过于简单,难以满足自然的随机特征,故可以通过随机性检测来判别真伪。而对于复杂伪造者而言,虽然可以通过各种算法构造出满足随机规律的tr,但将其叠加到td后就必然导致了数据量的改变,原本的趋势性受到tr的影响在部分时刻将无法保证预期目标,或呈现出不符合伪造者意图的起伏变化,因此需要对叠加后的序列进行手工调整,然而这种调整却往往会打破序列的随机性,故而可以通过分析该部分的随机性检测来判别趋势时间序列的真偽。
结语
虚假数据的检测与分析一直在改善数据质量、提高系统能力、保障信息安全等方面占据重要地位,并随着大数据技术的不断发展和数据资源使用频率的增加,成为了信息技术领域的研究热点。
参考文献:
[1]任亚峰,姬东鸿,张红斌,尹兰.基于PU学习算法的虚假评论识别研究[J].计算机研究与发展,2015,52(03):639-648.
作者简介:
刘然(1988—),对外经济贸易大学统计学院在职人员高级课程研修班学员,研究方向:大数据科学与应用。