柴功昊 秦东愉
摘要:随着科技水平的不断进步与发展,我们的信息技术也获得了长远的发展,为我们的生活提供了很多的便利。我们的信息传输媒介也随着科技的进步由传统的纸质媒介变为数字图像,但是技术的进步也会带来一些不好的影响,比如如何鉴别数字图像的真伪性,因此本文就面向计算机生成图像的智能取证技术进行研究。
关键词:计算机生成图像;智能取证;技术研究
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)02-0172-03
1 前言
当今时代的各行各业都离不开信息的传递,信息已经成为了一种重要的资源,因此加强对信息资源的合理利用,不仅能够促进企业的发展,更能够不断推动我国的经济建设。数字图像也是一种重要的信息资源,人们通过数字图像可以传递和存储非常多的信息,因此数字图像的真实性就成为了人们需要研究的一个重要课题。数字图像的数量非常庞大,因此就需要通过计算机来进行数字图像的真伪辨别,这样才能从根本上保障图像信息的安全性和可靠性。
2 研究背景
随着信息技术的不断发展,传统的纸质媒介已经逐渐被淘汰,取而代之的是数字信息技术,这种技术具有诸多的优点,例如存储信息量大、存储方便以及容易保存等。尤其是其中的数字图像,已经在各个领域都展开了使用,为人们的生产生活提供了很多的便利。虽然技术的发展给我们的生活带来了便利,但是也给我们的生活带来了一定的影响,通过各种软件的处理,就能够将数字图像中的信息进行处理,从而导致虚假信息的传播,这同样给社会带来了很多危害。
数字图像能够存储和传递非常多的信息,但是数字图像具备可编辑性,而且随着各种软件技术的不断完善与发展,人们很难通过肉眼来感觉到数字图像是否被再次编辑过,这样人们就无法准确的辨别数字图像的真伪,从而给不法分子带来了可乘之机。在这种背景下,加强对计算机生成图像的鉴别工作就显得意义重大,因此智能取证技术就应运而生了,这种技术能够对数字图像的真伪进行鉴定,利用一些先进的技术,来对数字图像进行分析。通过扫描数字图像的完整性,可以寻找出数字图像被修改的痕迹,进而通过一些数据模型的对比,就能够对数字图像的真伪进行鉴别。这样数字图像才能够更加可信,从而有效解决很多的实际问题,更好的发挥数字图像作为证据信息的作用。
3 数字图像智能取证技术的发展现状
随着科技水平的不断进步,人们在数字图像防伪取证技术上的研究也获得了很大的成果,发明出了很多的鉴别数字图像真伪的方法。就技术层面来说,主要分为主动式取证和被动式取证两种方法。主动式取证是通过在数字图像中添加水印、数字标签等内容来达到主动防伪的目的。这种技术的主要方法就是在数字图像中添加一些特殊的信息,这样在取证的过程中,通过对特殊信息的检测就能够鉴别数字图像的真伪。这种技术最早出现在1996年,在技术层面已经非常成熟,但是随着各种信息技术的发展,人们还是可以通过一些方法来对这些信息进行修改,因此我们还要不断完善主动式取证技术。
而被动式取证技术则是通过对数字图像进行扫描,然后与一些原始的数据模型进行对比,寻找出异常的地方来进行取证。这种技术存在很多的技术难点,在鉴别数字图像的过程中也存在着很大的局限性。但是在一些特殊场合也能起到一定的作用,相信随着技术的不断完善,这种方法更容易提高辨别程度的准确性,因此我们也应该加强对这种技术的研究。
4 两种取证技术的具体分析
4.1主动式取证技术
在主动式取证技术中,我们主要对其中的两个方面来进行研究,首先是数字图像完整性的取证。因为数字图像转换为计算机语言就是一个个的数字,这些数字具有一定的排列顺序,在这种情况下,对数字图像加入水印,就可以给数字图像贴上一个标签。而这种水印对于数据的改变具有非常高的敏感性,只要有比特级数据的变动,那么这种水印就会消失,从而在日后的取证过程中无法找到水印的痕迹,这样就能够达到取证的目的。
其次,就是对数字图像的篡改取证,这种技术可以检测出数字图像被篡改的部分。因为技术的限制,数字图像存在着一定的失真,在数字图像信息中加入半脆弱水印,就能够将图像失真带来的影响降到最低。这主要是基于在取证过程中,对于正常情况下的失真,水印表现出鲁棒性,而对于非正常情况下的失真,水印表现为敏感性,这样在感受到来自外界恶意的篡改时,半脆弱水印就会起作用,表现出对篡改信息的敏感性,从而导致水印消失,来达到取证的作用。
4.2被动式取证技术
在被动式取证技术的研究方面,我们主要讨论对自然数字图像的篡改,基于计算机生成图像的取证我们之前的研究还不是很深入。在自然数字图像取证面,我们主要是通过以下几种方法来进行图像的取证。首先,就是基于对物理特性进行分析来进行取证。这种篡改方法的原理是通过对同一自然景象进行反复拍摄,然后将两幅区别不大的图像通过软件的方法来进行合成,这样就会形成一副全新的数字图像。但是每一副数字图像都具有各自的物理特征,因此必然会存在着一定的区别,产生这种区别的地方主要在于相机的硬件特征,每个相机都有不同的噪声,而且采用的滤镜方式也都不同,并且都具有各自的图像算法。这样在取证的过程中对这些物理特性进行分析,就能够寻找到被篡改的部分,从而达到鉴别真伪的目的。
另外,每一副数字图像的外部自然环境都存在着或多或少的差异,因此根据数字图像的外界环境来进行图像检测也屬于运用物理特性来进行图像取证。在拍摄同一景物的过程中,必然会出现各种细微的差别,例如光照方向和光的一些特性,基于这样一个原理,我们就可以通过对图像的外界光环境来进行分析,从而寻找出其中被篡改的痕迹。
其次,就是基于物体几何特性的分析,这种方法主要是通过对目标物体进行扫描,来对其几何特性进行分析。通过对目标物体进行抓取,然后跟实际模型的比例进行对照,然后通过移动、旋转和缩放等手段来进行处理,通过这样一个过程,我们就可以寻找出像素之间的变动,从而发现篡改的痕迹。
最后,就是基于图像的统计特征来进行取证。通过建立一套模型数据库,将图片的一些通用特征进行建模,然后将数字图像内容与数据库进行比对,这样就可以在图像的关联性及相关性层次来对图像进行处理,在这样的一个对比过程中,我们就能够发现因为篡改而带来的图像关联性不一致的问题,从而实现智能识别图像中的异常情况。
另外一种取证技术就是基于计算机生成图像的取证,这种取证技术主要是对数字图像的整数维空间和分数维空间进行数据分析。在整数维空间研究中,我们主要是对其空间值域的一些特性进行分析,包括方差、平均值、偏态以及峰态等内容,将这些数据进行统计,然后在小波值域内进行对比,进而达到数字图像取证的目的。在分数维空间研究中,我们研究的依据就是自然图片和计算机生成图片存在着一定的特性差异,在分数维的领域中对这些差异特征进行提取分析,从而达到取证的目的。
5 计算机生成图像取证关键技术的研究
5.1以高阶统计量为依据的图像取证技术
在对计算机生成图像进行取证时,通过对其高阶统计量进行分析就是一种比较有效的取证方法。这种方法的原理是通过对特征量数据进行区分,进而判断出哪些数据是属于自然图像,哪些数据是属于计算机生成图像。而进行取证的具体方法如下,首先,需要对数字图像中的特征量进行提取,然后对这些特征量进行分析,最后在将这些分析过的特征量输入到一个特定的分类器中,然后将这些分类数据与自然生成图像的数据进行对比,这样就能够区别出自然图像和计算机图像。但是仅仅通过数据的对比来进行图像的取证还是存在一定的局限性,而影响图像取证准确性的因素主要跟图像的算法有关系,而想要提升图像算法的准确性,就需要我们利用高阶统计量有关的内容。
首先需要我们明白计算机生成图片的原理,计算机生成图像就是对真实场景进行再现,利用计算机技术对真实物体进行模拟,从而获得一种真实感较强的图像,但是计算机生成的图像与自然图像在原理上存在着本质区别,因此我们可以利用这一区别来进行图像的取证。自然图像具有很强的内在联系性和相关性,但是计算机生成的图像则不具备这样的特征,因此我们可以基于高阶统计量的数据来进行计算机生成图像的鉴别。小波变换具有多制度和高分辨率的特点,因此我们可以从获得的高阶统计量数据中来对比这些数据,从而起到鉴别计算机生成图片的目的。
Farid就是一种非常常用的高阶统计量算法,通过特征值的算法进行统计,然后将数据与原始数据模型进行对比,最后通过计算来获取最后的特征数值。之后就是对分类器进行设计,通过使用这些获取的最终特征数值来对分类器进行训练,这样分类器就能够对各种数值进行区分,最终达到图像数值分类的效果。Farid通过滤波器来分离这些特征值,然后将获得的特征值进行小波转换,然后再次进行滤波操作,就能够获得四个不同的子带,然后找出其中的低通自带,进行重复小波变换和滤波操作,最后四条不同的子带可以计算出不同的特征值频谱,进而获得具体的特征值。之后的操作要借助最优线性预测器,寻找到另外一组的特征值,进行数据求解,这样就能够将误差减小,进而获得准确的数值。
5.2基于多维提取的计算机生成图像取证技术
多维提取计算法也是一种常用的计算机生成图像取证技术,人们通过计算机寻找图像在空间域和变换域中的一些特征来进行检测,这种检测方法能够快速准确地对3D生成图像进行识别,但是这种方法存在着一定的局限性,因为这种方法需要很多复杂的数学模型,但是我们在数学模型的建立上还面临着模型严重不足的情况,因此这种方法的应用性欠佳。
相比于Farid技术,多提取计算法充分考虑了图像的时域特性,进而在检测精度上有所提高。多维提取计算法可以将图片中的空间域和变换域中的值进行提取,这样的算法可以更好地对图片的颜色特征以及边缘特征进行取证,大大提高图像检测中颜色和边缘的精准度。颜色是一个图像的重要特征,通过对颜色数据的分析,我们可以获得很多的信息,但是计算机生成的图像在颜色的表现方面跟自然图片相比还存在一定的差距,通过细致的数据对比,我们可以发现在颜色细节方面的呈现时,计算机生成图像存在着明显的过渡不自然的情况。
这种多维提取计算法的重点在于对特征值得提取,然后通过分类器来进行数据的处理,之后再将数据与数据模型进行对比,从而对图片进行区分,为了提高图像的识别精度,需要我们在空间域和变换域对特征值进行采集,从而提高基础数据的准确性,进而通过计算来提高计算结果的准确性。
6 两种处理技术仿真实验结果对比
6.1基于高阶统计量为依据的图像取证技术仿真实验结果
基于这种算法,我们进行仿真实验。首先我们选取一些图片来作为原始图片,其中一半是计算机生成图片,而生成的图片主要通过3Ds MAX和Maya等软件来进行制作。这些图片包含了室内室外以及白天黑夜等各种场景。另外的一半图片主要是用数码相机进行拍摄。然后分别拿出计算机生成图片和自然图片的一半来组成原始的数据库。
然后将剩下的图片按照基于高阶统计量为依据的图像取证技术进行处理,我们可以发现在训练集中,计算机生成图像的识别率为百分之七十,而自然图像的识别率高达百分之九十八。而在测试集中,我们可以发现计算机生成图像的识别率为百分之五十,而自然图像的识别率为百分之八十。这样的实验结果说明,这种算法在准确性上还需要进行提高,在实际的测试结果中,基于这种原理来测得的数据还是无法取得令人满意的效果,因此我们还需要对这种算法的原理进行优化。
6.2基于多维提取的計算机生成图像取证技术仿真实验结果
基于此种算法来进行计算机生成图片的识别我们发现,在面对同样的测试数据时,我们在训练集中的测试成绩是,计算机生成图像识别率为百分之七十五,而自然图像的识别率没有什么变化,在百分之九十七左右,而在测试集中,计算机生成图像的识别率则稍有提升,达到了百分之六十五,而对自然图像的识别依然在百分之八十左右,由此可见基于多维提取的计算机生成图像取证技术相比于基于高阶统计量为依据的图像取证技术在计算机生成图像上有一定的优势,但是这种优势也并不明显。
通过这两种算法仿真结果的对比,我们发现多维提取法在识别计算机生成图片上存在着一定的优势,而产生这些优势的来源应该在于,对影响图片区别的各种因素进行综合的对比,这样通过多维度数据的对比,可以更好地对图片进行取证,因此在未来的发展中,我们应该将更多影响图片区别的因素考虑进来,从而进一步提高对计算机生成图片的识别率。
7 未来发展趋势
对于数字图像的鉴别我们还有很长的路要走,尤其是在鉴别计算机生成图像方面,就目前的技术水平而言,我们还无法准确快速地识别出这些计算机生成图像,因此在未来的发展道路上,需要我们在提高检测精度和优化分类器上做出进一步的努力。
首先,需要我们重新对特征值的数据模型进行优化,在多维提取计算法中,需要我们充分考虑影响图片信息的各个因素,通过更多方面的异同来进行数字图像的对比,另外还需要我们充分考虑这些影响因素之间的关联,确认这些影响因素是否相关联。如果存在关联,还需要我们运用一些特殊的算法来进行优化,将这些因素之间的关联降到最低,这样才能够更好的实现影响因子的独立性,从而提高图像鉴别技术的准确性。
其次,需要我们对分类器的原理进行优化,分类器是处理数据的一个重要组成部分,因此加强分类器的分类作用,可以明显提高数据分类的准确性,想要优化分类器,就需要我们对分类器的算法进行研究,提高算法的准确程度,进而提高圖像的检测精度。
8 小结
总而言之,在面向计算机生成图像的智能取证技术的研究过程中,我们发现现有的技术水平还不能够有效的区别自然图片和计算机生成图片。就基于高阶统计量为依据的图像取证技术和多维提取计算技术而言,这两种方法都存在着一定的局限性,在算法与数据采集的环节都存在着很大的提升空间,因此我们要不断加强对这些技术的攻关,从而更好地推动计算机生成图像智能取证技术的发展,从而保障信息传递的安全。
参考文献:
[1] 李庆华.面向计算机生成图像的智能取证技术研究[J].信息技术与信息化,2016(1):100-102.
[2] 王玉平.面向计算机生成图像的智能取证技术研究[D].上海交通大学,2007.
[3] 乔通,钱振兴,张新鹏,等.基于局部能量方差特性的数字图像取证[J].模式识别与人工智能,2012,25(2):280-284.