唐斌 王炜 郑皓文
摘要:当今社会,图片造假现象十分泛滥,为解决数字图片的真伪鉴别问题,文章从图片篡改造假的手段与方法上进行了研究与总结,并针对造假可能使用的方法,利用开源工具提供了篡改检测的方法建议,这些方法手段经开源公司的大量时间的公开检验,证明了其可行性,研究建议的方法与结论可用于多个领域图片的“鉴伪”应用。文章还开发了图片中隐秘信息的自动取证工具,具有一定的学术价值和社会利用价值。
关键词:数字图片;篡改检测;盲取证
中图分类号:TP391
文献标志码:A
0 引言
数码图片的应用日益广泛,在生活娱乐和学习工作上给人们带来了极大的方便。随着各种图片编辑软件的不断普及,人们无需掌握专业的图片处理技术即可对数字图片进行修改,而且修改后的图片很难通过人眼分辨真伪。虽然大部分用户对数码图片的处理只是出于美化、修饰的目的,但也有故意篡改的违法目的,恶意传播,从而危害到网络舆情、司法鉴定等重要领域,急需有效的方法来检测数字图片的真伪,以保证数字图片的可信度。目前,鉴定数码图片真伪的技术主要有两种:一种是主动式取证技术,将数码签名、数码水印等标识事先埋入数码图片中;另一种是被动式取证技术,即根据数字画面本身的某些特征,来判断是否被篡改过的数字画面的盲目取证技术。本次研究的对象是后者。
从美国、德国、韩国、土耳其等国的数字图片盲取证科研机构的研究情况来看,美国哥伦比亚大学Shih-Fuchang研究组已建立起能够在线对测试图片进行检测的完整取證系统;Adobe与达特茅斯学院的辨伪专家法瑞德合作,开发出一款用于防伪的Photoshop插件工具。国内已有北京邮电大学、北京电子技术应用研究所、同济大学、大连理工大学等机构成立了相关的研究室。国内学者在相关领域也取得了一定的进展,朱新同等[1]提出了一种基于图片纹理特征的篡改与伪造图片分类检测算法;张小娜[2]提出将图片分割成若干区域,通过比对区域的相似度来确认图片中是否存在复制区域,从而判断该图片是否伪造。图片检测的研究正方兴未艾。
1 主要研究内容与方法
1.1 图片篡改的常用方法
1.1.1 合成
合成是指复制一张图片中的一个区域,然后粘贴到本图中的其他地方,或者是复制其他图片中的某些区域到另一幅图片中以添加原本不存在的物体。图片合成操作后还要采用滤镜对复制的边缘进行模糊处理等后续操作,使篡改在肉眼下不易被发现。
1.1.2 润饰
润饰主要是为了修饰图片,使其更加美观。主要方法是将图片中的某一区域利用修图软件进行美化处理(如“一键美颜”人脸图片、图片风景背景替换等),借以达到美化图片效果的目的。
1.1.3 计算机生成
不同于前几种篡改方法,这种方法是利用计算机中的图片生成软件伪造现实中根本不存在的图片。该技术已经非常成熟,一般采用人工智能机器学习的方法,人眼很难辨别这类图片和真实图片的区别。
以上仅是常见的图片篡改的方法和途径,随着时代的发展,新技术的不断出现,更复杂、更难以辨别的技术也会不断出现。
1.2 伪造检测原理
1.2.1 克隆检测
克隆检测是针对覆盖痕迹进行检测,基本原理是利用计算机视觉算法寻找相似的内容区域。如果在同一幅图片中检测到相同的内容,就能判定该图片有克隆复制的可能。具体的技术手段可以采用基于像素的检测,通过对图片整体像素做统计分析,分析像素点整体性的分布规律来判断图片是否经过篡改。还可识别图片中重复的像素,或对图片格式进行检测,如对图片的压缩特性进行分析,从而对图片的真伪进行检测。
1.2.2 噪声检测
由于成像传感器在拍照取景时都会产生不同幅度的成像噪声,这种噪声会呈现在相机所拍的每张照片中,只是由于其幅度非常小,所以人眼不能观察出来。这种噪声,每个摄像头都是独一无二的,叫做camera指纹。在处理照片时,通过特定的信号处理算法,把照片的内容过滤掉,只留下潜在的模式噪声,看噪声模式整体是否完整,或者是否有叠加,就可以对图片的真伪进行验证。
1.2.3 光照一致性检测
这种检测相对较简单,每个图片场景都有自己独特的光照环境,每个场景的光照方向往往不尽相同。把不同场景下的照片拼接到同一幅图中时,各个物体所携带的光照痕迹就可以被抽取出来用作检测。通过开发物理模型,在物体上设置估计的光照参数,再计算光照参数间的差异性等流程可以鉴别出图片的真伪[3-4]。
上述列举的技术是几种常见的取证手段,现在的图片造假技术越来越先进、越来越逼真,但是图片篡改检测技术也在随之更新换代、愈发先进。
1.3 图片真伪检测可行性方法
1.3.1 利用开源工具
本项目将开源工具引入数字图片的取证工作,开源工具是指在公开渠道发布并被授权使用的电子资源,包括软件、硬件、数据库资料等。开放源代码工具的作者可以让用户进行资源的查看、复制、修改或共享。有些研究机构和公司还通过建设开源网站来提供一些功能和应用,如安卓系统就是谷歌公司的开源工具,开发者共同进行项目的开发,在代码共享的基础上发展更多的功能。
JPEGSnoop是一款开源的免费Windows应用程序,可以对JPEG,MotionJPEGAVI和Photoshop文件的内部细节进行检查和解码。JPEGSnoop在测试中报告了大量的信息,包括量化表矩阵(色度和亮度)、色度子、估计JPEG质量设置、JPEG分辨率设置、Hofman手表、EXIF元数据、Makernotes、RGB直方图等,该软件不仅可以确定数码相机在拍摄照片时使用的各种设置(ExifMetalData,IPTC),还可以提取JPEG图像压缩的质量和性质的信息文件,这些文件是指示相机保存照片时使用的。每个数码相机都指定了压缩质量等级,其中许多等级差异很大,导致某些相机比其他相机能更好地制作JPEG图像。
错误水平分析(Ela)工具能比较原图和重新压缩后的版本,这能让篡改的面积呈现各种不同的面貌。例如,可以用比未经处理的类似区域更暗或更亮来识别JPG图像中不同级别的压缩伪造。JPG图片保存的次数越多,被压缩的次数也就越多,所以图片的编辑部分在分析的时候会变得不是那么均匀,会比较明显。
1.3.2 图片反向溯源鉴别真伪
除了使用开源工具能对图片的真伪进行鉴别外,还可以借助另一个思路对网络图片进行反向溯源和分析,查找数字图片的原始来源。
反向图像搜索是最知名和最简单的数字调查技术之一,“以图搜图”可以查找图片的原始来源或了解图片首次在网络上发布的大概日期。溯源通常综合图像挖掘和编辑工具,可上传一张图片点击不同的工具进行反查。整合了挖掘工具的网站有谷歌、必应、Yandex、Baidu、Sogou等,其中反向图像搜索表现最好的是俄罗斯的Yandex、微软的Bing和Google,TinEye在保护知识产权方面做得也不错。
Yandex是迄今为止最好的反向图像搜索引擎,具有识别人脸、风景和物体搜索的强大能力。这个俄罗斯网站大量利用用户生成的内容,例如旅游评论网站(FourSquare和TripAdvisor)和社交网络(约会网站),通过面部和景观识别查询获得非常准确的结果。
在图像搜索网站中,Bing允许裁剪照片(源图像下方的按钮)以专注于该照片中的特定元素。裁剪后的画面结果会将无关的元素排除在外,并以使用者所定义的方块为重点。但是,如果图像的选定部分很小,则应手动裁剪照片并提高分辨率,低分辨率图像(低于200×200)会带来较差的结果。如果使用Google(网址:images.google.com)进行反向图像搜索,搜索过程将限制为仅上传原始形式的照片,而且结论为提供最明显被盗或最受欢迎的图像的有用结果,对于大多数复杂的溯源研究,就需要其他网站。虽然谷歌、Bing和Yandex一样能寻找其他相似照片,结果显示一个有着相似衣服和一般面部特征的人,但Yandex会搜索这些匹配以及其他面部匹配的照片,也可用来分析图片出处,检验其真伪。
反向图像搜索引擎在过去十年中取得了巨大进步,最重要的是,面部识别AI正在通过FindClone等产品进入消费者领域,并且可能已经用于一些搜索算法。公开可用的面部识别程序可以使用任何社交网络(西方开放软件),如Facebook,Instagram,但也對在线隐私造成重大打击,同时以巨大的成本增加数字研究功能。
1.3.3 人工智能生成相片的识别
机器生成人像往往都有很大的漏洞,社交媒体分析公司 Graphika 的 Ben Nimmo 将最近在一个信息战网络中发现的对抗网络(Generative Adversarial Network,GAN)图像进行了分析。从分析结果可以看出,这些机器生成的人像的眼睛全部在相同的水平位置上,人们还可以用肉眼看到该种图像未能正确“融合”的多个点,这在真实照片中是不会发生的。对于GAN创建的图像,包括眼睛在内的图像通常可能是弱点,肉眼在图像的眼睛周边可以看到有多余的线条,缺乏对称性以及在自然图像中不会出现的不自然曲线。还有机器在对称图形的处理上,也有很大的算法上的不完善,例如可以看到一只耳朵有耳环而另一只耳朵没有,或者两侧的耳朵极不对称。
由于现阶段的机器学习的算法还不够完善,在人工智能的现阶段来说,对于机器生成的图片,相较于前面的图片造假是相对较容易识别的一种图形,一般情况下,用肉眼就能区别出真伪,如果此类图形后期又经过修图软件的二次修饰,那么可以借鉴前面的软件与方法来进行识别。
1.4 图片加密——信息隐写检测
图中信息隐写的原理是:计算机上的图片由一个个像素点组成,每个像素点可以分解成红绿蓝3个子像素,每个子像素都用一定的数值表示,只要稍微改变这些数值就可以传递信息,比如把二进制的代码藏在里面,这些代码表示的信息的接收方可以通过特定的软件解析出来。隐含的信息,一般都藏在图片、面单、诗文之类的文本里。密码隐藏的是信息,密码隐藏的是信息传递的过程。这两者往往是相伴而生的,在图片等载体上加密信息后再发送出去,即使拦截到图片,也要费尽周折才能破解信息。
1.4.1 隐写术的破解原理
(1)利用二进制表示法中最低有效位(LSB)隐藏痕迹的方式。使用图片分析软件,浏览3个颜色通道中的每一位,不断地尝试多个颜色通道,发现可疑的地方后再慢慢确定是否有密钥的隐身之处。
(2)利用载体隐匿信息。可以通过查看图片的属性——详细信息,以发现其标题和主题是否有可疑的字符,通常情况下加密方式是混合使用的;进一步分析它的加密和编码,如果是BASE64加密,通过在线解密即可得到key。
(3)修改文件头二进制信息使文件打不开的信息隐藏方式。可以通过二进制软件观察其文件头的二进制,然后将其手动修改即可。
(4)Gif图快速闪动的信息隐藏方式。可以通过看图软件来固定每一帧进行观察,从而得到密钥。
(5)有些信息隐藏在二进制代码的尾部,并且不会影响文件的正常使用。这时,如果发现有奇怪的字符可以重新解密,使用二进制软件就可以打开文件观察。
1.4.2 自编破解软件——图种克星
图种克星是集合了图种类隐写文件解密、复合文档图片提取的自动化小程序。运行后将自动检索检材中的图片文件,基于对图片原始大小和隐写文件头的分析,对图种文件进行提取并导出;同时检索检材中的Office复合文件,提取并导出其包含的图片文件后,对其是否为图种进行判定。图种识别支持JPG,PNG,Gif等格式图片文件,不仅限于压缩文件,分离时将自动生成相应类型的文件名。自动化程度高,自动遍历可隐写文件,并悉数导出报告。可以递归解析隐藏在复合文档中的图种文件,其工作原理如图1所示。
2 结语
图片的篡改性检测应用范围可用于版权保护、司法前期侦查、保险理赔、网络舆情管控等方面,具有一定的社会价值和实际应用价值。本研究主要针对数字图片的伪造篡改与造假手段的鑒别方法,分析防伪鉴别的方法与工具,主要是开源的工具,且具有一定的权威性,都依托于大公司、企业或大学的研究所,进行了算法的优化组合对图片的造假手段进行鉴别。随着计算机技术的不断进步,造假手段也在不断更新,开源工具也面临着升级改进的压力,造假新技术永远先于检测升级技术出现,所以新检测方法的出现会有一些滞后。随着人工智能技术的出现,越来越多的造假手段通过人工智能技术进行图片造假,所以未来的图片甄别的主要算法与手段也需要人工智能技术的支持,尤其是在人脸识别技术领域,更需要不断地研究,推陈出新。
参考文献
[1]朱新同,唐云祁,耿鹏志.基于特征融合的篡改与深度伪造图片检测算法[J].信息网络安全,2021(8):70-80.
[2]张小娜.基于Java语言的伪造图片识别检测算法[J].单片机与嵌入式系统应用,2021(10):49-53.
[3]杨雪薇,邢冠宇.一种基于室外光照估计的数字图片伪造检测算法[J].现代计算机,2020(3):69-72,78.
[4]张旭,胡晰远,陈晨,等.基于透视投影下空间光照一致性分析的图片拼接篡改检测[J].自动化学报,2019(10):1857-1869.
(编辑 沈 强)
Study on feasible methods of digital image tampering detection
Tang Bin1, Wang Wei2*, Zheng Haowen1
(1.School of Intelligence Policing, China Peoples Police University, Langfang 065000, China; 2.Informatization and Network Management Office, China Peoples Police University, Langfang 065000, China)
Abstract: In todays society, the phenomenon of image forgery is rampant. In order to solve the problem of authenticity identification of digital images, this article conducts research and summary on the methods and methods of image tampering and forgery, and provides suggestions for tamper detection methods using open-source tools. These methods have been publicly tested by open-source companies for a long time, proving their feasibility, The methods and conclusions proposed in the study can be used for the “fake” application of images in multiple fields. The article also developed an automatic evidence collection tool for hidden information in images, which has certain academic and social value.
Key words: digital images; tamper detection; blind forensics