王也 曲会晨 林奕森
摘 要: 随着反取证技术的发展,人们对取证所得电子证据的可信性越来越难以准确地度量。因此本文提出一种基于博弈论的电子证据可信性度量方法,利用取证人员和犯罪嫌疑人之间强对抗关系,通过操作复杂度模型构建双方的博弈模型,从而解决嫌疑人反取证行为预测和取证人员最优取证检测策略选取的问题;在取证人员选取最优策略的基础上,通过操作复杂度模型,将计算证据链不完整情形下的电子数据可信概率值作为电子证据可信性的量化值。在BT传播盗版视频侵权案件中,本文方法能对嫌疑人的伪造行为进行有效快速的预测,并且能准确的计算相关部分证据的可信性。
关键词: 计算机取证; 计算机反取证; 博弈论; 电子证据; 复杂度模型
中图分类号:X913.4 文献标识码:A 文章编号:1006-8228(2023)06-33-05
Game theory-based method for measuring the credibility of digital evidence
Wang Ye, Qu Huichen, Lin Yisen
(Department of computer science and Engineering, Guilin University of Aerospace Technology, Guilin, Guanxi 541000, China)
Abstract: With the development of anti-forensics technology, it is increasingly difficult to accurately judge and measure the credibility of digital evidence obtained from forensics. Therefore, a game theory-based method for measuring the credibility of digital evidence is proposed. Using the confrontation between forensics personnel and suspect, the game model of both sides is constructed through the Operational Complexity Model, so as to solve the problem of predicting the suspect's anti-forensics behavior and selecting the optimal forensics detection strategy for forensics personnel. On this basis, the credibility probability of electronic data under the condition of incomplete evidence chain is calculated as the quantitative value of digital evidence credibility. In the case of BT transmitting pirated video infringement, it effectively and quickly predicts the forgery behavior of suspects and accurately calculates the credibility of the relevant evidence.
Key words: computer forensics; computer anti-forensics; game theory; digital evidence; Operational Complexity Model
0 引言
計算机取证作为计算机和法学领域的一门交叉科学,可被用来解决大量的计算机网络盗版侵权、网络入侵和网络诈骗等问题[1]。如何有效地描述取证对抗冲突对电子数据可信性造成的影响是一大难题。
博弈论是一门研究多个个体或团队之间在特定条件制约下的对局里,利用相关方的策略而实施对应策略的学科[2]。博弈论本质就是描述博弈行为的数学模型,可以用于解决取证对抗冲突中的最优解问题,以及解决对嫌疑人反取证行为预测和取证人员最优取证检测策略选取的问题,辅助调查人员、律师、法官等快速有效地判断证据的可信程度。
1 相关工作基础
1.1 电子数据可信性研究
电子数据的可信性和审查认定在司法实践中是不可回避的首要问题[3]。目前,针对电子数据可信性研究关注点多在于电子数据取证运用的标准化和电子数据本身的可信性两方面。
电子数据取证的标准化,研究者的关注点多针对建立数字取证过程模型以及实践指南来帮助确保取证流程中方法及行为的可信性。
电子数据本身可信性,研究者关注点多针对电子邮件、数字图像、多媒体视频伪造等方面,一般集中于研究分析单个电子数据的真实可信性。
但对于处理单机取证等较为复杂的大量数据时,可信性分析仍然较为主观[4],没有较好的度量方法。因此,对于单机取证方面急需构建相关可量化的模型来分析其可信性。
1.2 博弈论及其应用
在信息安全领域,基于网络安全入侵检测的攻防博弈决策方法是研究热点。在取证对抗领域,2010年,文献[5]在研究共谋攻击时引入了博弈思维,将共谋者内部视为一种非合作的静态博弈关系,共谋者和检测者之间视为一种两级的零和博弈关系,在此基础上建立相应的博弈模型。2013年,文献[6]就来源识别检测和伪造的对抗关系建立了相应的博弈模型,研究测试了不同来源下的对抗关系。2015年,文献[7]构造了视频内部帧伪造的博弈模型,并且求解取证和伪造双方的最优策略。2016年,文献[8]提出了一种基于博弈论的电子邮件伪造-检测分析模型,通过使用操作复杂度模型(OCM)[9]量化成本收益,并为邮件最优检测策略的选取提供决策参考信息。2018年,文献[10]就图像隐写及分析者的双方进行了博弈建模,提出了一种博弈论模型下具体的图像隐写算法。2021年,文献[11]在博弈论隐写模型的基础上,提出了一种基于运动矢量修改的视频隐写算法。
综上所述,目前博弈论在取证领域的应用研究主要集中在多媒体取证对抗、邮件取证对抗等方面上,并取得了一定的成效,但对于单机取证、手机取证等领域的应用还处于相对空白状态。因此本文将博弈论应用到单机取证领域,扩展了博弈论的应用空间。
2 可信性度量理论方法
对于单机原始存储介质中的电子数据,一般假设可能存在以下三种场景:①涉案数据是自然形成且未被犯罪嫌疑人反取证操作过;②涉案数据是偶然形成的,如误操作、木马、病毒、系统崩溃等情况;③存储介质中的电子数据已被犯罪嫌疑人根据特定目的或动机伪造过。一般情况下,取证工作中默认第①种场景为普通场景,直接进行取证检测。文献[12]提出通过操作复杂度模型(OCM)来衡量第②种场景中病毒、木马假说发生的可能比。文献[13]将OCM用于度量第③种场景下电子证据擦除行为发生的可能比。目前对于第③种场景,有学者针对单一的反取证策略进行了研究,而在该场景中存在多种嫌疑人可选的反取证策略,因此取证人员的首要工作则是确定嫌疑人可能使用哪一种反取证策略成为研究的重点。
综上所述,本文将从博弈角度出发,结合OCM提出一种度量电子证据可信性的方法,用于分析第三种可能场景下嫌疑人反取证策略的选取及实现电子数据的可信性的度量。
2.1 基于操作复杂性的策略分类方法
计算机犯罪案件中,查封的单机存储介质中的证据可能由多种电子数据形态构成,包含有多个证据对象。对于不同类型的证据,常用的取证及反取证手段与策略也有所不同。对于取证对抗的双方,在斗争过程中各自选择的策略集合和支付函数,是建立博弈模型的基础。本文根据不同电子数据类型相应的伪造和取证策略的操作复杂性对策略进行分类,目的在于对策略进行分类后,其能更适用于博弈模型,为度量取证对抗冲突导致的电子可信性问题提供一定的参考。
由文献[9]可知,操作复杂度模型OCM(Operational Complexity Model)由鍵盘水平模型KLM Keyboard Level Model)和计算复杂性CC(Computational Complexity)构成。两者之和,即为执行策略所需的整体操作复杂性。对于某反取证或检测策略i而言,执行该策略的操作复杂性 [OCi]可以由式⑴给出。
[OCi=KLMi+CCi] ⑴
根据文献[8],可以将策略的操作复杂性分为以下三个层次。
L1:策略所需的操作步骤较简单,所需资源较少,操作复杂性OC<100。例如通过浏览器无痕模式进行网页浏览;通过修改计算机系统时间来伪造邮件时间;取证人员通过Encase、FTK等取证工具直接搜索文件数据。
L2:策略所需操作步骤较为复杂,但所需资源较少或者操作步骤较简单,但所需资源较多,操作复杂性100≤OC≤1000。例如,利用常见的加密软件对关键文件加密、利用远程访问服务技术登录远程跳板机来操作;取证人员需搭配暴破软件、通过分析日志、注册表、数据库文件信息等多个关联数据来获取信息。
L3:策略所需的操作步骤较为复杂,且需要大量的资源,OC>1000。例如,利用BitLocker全盘加密;利用数据擦除软件对磁盘进行擦除或通过数据覆写软件进行多次数据覆盖;取证人员需要通过FTK Image、CSI Imager等软件尝试逆向解密、通过Final Data等软件做数据恢复后再进行多关联数据分析。
2.2 收益量化分析
为了建立合适的博弈模型来预测嫌疑人和取证人员的行为,从而达到嫌疑人和取证人员双方选取最优策略的目的,首先要定义收益的量化框架。博弈的参与者分别为嫌疑人和取证人员,因此需要分别对这两者进行分析。
对于犯罪嫌疑人而言,获利[BS]即为进行计算机犯罪后,未被取证人员检测出来而获得的利益;损失[DS]则为进行计算机犯罪后,被取证人员检测出来时所受的损失或法律制裁(一般用负值表示);成本[CS]表示嫌疑人执行反取证策略时所需的软硬件资源,时间等(一般用负值表示)。
对于取证人员而言,获利[BF]即为成功分析获取电子数据后所得到的回报或避免遭受的损失;损失[DF]则为取证人员未能成功获取电子数据时所遭受的损失(一般用负值表示);成本[CF]表示取证人员执行取证策略所需的软硬件资源,时间等(一般用负值表示)。
从上述对犯罪嫌疑人和取证人员的收益量化分析中可以看出,双方最终的收益与取证人员是否能成功分析获取到电子数据有很直接的关系。取证人员在利用某检测策略进行取证时,能成功获取数据的概率会直接影响双方的最终收益。假定,犯罪嫌疑人[NS]的策略集合为[SS=(S1S,S2S,…,SnS)],取证人员[NF]的策略集合为[SF=(S1F,S2F,…,SmF)]。当嫌疑人选取策略[SiS],取证人员选取策略[SjF],能成功获取电子数据的概率记为[Pji],则该策略组合下,嫌疑人的收益[US(SiS,SjF)]可以由式⑵给出:
[US(SiS,SjF)=BS*1-Pji+DS*Pji+CS] ⑵
取证人员的收益[UF(SiS,SjF)] 可以由式⑶给出:
[UF(SiS,SjF)=BF*Pji+DF*1-Pji+CF] ⑶
那么,不同策略组合下嫌疑人的收益[US]可用矩阵形式表示:
[US=US(S1S,S1F)US(S1S,S2F)…US(S1S,SmF)US(S2S,S1F)US(S2S,S2F)…US(S2S,SmF)…………US(SnS,S1F)US(SnS,S2F)…US(SnS,SmF)] ⑷
不同策略组合下取证人员的收益[UF]可用矩阵来表示:
[UF=UF(S1S,S1F)UF(S1S,S2F)…UF(S1S,SmF)UF(S2S,S1F)UF(S2S,S2F)…UF(S2S,SmF)…………UF(SnS,S1F)UF(SnS,S2F)…UF(SnS,SmF)] ⑸
2.3 最优策略选取
最优策略选取的关键在于博弈模型[SFG(NS,NF,]
[SS,SF,(US,UF))]的建立和求解。在博弈过程中,无论对方如何选择策略,局中人都会选择某一确定策略,则该策略被称为支配性策略。如果出现一种策略组合,使得每个局中人的策略是各自的支配性策略,那么这个组合就被定义为纳什均衡。在[SFG(NS,NF,SS,SF,]
[(US,UF))]博弈模型中,如果嫌疑人和取证人员的策略组[S*S,S*F]是一个纳什均衡解,则满足式⑹和式⑺。
[?SiS∈SS,US(S*S,S*F)≥US(SiS,S*F)] ⑹
[?SjF∈SF,UF(S*S,S*F)≥UF(S*S,SjF)] ⑺
SFG模型中,可根据收益矩阵求解是否存在一个纯策略的纳什均衡。若存在,则该纳什均衡所对应的策略为参与者的最优策略;若不存在,则要考虑求解混合策略,此时要利用线性规划算法对矩阵求解。
2.4 证据可信性度量分析
在取证人员采用最优取证策略获取到证据对象后,如果证据链完整,可证明嫌疑人进行了相关违法犯罪操作。如果出现证据链不完整的情形,则可结合OCM模型,通过计算证据在不同路径下发生的概率,分析所获取证据的可信性。
假设取证人员在采用最优取证策略后获取到的证据为[E={E1,…,En}],未构成完整的证据链,则E的形成有两种可能路径:第一种路径为自然形成,记为[O],第二种路径为E是被嫌疑人采用某些反取证策略成功伪造的,记为[O] 。二者发生的概率与其操作复杂度呈反比,由式⑻给出。
[P(O|E)∝OCO|E-1P(O|E)∝OCO|E-1] ⑻
[P(O|E)]和[P(O|E)]发生的概率和为1。在证据链不完整情形下,证据的可信概率即为[P(O|E)]。通过式⑻对证据的可信性通过可信概率的方式进行量化,即概率值越高可信性越高,反之亦然。
3 案例分析
为了验证本文方法的有效性,我们以BT种子传播盗版视频侵权的案件为例进行分析,在该案件中,博弈参与者是犯罪嫌疑人和取证检测人员,涉案金额为10万元,为了计算方便,将策略的成本收益金额以百元为单位进行计算。由于本文把操作复杂性作为策略分类的参考,按照大小将策略分为三个等级:L1、L2、L3。从经济学的角度出发,在不保证付出既有回报的前提下,成本的范围不会高于获利的50%。根据文献[8],可根据涉案金额,对成本的范围进行合理的分析:若涉案金额为10万元人民币,那么对于 L1、L2、L3 三个等级复杂程度的策略成本可賦合适的值,例如 L1为0-1万,L2为1-2万,L3为2-5万。
根据复杂性和成本收益的转换标准,对不同程度的复杂性所指向的成本定义如下:L1:0-100,L2:100-200,L3:200-500,则可列出嫌疑人伪造策略集合及相关成本收益如表2所示。
取证人员检测策略集合及相关成本收益如表3所示。
对于博弈双方采取的策略:取证人员策略操作复杂性层次高于犯罪嫌疑人反取证策略的,能成功获取电子数据的概率记为1;同层次操作复杂性策略下,取证检测人员能成功获取数据的概率记为0.5;犯罪嫌疑人反取证策略操作复杂性层次高于取证人员策略的概率记为0。根据式⑵及式⑷,不同策略组合下嫌疑人的伪造收益矩阵[US]如下:
[US=1000950850700-1000-50850700-1000-1050-150700-1000-1050-1150-300]
根据式⑶和式⑸,不同策略组合下取证人员的伪造收益矩阵[UF]如下:
[UF=-1000-1000-1000-1000-50-550-1050-1050-150-150-650-1150-300-300-300-800]
根据双方采取的策略,可通过伪造效益、检测效益的计算公式,得到博弈模型的收益矩阵,并利用划线法对收益矩阵进行求解,结果如表4所示。
利用线性规划算法对收益矩阵进行求解,可得策略组[S4S,S4F]是该案博弈双方的一个纳什均衡解,也是最优解。在模型预测下,该案例嫌疑人最可能采取的伪造策略为[S4S],即利用数据擦除软件进行数据擦除或全盘加密等操作步骤较为复杂且需要大量的计算资源的策略;而取证检测人员的最优检测策略是[S4F],即通过Final Data等数据恢复软件做数据恢复后再进行多关联数据分析。
取证人员对嫌疑人的个人计算机查封并取证,证据链完整可证明嫌疑人通过BT软件传播盗版视频侵权。如果取证人员通过[S4F]策略并未取得完整证据链,此时,存在证据为自然形成[O],或者证据为嫌疑人采用反取证策略[S4S]成功伪造[O]这两种路径。
BT案例中可能的涉案证据对象EALL={盗版电影文件E1,BT软件E2,BT种子文件E3,种子共享网站的浏览器信息E4}。以下列出BT共享盗版文件案例中使用的参数表,其中实验参数部分,参考Overill等人的击键复杂度参数及计算复杂度参数[9,12],当涉案文件为一个4GB大小的电影文件时,OCM参数表如表5所示。
根据表5给出的参数值,根据式⑻,可计算所获取证据的可信概率[P(O|E)],如表6所示。
由表6可知,若取证人员获取的证据E未能构成完整的证据链,在该案例博弈模型的预测下,嫌疑人最可能采取的伪造策略为[S4S],有一定可能成功反取证电子数据。而取证检测人员的最优检测策略是[S4F],即通过Final Data等数据恢复软件做数据恢复后再进行多关联数据分析,尽可能获取涉案相关的电子数据。
从OCM的角度出发,涉案的证据对象越多,数据量越大,操作反取证所需的击键级复杂性越高,电子数据被反取证的概率越小,可信概率[P(O|E)]越大,取证人员取证得到的数据的可信度越高。
4 结论
本文提出一种基于博弈论的电子证据可信性度量方法,利用取证人员和犯罪嫌疑人之间的对抗关系结合操作复杂度模型,构建取证人员和犯罪嫌疑人的博弈模型,从而使取证人员可以快速获得最优策略。在取证人员获得最优策略的基础上,通过操作复杂度模型,计算证据链不完整的情形下电子数据已被犯罪嫌疑人根据特定目的或动机伪造过的概率值,并將该概率值作为证据可信性的量化值。
为证明本文方法的有效性,在BT传播盗版视频侵权案例中,根据本文所提方法,首先构造了博弈模型收益矩阵,然后对该矩阵求解,实现对嫌疑人伪造行为进行快速有效的预测,最后通过操作复杂度模型帮助确定数据被反取证的可能性,计算所获取证据的可信概率。
参考文献(References):
[1] 刘少军,汪焕成.网络犯罪案件中电子数据取证问题研究[J].
湖北警官学院学报,2022,35(3):16-28
[2] Harrington J E,韩玲,李强.哈林顿博弈论[M]. 北京:中国人
民大学出版社,2012:183-205
[3] 黄道丽.电子数据取证与鉴定法治化的中国实践[J].中国
信息安全,2019(5):48-51
[4] Palmer I N. Forensic analysis of computer evidence[D].
University of Illinois at Urbana-Champaign,2018
[5] Zhao H V, Lin W S, Liu K J. Cooperation and coalition in
multimedia fingerprinting colluder social networks[J]. IEEE Transactions on Multimedia,2012,14(3):717-733
[6] Barni M, Tondi B. The source identificationgame: an
information-theoretic perspective[J]. IEEE Transactions on Information Forensics and Security,2013,8(3):450-463
[7] Kang X g, Liu J x, Liu H m, et al. Forensics and counter
anti-forensics of video inter-frame forgery[J]. Multimedia Tools and Applications,2015:1-21
[8] 楼远.基于博弈论的电子邮件真实性鉴别研究[D].硕士,
重庆邮电大学,2016
[9] Overill R E, Silomon J A M, Chow K P. A Complexity
Based Model for Quantifying Forensic Evidential Probabilities[C] //Ares '10 International Conference on Availability, Reliability, and Security. IEEE,2010:671-676
[10] Li Jg,Yao W,Han J,et al.User collusion avoidance CP-
ABEwith efficient attribute revocation for cloud storage[J].IEEE Systems Journal,2018,12(2):1767-1777
[11] 邱枫,钮可,陈培,等.博弈论模型下基于运动矢量的视频隐
写算法[J].计算机应用研究,2021,38(12):3752-3755,3770
[12] Overill R E, Silomon J. A Complexity Based Forensic
Analysis of the Trojan Horse Defence[C]// Sixth International Conference on Availability, Reliability and Security, ARES 2011, Vienna, Austria, August 22-26, 2011. IEEE,2011
[13] 王也,陈龙.一种基于操作复杂度模型的电子证据擦除行
为度量方法[J].计算机科学,2016,43(B12):84-88