基于区块链技术对抗深度伪造现状研究

2021-07-10 05:49白国柱张文俊
信息安全研究 2021年7期
关键词:哈希区块社交

卫 霞 白国柱 张文俊

1(西安明德理工学院 西安 710124) 2(国家计算机网络与信息安全管理中心陕西分中心 西安 710075)

深度伪造技术(Deepfake)可以生成人类肉眼无法辨别的虚假图像、视频,网友将此类虚假图像、视频称之为Deepfakes[1].目前,诸如Openfaceswap,Deepnude,Zao等Deepfake应用都提供了一键式操作,极大降低了使用门槛,增大了Deepfake滥用的可能[2].Deepfakes进入数据高度开放流动的互联网领域后,能够令虚假信息以高度可信的方式呈现给社会公众,使其影响力瞬间成千上万倍放大,进而引导社会舆论,操纵国家选举,威胁经济发展,影响国际关系格局,对国家、社会和个人的声誉造成巨大威胁.

目前,涵盖技术和政策监管2个层面的对抗Deepfake已经成为各国研究的重点和难点.在技术层面,Facebook,Twitter等通过在功能、算法和策略方面作了大量尝试[3],但因为培训数据的不足,导致虚假新闻界定的困难及信息重现的成本较高,从而使得收效甚微;在政策监管层面,少数社会媒体公司及政府权威机构通过规范网络信息流,在对抗Deepfakes方面取得了一定的效果,但是该方法改变了社交网络的功能和信任模型,与互联网信息流动的开放、分散属性相悖.因此,反制技术的最大挑战是在识别、限制Deepfakes传播的同时保持互联网的分散性.

区块链作为目前全球最炙手可热的前沿技术之一,具备在分散和不可信的环境中增强共识的能力.通过创建一个低成本的安全可信渠道,区块链将人与人之间的传统信任模式转换为对机器的信任,社会治理模式也可以从传统的基于信息技术辅助模式向基于规则的智能契约执行模式转变,最终实现跨行业业务和社会数据的整合,在源头和过程中遏制Deepfakes的传播和扩散,有望成为未来对抗Deepfake的有力手段.

1 区块链技术对抗Deepfake理论基础

在预防和检测Deepfakes等虚假信息领域,区块链技术通过创建一个独特的、不可更改的元数据块链[4],充分利用数据可追溯、信息不可篡改和分布式共识等特点,证明数字资产真实性和原创性,实现数字内容收集、传递过程中信息的防篡改、免伪造和可追溯.

1.1 去中心网络与共识机制

区块链由去中心网络组成,包含的节点按照功能可分为2种类型:全节点和轻量级节点[5].全节点拥有区块链存储的详细信息,轻量级节点只有部分数据.但运行轻量级节点客户端也可以访问所有数据.区块链网络中没有中心节点和管理员,整个网络的数据是公开透明的,每个节点都可以进行修改和维护,因此信息的流动也就无法被控制,如图1所示.区块链的每个节点都参与数据记录,与Facebook、Twitter、微信、微博等社交媒体的中心化网络有显著不同,仅当通过了校验验证之后的节点达到一定数量时内容才认为是可信的,包含该内容的区块才会被添加至主链中,并以此来辨别真伪.因此,其“共识机制”决定了各参与者相互核查,共同实现对数字内容生产、传播、评价等的全方位监督,从而为对抗Deepfakes提供了理论依据和技术基础.

图1 区块链去中心网络结构

1.2 Deepfake溯源

区块链技术可以同时记录内容发布的时间和发布者身份,通过时间戳服务机制和块与块之间的链连接来实现内容溯源[4],实现对发布Deepfakes的个体进行绑定与追踪,从而实现对Deepfakes溯源.为了追踪内容的传播路径,需要一步一步地跟踪哪个节点维护或删改了原创内容,并注意修改动作发生的时间戳.在区块链中每个块包含块头和块体.块头封装的信息包括当前块头哈希值、父哈希值、时间戳等;块体封装当前块的事务,并通过哈希函数随机存储Deepfake.如图2给出了单个块的结构:

图2 单个块的结构

块头为数据跟踪溯源提供了便利,每个块的块头都包含父哈希值,从而形成了链结构.块链中的块序列可以按照时间戳进行排列,形成了时间顺序的链结构,如图3所示.当跟踪某一Deepfakes时,通过封装在当前块头中的时间戳和父哈希值,可以定位到该Deepfakes块的父块.递归遍历下去,可以确定当前块的所有区块,从而确定该内容的传播路径,实现Deepfake追踪溯源.

图3 块与块之间的链连接

1.3 内容防篡改

内容防篡改是指不能随意修改原创内容或者应该记录所有的修改过程.因为区块链的每一个区块都对应着唯一的哈希值,且后者会随着前者内容的变化而改变.由于每个块头包含父哈希值,一旦某个块的信息发生变化,其后的块也会相应变化.随着时间推移,区块链上的区块越来越多,区块链数据也会变得越来越稳定.理论上对所有变化区块的哈希值进行计算是不可能的,所以更改的区块会自动脱离区块链[4].基于此,区块链能够极大地提高原创图像、音视频传播过程的安全性和防篡改性.

2 区块链技术对抗Deepfake研究现状

区块链的技术特点,使其在对抗Deepfake有很大的优势,很多机构在积极探索区块链技术对抗Deepfake的算法、模型和平台,并且取得了一定的成果,目前主要集中在构建可信网络、Deepfakes溯源和内容防篡改这3个领域.

2.1 构建可信网络

Saad等人[6]提出了一种基于区块链的安全高效系统,用来检测和抵制社交网络上的虚假新闻传播.该系统虽然专门为社交网络量身定做,但也可以扩展到其他的信息媒介,具有一般性特征.Torky等人[7]提出了一种称为可信度证明(proof of credibility,PoC)的新区块链共识,用于检测社交媒体平台上的虚假内容.通过对Twitter上的2个热门话题仿真,结果表明PoC对虚假新闻的检测准确率约为89%,漏报率约为10%,误报率约为9%.有了基于PoC的社交网络系统,同行可以基于PoC区块链系统来验证共享信息和识别谣言.Ochoa等人[8]提出了基于数据挖掘算法的区块链共识的FakeChain,用于跨社交网络验证共享信息和检测假新闻.FakeChain利用以太网区块链结合广度优先搜索(breadth first search,BFS)算法的功能,实现对虚假内容的检测.Song等人[9]提出了一种采用区块链技术对社交媒体内容进行公证的新方法.该方法将区块链作为公证服务的基础设施,在社交媒体上真实地归档内容,其关键思想是让官方社交媒体服务提供商使用私钥对真实数据签名,用户使用公钥基础设施协议验证文档是否伪造.在这种制度下用户无法逃避其发布内容的责任,从而减少社交媒体上的虚假内容.Shae等人[3]提供了一个人工智能区块链平台,为社交媒体时代的记者提供更廉价、可靠的信息来源.该平台收集区块链追踪数据和人工智能工具,进而提供指向数据源的指针、有意义的主题统计以及针对给定主题咨询的专家列表.Civil公司[10]建立了一个区块链平台,作为基于透明度和信任的社区新闻网络.采取的方法是让读者购买“投票权”,裁定新闻编辑室是否代表公平、高质量新闻.由于此过程使用的货币是基于以太坊区块链的民用加密货币,该项目受限于经费问题已经终止.采用区块链技术,Userfeeds[11]公司开发了一个新闻内容排名平台,排名由“评估证明”(proof-of-evaluation,PoE)的共识过程决定,结果公开透明,且能被公众审查,一个内容生产者的“评估证明”越多,说明他生产的内容越可靠.而另一个基于区块链技术的新闻平台Steemit[12]则通过内容激励机制处罚造谣者.

2.2 Deepfakes溯源

Shang等人[13]结合传统的数据溯源技术和新闻传播过程,通过分析区块链技术在新闻溯源中的应用,提出了一种基于区块链的新闻跟踪模型.该模型覆盖了新闻发布、传播和溯源全流程,采用协商一致算法和智能契约技术对新闻进行跟踪,进而实现对虚假消息的打击.文献[14]提到了通过区块链技术检测深度伪造视频的方法:每个视频关联一个智能契约,关联的契约又与其父视频链接,每个父视频在层次结构中又都对应一个到其子视频的链接,以此实现对原始视频的追溯.Chauhan等人[15]以完全分散的方式建立对原始视频创建者或发布源的安全可靠的追踪能力.方案中,以太坊钱包为视频部署智能合约,星际文件系统(inter planetary file system,IPFS)用于存储视频的元数据,并生成视频的唯一哈希值来定位IPFS上的文件.著名的广告屏蔽插件Adblock Plus公司[16]通过添加采用区块链技术的信任标签到浏览器扩展程序中,来标识新闻的信任级别,从而提示用户发现虚假内容,减少虚假新闻传播.《纽约时报》推出了“新闻出处溯源”的区块链项目[17],通过分析图片或视频的“元数据”是否存在编辑、调整等造假行为,来实现新闻信源追溯.

2.3 内容防篡改

Fraga-Lamas等人[18]提出了一个基于以太坊的框架,用于验证原创内容真实性和来源的标准化元数据,但是系统查找篡改内容的能力有限.Hasan等人[19]提出了一种基于区块链的数字视频真实性证明(proof of authenticity,PoA)系统,该系统以能否追踪到视频内容的可信的来源(创作者、发布者或其他提供者)为标准,证明视频内容是否被篡改.该解决方案虽然侧重于视频,但也可应用于其他任何类型的数字内容,如音频、图像和手稿等,具有通用性.Gipp等人[20]提出使用区块链来保护视频内容的完整性.该方法对视频进行哈希计算,并保存不可变区块链上的哈希值,所以对视频进行的任何操作都会导致哈希值不匹配.Bhowmik等人[21]提出了一种基于水印的多媒体区块链框架,以解决原创数字内容经常被篡改问题.水印中包含事务历史记录的密码哈希值和原始媒体内容的图像哈希值,提取水印后,密码哈希值被传递给分布式账本以检索历史交易记录,图像哈希值被用来识别被编辑或篡改的区域.美国初创公司Truepic[22]开发了一套包含移动应用程序的系统,使用区块链来永久存储图像的元数据,提供给普通用户和自由职业者用来捕捉图像,任何的伪造尝试都可以通过与服务器的原图像比对来发现,以此来证明完整性.英国初创公司Serelay[23]使用一种类似于Truepic的技术,用来消除Deepfake视频和图像的传播.用户在拍摄图像和视频时使用Serelay发布的应用程序,与Truepic保存整个图像不同,Serelay会计算图像或视频的一个特殊且唯一指纹,并将该指纹保存在服务器中,用于防篡改验证.基于在线区块链的初创公司Prover[24]专门致力于验证用户创建的视频的真实性,其原理是在用户捕获视频时创建并记住一个唯一的哈希值,用户可以以此验证视频的详细信息,从而达到防篡改的目的.

2.4 技术局限性及启示

利用区块链技术对抗深度伪造技术时也会存在多方面的局限性,主要有3点:

1)“真实”与“虚假”数据同时被永久留存.因为区块链的不可篡改性,使区块链多媒体平台上的所有数据都在逻辑上无法删除.如Steemit网站[25]便声明“Steemit平台上的内容不可删除”.所以即使被确认为虚假的内容也不会被删除,而是在平台上被打上虚假标记.所以,一旦出现涉及政治及国家安全、宗教极端思想等Deepfakes,会给整个区块链媒介生态带来恶劣影响.当前,由于法律或监管的缺失,加之市场份额的诱惑,很少有区块链内容平台尝试阻止用户上传未经认证的内容,一旦发现影响严重的有害内容,解决办法只能是丢弃整个链条,这样又会对区块链平台造成巨大损失.

2)区块链技术对抗Deepfake的拓展性具有局限性.一方面,基于区块链平台的设计必须针对特定的用例进行优化,如优先考虑所需的分散程度和一致算法,因为它们会影响吞吐量等核心性能.因技术架构限制,特别是哈希算法的复杂度与链条长度相关,运行速度会随着链条长度的增加而显著降低,成为区块链发展的一个显著瓶颈.所以底层设计时,比特币限制了每秒7笔交易[4],Steemit平台规定同一用户发帖间隔不小于5 min,而且包括格式在内,贴文大小被限制为约64 000字符[25],这与2019年支付宝“双十一”创造的每秒6 100万笔[26]的交易记录存在巨大差距.另一方面,无论是比特币的PoW还是文献[7] 的PoC或文献[11]的PoE记账模式,都是以大部分认可作为判断依据,但是多数并不代表正确,存在误差.区块链以最长链为权威,现有“少数服从多数”判定链条是否增长的机制会带来诸多问题.例如,区块链会带来形式上平等,但实际却并不平等的问题.如果区块链数字内容平台中出现虚拟机器人程序或者是被占有多数算力的机构干预,导致发布内容看起来真实,便会与对抗Deepfake的初衷背道而驰.

3)基于区块链技术的数字内容平台面临未知的网络安全风险.区块链是一门新兴技术,在数据层、网络层以及业务层都存在着网络安全风险.例如,在数据层,区块链技术依赖大量的密码学研究成果,为区块链的信息完整性、认证性和不可抵赖性提供了关键保障.但目前区块链技术使用的大部分密码学算法都容易被量子计算攻破,因此必须进一步研究后量子计算时代的区块链密码学解决方案.在网络层,区块链的区块增长机制令其容易受到“51%攻击”.如果攻击者控制全网一半以上的算力,则替代历史攻击有100%的概率成功,即攻击者可以比网络的其他部分更快地生成区块,可以通过坚持自己的私有分支,直到比真实节点网络建立的分支更长,直至代替主链.

网络信息传播路径是全局连接且分布式的,全世界的用户都可以成为区块链媒体供应链网络的潜在用户.因此,利用区块链技术对抗Deepfakes需要一个高性能的区块链网络,还需要一个可扩展的智能合同,其管理的信任检查机制对平台上创建和编辑的内容进行严格的评估和排名[3].为了建立高标准高质量的内容,所有区块链平台参与者都必须遵守平台信息内容管理规定,这是一种自我管理的行为准则.此外,系统需要加强网络安全,建立安全可控的数据进入和存储机制,以抵御数据伪造攻击,保护平台上的账号密码安全和分享内容的隐私.

3 结 语

目前,应用区块链技术对抗Deepfake的研究正处于发展阶段.研究人员主要从可信网络、源头追溯和内容核实3个维度发现、识别Deepfakes.尽管区块链技术在对抗Deepfake的过程中存在技术和实践上的局限,但它所提供的信任机制与其他技术相比,能充分确保数字内容的真实性和可追溯性.然而,对抗Deepfake是一个比较复杂的问题,没有一种万能的解决方案,需要多学科、跨领域协同施策才能取得较好的成果,未来整合人工智能和区块链技术,打造一个值得信赖的内容生态系统会是一种可行的研究思路.

猜你喜欢
哈希区块社交
社交牛人症该怎么治
基于特征选择的局部敏感哈希位选择算法
聪明人 往往很少社交
哈希值处理 功能全面更易用
区块链:一个改变未来的幽灵
文件哈希值处理一条龙
社交距离
区块链:主要角色和衍生应用
你回避社交,真不是因为内向
区块链+媒体业的N种可能