徐 泽 曹三省
(1.中国传媒大学媒体融合与传播国家重点实验室,北京 100024;2.中国传媒大学信息科学与技术学部,北京 100024)
伴随着信息科学技术和智能科学技术的持续进步,我国自2014年开始进入媒体融合发展的赛道。媒体行业从单一的广播、电视、报业等为主的传统媒体模式,逐步过渡到新媒体与传统媒体深度融合的全媒体模式。
全媒体时代,图像作为媒体传播信息的主要手段之一,其内容的直观性和生动性受到大众的喜爱,图像的传播载体也越来越多样化,呈现形式也非常多样化,媒体机构对图像的需求越来越大。[1]据统计,我国互联网上每年图像的使用量高达6000多亿张,各大媒体机构消费430亿张图片,图片已经成为媒体内容的重要组成部分,在媒体资源的交流中,图片占据了很大的比例。由于在人工智能技术的支持下,数字图像更加易于再处理和传播,同一图像的不同版本也可能在媒体资源交换过程中重复交换,从而损害图像所有者的权益。传统的图像版权注册方式大多是集中化、形式化的,需要第三方权威、可信机构提供相应的证书,以确定图像的拍摄时间、地点和拍摄对象。冗长的著作权登记过程使著作权登记面临处理时间长、周期长等问题。版权集中化的储存模式与全媒体时代的去中心化创作模式和去产权化传播模式是矛盾的,不利于全媒体融合生态的发展。区块链技术的兴起为图像版权去中心化注册和全媒体融合背景下的媒体资源交换问题提供了新的解决方案。
近年来,全媒体背景下的数字化传播带来的版权作品侵权问题日益突出,影响了版权主体的创作和共享积极性,严重影响着数字媒体生态的平衡发展。图像在经过广泛传播后,很容易受到各种形式再创作的影响,如对图像进行亮度调整、大小变换修改等,形成同一图像在网络上流传多个版本的混乱现象。现有研究主要集中在如何将区块链技术应用于数字图像版权保护中,实现安全可信的版权交易和图像信息的准确溯源,并没有根据图像的特点扩展溯源范围。因此,通过对区块链技术和其他技术进行深入研究,探索一种针对原创图像交易和再创图像溯源的版权保护方法,对实现全媒体时代资源交换过程中利益公平性有非常深远的意义。
随着数字技术的发展,传统出版物的数字化和数字出版形式的多样化,导致我国数字出版模式逐步呈现多元化的态势。除此之外,全媒体背景下数字作品的传播呈现大众化、快速化、便捷化、融合化等特点,使得数字版权保护问题更加复杂。
DRM技术作为集合数字水印、数字加密、数字签名及数字指纹的一套技术集,是传统媒体模式下数字版权保护的技术保证,也一直是本领域学者研究的重点。基于数字水印和指纹技术,刘欣亮等人[2]提出面向多媒体的数字版权保护系统。当发生侵权纠纷时,可以通过提取可疑侵权作品中的水印来实现侵权识别的效果。在移动终端,考虑到用户对不同类型的多媒体数字资源的嵌套和复合购买的需求,余芳[3]设计了一个面向移动终端的多媒体版权保护系统,系统利用加密技术和数字水印技术对数字内容在整个生命周期进行版权保护。蒋铭[4]针对多媒体数字版权保护水印算法进行系统研究,分别提出了针对JPEG图像版权保护的水印算法和基于MPEG-2的数字视频水印算法。在政策层面,近几年国家相继出台数字版权保护的政策法规,在《中国著作权法》框架下,《手机出版标准体系表》《动漫出版标准体系》等一批标准规范的出台,将对提高数字出版质量、扩大数字出版受众范围起到有力的促进作用。此外,随着“中国数字出版联盟”“中国数字版权保护联盟”等协会的成立,对规范和保护数字版权发挥了积极作用。
区块链技术的出现为媒体行业的版权确权、保护和舆论监督提供了新的解决方案,并已广泛应用于媒体融合过程中的不同具体场景。刘玲武等人[5]从融媒体环境下版权保护的困境出发,以区块链技术的特点为论据,论证了区块链技术在版权保护中可能遇到的具体问题。围绕讨论在融媒体时代区块链技术如何助力保护数字媒体的版权问题,曾春等人[6]针对“北京云”融媒体平台建设提出了相应的解决方案。全媒体场景下,数字版权保护将会迎来新的机遇与挑战。
全媒体时代下,随着5G、人工智能、区块链、VR/AR等技术的快速发展,媒体作品的创作、传播和使用方式不断丰富。一方面,新模式、新业态、新平台不断涌现,版权确权和保护已成为制约数字经济快速增长的重要瓶颈之一。另一方面,融合网络的版权保护也面临着更大的挑战。当前,对数字版权保护问题的研究主要存在版权保护意识薄弱、技术应用片面化、阻碍信息传播等局限性。[7]
1.2.1 Hyperledge Fabric平台
超级账本平台(Hyperledger Fabric)是Linux基金会在2015年启动的Hyperledger项目下的模块化区块链框架[8],采用模块化结构,在设计上支持可插拔的共识机制,能够根据用户的不同需求定制实现,有良好的可扩展性。是一个提供分布式账本解决方案的联盟链平台,其架构如图1所示。
图1 Hyperledger Fabric平台架构
本文基于超级账本平台进行二次开发,一方面定制满足全媒体数字图像传播场景的区块链融合网络;另一方面对区块链自身散列算法进行改造,移植适合图像相似度检测的算法到区块链系统中。如此,不仅可以实现原创图像快速上链,保证图像版权交易安全可信。而且可以对图像进行全面溯源,再创图像虽不能上链,但根据相似度区块链系统会将链上相关图像的溯源信息反馈给用户。
1.2.2 相似度检测算法
媒体信息以文字、图像、声音等载体形式在网络中传播共享,通过相似度检测一方面可以追溯数字作品的版权信息,另一方面可以辅助确定经二次创作媒体信息的版权。由于不同载体形式的媒体信息的相似度检测存在很大差异,本文主要针对数字图像的版权保护进行研究。当前,图像相似度检测算法分为传统相似度检测算法、基于特征点的相似度检测算法及基于深度学习的相似度检测算法。传统的图像相似性算法主要是散列算法,散列算法也是最常用的图像相似性算法之一。[9]常用的散列算法包括平均散列算法、差异值散列算法和感知散列算法。这3种算法对图像进行散列生成一组二进制数字,并通过汉明距离算法计算图像之间的距离来判断图像的相似性。两幅图像越相似,图像之间的距离越小。基于特征点的图像相似性检测算法不同于传统的图像相似性检测算法。该方法主要利用图像的特征点来完成相似度计算。图像特征点是指代表图像中重要位置的点,类似于函数的拐点。通过提取图像的特征点,对两幅图像的特征点进行匹配。匹配的特征点越多,两幅图像之间的相似度越高。[10]常用的算法有ORB特征检测算法和尺度不变特征转换算法。当前,基于深度学习的图像相似度检测算法因其在特征提取上快速、精准的优点,一直是人们研究的重点。该算法利用神经网络模型对图像进行特征表征,对模型进行预训练构成特征提取器,再将提取的图像特征与传统的模式识别算法相结合,完成图像的相似度检测。但由于基于神经网络的图像相似性算法可移植性差,算力需求高,对实验设备配置要求高。算法必须在早期通过大量样本数据进行模型训练来实现实时检测,才能使相似度计算结果的数据质量可以有很好的性能。因此,本文研究中不考虑使用基于深度学习的相似度检测算法。
全媒体环境下,各媒体机构间的业务交流和合作变得越来越频繁、紧密。数字图像在传播过程中的版权交易会涉及多个政府机构、融合媒体机构及许多独立用户,Hyperledge Fabric平台基础网络结构不能完全满足条件。利用区块链技术与政府、媒体机构、个人创作者共同构建区块链融合网络,在该网络中实现对数字图像的版权登记(图像上传)、交易(图像获取)、确权(图像溯源)。结合差异值散列相似度检测算法有效防止图像二次创作后被重复上链,使用差异散列算法对待上链的图像进行审计,不仅可以保护媒体机构之间的数据隐私,同时也保证了媒体资源交易的公平性,维护了版权所有者的利益。总体框架设计如下图2所示。
图2 方法框架图
在全媒体数字图像版权交易的具体场景下,传统的联盟链网络结构已无法满足多主体融合的安全可信交易需求。在各机构现有媒体资产系统不受影响的情况下,要求所有版权交易参与者在机构之间进行安全的点对点媒体整合行为,该行为是透明的,以确保交易数据的安全性和可信度。在区块链技术的基础上,我们选择Hyperledger Fabric开源框架来设计媒体融合的多代理合作网络,它可以为媒体内容交易提供一个分散和部分隐私环境。当前,媒体数据呈现大量、高速、多样化等特点,考虑到系统运行效率、计算成本,在版权交易过程中我们设计了一种“链上+链下”的存储机制,链上采用区块链自带的存储方式——LevelDB,主要用来存储各媒体机构的图像信息,包含图像标识ID、图像名称Name、图像散列特征值ImageHash、图像所属机构ImageOwner、图像金额Price、图像交易发生时间Time;链下则是关系型数据库——MySQL,主要是构建本地内容元数据库,存储图像的明文信息及动态提取验证信息。整个交易过程包括交易请求(购买版权)、交易响应(消息认证)、交易回复(获取内容)、交易查询(版权流转记录)、交易完成(区块同步),整个交易流程如下图3所示。
图3 数字图像版权交易流程图
2.2.1 交易请求
用户在全网发起交易请求,完成对数字图像版权的购买。该阶段需要将交易发起方、收款方和金额作为参数输入,以触发自动结算。首先,从状态数据库中获取交易双方的账户数据,并读取其账户金额。根据交易发起人传入的交易金额修改账户金额。从发起交易的机构账户中扣除该金额,并将该金额转入正在交易资源版权所有方的账户金额。金额结算完成后,需要将参与结算的交易双方账户重新进行写操作,同时请求方会获得标识该图像资源的唯一ID。自动结算的完成意味着交易请求过程中版权转让安全交易已完成,多主体协作网络已将金额在无须第三方信任机构的情况下完成转账。区块链网络环境与智能合约保障了金额交易过程的完全可信。
2.2.2 交易响应
待收到请求后,网络中管理员节点会对请求节点及响应节点进行身份认证、交易认证。管理员节点此时具有“背书节点”的功能,首先验证交易请求方、响应方的签名,如果发送请求和响应请求的节点已经通过了身份验证,则继续,否则终止交易。验证通过后,再验证交易金额是否符合交易额度(请求方账户余额不足以支付此次交易),基于当前账本状态对相应的链码进行交易执行,生成一个读写集(包含本次交易执行读取的数据以及更新的数据),但此时区块链账本状态并不会被更新。最后将请求的执行结果和背书节点自身的私钥签名一起返回给交易发起方,完成管理节点对这次请求的交易背书。
2.2.3 交易回复
交易双方在完成交易请求和响应之后,在链上的请求方被授予资源提取权。通过输入相应账户信息、资源信息完成确权和身份验证后,请求方选择下载的资源将会与版权购买返回的资源唯一标识进行对比。若相同才能成功下载。下载成功后,该资源副本将会存入请求方的本地,在本地数据库增加一条新的资源存储记录,同时区块链网络中也会产生一条新的资源交易记录;若不同则表明资源请求不到,也即是该资源还未上链,需要重新上链确权。为保证任何图像资源在共享时不出现多机构重复出售的情况,我们要求经过版权交易获取到的资源仅拥有使用权。
2.2.4 交易查询
在交易过程中交易查询是非必需的,但是它可以有效反映整个交易过程中的细节内容,比如交易时间、地点、对象、方式等。查询历史交易反映了组织对私有资源使用权的流转控制,并为每笔交易过程中的可信交易提供了数据证据。
2.2.5 交易完成
在实现版权购买、消息认证、资源获取功能后,版权交易已基本完成。该阶段主要是完成区块同步、销毁交易状态数据、清理存储空间。
溯源是版权保护的一种表现形式,通过溯源不仅可以明确权利所有者,有效打击盗版产品的侵权行为。而且可以为产品制作独一无二的溯源档案,增加用户对产品的信任度,做到来源和去向可查、权责必究。区块链公开透明、不可篡改、链式存储的特点,使之完美契合溯源需求。联盟链中的媒体机构或原创个人可以通过在区块链系统中填写图像相关信息来发起图像上链请求。区块链系统通过比较散列值来进行自我搜索查询,若未发现与要上链的图像相同或相似的图像,表明图像可以链接至区块并存储,系统将图像所属机构、图像散列特征、图像金额等图像信息组合打包为一个交易,并将该交易写入区块中;若发现与待上链图像相同或相似的图像,表明该图像不予上链,同时区块链系统会追踪该图像所有的交易记录,直至返回图像最原始的状态,即版权所有者信息。
3.1.1 实验环境设置
根据设计的数字图像版权保护方法框架展开实验。主要包括散列算法的评估实验和方法验证实验,统一在Linux环境下进行算法评估和方法验证,选用Ubuntu 18.04操作系统。两组实验的相关开发环境和工具配置如下表1示。
表1 相关开发环境和工具配置表
3.1.2 相似度检测算法的评估
本节主要对前面介绍的5种图像相似度散列算法进行性能评估,并结合具体区块链应用场景选择最合适的算法替换Hyperledger Fabric框架的SHA系列算法来进行数字图像版权保护研究。考虑到不需要做分类,笔者从不同新媒体平台爬取共计2000张不同类型的图片作为实验数据集imageTest,并对部分图像进行位置变换和添加文字标注、图像标注等再创操作,从图像特征大小、算法运算速度、算法鲁棒性(图像经修改后相似度检测算法的准确程度)、相似性误判率等维度对比评估不同图像相似度检测算法的性能情况,每次随机挑选200张图片进行试验,重复10次。
3.2.1 相似度检测算法的确定
按照实验设置进行实验得到结果如下表2示。
表2 图像相似度检测算法的整体比较结果
从上表结果看出,平均散列算法、感知散列算法和差异值散列算法这3种传统的图像相似度检测算法在图像特征尺寸、算法执行时间、算法鲁棒性、图像相似度误判率4个维度上表现良好。而区块链系统中内嵌的MD5、SHA系列散列算法具有抗碰撞性,微小的变化都会引起算法结果的巨大改变。[11]无法满足全媒体时代再创图像的版权交易和溯源需求。在图像特征大小相同的情况下,差异值散列算法的执行时间最短,而且图像内容修改后算法的鲁棒性也在上游,对图像相似度的误判率最低,可以有效识别图像之间的相似度。因此,本文选择差异值散列算法作为替换Fabric内嵌散列算法的图像相似度检测算法,将相似度计算结果大于(含)75%的图像识别为相似图像,将相似度计算结果小于75%的图像识别为不同图像。
3.2.2 方法验证
从imageTest图像数据库中选择多张任意图像作为对比实验数据集。以下图4为例,向其中添加内容性变换和结构性变换,以模拟图像的二次创作过程。再次创作后的图像如下图5(a)、(b)和图6(c)、(d),其中原始图作为要查询的图像,并与再创后的图像匹配以模拟溯源操作。
图4 原始图
图5 再创图——内容性变换
图6 再创图——结构性变换
重复进行多次图像查询实验以验证方法是否可行,结果如表3所示。
表3 3种散列算法查询结果对比
上表结果表明,MD5算法和SHA256算法不能对细微修改后的图像进行查询,而差异值散列算法可以根据原图匹配到修改后的图像,不需借助第三方可信机构对再次创作图像进行确权。根据图7显示表明,在交易成本方面,引入差异值散列算法的区块链系统对于原创图像而言没有太大影响,但其扩大版权的溯源范围,有效降低了再创数字图像链下版权登记的开销。针对版权保护过程中的计算开销,区块链系统自带的SHA256/MD5算法与移植的差异值散列算法计算时间差别不大,当交易数高于300时,差异值散列算法的移植加大Hyperledger Fabric平台密码组件的运算负载,使得对原图像的版权保护计算开销明显高于SHA256/MD5算法,而使用差异值散列算法能有效降低对再创图像版权保护的计算开销。针对版权保护过程中的网络开销,对再创图像版权保护消耗的网络资源明显高于原创图像版权保护,当原创图像版权保护交易数低于300时,使用差异值散列算法消耗的网络资源略高于使用SHA256/MD5算法,但当交易数高于300时,由于差异值散列算法简单、运算速度快的特点,其资源消耗明显低于SHA256/MD5算法。
图7 交易成本对比图
在全媒体背景下,大量数字化资源在各媒体机构、组织及自媒体个人之间进行交易和共享,其中图像资源占有较大比重。同时,在具体融合媒体资源交换的场景中,图像版权购买者往往会在后续使用中对图像进行二次创作,区块链中的哈希算法无法对二次创作的图像进行识别(无法上链),因此会导致图像重复链交易,可能会损害原图像创作者的利益,这也不利于全媒体时代下数字图像资源交易与共享生态的良性发展。针对这一问题,本文结合区块链技术与图像相似度检测算法提出一种数字图像版权保护与溯源的新方法,实验证明该方法可以有效解决同一图像的不同版本在图像资源交换过程中重复上链和交易,以及二次创作图像无法溯源的问题。
本文的工作虽然取得了一定的成果,但其研究还存在一些局限性。比如,区块链系统版权交易效率还有待提高,没能考虑媒体机构动态加入退出区块链网络对交易的影响,没有对文本、音视频等其他媒体资源在交易和共享过程中的版权保护和溯源问题进行研究和讨论。未来,我们将围绕图像相似度检测算法的优化改进进行研究,以求获得适用于其他媒体资源版权保护的效率更高、兼容性更好、鲁棒性更强的相似度检测算法。在基于区块链技术数字版权保护方案的研究基础上,我们将充分结合同态加密、零知识证明、安全多方计算等安全技术,为全媒体背景下的媒资交易和共享提供更安全的保障。