蔡国华 肖碧松
摘 要: 本文基于区块链技术,通过探索大数据、搜索、人工智能等技术与区块链技术的融合,将区块链技术应用于媒体版权保护领域,对媒体作品进行版权登记、确权、监测、维权,力求解决当今媒体作品版权保护的难题,为创作者提供便捷、有效的版权综合服务。
关键词: 区块链;大数据;搜索;版权保护;新闻作品
1、引言
今天的互联网像公路、电力一样已经成为人们生活的必需品,也成为商业活动的重要载体。尽管信息传递效率已经很高,但媒体版权问题始终未得到有效解决。区块链是一种具备去中心化、时间戳记录、不可篡改和智能合约等特点的优秀技术,近些年来受到广泛关注。该技术在保存、处理、追溯电子数据领域具有天然优势,同时又是分布式账本,数据上链后就能自动实现确权,并支持多节点参与见证。基于以上特点,我们使用区块链技术用于搭建媒体版权保护服务平台。
2、媒体版权保护面临的难题
互联网上的媒体作品版权问题由来已久,当今新媒体行业发展迅速,传统媒体机构维权意识不断提高,知识产权、版权保护的需求越来越清晰和迫切但是,目前媒体版权保护从管理到保护方面还面临着诸多难题,主要有以下几方面:
第一、侵权发现难:当今的新媒体行业每天发布海量数据,原创新闻作品的时效性较强,各种侵权手段也越来越隐蔽,对侵权行为的监测和发现上存在困难。
第二、确权取证难:原创新闻作品时效性较强,传统取证方式对取证人员要求高,取证过程复杂,调查取证成本较大。
第三、维权诉讼难:媒体版權纠纷维权诉讼周期长,法律服务成本和时间成本投入较大。
如何有效的解决这些难题,建立完善的媒体版权保护体系,规范运作版权流通机制,促进媒体版权良性流通,这是媒体行业面临的挑战。区块链技术的出现,为解决以上问题提供了技术支撑。中国搜索基于区块链技术研发的媒体版权保护服务平台,综合运用区块链不可篡改的登记特点及版权上链服务,结合搜索技术和人工智能技术,可高效实现数据采集、特征抽取、相似度比较,可在广度、精准度和时效性上,大大提升对新闻版权的登记溯源、侵权监测、存证取证能力,更有效助力媒体版权保护。下文将主要从技术角度,描述区块链技术在媒体版权保护服务平台建设中的应用。
3、媒体版权保护服务平台系统设计
3.1 总体架构设计方案
我们经过前期大量的技术调研,选择 Hyperledger Fabric 作为底层区块链框架,可以满足高吞吐量、快速确认、低能耗的需求,同时支持构建相对开放和具备隐私保护的网络,底层包括密码学、账本、账户、交易、共识等多个核心模块,通过SDK和API接□为上层应用提供基础功能服务。Fabric具备良好的保密性、可伸缩性、灵活性和可扩展性,支持不同模块组件直接拔插启用,并能适应错综复杂的各种场景。
3.1.1 区块链
我们知道“可信时间戳”,由权威机构签发,能证明数据电文在一个时间点是已经存在的、完整的、可验证的,是一种具备法律效力的电子凭证。对于原创作品的登记,区块链技术可以非常方便地把时间戳与作者信息、原创内容等元数据一起打包存储到区块链上。而且,它打破了从单点进入数据中心去进行注册登记的模式,可以实现多节点进入,方便快捷。区块链在该平台上起到版权登记,版权见证功能,通过区块链媒体版权保护平台,只需完成上传稿件、确定作者、填写相关登记信息等简单几步操作,即可进行版权登记,在线自动生成版权登记证书,并拥有区块链上唯一且可追溯定权哈希和符合《电子签名法》的时间戳。一旦在区块链完成了版权存证,即可联网查询版权登记信息,永久有效,无法篡改。中国搜索RMS系统为创作者提供一个从创作到发布,再到版权确权的全流程解决方案,作者的整个创作过程都会被智能化的保存到区块链上去,一方面简化了操作,另一方面为作者打造了一个真正的自媒体平台。很多人都会有这样的疑惑,如果A写的一篇文章被B上传到区块链,那么所谓的版权保护岂不是在保护盗版了。实际上,如果仅靠单一的注册备案功能,必然会存在这样的问题,区块链仅仅是一项技术,再强大也无法处理链外的数据信息。因此,最好的做法自然是让作者直接在链上工作,变记录单点时间戳为记录时间段,从而避免单点记录时元数据单一无法佐证的弊端。中国搜索RMS系统能够记录创作者内容创作过程中的关键信息,把单一时间戳汇成时间段,写入区块链。对于那些被盗版直接上传的数字作品,自然有了更多的可以检索验证的条件和信息。对作者撰写的作品通过密码技术手段,使用椭圆曲线密码编码学(ECC)对作品进行数字签名,同时用杂凑密码算法(比如SHA256算法)生成作品的数字指纹,加上可信的时间戳以及作者真实姓名等信息,一起写入区块链,得到其他节点的确认,从而保证数据的可信及不可篡改。
3.1.2 相似度比较算法
如何在海量数据中精确、快速找到相似作品是版权保护平台必须解决的问题。人工智能技术在图片比对上起到了至关重要的作用,为了提高算法比对的精准度,我们综合了多种算法,最后求平均值,原理如下:
1.原创作品规一化处理,特征值提取。
2.多算法计算作品特征值,并计算出相似度值,同时计算汉明距离(Hamming distance,在信息论中,两个中等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数)。如果不相同的数据位数不超过5,就说明作品很相似;如果大于10,就说明这是不同作品。
3.取所有算法相似度平均值,并与预定的阀值相比较。
4.将相似作品哈希值构成了一个64位的整数,得到指纹,存入数据库。
3.1.3 搜索与大数据
如何快速从海量作品中快带检索到相同或相似作品,是版权保护平台必须考虑的问题。如果将所有作品计算相似度一一比对,数据量非常大,会对作品检索带来了非常大的性能开销,需要很强的算力才能完成,投入成本将会很大。一次检索需要的时间跟作品量成正比,这样显然不能满足用户需求。为了解决以上问题,把所有作品按不同算法提取作品指纹,并将指纹转成汉明距离存放到分布式搜索引擎中,建立索引,新提交的作品只要通过算法提取特征值,通过特征值再从海量图片索引库中检索,就能很快发现是否为同一作品或相似作品,为侵权作品监测提供了快速检测能力。
3.1.4侵权监测
在媒体版权保护平台中,侵权监测是必不可少的重要一环,需要从浩瀚的互联网中找出侵权案例,把案例自动入库到系统中,同时快速通知作品版权所有人。我们结合网络爬虫技术、搜索大数据、分布式集群处理等技术手段实现了对媒体作品版权监测及版权保护。
网络抓取是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件。定向监控抓取的工作流程较为复杂,需要根据用户设定的网址,解析网页,特征提取,再根据特征去已有版权作品库检索,按相似度从高到底取出一定数量的作品与抓取到的作品进行相似度比对,对与版权作品库中相似度非常高的作品存入疑似侵权库,同时提示版权登记人,并重复上述过程。另外,所有被爬虫抓取的网页将会被系统存储,进行分析、过滤,并建立索引,以便之后的查询和检索。相对于通用网络爬虫,定向爬虫还需要解决以下几个问题:
1.对抓取目标源管理,跟据客户的需求自定义目标和种子源。
2.解析并提取更精细的特征,如图片需要根据相似度比对算法提取相应的特征值,文本需要提取文章短语及关键词特征。
3.根据提取到的特征到版权作品库中检索,借助搜索引擎能快速并粗粒度的找出相似作品。
4.对搜索结果相似度靠前的作品再进行更精确的相似度比对算法,找到疑似侵权的作品放入侵权库。
定向监测抓取目标相比全网抓取成本降低了很多,虽然减少了监控范圍,但提升了抓取的时效性和准确性,能更加精准适配用户请求,既降低了成本,又能满足用户的主要需求。
3.1.5证据保全
在网络作品版权侵权案件中,证据的收集保全是诉讼的关键。传统人工保全证据公证程序如下:申请人申请受理后,公证员与其一起进行网上查询。网上查询取证一般应在公证处的电脑上进行,公证员要对所有的电脑操作步骤、时间和进入网页的先后顺序及对出现在电脑屏幕上的网页内容的复制过程实时现场进行监督,实时打印或拍照。取证完成后,公证员依照真实合法的原则向申请人出具具有法律效力的网页证据保全公证书。通过这种方式取得证据保全效率低,成本高。
通过时间戳取证方式收集和固定的电子证据,一般情形下的效力判断有三个方面:一是电子证据必须要满足一般的证据标准,即三性标准,真实性、合法性、关联性。此外还应结合电子证据的特点,以及对案件类型等其他因素的考量,综合作出判断。首先要确保取证设备和网络环境的清洁性,这是前提条件,需要完整记录当事人键盘操作的完整的步骤和获取的内容。二是固定下来证据内容的真实性、完整性和未篡改性。这一点主要检查互联网连接的真实性,确认当事人连接到的目标页面网络的真实性,进而确定所固化的证据内容的真实性。这两个环节结合起来,对于法院认定这个界面呈现出来内容的真实性有极大的帮助。三是可信时间戳文件的验证,确保未篡改性。在满足以上三个标准,且没有相反证据足以反驳的情形下,这些电子证据可以被法院采信。
与简单的页面截图、时间戳取证方式收集和固定的电子证据手段相比,区块链的证信和可靠性是显而易见的,但是涉及到版权,有人质疑区块链技术是否被认可。对此,可以从两个方面给予明确的回答:
工信部在2016年10月发布的《中国区块链技术和应用发展白皮书》中,专门描述了区块链技术如何用于版权保护,明确了区块链技术用于版权保护在司法取证中的作用。国家层面正在积极推动区块链在版权保护方面的应用。
电子证据上区块链能高效对确认侵权案例进行取证,并全自动把侵权证据上传到互联网法院、公安部存证云、公证处等权威机构,目前不少互联网法院拥有版权区块链平台,如北京互联网法院、杭州互联网法院、江苏互联网法院等,我们只要接通任何一家互联网法院,作为联盟成员节点加入版权区块链平台,在发现侵权案例情况下,系统实现证据加密、固化、上链流程全自动化,极大简化了创作者对自身作品版权保护及维权的过程。
3.1.6司法服务
在司法信息化的浪潮正在席卷全国之时,版权线上调解是先进信息技术与司法深度融合的又一代表性成果。它将为内容创业者提供人性化、集约化的纠纷处理途径,并且为文创产业的发展创造良好的生态环境。区块链基于数学原理能有效解决版权交易过程中的所有权确认问题,对版权交换活动的记录、传输、存储结果都是可信的。所有涉及版权的使用和交易环节,区块链都可以记录下使用和交易痕迹,并且可以看到并追溯它们的全过程,直至最源头的版权痕迹。更主要的是,区块链所记录的版权信息是不可逆且不可篡改的。公开、透明、可追溯、无法篡改等特点,保证了信息的真实可信,辅以简单易用的查询工具,版权确权就会变得非常简单。将原创作品版权、交易、证据等关键要素都直接上传到互联网法院、公证处等国家认可的权威机构区块链平台,相关证据调取通过平台一键生成并验证,绝大部分侵权案能够较快地得到调解,当事人和调解员足不出户就可以完成调解工作。在调解成功后,经当事人申请可由法院出具具有强制执行力的司法确认文书,保障调解结果得到执行。
3.1.7联盟会员服务
媒体版权保护服务平台在对联盟成员作品版权统一管理、制定版权合作规则、组织共同议价、支持成员单位维权等方面扮演重要角色,能够帮助成员单位按照现行法律规定,进行有效的版权保护。同时,秉持先取得授权再使用的原则,媒体版权保护服务平台为原创作品需求者合法取得作品使用授权,构建公平便捷的版权交易渠道,营造健康的新闻作品版权交易秩序提供方便通道。
4、小结
中国搜索基于区块链技术研发的媒体版权保护服务平台,综合运用区块链不可篡改的登记特点及版权上链服务,结合搜索技术和人工智能技术,可高效实现数据采集、特征抽取、相似度比较,可在广度、精准度和时效性上,大大提升对新闻版权的登记溯源、侵权监测、存证取证能力,实现版权存证、监测、取证、司法、纠纷全线上一体化服务,更有效助力媒体版权保护。
参考文献
[1]fengbingchun,图像相似度计算之哈希值方法OpenCV实现,2014年12月25日
[2]Print_lin,图片相似度比对算法,2018年7月15日
[3]陶辉,区块链开源实现hyperledger fabric架构详解,2018年5月26日
[4]朱志文,如何将区块链技术用于版权保护,2018年2月15日