基于期刊论文的数字水印技术的侵权检测模型

2018-10-15 05:58韩云凤
计算机技术与发展 2018年10期
关键词:数字水印期刊论文爬虫

韩云凤,郭 峰

(北方工业大学 计算机学院,北京 100144)

0 引 言

计算机网络技术的快速发展和互联网的广泛普及,促进了数字内容。但由于互联网环境具有开放性、全球性、非集中管理等特性,在这种自由的信息网络中,论文的非法传播和使用严重侵犯了期刊论文权利人的利益,在一定程度上阻碍了期刊论文的发展。面向互联网的侵权检测的核心任务是找到盗版源,为运用法律手段打击侵权行为奠定基础。对版权所有者的权益是一种保护,在一定程度上打击侵权行为,使期刊论文版权问题得到一定程度的改善。文中从实际应用的角度,提出了一种理论与实际应用相结合的期刊论文侵权检测模型。

1 技术概述

1.1 数字水印

数字水印是用于信息安全的重要技术,将关键的版权信息嵌入在数字作品中,可以提取和鉴别版权所属,而且并不影响原作品的使用功能。数字水印技术基本上应该具有以下几方面的特点[1]:

(1)鲁棒性。

具有能抵抗攻击的鲁棒性,例如对数字作品进行裁剪、打印、旋转等,水印还会一直存在于作品中。如果去除或者破坏水印信息,将导致作品无法正常使用。

(2)安全性。

具有低误查率、难伪造、难篡改等特性。

(3)隐蔽性。

具有很好的隐蔽性,不影响原作品的正常使用。

(4)水印信息量。

嵌入的水印信息量必须能够包含作品的作者或所有者的信息,或购买者的序列号。

1.2 网络爬虫技术

网络爬虫是一个根据预设条件对互联网上的信息进行遍历的计算机程序[2]。其工作原理是:爬虫从根的URL地址开始,爬取到第一个页面并将其中的所有URL对应的页面也抽取出来,并添加到爬虫链接队列中;然后从队列中选择下一个要爬取的网页URL;重复以上过程,直到达到系统的某一终止条件为止。存储所有符合条件的网页,通过分析、过滤、建立索引,爬虫每爬取一个网页会下载欲爬取的信息到本地计算机上。在爬虫运行的整个过程中,始终要保证爬虫程序运行计算机与互联网的连接和通畅。

1.3 移动代理技术

这是一种相对独立的程序,在网络上按照某种规则去寻找计算和信息资源,并执行相应的任务,把结果返回给用户。移动代理具有自主性、移动性、跨平台性等特点,具有降低网络流量、均衡网络负载、分布式处理等优点[3]。

在网络爬虫检测机制中,需要把满足抓取条件的论文下载到本地进行检测,即把数据移动到服务器端进行检测。相对于网络爬虫检测这种机制,移动代理是把程序放到数据端进行检测[4],无需将期刊论文下载到本地进行检测,所以移动代理检测机制可以有效地降低分布式计算中的网络负载,提高通信效率,从而有效解决大型网络上的数字水印检测问题。

出于安全性的考虑,基于互联网的期刊论文侵权检测系统在水印制作方案中应该采用密码学的加密(版权拥有者注册时认证中心下发的认证证书中的公开密钥和私有密钥)体系来加强。而且系统必须具备的功能应该包括权利人注册获得CA证书、权利人对期刊论文进行权利登记、向期刊论文嵌入数字水印和对互联网上的期刊论文进行权利跟踪和检测。

2 系统设计

系统框架主要包括四个对象:版权拥有者;版权管理服务器;水印检测服务器;可疑主机(或可疑的主机范围)。

系统主要包括三个模块:期刊论文登记模块;水印嵌入模块;侵权检测模块。

将在2.3节和2.4节分析两个模型的实现机制和检测流程,旨在找到一种适合大型网络的权利跟踪和检测模型。

2.1 论文登记备案

版权拥有者首先要在版权管理服务系统上进行注册,由版权管理系统审核通过后,CA中心发放CA证书,证书中包括版权拥有者的部分个人信息和公钥与私钥(这对密钥对加入到期刊论文的版权标识符进行加密,当要证明权利时,该密钥可以正确提取出嵌在期刊论文中的水印,认证中心对密钥和版权拥有者进行认证——持有合法密钥的用户才是真正的版权拥有者[5])。

版权拥有者获得CA证书后,登录版权管理服务系统对期刊论文进行登记。登记审核通过后,由水印代理服务系统嵌入经过加密的版权标识符(水印信息)。

2.2 水印嵌入和检测

(1)水印嵌入。

版权标识符包含版权所有者姓名、论文登记号、版本号等信息。水印代理服务平台对通过登记审核的期刊论文嵌入数字水印信息的过程如图1所示。首先对水印信息进行加密,然后调用水印嵌入算法对原始论文嵌入水印信息,生成含有水印信息的论文。

(2)水印检测。

水印的检测是水印代理区别于其他代理的关键部分,也是代理工作的重点。水印代理通过自带的密钥恢复出水印。水印检测过程如图2所示。在检测过程中,根据水印算法的不同,可能需要提供原始论文,首先将原始论文和待测论文进行相似性比较,如结果满足一定条件,则认为待测论文中含有水印,采用水印提取算法提取水印的加密信息,然后利用密钥进行解密,从而得到原始水印信息。

图2 水印检测流程

2.3 基于网络爬虫的侵权检测模型

基于数字水印和网络爬虫的侵权检测模型,主要由版权管理服务器和CA认证中心组成。当期刊论文版权拥有者怀疑其论文被侵权时,委托版权管理服务单位代其对论文进行侵权检测,版权管理人员接到申请,根据用户提供的可疑URL地址,用网络爬虫探测条件检测所有的URL地址,并下载文件到本地,然后检测是否包含了版权所有者所嵌入的数字水印信息,如果检测到,查看其所在位置,如果所在地址未经过授权,则记录并生成测试报告,作为法律依据进行维权活动。

在基于数字水印和网络爬虫的侵权检测模型中,由于检测模型是把要检测的论文下载到本地,如果文件数量很大,这种方法并不适合。

2.4 移动水印代理的检测模型

数字水印和移动水印代理的检测模型如图3所示,主要由版权管理服务器、CA认证中心和水印检测服务器组成。

图3 移动水印代理检测模型

系统包括三部分:基本的代理服务器(支持移动代理运行的环境);移动代理;控制中心(控制代理的运行,根据检测结果给代理指示,并设置对检测到的侵权文件采取一定的措施)。

水印代理检测模型示意如图4所示。

模型工作过程如下:

(1)版权所有者发送检测委托申请。

当版权所有者要检测其论文是否被侵权时,可以向版权管理服务器发送一个检测委托申请,委托版权管理单位代其在互联网上检测其论文是否被侵权,版权管理管理单位根据委托对象和委托内容获取该论文所有者的密钥以及被检测论文的水印信息,通过图4中提供的检测服务接口向水印检测代理控制中心发送检测请求。

(2)控制中心产生水印代理公文包和水印代理。

控制中心根据代理知识库和请求内容制定水印代理迁移策略和指定目标主机或主机范围,控制中心把检测服务接口传递的密钥、水印信息,控制中心制定的迁移策略、目标主机和中止条件等信息封装成一个水印代理条件公文包,因为水印条件参数以公文包的形式封装在网络上传输更安全,控制中心根据水印参数产生水印代理。

图4 水印代理检测结构

(3)派遣水印代理。

将分配一个水印代理到指定主机或者主机范围。

(4)执行水印代理。

代理服务器用于代理在主机间的移动,并为其分配执行环境和服务接口。代理在代理服务器中执行时,通过移动代理通信语言通信并访问代理服务器提供的服务[6-7]。水印代理到达远程站点上与代理服务器(agent server)取得联系,代理服务器将会为水印代理创造执行环境,并执行水印代理。

(5)检测水印信息。

移动代理过滤文件系统文件找到目标论文,移动代理将提取水印。

(6)收集水印报告。

代理控制中心从网络上收集移动水印发送过来的报告,并且存入报告库,控制中心可以根据发送来的报告规则来更新知识库,为水印代理下一次更智能的迁移提供保障。

因此,在基于数字水印和移动水印代理的侵权检测模型中,是把程序移动数据端进行计算而不是把大量的数据移动到程序端进行计算,这种模型可以有效地降低分布式计算中的网络负载,提高通信效率,有效地解决大型网络上的数字水印检测问题[8-14]。

3 实验结果与分析

系统的水印嵌入部分是用C语言实现的,但是由于Java移动的跨平台性,系统的移动代理是用Java代码实现的。为了使Java对象可以方便地调用C语言的水印函数,该系统利用Java语言实现。

系统的水印嵌入和检测效果如图5所示。

图5 水印嵌入和检测效果

其水印嵌入和检测如下:

(1)水印嵌入。

其中图(a)为原始图片,通过系统的水印嵌入界面,嵌入水印后图像如图(c)所示。可以看到,用肉眼看不出原始图片和嵌入水印后图像的任何区别。因此,嵌入水印后的图像的商用价值未被破坏。

(2)水印检测。

对图(c)嵌入后的图像,根据版权所有者的密钥和嵌入算法,使用检测算法提出水印信息。提取出的水印信息界面如图(d)所示。

系统对移动水印代理侵权检测模型和网络爬虫侵权检测模型进行测试,结果如表1所示。

表1 网络爬虫和移动代理检测对比

根据以上的对比结果,该系统采用移动代理水印检测技术在大型网络中实现期刊论文侵权检测将会更加高效。

4 结束语

提出的基于数字水印代理技术的水印检测模型优势如下:水印代理机制是将可执行的程序放到远程服务器执行,从而减少了网络负载;控制中心可以创建多个代理,可以在多个机器上执行,从而提高了并行计算能力;移动水印代理不要求网络一直保持连接状态,可以异步传回检查结果。

因此,数字水印代理检测模式的分布式处理和非同步性提高了计算效率,程序移动到远程数据端进行处理的方式极大减少了网络阻塞,非常适合大型分布式互联网络中期刊论文的保护和侵权检测。

猜你喜欢
数字水印期刊论文爬虫
利用网络爬虫技术验证房地产灰犀牛之说
我国体育学领域高被引学术期刊论文特征分析
基于遗传优化的自然语言文本数字水印方法
基于Python的网络爬虫和反爬虫技术研究
目前互联网中的网络爬虫的原理和影响
基于网屏编码的数字水印技术
大数据背景下校园舆情的爬虫应用研究
数字水印技术及其在电力系统中的应用
一种基于三维小波变换的鲁棒视频水印方案
宝鸡文理学院科研论文计量分析