基于“数字基因”的版权追踪与监测技术浅析

2013-03-18 03:00唐晓梅
中国传媒科技 2013年15期
关键词:版权保护母本数字

文|唐晓梅

引言

互联网自诞生以来,其网络规模一直在不断快速增长。据CNNIC调查显示,截至2011年12月,我国互联网用户达5.13亿,比一年前增加12%,呈现出迅猛增长的发展趋势。互联网已经成为信息传播的主要渠道之一。特别是随着三网融合技术的不断推进,电信网、计算机网和有线电视网三大网络在业务应用上逐渐走向融合,技术上趋向一致,网络层上实现互联互通,形成无缝覆盖的多样化、多媒体化、个性化的网络体系,更进一步促使互联网成为重要的多媒体传播平台。

数字内容的传播快速、参与个体众多、传播渠道多样化,也给全球范围的版权制度带来了巨大的挑战和冲击,版权保护问题,已成为持续的国际热点问题之一。数字内容的发布与传播,涉及到版权保护以及合法用户的正常使用,数字版权管理应运而生。数字版权管理(Digital Rights Management, DRM)是一项涉及到技术、法律以及商业中各个层面的系统工程,它为数字媒体的商业运作提供了一套完整的实现手段。

目前的数字版权保护系统的实现机制主要是在操作系统级进行数字内容的保护,技术系统部署在通用的系统运行平台上,如个人计算机或移动终端,数字内容的解密和加密验证过程都是由操作系统层次上的DRM客户端来负责。这种传统的版权保护技术能够提供端到端的版权保护方案,但在信息传播范围越来越广泛、传播渠道越来越多样化、传播体系越来越趋于开放的今天,超越DRM技术的数字版权追踪与监测越来越成为新的行业热点。

数字版权追踪与监测技术现状

在数字内容追踪与监测系统中,面临的最大难题和挑战是对数字内容的高效、快速识别。传统识别技术包括水印技术和哈希转换技术等,但在某些特定应用领域,上述技术存在一定的局限性。

水印技术

数字水印技术通过一定的算法将一些标志性信息直接嵌入到多媒体内容中,但不影响原内容的价值和使用,并且不能被人的知觉系统觉察或感知,只有通过专用的检测器或阅读器才能提取。但加水印会使数字内容发生改变,且多种水印技术互相之间不兼容,追踪和监测比较困难,且目前存在于传播发环节中的大多数数字内容是没有加水印的。因此用水印技术来进行内容识别具有一定的局限性。

哈希转换技术

哈希转换技术是一种二进制文件验证技术。它对数字内容的编辑,如剪切、压缩等操作非常敏感,微小的文件变化都会导致哈希值的变化。该技术多用于数据鉴定和完整性校验中,而在传播途径多样化的现代化传播发体系中数字版权的追踪,仍有一定的局限性。

基于“数字基因”的版权保护追踪与监测技术

1.技术总体架构

通过无线局域网络来控制桥吊的动作,以模仿桥吊司机在司机室中的操纵动作。通过安装在桥吊上的摄像探头,获取现场的实时影像,发送回操控室远程遥控操作装置前的显示屏,反馈操纵动作的结果,使远程遥控操作实现可视化。

基于“数字基因”的版权保护追踪与监测技术包括以下几个核心部分:“数字基因”提取、基因母本管理、互联网内容分析,以及基因查询比对模块。技术架构如图1所示。

图1 基于“数字基因”的数字版权追踪与监测架构图

图2 网站发现过程

图3 内容获取过程

“数字基因”指能够唯一标识数字内容的特征信息,可针对文字、图片和视频内容的数字特征信息进行提取、生成基因文件并备案,利用技术系统对所提取的数字基因进行管理,同时对互联网上的数字内容使用进行监测、分析,与基因母本库中的内容进行比对,获取非法使用数字内容的证据,从而达到数字版权追踪与监测的目的。

该技术具有特征值数据量小、算法不可逆的特点。多媒体内容特别是音视频文件数据量比较大,利用基因提取模块对内容进行特征信息的提取,再将提取获得的基因数据传送到后台分析系统进行比对分析,大大降低数据传输量以及存储容量。同时,由于基因提取算法不可逆,拥有基因数据后,无法还原母本的信息,因此使用基因传输能够增强数据的安全性,大大降低母本泄漏的可能性。

2.关键技术网站发现

该模块主要通过爬虫实现,其一,可通过不断分析抓到的网页发现新的网页url链接,再抓取该新的网页用于分析,重复以上步骤以不停发现新的网页。其二,也可通过搜索关键字,发现符合关键字内容的网页url并抓取该网页网站。

网站发现过程如图2所示。

简而言之,系统能够自动根据预先设置好的规则和手段,对网站进行检索扫描,找出新出现的内容网站,如音视频网站、图片网站等。

内容获取

其中,根据不同内容类型以及传播渠道,通过采用专门的手段进行分析,可定制相应的浏览器前端,从而完成内容的下载获取。

基因提取

基因提取功能主要目的在于提取文章、图片或音视频内容的基因,生成基因文件并备案。基因提取分母本基因提取与样本基因提取。母本基因提取的原始内容源为版权拥有方发布的图文音像等数字内容;样本基因提取的原始内容源为目标网站上需要监测的相应数字内容。基因提取过程如图4所示。

由于多媒体内容特别是音视频文件一般都体积巨大,因此不适合直接传输到后台分析系统进行处理,而会利用基因提取模块对内容进行特征信息也即基因的提取,然后将基因数据发送到后台分析系统进行比对分析,从而大大降低数据传输量以及存储容量。

图4 基因提取过程

图5 基因比对分析过程

图6 监测报告产生过程

基因比对分析

基因比对分析的主要功能是接收外部的基因查询比对任务,包括文字、图片和音视频的查询比对,记录任务相关性信息,将任务中要求查询的样本基因与母本数据库中所有母本基因做对比,发现匹配度高的母本基因,然后根据该母本基因录入时附带的相关信息辨别该母本基因的内容,最后将按照系统规定的协议生成查询比对结果返回给监测管理系统,同时记录并备案。基因比对分析过程如图5所示.

监测报告

监测结果将由系统自动分析统计并以图表的方式通过网页展现给系统使用者,系统使用者可以通过制定一些规则对监测结果进行筛选,获取自己关心的信息并生成报表打印出来,从而生成监测报告。监测报告产生过程如图6所示.

监测结果数据挖掘功能根据监测结果管理员定义的数据规则,对监测结果数据进行数据挖掘,分析、统计和汇总以后返回满足管理员需求的数据内容。

通过对监测报告的数据分析,可以有效计算出,盗版行为对版权拥有方的危害以及所造成的负面影响,通过系统平台发送下架通知等版权保护行为的实施,可以有效保障版权拥有方的利益不受侵害,或将危害减小到最小程度,从而实现对版权拥有方媒体资产进行有效的版权保护,保障资产增值的效益最大化;同时对版权拥有方媒体资产进行有效的监测,为互联网新闻监管及影响力评估等业务提供有力支撑。

监测结果数据挖掘

监测结果数据挖掘功能根据监测结果管理员定义的数据规则,对监测结果数据进行数据挖掘,分析、统计和汇总以后返回满足管理员需求的数据内容。

结束语

“数字基因”技术是一种先进的数字内容识别技术,基于该技术的数字版权追踪与监测相关技术系统已经达到了成熟实用阶段,随着我国文化产业国际化趋势越来越明确,该技术必将在未来发挥更大的作用。■

猜你喜欢
版权保护母本数字
图书出版版权保护的困境与出路思考
中文科技期刊版权保护存在的问题与解决策略
不同播期对中油杂2号母本生长发育和农艺性状的影响
答数字
当前传统媒体版权保护的难点及对策
母本不同种植密度对制种饲用甜高粱大马力效益的影响
简述杂交玉米制种应掌握的技术要点
数字看G20
成双成对
美、德两国数据库版权保护的法律模式及对图书馆的影响