叶毓睿
摘要:元宇宙的构建离不开海量数据(含AIGC)的产生和应用,如伺对数据作品尤其是AIGC的内容确权,并保护其版权成为一个值得关注的问题。本文首先分析元宇宙场景下数据及其资产的分类;探讨不同数据类型,其版权确权面临的困境,并结合案例分析应对困境可以考虑的因素。其次,评估现有技术如何能更好地帮助对元宇宙数据进行确权,如区块链可实现数据存证;分析AIGC这种特殊类别的数据如何确权,如何利用AI工具帮助确权。
关键词:元宇宙;AI;区块链;数据确权;版权保护
2023年9月,工信部、国资委等五部委发布的《元宇宙产业创新发展三年行动计划》指出:元宇宙是数字经济与实体经济融合的高级形态。行动计划的发展目标是:到2025年,元宇宙技术、产业、应用、治理等取得突破,成为数字经济重要增长极。相信未来几年,国内元宇宙产业有望加速发展。
元宇宙是永续运行的数字新世界,無论是虚拟的人、物、场还是事件,都会产生大量的数据,例如,微软飞行模拟器的虚拟世界拥有超过3.7万个机场、15亿座建筑物、2万亿棵树木,还有山脉、道路、河流等:模拟了实时交通、天气,包括准确的风速和风向、温度、湿度、降雨等;通过全面的飞行模型磨练各种飞机的飞行员技能,从轻型飞机到商用喷气式飞机;积累了超过2PB(即2048TB)的数据。元宇宙产生的海量数据中,有些数据是临时数据或者过渡数据,过后就不需要了;但有些数据可用于大数据分析,有望成为数据资产;还有些是具有收藏价值的“虚拟物”,甚至是数字资产。随着元宇宙的普及,人类对数据的依赖愈发显著,特别是涉及生成式AI(如AIGC)产生的数据,确权和版权保护更具挑战,如何应对值得重视。
一、元宇宙场景下数据权利
在当前的元宇宙场景下,数据确权和版权保护面临着许多挑战和问题。首先,不同类型的数据确权困境令人担忧。随着元宇宙的发展,用户生成的数据、元宇宙空间里的内容、智能设备数据等多种类型的数据被广泛应用,但对于这些数据的确权和归属权往往存在模糊不清的情况。用户可能无法完全掌握自己创造的数据去向和使用方式,这使得数据的确权问题变得复杂而棘手。
其次,版权保护在元宇宙中面临挑战。元宇密是一个开放的虚拟空间,用户可以自由创建和共享内容。然而,这也为版权侵权行为提供了机会。元宇宙空间里的数字内容可以轻松复制和传播,这使得版权保护变得更加困难。此外,由于元宇宙空间跨越国界,不同国家的法律和知识产权制度可能存在差异,进一步增加了版权保护的挑战。
为解决这些问题,需要采取综合性的措施。首先,建立清晰的数据确权机制是必要的,使用户能够了解和控制他们的数据在元宇宙中的使用方式。其次,加强技术手段以防止和追踪版权侵权行为,例如数字水印和智能台约等技术工具的应用。此外,国际社会应加强合作,推动制定适用于元宇宙环境的跨国版权保护标准和法律框架,以确保知识产权在元宇宙中得到有效保护。通过这些努力,我们可以为元宇宙的可持续发展和创新提供有力支持,并保护数据创造者和版权持有者的权益。
另外,物理世界中的物体(指有体物,即具有一定的物质形体)通常具有独占性、排他性、消耗性等特点。而数据不同于传统的物体,具有可复制性、非消耗性和特殊公共性等特征:而且数据要充分地流动、共享,才能产生更多的价值。数权(Data Rights)是指与数据相关的权利和法律概念,它涵盖了数据的访问、控制、所膂权和隐私等方面的权利和责任。数据的价值往往需要通过让渡用户的数权,如数据的所有权、使用权而产生;数权和物权宥很大的不同。要充分了解数据及其资产的意义和联系,我们有必要先厘清一些基础概念。
(一)数据及其资产浅析
1.数据资产
通常指企业或组织收集、存储和利用的各类结构化(如数据库)和非结构化(如文档、图片、音视频等)数据或数据集,包括交易记录、用户行为数据、社交媒体数据、地理空间数据、医疗数据等。
这些数据对于服务商可能具有一定的价值,因为它们可以提供关于组织和用户行为、偏好、交互模式等特点分析,借助大数据或人工智能等工具,帮助服务商实现精准营销,扩大营收,提高效率或发展潜在用户。
2.数字资产
通常指具有某种价值,可以交易或转移的虚拟物品或虚拟资产,包括虚拟土地、虚拟货币、数字证券、数字艺术晶或其他数字所有权证明等。数字资产的价值可能基于稀缺性、实用性、美观性或其他因素。玩家或用户可能会赠送、购买、交换或出售数字资产,以满足某种精神需求,或增强其在元宇宙中的体验、彰显身份或地位等。
随着区块链和加密货币技术的发展,越来越多的数字资产基于区块链技术,其所有权和交易变得更加透明、安全和去中心化;构建信任也更容易。不过,需要注意的是,并非所有数字资产都是基于区块链的,例如当前大量的电子书、软件许可证、数字礼品卡和优惠券等并不一定基于区块链。
基于区块链的数字资产包括同质化通证和非同质化通证。
3.同质化通证(FT)
每个同质化通证通常都是可以互换和分割的。我们尝试对数字藏品、同质化通证、非同质化通证与数字资产和数据资产的关系进行梳理。(如图1)
4.非同质化通证(NFT)
每个非同质化通证都是独一无二的,具有不可分割、不可替代的特点。非同质化通证可以映射到任何数字化的东西,如文档、声音、图像、视频、游戏中的道具、房屋等。目前,非同质化通证在艺术领域的应用最为广泛,艺术家可以将自己的作品上传到著名的非同质化通证交易平台(如OpenSea)来创建对应的非同质化通证,买家可以通过加密货币购买这些数字艺术品。全球著名的非同质化通证有加密朋克(CryptoPunk)、数字艺术品“每一天:前5000天”(Everydays: The First 5000 Days),以及加密艺术家Pak的实验性项目Merge(融合)等。
Merge(如图2)于2021年12月2日在非同质化通证交易平台Nifty Gateway公开发售,售出了价值近9200万美元的mass(数字小圆球的组合),位列全球在世艺术家作品成交金额榜单第三;而广为人知的非同质化通证是2021年3月艺术家Beeple用5000张绘画照片组合成的非同质化通证数字艺术品《每一天:前5000天》它的金额仅是6934万美元。有趣的是,Merge是一个迄今仍未完成的艺术品,随着用户的购买或接受转赠,两个大小不一的圆球会动态变化,形成一个更大的圆球,原来的圆球则会消失。Merge开创了一个全新的,用户参与并能影响产品最终结果的新艺术形态和新商业模式。
在这里,我们提到的Token,通常翻译为通证或代币,它是一种可流通的、加密的权益凭证。
从群体和个体的心理来分析,同质化通证追求的是归属感(因为共识),非同质化通证追求的是存在感(因为独特)。同质化通证达成共识的人越多,价值越高:非同质化通证越独特,让持有者感觉更能凸显不一样的身份,享受独特的权益,就越有价值。
5.数字藏品
通常指具有唯一性和收藏价值的数字作品,可以是任何数字化的东西,如文档、声音、图像、视频、游戏中的道具、房屋等,通常用于收藏和展示。它本质上是受监管的,不具备金融属性和社交属性,具有中国特色。每个数字藏品都映射着区块链上的唯一序列,具有不可篡改、不可分割、唯一标识的特点。目前中国的监管政策,不允许直接进行加密数字资产的交易,于是就出现了数字藏晶,或者其他类似的概念。
(二)数字藏品发行需要遵循的原则
数字藏品按照非同质化原本的含义,需要重点突出个人的独特性,因为这才是这类用户所追求的,例如,凸显身份标识,彰显独特个性,属于某个有一定门槛的小圈子:比如加密朋克和无聊猿,各自发行了1万个不同的头像:许多年轻人将微信头像换成它们,显得新潮、科技范;这类数字藏品每个头像全球唯一。但是目前国内有些数字藏品的发行有悖于这一内在逻辑,比如同样的1个头像或1张图片发1万份或更多,同质化很严重;新鲜感过后,就很难留存用户或吸引新用户。数字藏品的发行和运营,要遵循非同质化即独特性的原则,例如数字作品(如lP、图片、音视频、设计图纸、虚拟物品)限量发行,并提供特有的增值服务;再如,把数字藏品与线下活动结合起来,开发凭借数字藏品这一身份标识可享受的一系列衍生的线下服务或产品,让人感觉不流于俗,彰显个性。
(三)数据资产和数字资产的区别与联系
数字资产属于数据资产。数字资产是一种数字化的、可交易的资产,而数据资产则是一种信息资产,不一定具有交易价值。数字资产通常基于区块链技术创建和存储,因为区块链是全网同步并且链式追加的分布式账本,具有不可篡改、可追溯等特点。而数据资产则可以存储在中心化的数据库中。数字资产通常具有投资价值和交易价值,而数据资产的价值主要体现在其对业务的影响和决策支持上,如前所述帮助商家对用户画像,促进营销。
数据资产也可以转化为数字资产,比如企业或组织可以选择把某些有价值的数据集打包成数字藏品,在合法合规的前提下进行交易;或者为了激励用户持续贡献高质量的数据,运营方把这些用户数据制作成积分等通证形式回馈给用户,用户可以用于购买数字商城的其他产品,或者享有运营方提供的其他服务。另外,如果数据具有较高的价值,可以通过区块链技术将数据资产进一步数字化。但需要注意,并不是所有数据资产都适合完全数字化。
(四)数据确权和版权保护
数据确权,是指确认、认定数据的权利归属,明确数据的产权、使用权等各项权利的授予对象、授权范围和授权期限。确权的关键在于能够追踪确定数据的来源,从而保障数据合法流通和使用。具体做法包括:利用区块链、数字水印、元数据等技术手段,在数据生成、存储、使用等各个环节植入权属信息,形成持续的数字证据,方便对数据进行全生命周期管理。有条件的,可以建立数据产权登记系统,记录数据的创作者、所有者、使用者等权利信息,确定利益分配方案;甚至利用区块链的智能台约自动执行数据使用权限和付费结算等。
一般而言,数据作为一种无形之物,不同于传统物权可以被直接或完全支配,数权在数据的全生命周期中有不同的支配主体,所有权并不一定完全属于某个经济主体。
因此数据确权和定价比较困难,同时面临安全和隐私挑战,数据标准化远远不足,数据多元且混杂、交易困难且成本高。在国内,除了贵州大数据交易所之外,近两年各地还相继成立了北京、上海、深圳等数据交易所,相信随着深入探索和实践,数据确权、定价、利益分配、隐私保护等挑战会逐一呈现,也会逐一被解决。
图片、音頻、视频,还有观点、理论、文章、书籍或创意,经过不同的人使用、学习、吸收,甚至再创作,其间包含多个人结合新经验、新事实、新观点,或者经过再创作进行迭代,最终可能形成了一整套艺术或知识体系。这个体系(是数据,或者说是数据集),权属该如何分配?其实是一件很难界定的事情。这就需要依赖法律、合同、协议以及商业实践来解决。下面列举界定和分配数据权属的一些考虑因素:
1.知识产权法:包括版权法、专利法和商标法等,用于保护知识和创意作品的权利。根据这些法律,数据的创作者可能享有相应的权利,需要确保他们的权利得到尊重和保护。
2.反不正当竞争法:可以用于判断某些涉及数据、内容的行为是否构成不正当竞争,并要求停止侵权行为,提供民事赔偿等救济。
3.合同和协议:合同和协议通常具有法律约束力,可以用于明确数据权属和分配。各方可以签订合同或协议,规定数据的使用、共享和权利分配方式。
4.公司政策和规定:如果数据是由一家公司或组织创建或维护的,公司政策和规定可能会在数据权属和分配方面发挥关键作用。员工和合作伙伴通常需要遵守公司的政策和规定。
5.数据共享平台:一些数据共享平台和交易所可以提供一个标准化的框架,用于管理数据的确权和分配。这些平台通常会制定规则和条款,明确数据的权属和使用条件。
6.法院裁决:在争议情况下,法院可能会介入,根据适用的法律和证据来裁定数据的权属。法院裁决通常基于法律和案件的具体情况。
7.行业标准和最佳实践:一些行业可能已经建立了数据管理的标准和最佳实践,这可以帮助各方更容易地确定数据权属和分配方式。
需要注意的是,数据权属和分配问题可能因情境、数据类型和相关方而异。因此,解决这些问题时,需要根据具体情况制定合适的解决方案,并遵循适用的法律和法规。
在元宇宙的发展过程中,海量数据的产生与应用成为构建这一数字新世界不可或缺的要素。然而,伴随着数据的广泛应用,数据确权和版权保护问题也愈加突显。数据确权将面对多重挑战,包括数据标准化、数据流动性、隐私保护等。在这一过程中,区块链技术可提供可信的数据来源追踪,帮助确权数据的真实性和完整性。
版权保护是维护创新激励与社会效益平衡的关键一环。在元宇宙中,数据不再仅仅是信息,它还可以转化为数字资产,如数字艺术品、虚拟土地等,具有交易和转移的价值。因此,版权保护需要适应这一新的现实。知识产权法、反不正当竞争法等法律体系可以用于保护数字资产的权利。合同和协议可以明确数据的使用、共享和权利分配方式。公司政策和规定在数据权属和分配方面发挥关键作用。此外,行业标准和最佳实践也可以帮助各方更容易地确定数据权属和分配方式。
二、元宇宙、区块链和AI
(一)可信元宇宙离不开区块链
《元宇宙十大技术》前言里提到:通往通天塔“塔顶”(即理想的元宇宙)的道路有多条,如交互与展示(多维互联网)、区块链、游戏(有互动特征的内容创作)、数字孪生等。虽然路径不同,但未来殊途同归,将逐渐在靠近塔顶的位置相遇。例如,虚拟世界Decentraland、 SANDBOX所呈现的3D世界,有些类似沙盒类游戏,尚未融合VR/AR等沉浸感较强的交互与展示技术,但因为底层基于区块链技术,被视为可信元宇宙的早期形态之一。这些元宇宙使用区块链技术来记录和验证数字资产的所有权和交易,并通过智能台约实现自动化的规则执行和治理机制。在这些元宇宙中,用户可以创建和拥有虚拟土地、物品和角色等数字资产,并与其他用户进行交互和交易。
从长期来看,元宇宙需要借助区块链来实现不同元宇宙之间的互联互通。站在用户的角度,笔者在百度元宇宙“希壤”的身份、形象、道具,积累的数字资产在阿里元宇宙“元境”或者网易元宇宙“瑶臺”,也能使用,至少是部分能用,不至于从头再来;类似持有护照(即身份系统)、外汇(即经济系统)方便出国。这就需要有类似以太坊SBT(Soul Bound Token)等技术的支撑(如图3)。
SBT是一种与以太坊地址绑定的非可交易通证,使用SBT,可以将用户在一个元宇宙空间中获得的积分、奖励等绑定到用户DID上,作为用户数字身份的一个组成部分,实现跨空间的信任和溯源。
从近期看,区块链技术用于数据确权已经有很多成功的案例。例如,作家或艺术家等可以通过区块链平台上传其创作,打上时间戳和作者签名,实现创作的确权;医疗机构可以将患者的医疗数据上链,确保数据不被篡改;供应链企业也可使用区块链追踪产品的来源地和流转路径,防止来源造假。区块链确权的关键在于数据上链后是不可删除、不可篡改的,通过分布式记账和加密算法,可以永久保存数据产权信息。同时,区块链的时间戳功能也可以方便地证明内容的确切创作时间。下面以国内首例区块链存证案为例进行剖析。
2018年6月28日,杭州互联网法院在审理—起著作权侵权案件时,认可了第三方存证公司使用区块链技术存证的证据,这是我国司法实践中首例区块链存证案。
该案的原告杭州华泰一媒文化传媒有限公司(以下简称“华泰公司”)是一家媒体公司,其网站上发布了原创文章。被告深圳市道同科技发展有限公司(以下简称“道同公司”)在其网站上发布了涉嫌侵权的文章,该文章与华泰公司发布的文章内容、标题、图片等均相同。华泰公司向杭州互联网法院提起诉讼,要求道同公司停止侵权并赔偿损失。在庭审中,华泰公司提供了第三方存证公司存证的证据,该证据包括网页截图、源码和调用信息打包压缩文件;并对侵权网页进行了自动抓取及侵权页面的源码识别,并将该两项内容和调用日志等证据打包压缩,计算成哈希值上传到Factom区块链中。
法院经审理认为,第三方存证公司使用区块链技术存证,可以确保数据的不可篡改和可溯源,具有较高的可信度。因此,法院认可了其存证的证据,并判决道同公司停止侵权并赔偿华泰公司经济损失及合理支出。
我们可以看到,本案采信了第三方存证公司的区块链存证。即使侵权公司临时删除自己的网页想要抵赖,曾经的侵权网页仍然会留下痕迹。原告通过事先将痕迹上链,能够让证据留存。除此之外,区块链存证还能衍生出多种数据确权的方式,例如,除了证明自己是原创外,类似的创意、文案、相近风格的图片和作曲等,如果两方或多方各自原创,但通过区块链上传留有的时间戳,能够证明自己并非抄袭。
(二)满足精神需求的元宇宙离不开AIGC
《元宇宙十大技术》-书中指出,人类追求生存和发展是不变的主题。随着时代进步,人们对“美好生活”的定义也在改变——不仅仅是温饱,还渴求精神需求的满足。正如下图所示,现实世界中,受限于地域、能力、工作和经济等各种因素,人的许多本能和欲望受到限制和压抑;但每个人都想体验不一样的人生。元宇宙能够帮助人类重新定义生命,提供更低成本、更便捷的方式,部分地满足人的精神需求。
在元宇宙中,你可以云游世界,也可以与偶像见面;你可以和古今中外的圣贤对话,也可以请行业专家的数字分身来帮你答疑解惑:你可以肆意挥洒想象力,创造属于自己的空间。这些在现实中难以做到或需要花费巨资的事情,在元宇宙都变得轻松便捷。
元宇宙支持低成本虚拟旅行,实现远距离的娱乐、交流,不受时间地域限制,这有助于弥台城乡差距,实现文化教育的公平。然而,要打造一个海量、高质量的元宇宙世界,满足各种个性化需求,仅靠人力是远远不够的。不仅是不同人的精神需求极具个性化,而且同一个人可能几个月后,需求和爱好也发生了变化。传统的PGC(专业生成内容)、UGC(用户生成内容)都无法满足元宇宙对内容的需求,这就需要借助AIGC(人工智能生成内容)的力量。AIGC的效率远超人力,可以快速迭代生成定制化内容:它几乎具有无限的内容扩展潜力,能应对元宇宙海量的需求。下面举几个例子:
笔者在2023年4月,曾应邀去北京大学文化产业研究院进行主题为《元宇宙化与数字艺术》的分享,利用了New Bing(内嵌了ChatGPT的新搜索引擎)和Midjourney,花了不到2小时的时间,就做出了简版儿童绘本,此前并没有绘画的基础。
由这个案例不难推测,未来AIGC将赋能干行百业,并大幅提升内容创作的效率,刚毕业的大学生,或者切换职业赛道的人,如果拥抱AI并积极研究和实践,将很快超越行业当中具有中等技能的人。
再如,笔者有位朋友是某公司CEO,以往该公司出一份海报需要专业绘画人员一天的时间,而现在采用ChatGPT和Midjourney这些AIGC的工具,3小时能生成20张,从20张中挑选15张较高质量的,就能出海报了;如此算来,效率是以往的40-50倍。面临这个大的趋势,个人和组织只能拥抱Al;政府可以考虑UBI(全面基本收入)理念,除了提供基本的生存所需外,网络连接、Al基本工具和Al基础训练可能都得成为公共必需品。
AIGC还带来一个便利,专业绘画人员通常在已有图片的基础上进行创作或二次加工,购买原图往往价格不菲,例如某商业图片下载网站,正版高清图片通常在数百元到数干元不等。现在大家直接可以使用无需版权费(但通常需要支付AIGC工具的使用费,比如按月或按年支付),这能节省不少成本。
(三)AIGC生成内容如何主张版权
AIGC带来便利,降低成本的同时,也带来了巨大的挑战,AIGC生成的内容,如何主张版权?目前法律界,对于AI生成内容是否构成作品的认定、著作权归属在实践中认识仍有分歧,尚无定论。但这不妨碍业界進行探索和讨论,下面笔者不揣浅陋,结合自己的实践和思考进行分享,期待抛砖引玉。
对于纯粹的AIGC生成内容,萁版权属于生成内容的发起方,但可能面临来源真实性争议。如果内容中融合了用户提供的素材,如参考图像,则涉及素材的版权。若未得到授权,则存在侵权风险。一种可行的方式是在内容生成前让用户声明所提供素材的版权归属,并仅基于用户有权提供使用的素材生成内容。另外,内容生成后也应明确版权归属,如果涉及他人版权,需要标明来源。当出现争议时,可以通过持续追踪内容生成过程中的素材来源和参考关系,进而识别权利归属。
倘若仅采用提示词,无需提供参考素材,生成的内容则存在一种可能,就是他人也采用相同或相近提示词生成类似风格的数字作品,此时主张版权可能比较困难。目前,对AI生成内容的定性方面,法院均认可唯有“体现人类智力创作”的内容方能定义《著作权法》中所保护的作品。因此,使用AIGC进行创作的作者,可以考虑茌生成的作品,增加具有个人或组织风格特征,如字体、Logo,或者人工创作的素材,通过组合形式,增加“体现人类智力创作”的程度,也能避免“撞衫”和其他作者相似风格的作品。除此之外,结合前面所述区块链存证的平台,利用区块链来进行数据确权,至少能通过时间戳证明先后顺序,不失为一种可行的办法。
(四)AI如何帮助数据确权
不只是区块链能够帮助数据确权,我们还可以考虑利用AI即人工智能的手段来帮助数据确权,包括但不限于如下:
AI生成数字水印:使用AI生成包含作者、时间等信息的隐形数字水印,融入到内容中,也是一种确权的技术手段。
AI内容识别与比对:使用图像、语音、文本等识别算法,可以自动识别内容,并与已有内容库进行比对,判断是否存在抄袭或侵权。
AI特征提取:通过AI的特征提取技术,可以从数据中自动提取出具有代表性的特征,生成内容的数字指纹,用于确权和检索。
AI预训练模型:利用在大规模训练数据集上预训练的AI模型,可以判断新内容的作者风格,与某个组织或个人的创作风格是否相同或类似。
AI辅助智能台约:使用AI算法辅助区块链智能台约的编写,增加确权、访问控制、支付结算等自动化逻辑,促进数据确权和价值交换。
综上所述,元宇宙的蓬勃发展需要海量数据的产生和应用,如何在创新驱动与权益保护之间实现平衡,是元宇宙生态健康成长的关键。充分利用AI、区块链等技术实现数据确权,建立行业规范促进合理共享,并以版权法为基础构建数字资产版权保护体系,是应对元宇宙数据挑战的有效途径。我们需要深入研究元宇宙数据的特点,不断完善技术和法律手段,茌开放、共享与安全之间寻求平衡,推动元宇宙的数据生态良性循环,为构建数字中国添砖加瓦。
(作者系高端服务器系统全国重点实验室首席研究员、中国移动通信联合会元宇宙产业委副主任委员兼联席秘书长)