陈 涛
“大数据”被称为21 世纪的石油,成为社会发展、产业进步、行业竞争的重要资源。 因此许多企业为了取得竞争优势,就不免对大量数据随意获取和滥用,发生不少因数据问题引发的纠纷,比如新浪诉脉脉、顺丰与菜鸟对物流数据之争、华为与微信的数据争夺、hiQLabs、LinkedIn 不正当竞争等。 而这一系列问题产生的原因在于大量数据的产权不明晰,导致无法规范各主体的行为,市场主体也没有有效的依据来规范自己的行为。 根据科斯的“公地悲剧”理论,只有产权明晰,各权利主体在法律范围内行使权利,最终才能达到该资源的最优配置和使用。 所以数据资源保护的首要任务便是对数据产权进行界定。
随着互联网、云计算、智能技术的发展,大量数据信息的产生,存储技术也不断进步。 人们日常生活中所使用的存储设备有光盘、磁盘、录音录像带、U 盘、移动硬盘,包括手机等,其容量由最初的几千字节到几兆再到几吉上百吉,存储技术的发展可见一斑。 存储技术的发展对大数据的影响主要体现在以下两个方面:首先,为大量数据的存储创造了可能性。 各种各样重要或不重要、新或旧的数据都被存储下来,这也正是许多关于大数据的研究中“被遗忘权”被不断提出的原因,海量存储的数据以及大量数据的关联性,使某项数据的删除增加了难度;其次,存储技术的发展降低了存储数据的成本,Acquisti 等学者甚至预测未来云计算技术将使得存储数据的成本变为零,这为大部分企业存储大量数据并进行计算分析提供了可能。
就目前对大数据的应用来看,大部分企业主要是通过对大量数据的研究分析,从而得出某一事物的发展或者分布规律,即主要看重大数据分析带来的预测功能,进而更加科学地安排自己的生产、销售等。 有学者认为,该数据产权应当归于企业,数据的使用效率提升,大数据的价值才能真正发挥,大数据之所以能发挥强大的预测作用,离不开一个“大”字,单个数据的价值几乎为零,只有大规模的数据分析才能体现出某项事物的趋势变化。 然而,如果将数据的产权归属于企业,又不免导致企业滥用权利,比如打车软件中普遍存在的“数据杀熟”等损害消费者利益的现象,或是个人隐私安全问题,比如在微信中与朋友聊天经常聊到某一物品,随后不久在朋友圈微信自动的广告推送中就会出现该物品的广告,虽然这一定程度上方便了人们的生活,但背后的推送原因让人细思极恐。 由此,数据的持久性和难以销毁的特性使得数据产权问题也更为复杂,至关重要的是在企业与消费者之间进行权衡。
数据资源不同于自然资源。 自然资源的利用方式较为单一,且大多数自然资源都是一次性使用的,而数据资源不同,该部分数据在某一项研究中发挥了作用,进行另一项研究时如还需该部分数据其仍可以使用。 如前所述,大量的数据得益于存储技术的发展,具备了长期存储的可能,那么数据在更长时间的存储中其利用范围及方式便具有了复杂性和不可预测性。
数据可以分为时效性数据和非时效性数据,顾名思义,时效性数据只在特定的时间范围内有效,超过该时间范围其再次被利用的概率微乎其微。 然而非时效性数据在很长的时间内甚至永久都具有利用和创造价值的能力。 而数据的创建者或者存储者对这些非时效性数据未来的应用场景无法预知,一些可能会利用该部分数据进行具有社会危害性的测试。 出于对未知风险的谨慎,数据创建者对数据隐私分享的态度会变得更为消极,尤其是当其考虑到不久之后他们将无法获取分享利益之时。
毫无疑问,因单纯的个人行为产生的相关数据属于个人(此处的个人包括自然人、法人,非法人组织)。 政府及其职能部门以及依法行使行政职权的组织在其管理或提供公共服务过程中制作、获得或拥有的数据产权应属于政府。 这两类数据的产权容易界定,数据产权界定的疑难之处在于基于平台产生的数据产权应归属于谁,通常这类数据是个人基于某一平台的行为而产生的,比如我们在淘宝上的购物清单以及浏览记录等。 关于这些数据的归属,传统的产权界定思路,如事前研究①“事前研究”方法,假定纠纷发生后通过效率论证来重新确定各个权利束的顺位高下。、事后研究②“事后研究”方法,依既定财产权类型和规范来解决纠纷。等,都无法解决这一问题。
如果将该类数据产权归属于个人,那么个人对该数据资源享有绝对权,平台负有不侵犯他人数据的义务。 如果平台或者其他主体想使用该数据,必须向个人申请或者购买数据的使用权,双方作为平等的民事主体可以就交易方式、数据使用、利益分配、违约等问题进行协商。 如果平台违反法律或者双方的约定,个人必要时可寻求法律的帮助。 另外,由于数据形成于平台,用户仅仅是获得了数据的产权,所以在用户将数据的使用权授予其他平台时,数据形成平台有权参与利益的分配。
但是,这样将数据产权分配给个人存在以下几点问题:第一,个人手中掌握的往往是单条的数据信息,数据资源真正的价值是基于海量的数据分析而实现的,所以单条的数据信息在个人手中的价值微乎其微,如果平台基于各种原因如要价太高等放弃了对该数据的购买,导致数据的价值无法被挖掘,这会极大地制约大数据产业的发展。 第二,平台使用该部分数据的成本和难度太高,平台利用数据资源进行分析测试,往往需要大量的数据信息,如果每一项信息都要与用户进行协商获取使用权,工作量过于庞大,不符合经济和效率的原则。 第三,数据形成于平台,平台自然有所存储,如果平台未经用户同意擅自使用数据信息,最后公布结果,从该结果中用户很难发现自己的数据产权受到了侵害,更难谈维权了。
科斯定理中关于资源配置的经济分析主要是将交易的成本分为零和大于零两种情形进行的。 首先,数据资源的交易成本为零基本是不可能的,所以科斯定理中等于零的情形不用讨论。 那么,在数据资源交易成本大于零的情况下,就必须寻找数据产权配置的最佳方案,只有如此在交易成本大于零的情况下数据资源的配置才能达到最优。 单纯基于这方面考虑的话,无疑将数据产权配置给平台是最优的,因为在平台和用户之间,平台是“能够最具生产性地使用权利并且有激励他们这样使用的动力的人”。 将数据产权归属于平台,在零交易成本的情况下平台利用该部分数据资源进行大数据的整合分析,有利于更深层次的挖掘,促进大数据在现代社会中的应用与发展。 但是,将数据产权配置给平台,也会引发一系列问题:第一,利益分配问题。 个人基于数据平台形成的数据信息,虽然权属归于平台,但数据的形成离不开用户的使用,用户在数据创建中也发挥着重要作用,那么在今后该部分数据创造更多价值时用户是否可以参与分配?如果参与分配,庞大的用户群体参加利益分配又是一项庞大的工程;如果用户不参与分配,则该部分数据被整合开发后的利益全都归属于平台,此时,用户对于该部分数据资源被利用的关注度会下降,那么平台在宽松的监督环境下,不免会发生侵犯个人数据的情形,导致一系列数据安全问题。 第二,当用户的个人数据信息遭受侵权后,用户能否及时发现并采取有效措施呢? 在我们当前的生活中个人数据泄露的情况不在少数,但是实际付诸行动维权的却很少,原因不外乎两点,无法得知自己的信息被谁泄露和自己的利益未遭受重大影响,此时由于维权成本高或者维权赔偿低,很多人嫌麻烦并不会采取行动。 有学者提出通过用户联合行动的方式来解决这个问题。 这种方式明显存在很多漏洞,比如联合群体的寻找、由谁牵头等问题,并不是所有平台都像腾讯、淘宝等一样几乎全民使用,存在大量平台,其使用的群体很小,联合行动的群体就很难寻找与组织,即使找到了合适的群体,协调沟通又是一项难题。 同时,在集体行动中个人的作用对结果的影响很小,就不免有很多用户会“搭便车”,最终各种问题导致行动无法进行下去。 第三,在生活中,平台网通常将提供服务与获取用户信息捆绑,即如果用户不同意则无法享受平台所提供的服务,比如在安装大多数App 时,程序往往会要求用户同意后台接入通讯录、同意打开摄像头录音机等,另外还需接受平台的“使用须知”,如果用户不选择接受,就无法使用该App,导致用户往往会忽略“使用须知”的内容,即使知道了涉及用户数据的条款,也不会因此放弃对平台的使用,这样平台成了用户在平台上所形成数据的唯一拥有者。 如果用户选择接受“使用须知”,平台则可以根据用户在平台记录的相关信息,进行分析提供精准服务,比如淘宝会根据用户的浏览记录为用户提供相关的商品信息。如此在某种程度上方便了用户的生活,但用户在平台的数据信息被平台无限制地窥探和利用,数据使用的范围不断扩大,容易造成对数据的滥用。 到时候,用户数据逐步变成人人可取的东西,用户隐私等权利无从保障。
由上述分析可以看出,单纯地将数据产权配置给用户或平台都不能优化资源配置,尤其是将数据产权配置给平台,最终会导致个人权利受到严重侵害。 有学者提出将该类数据资源由平台和用户共享。 从合理性方面来讲,用户使用平台形成相关数据,用户提供了操作行为,而平台对该部分数据提供了人力物力,以及相关的整合和存储工作,理应享有一定的权利。 因此将数据由平台和用户共享有一定的合理性。 对于具体的操作方面该学者认为在这种共享产权的框架内,平台征得用户同意后,可以将交易数据和姓名、身份证号、性别、家庭地址等个人信息进行配对,进行下一步的开发利用。 按照做法有两个问题:一是产权共享仅为存在于名义上。 真正的产权共享是指除所有权转让外,产权的享有者可自由行使自己对该标的物的权利。 平台拥有数据的产权无疑主要是想掌握数据的开发利用权,如果平台利用交易数据还要征得用户同意,那么与将数据产权归于个人并无太大区别,原本存在的问题也没有解决。 二是用户的权利一旦被侵害,用户无法查知,一般也不会主张维权,此处不再赘述。
从前文的分析可以看出,无论是将数据产权配置给个人还是将数据产权配置给平台,又或者由平台和用户共享,都避免不了关于用户维权、企业成本、隐私侵权等方面的问题。那么是否可以引入第三方参与其中,来规避或者解决这一问题。 关于第三方,国家(政府)无疑是最好的选择,对外国家享有数据主权,对内国家对全国数据的把控无疑是最全的,尤其是在个人信息方面。 此外,在技术、权威层面,国家都是最好的选择。
另外便是关于数据资源的保护。 数据资源的特殊性在于数据的复合属性,不仅包含人身属性,还具有财产属性。大数据在当今社会发挥着重要作用,如果过于限制数据资源的使用将有碍社会、经济等方面的进步,如果对于数据资源的使用过于宽松,又会引发一系列侵犯隐私权、侵犯公民个人信息等问题。 所以很多学者认为,对于数据资源的保护要把握一个“度”,然而这个“度”是很难把握的,并且随着社会的发展以及大数据收集、分析技术的不断进步,这个“度”又得随之做出调整。 要把握一个飘忽不定的“度”,不如将数据资源的各项权利进行分解由不同的权利主体来把握。 比如,将数据管理权归国家,涉及个人的单项数据归于个人,企业在某种情况下享有使用权。
具体操作如下:大量的涉及个人信息和隐私的数据由国家数据安全部门或者国家统计局统一掌控。 对于利用原始数据加工分析形成的数据成果由企业掌握,相关企业若想利用原始数据进行分析,应向国家相关部门提交申请,国家相关部门通过申请将相关原始数据进行个人信息的脱敏处理(经过脱敏处理后,相关个人数据将无法与具体的个人对应),交给企业使用,并设置一定的使用期限和适用范围。 对于根据使用原始数据形成的具有知识产权性质的研究成果可以得到相关知识产权方面的保护。
在利益的分配方面,个人实际无法参与分配,因为单个数据的价值基本为零。 那么国家是否有权参与利益分配呢?企业在向国家相关部门申请数据使用权时应当缴纳一定的费用,这部分费用可建立专项资金应用于国家对数据的管理方面。 另外,国家不再参与利益分配,因为企业利用数据的目的是营利,营利之后会缴纳相关税费,自然已经进入了利润分配的行列,无须再次进行利益分配。 而国家只是管理者,既不是数据的产生者,也不是利益开发者,参与利益分配并不妥。 最后关于维权的问题,国家对数据的处理技术以及权威性具有天然的优势,企业不敢放肆利用数据进行侵权,如果企业进行了侵权行为,国家便是最为强大的维权者。 如此一来既不会影响大数据的发展应用,也避免了企业营利与个人隐私保护的冲突。