张元 梁湘沙 陆灵鹏
摘 要:大数据作为一种技术,属于事实的范畴,而隐私属于人的价值范畴。自近代科学技术的迅速发展以来,科技与价值就是对立统一的。大数据与隐私权就是科技与价值关系的典型一例。本文从大数据的特点、数据信息方式等方面来探讨大数据与隐私的对立统一关系,解析大数据如何威胁隐私。
关键词:大数据;隐私;保护
中图分类号:F713.8 文献标识码:A 文章编号:1673-2596(2016)09-0096-03
如今大数据的应用已经不局限在某个领域。一些机构使用大数据知识,从各种数据中挖掘有价值的联系。尤其是,在被掌握的数据和数据来源之间,大数据能用来减少信息的不对称性:大数据研究机构能从个人和其他代理中获得信息。
但是从个人的角度来说,隐私是维持或确保信息不对称性的能力,换句话说,个人用隐私权来限制他人窥探自己的信息。因此,大数据的初衷和隐私是潜在地或者说是根本上的对立。因此,如何处理他们之间的关系成为十分重要的问题。一般来说,大数据增加了数据的量和范围,隐私就会逐渐减少。虽然隐私有适当的界限,但是人们一般都会认为:在大数据环境下自己的隐私已经没有那么多了。
隐私有许多方面的涵义,例如,谷歌就把隐私定义为“不被他人注意或干扰的自由的状态”和“在公众关注下的自由状态”。从这种观点看,隐私似乎与监视、不想被注意以及干扰有关。
此外,应该注意的是,隐私可以被自愿地牺牲,例如,在牺牲隐私的结果所带来的利益大于隐私的牺牲的情况下,许多人还是愿意选择利益而不是隐私。不过,这种牺牲的界限或尺度是不可能被完全把握的。人们交往产生的信息可以被许多方式使用和挖掘,然而,许多使用的方式是侵害隐私的。
本文将审查对隐私问题关注的两种不同的观点。第一种,分析大数据的五个“v”的特点,利用大数据的本身性质来保护隐私。第二种,分析减少信息不对称性的不同方式:链接数据、从本地扩散到全球、相关被收集的数据、对话的推测以及其他使用数据的不同方式。因此,本文将考察隐私的概念和大数据与隐私之间的张力。
一、大数据是非对称性数据
大数据的特点为数量大(volume)、速度快(velocity)、真实性(veracity)、多样化(variety)和价值性(value)。①下面我将一一分析。
(一)数量大
一些机构组织以隐私原则为基础,仅仅最小限度地收集需要的信息的量。最小限度量的标准是基于“当满足一个特殊目的或实现一个特殊功能是没有必要时,信息是不能被使用或公开”的观点。②因此,信息的数量是评判隐私的参数。
关于个人或机构的数据量在现实的数据源或交叉数据源中是不均匀的。当对你班级的同学进行谷歌搜索,你会发现,一些人点信息都没查到,但是有些却发现有很多信息条目。与此类似,现实中任何一个机构组织,其数据量也是不均匀的,不管是脸书(Face book)、推特(Twitter)还是内部的信息。数据量的不均匀性来源于不同媒介的使用,无论是传统媒体还是新媒体。例如,企业经常发布公共关系的新闻,这些新闻不经意就暴露了关键职员的姓名和信息。又如,像推特和脸书这样的社交媒体能提供个人在做什么,在哪里,何时等信息。
数据信息量的不均匀意味着变量和检测机器的数量是不平均的。变量越多,就能构建更多的模型,例如行为的时间连续性模型。此外,如果在数据中有更多的变量,那么目标就更容易被了解和理解。使用更多变量能提供事件,个人或机构的更完整的描述。收集到个人和组织更多的数据意味着需要更多的数据分析,而分析数据又必须有更多的数据,这样才能更完整把握目标,因此,会不断增加对个人的监视或监测。假设减少了数据需求,也就能在一定程度上保护隐私。然而,更少的数据意味着我们需要描述的事物只能以更少数据进行分析,这不利于我们对事物分析推理。如果数据仅仅是几个方面的变量,那么事物的分析也仅仅是在这几个变量的基础上进行的。
(二)速度快
据统计,目前全世界大约90%的数据是在过去两年中产生的。因此,速度快这个特征对产生大量数据具有实质性的影响。数据的产生是一个连续不断的过程。例如一个顾客不满意的交易,顾客可能立刻发推特抱怨,推特就是额外产生的数据。一般来说,速度越快,产生数据的量越大。数据速度是与反馈速率和个人数据来源速率有关的。例如,在推特中,一条推特被发布,然后被无限转发。又如,利用大数据技术,企业能收集许多物联网的不同数据。不同的东西产生信息的速率是不同的。
速度的不同对隐私有什么影响?人们关注高速度的数据,会利用这些数据做片面性的决定。此外,一些信息将被更快地公开和散布。在结果被完全预测之前,信息可能被散布出去。结果,在执行限制散布数据之前,有害的数据可能早已被泄露。劳伦斯·戈斯汀和詹姆斯·霍基建议,允许个人掌控自己的数据。然而,允许个人拥有这个的控制权力会影响数据的速度和有效性。据此,追求更快的增长速度和希望控制或降低速度的数据源之间存在一个张力。由此产生的研究问题与途径有关。这些途径为了促进个人隐私数据的管理,包括人们管理自己数据的范围以及保护隐私的努力。深入研究可以探索隐私管理系统的仪表盘、智能系统和隐私保护系统,这些系统旨在帮助我们管理和控制自己的数据。
(三)多样性
多样性指的是关于个人或代理的有效数据的不同类型。被掌握的数据多样性也是隐私的一个重要参数。
数据类型的多样性能产生更多的变量,这些变量被用来分析组织或个人。讽刺的是,数据的多样性导致更多的数据需求。因为数据类型多样化,数据分析机构就能找出数据间的差异,就需要更多的数据。结果,信息之间的差异导致了更多的和不同类型的数据。
此外,数据类型能被转换。例如,有些数据是结构性的,有些确实非结构性的。一些评论家注意到,结构性数据有驱逐非结构性数据的趋势。③假设这是正确的,为了对大数据有一个基本的理解和使用,那么尝试从非结构性数据转为结构性数据是十分重要的。目前,人工智能已经把注意力放到文本中的情绪监测,所凭借的就是非结构数据的分析,以试图理解和掌握作者的整体思想。例如,运用基于机器技术的方法,通过分析文字、句子或者整个文件目录,情感能被分析出来。一些研究者尝试从非结构性数据中梳理出结构,对个人而言,这是一种错误的意图。
(四)真实性(和可靠性)
真实性指的是大数据的精确性,但是常常忽略了可靠性。例如,推特内容可以被百分之百的抓取,但是我们关系的仍然是它的可靠性。真实性的不平均和可靠性的缺乏意味着数据在质量上的不统一。因此,真实性的不平均可能导致可以被描述的推测或推断受到限制。此外,数据库的真实性和可靠性也可能影响数据使用的范围,即使很好地使用高真实性和高可靠性的数据库也一样。
隐私的另外一种定义是针对负面检测或非法泄露:“个人的数据或信息有不被政府、团体或个人非法宣称、公开调查、秘密检测或者未授权泄露自由。”④但是数据真实性或可靠性低会导致错误的推断。有一种普遍的观点认为,如果你有必须藏着的东西,那么你就心有所畏。然而,如果数据不准确或不可靠,这种观点就是有问题的。如果信息没有了真实性,每个人的信息都会被隐藏,因为被揭露信息不真实。
因此,通过数据库的文件来确保信息的真实可靠性这种方法是应该受到指责的。连续监测系统可以被用来检查数据,一判定数据的合理性和准确性。只能系统能分析数据内容,以发现是否有新出现的不正常关系和众包能被收集。
二、拼接数据
拼接数据指把通常不在一起,但放在一起就能提供价值的数据拼接在一起。例如,两个或更多未分类的项目,当把它们放在一起,能创造出新的分类。不同数据所增加的量和类型可能造成这样一种可能性,不同属性的数据会因为放在一起研究而变得有用,这样就会使隐私妥协。另外,大数据“湖”能提供相似的环境,多重相异的数据库可能在这“湖”中相互连接。随着收集数据速度地增长,隐私数据可能被抓取和更广泛的利用。
作为隐私保护的一部分,研究者可以模拟当拼接在一起会侵犯隐私的变量集。从这些模型中,数据能被检测以判定这些变量或关系量是否被执行来限制数据的使用。此外,这些模型能支持在大数据湖中不同数据库的越权使用。
三、名声检测系统及其相邻系统
梅里安姆·韦伯斯特把隐私定义为“远离陪伴或监视的状态或能力”。⑤这个定义暗示着,检测或监视是受到隐私的限制的。最近,被设置为分析网页上更广泛信息来源的系统已经能够自动监测名声。很典型地是,名声监测系统连续不断地监测网络上和其他数字资源,并收集关于个人或企业的信息。这样做,他们能找到个人所关心的名声的威胁。这些威胁可能存在于本地范围也可能在全球范围。
另外,用这样的系统捕捉到的名声数据作为个人或组织的基准是不合理的。例如,被用来监测高层管理名声的系统也很有可能被用来监测竞争对手的名声。为了这些目的和意图,具体的管理者和产品都是系统的参数。然而,造成的结果是,系统持续不断监测其他相邻组织的数据。因此,特别是在公司企业,隐私权和其他权利成为一个令人担心的问题。
四、从对话和不同形式数据中推理
为了达到一些目的,数据经常被公开。结果,隐私与这样的人相关,这些人怀着某种目的,认为信息就是用来为目的服务。例如,当推特建立时,它经常向使用者提问“你现在在干嘛”。然而,在2009年,推特把问题改变为“发生了什么”。推特是用来和朋友或者国外其他人交流的。但是,推特数据却逐渐地用来捕捉直接或间接的,隐藏在对话中的知识内容,公开推特信息,这已经与原来的目的背道而驰。
利用推特数据,研究者已经开始调查更广阔的事件或项目,包括食物中毒,政治事件,疾病传播,书的销量等等。虽然推特能作为一些参考,但是他们确实有违数据初衷。因此,我们也许会问,这些使用者的行为是否符合道德,是否侵犯了隐私。可能最好的类比是谈话,如果某些人偷听你的谈话并用这些信息去实现自己的目的,难道会没有人介意吗?
五、其他新问题
技术产生大数据,并带来了隐私问题。最近,一个纽约的参议员称可穿戴式的健康追踪器是“隐私的噩梦”。⑥同时,其他重要的大数据来源是被移动设备收集的位置信息。这样的数据能被用来跟踪个人在做什么,在哪里做什么等等。由于推特和其他数据,位置信息能被用来做其他事。例如,如果我有移动电话的位置信息,我可能用这些信息来判断哪里建设基础设施。
由于技术推动人们不断去监测有用的数据,这势必触及隐私权力的界限。例如,把摄像机安在警察局、警察车尾,相机可以实时了解交通情况。有些相机扫描执照,然后能识别并判断这辆车是不是偷的。⑦另外一个例子,黄貂鱼电话追踪器可以被军队、警察和其他人作为一种捕捉位置信息的方法,即使电话不开机使用。这些技术的使用和信息的储存成为了社会上的一种竞赛。因此,这些技术的未来很可能像技术问题一样,成为一个法律问题。
六、结论
科技是一把双刃剑。技术与价值是近代以来十分突出的问题。大数据与隐私之间的张力,本质上还是人的问题。如何在大数据时代保护好隐私权是当今重要课题。大数据本身的特点,或者说数据的本来目的,就是与隐私相互对立的。选择数据利益还是个人权利价值,在人文科学领域还是一个难题。
注 释:
{1}P. Zikopoulos et al., Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data ,McGraw-Hill, 2012,page3.
{2}HHS.gov. Minimum Necessary Requirement 【EB/OL】.www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/minimumnecessary.html.
{3}Gostin L O, Hodge J G. Personal privacy and common goods: a framework for balancing under the national health information privacy rule.[J]. Minnesota Law Review, 2002, 86(6):1439-1479,page6.
{4}Dictionary.com.【EB/OL】.http://www.dictionary.com/browse/privacy?s=t.
{5}Merriam Webster.【EB/OL】www. Merriam-webster.com/dictionary/privacy.
{6}H. Walker, “Senator Warns Fitbit IsA ‘Privacy Nightmare and Could Be‘Tracking Your Movements,” BusinessInsider, 10 Aug. 2014; www.businessinsider.com/senator-warns-fitbit-is-aprivacy-nightmare-2014-8.
{7}J. Phillips, “Smile! Your Cars onCamera: We Ride Along to Learn Whatthe Cops Know About You,” Car andDriver, Dec. 2011; www.caranddriver.com/features/smile-your-cars-oncamera-we-ride-along-to-learn-whatthe-cops-know-about-you-feature.
参考文献:
〔1〕王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712.
〔2〕冯利芳,崔文花,沈瀛,等.我知道你是“谁”——大数据拷问隐私[J].成功营销,2013(5):76-80.
〔3〕薛孚,陈红兵.大数据隐私伦理问题探究[J].自然辩证法研究,2015(2):44-48.
〔4〕李传军.大数据时代的政治现象[J].研究方法与反思,2016(03).
(责任编辑 徐阳)