李英
摘要:当下,全球数据资源呈现爆发式和多样化的急剧增长,催生了大数据(Big Data)。大数据引发的个人信息安全已全面爆发,产生的威胁、侵害和影响,已经远超越我们的范畴,信息安全与隐私泄露给我们带来了严重的困扰。该文分析了大数据带来的安全挑战及隐私保护所面临的关键方法,并指出大数据在引入安全问题的同时,也是解决隐私安全问题的有效手段。
关键词:大数据;安全;隐私;保护
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)13-0009-03
Abstracts: Nowadays,global data resources rise sharply in a projectile and diversified way,which gives rise to big data.personal information security started by big data has broken out comprehensively. The threat, aggression and impact generated by it have gone far beyond our category. Information security and privacy to divulge have brought us severeproblems.This paper analyzes the security challenges brought by large data and critical methods confrontingprivacy protection, as well as points out that big data not only introduces safety problems, butit is also the effective means to solve the problems of privacy, which brought new opportunitiesfor the development in the field of information security.
Key words: bigdata; safety; privacy; protection
大数据这一现象引发了各行各业的广泛关注[1],而其作为一种重要的战略资源,已经不同程度地渗透到每个行业领域和部门,其深度应用有助于企业的经营活动。大数据已成为一种新的经济资产类别,就像货币和黄金一样,对数据的掌控直接关系到对市场机遇的把握和巨大的经济回报。大数据资源呈现爆发式和多样化的急剧增长,其蕴含的无限开发潜能和巨大商业价值正引领各行各业智慧经济的崛起。
大数据的发展使得监视变得更容易、成本更低廉也更有用处。当我们更多的个人信息被采集和存储下来,大数据的弊端也就显现出来了。大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。我们将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为,我们的隐私和倾向受到很不良的影响。
1 大数据的来源及分析应用
1.1大数据的来源
网络的应用发展、科学研究的需要、存储器价格的下降和容量的巨大提升、计算机仿真等,使得我们收集到前所未见的庞大数据集[2],大数据的来源主要包括如下几个方面。
1)社交网络:随着社交网络不断发展,更多的数据以图作为基础模型进行表达更为自然,而且这些数据的是极其庞大的。大型和超大型社交网络的处理是手工分析方式无法完成的,在过去的二十年中,社交网络分析领域的快速发展,很大程度得益于计算机计算能力的提升和各种数据挖掘方法的发展。
2)电子商务系统的数据:电子商务用户数量和交易数量随着物流的快速发展都相当惊人。淘宝为了处理这些大规模的数据,自行开发了海量数据库系统ocean base。
1.2大数据分析应用
为了及时了解数据相应的变化,不断优化和改进,不仅仅要治标而且要治本,使同类的问题不再出现;持续监控和反馈,不断寻找能从最根本上解决问题的最优方案。我们必做的就是深入的分析数据[3],使这些数据更好的被应用。
我们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备(如图1)。例如,通过预测商品的销售量预先采取行动,对商品进行及时的调整。
1)大量的交易历史信息由商业组织积累而成,企业的各级管理人员希望从这些数据中分析出一些模式以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会。比如,美国的一位父亲,女儿只有16岁,却收到了孕妇用品商场的促销券。愤怒的父亲找到商场讨公道,没想到女儿真的怀孕了。原因是这家商场建立了一个数据模型,选了25种典型商品的消费数据,构建了怀孕预测指数,能够在很小的误差范围内,预测到顾客的孕情,从而及早抢占市场。
2)图分析和网络分析可用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域[4]。图分析和网络分析规模的增长,从几何角度看,图的节点和边都不断增长。此外,公安机关发现,犯罪分子还通过对获取信息的整合,提高其含金量卖出更高的价格。比如,A从电信服务商获得了一个人的姓名和手机号码,B通过4S店得到了同一个人的姓名和车牌号,C在医院获得了这个人的身份证号和家庭住址,那么通过信息交易或者交换,这个人的完整信息很可能就会彻底暴露给犯罪分子。而这一切,正是大数据所擅长的分析、整合、数据碰撞。
2大数据引发的安全挑战
科学技术是一把双刃剑,在被称为“大数据”的网络时代的收集和储存能力面前,未来的每一个人,在执意的搜索面前,都无所遁形,大数据所引发的安全问题同样引人注目。
大数据时代,外部数据商挖掘个人信息是不可能被屏蔽的。如今,用户所产生的实时数据均不同程度地被各社交网站开放,数据提供商很方便收集一些数据[5],涌现了一些专门从事监测数据的市场分析机构。市场分析机构之所以能以非常高的精度锁定个人,挖掘出个人信息体系,他们是通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合得出的。据市场分析机构统计,他们可以识别出95%的用户,仅通过分析4个用户曾经到过的位置点。用户隐私安全问题堪忧,就如前CEO斯科特麦·克尼利(Scott McNealy)说:“你没有隐私,忘记这事吧……”。
全球最大的电子邮件营销公司艾司隆(Epsilon),曾在2011年4月初发生了史上最严重的黑客入侵事件,引发许多主要的企业客户名单以及电子邮件地址因此外泄,这些受害企业包括了摩根大通、第一资本集团、万豪饭店、美国银行、花旗银行及电视购物网络等。
大数据对个人信息获取渠道拓宽需求引发的另一个重要问题:安全、隐私和便利性之间的冲突。消费者受惠于海量数据:更低的价格、更符合消费者需要的商品、以及从改善健康状况到社会互动顺畅等生活质量的提高。“棱镜门”事件爆发后,尴尬的奥巴马辩解道:“你不能在拥有100%安全情况下,同时拥有100%隐私和100%便利。”。总统先生说出这样的话,说明目前我们对大数据引发的安全挑战还没有效的遏阻。
3 大数据的隐私保护方法
3.1隐私保护方法之一——个人许可到让数据使用都承担责任
未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用[1],同时也确保个人免受无妄之灾。例如,一家公司出售了一项以驾驶员坐姿为特定识别符的汽车防盗技术。然后,它对收集到的信息进行了分析,预测驾驶员的注意力状态(如昏昏欲睡、醉酒以及生气),以此向周围其他驾驶员发出警报以防发生交通事故主。根据目前的隐私规范,他可能需要新一轮的告知与许可,因为这样使用信息是未经驾驶员授权的。但是如今,在数据使用者的责任承担体系下,他们就会评估预期用途的危险性。如果发现危害性很小,他们就可以着手实施预定计划并实现提高驾驶安全性的目标。
将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估(或者由他们所雇用的专家制定的评估)避免了商业机密的泄露。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。
3.2隐私保护方法之二——个人动因和预测分析
大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志[7]。简单地说,就是个人可以并应该为他们的行为而非倾向负责。在大数据时代之前,这是明显而基本的自由权利。毕竟,我们的法律体系就是这样规定的:通过评判人们过去的行为使之为其行为承担责任。然而,有了大数据,我们就能预测人的行为,有时还能十分准确。这诱使我们依据预测的行为而非实际行为对人们进行评定。
通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。例如,在对两家涉嫌操纵价格的公司进行调查时,我们完全可以借助大数据分析先作出大概判定,然后监管机构再以传统手段立案和进行调查。不过,当然不能只因为大数据分析预测它们可能犯罪,就判定其有罪。
大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来对待——当作有行为选择自由和通过自主行为被评判的人。这是从大数据推论到今天的无罪推定原则。
3.3隐私保护方法之三——击碎黑盒子,大数据算法师倔起
日前,计算机系统做出决策的方式是基于程序明确设定所需遵循的规则。这样,如果它们的决策出错(这是不可避免的),我们就可以回过头来找出计算机做出错误决策的原因。“为什么外部感应器遭遇空气湿度激增的情况时,智能飞行系统使飞机以5度的角度上升?”等。现在的计算机编码能被解码、检查,并且可以解读其决策依据——无论多么复杂,至少对于懂得如何解码的人不存在问题。
然而。有了大数据分析,这种追踪会变得愈发困难。对人们而言,进行预测分析的计算机系统往往过于复杂,根本无法理解。但当计算机按程序设置明确执行一系列指令时,情况就不一样了。例如1954年早期,在IBM将俄文译成英文的翻译程序中,人们就能轻松理解一个单词译成另一个单词的原因。但是,对于谷歌利用几十亿页的翻译数据开发出的翻译系统,当其将英文单词“light”译成“光”而不是“重量轻”时,就不可能清楚地解释如此选择的原因,毕竟这个预测分析是基于海量数据和庞大的统计计算之上的。在这些背景下,我们能看到大数据预测、运算法则和数据库有变为黑盒子不透明、不可解释、不可追踪,因而我们对其信心全无。为了防止这些情况的出现,大数据将需要被监测并保持透明度,当然还有使这两项得以实现的新型专业技术和机构。它们将为许多领域提供支持,在这些领域里社会需要检测预测结果并能够为被其错误引导的我们提供弥补方法。
大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师,即外部算法师和内部算法师!
3.4隐私保护方法之四——反数据垄断大享
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。随着我们管理上的转变[1],我们相信,大数据的不利影响将会得到控制。然则,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的大数据市场。我们必须防止21世纪数据大享的崛起,它相当于19世纪强盗大享的现代翻版,那些强盗大享曾垄断了美国的铁路、钢铁生产和电报网络。