摘 要:数据正悄悄地成为我们一生中最宝贵的财富,根据麦肯锡全球研究院的预测2020年全世界将创造43兆GB的数据,而此后每天估计有2.3兆GB的数据被创建。这些数据被收集、存储和分析,将使得我们的生活得越来越智能化,未来将是一个完全智能化的世界。本文的主题是指出智能化的实际现状并预测它将在未来的重要角色,首先我们将定义大数据,数据分析和智能城市,其次分析它们将如何改变我们的生活方式,最后我们将討论即将出现的新技术,以及它将如何窥探我们的隐私,进而把我们变成技术的奴隶。
关键词:大数据,数据分析,智能城市,决策模型,隐私
一、引言
据国际电信联盟2017年7月的统计,当今世界104个国家中15-24岁年龄段中80%以上的人使用网络,约有8.3亿人,其中有39%的人是在中国和印度[1],而在1995年全球的网络用户比例尚不足1%。在Internet livestats网站上显示现在1秒内会产生——7751条推特,802张Instagram的照片,1284篇帖子,262万封电子邮件,互联网流量每秒达到48.3TB!数据随着我们生活方式的改变而大量产生,它让各种服务越来越智能化,让我们逐渐进入智能城市的时代。
二、大数据
1、定义
大数据理论上讲是一个尚未准确定义的术语,主要是因为其“大”的含义实在无法定义。十多年前,测量大数据的单位只是TB级,而今天已经达到PB级,EB级也将不日来临。Meta集团的分析师Doug Laney曾在2001年发表了一篇研究报告,名为“三维数据管理:控制容量、速度和类型。”他使用了“3V”作为定义大数据的三个维度:容量、速度和类型(Volume,Velocity,Variety)[2]:
容量:整个数据集所包含的信息数量和细节
速度:数据产生和变化的速率
类型:现在已不单是传统的结构化数据,如金融交易、证券交易、个人文件等,而更多是音频、视频、照片、位置信息、微博,传感器数据等非结构化的数据。
除3V之外,还有一些研究者在定义中添加了第四V:准确性(Veracity),指数据完整性和构建有效数据的能力,并且能有依据地使用它做出关键性决策。[3]
2、数据分析
数据分析是收集、存储、提取、清洗、转换、聚合和分析数据的科学,目的是发现和创造有价值的信息。数据分析能利用有价值的信息建立预测模型、提供决策依据,并不断自我优化,应用于各领域,如科学、体育、广告和公共卫生等,随企业的数据管理系统,以及其他各硬件、软件和应用程序的发展而不断进步。现大多数公司都已意识到,为了提高生产力和竞争力,不可避免地需要数据和分析。麦肯锡董事蒂姆·麦奎尔曾表示:“数据分析将决定输家和赢家之间的区别。”[4]
三、智能城市
信息和通信技术的进步使我们的生活方式发生了巨大变化,智能城市的时代也已加速到来。现在人们已利用分布在城市里的各大传感器网络获取各种数据,并使用数据的智能化满足我们的需求。以美国费城为例,在垃圾桶内安装传感器,感知桶内是否装满,进而调整垃圾桶的收集数量以节约城市成本。从这个例子中可以看到,在智能城市中,数据首先会被传送到处理中心,再用于分析和向外界提供信息,最终智能的为人们提供服务,这就是智能城市的理想样子。
四、问题:智能服务,我们将控制我们的选择还是被控制?
在介绍了大数据和智能城市之后,本文将换个角度思考未来,以分析问题的全面性。为了获得大数据智能化后的服务便利,我们将会付出什么样的代价?大数据的崛起是否意味着隐私权的衰落?接下来,本文将会说明未来的“智能”服务将会如何使用有关个人的大数据,如何麻木我们的神经,甚至控制我们的思维。
人本身就是一个大数据集,如履历资料,生物数据(脸,指纹,虹膜…),旅游数据和银行信息等。不仅政府一直在收集个人数据,一些商业公司、IT公司、甚至小型业余网站也喜欢存储用户的web数据。在大数据智能化服务的时代,跟踪记录网页浏览、社交活动、购买记录、位置定位,再将这些私人信息通过智能手机的传送以及机构的窥探结合在一起,就能挖掘出我们无法想象的信息量。
《纽约客》在1993年7月刊登了一篇漫画,一只狗坐在电脑前的椅子上,爪子在键盘上,然后对它的同伴说:“在互联网上,没有人知道你是一只狗。”但是现在,人们已经不仅能知道你是一只狗,还很了解你皮毛的颜色,你多久会去看兽医,你最喜欢的食物是什么。网页浏览其实是无法保护隐私的,例如在线跟踪技术就可以确认谁坐在电脑屏幕前,他的兴趣和爱好是什么。还有一种更先进的在线跟踪技术——设备指纹识别技术,它甚至可以在用户配置浏览器避免被跟踪的情况下仍能监视用户,收集和识别用户的私人信息。
我们手机上的应用程序可以很自然的访问我们的大多数个人信息,如联系人、日历、短信、电话记录、媒体文件、电话号码、设备id、位置等,以及获得对设备(如照相机和麦克风)的控制。我们在有意无意间就自愿给这些应用程序提供访问权限,但我们很可能根本没有意识到,只是在安装按钮上轻轻一点,我们的信息即有可能开始泄露了。即使是那些被认为可以安全地存储在webmail供应商数据库中的电子邮件其实都已被解析过,以谷歌为例,谷歌向其用户推送的广告都是基于用户电子邮件的内容。
社交媒体实际上也是数据的搜集者,很多社交平台都是人们分享生活的媒介,但在这其中,唯一暴露出来的并不只是用户身份,从深度层面上观察用户的习惯、活动、社会行为和倾向等信息,这些被收集起来的私人信息完全可以形成足够多的个人隐私资料,而这并不管用户是否愿意或知情。维基解密的主编朱利安?阿桑奇在2011年接受俄罗斯国家卫星频道采访时将脸书称为“令人震惊的间谍机器”,“在这里,我们拥有世界上最全面的有关人及其姓名、住址、彼此通信、亲属乃至人际关系的数据库,这些数据全都可被美国情报机关获得。”endprint
随着越来越多的用户上网,收集到的海量私人数据就成为了一个金矿!想象一下当你知道某人的一切,当他所有的弱点和优点都暴露出来时,他会变得多么脆弱和容易控制。而现在这些无价的数据正在被挖掘、分析和用于不同的目的或智能服务,以智能电子商务和搜索为例:
智能商务
现在市面上的各种推荐系统、客户行为分析等系统有针对性的营销将用户转变为客户。这些技术分析用户的偏好、个性、习惯等,再利用这些信息改进市场营销和广告商务。可能有人会说,更好的用户体验可以帮助人们轻松找到他们想要的东西,虽然这有好的一面,但也很可能变成更坏的事,当大量的私人数据被分析,“智能的”用于控制用户的选择,怂恿、强迫用户尽可能的去购买需要或不需要的东西,培养用户成消费狂,公司的业绩是上去了,但用户是自由的还是被操纵的?
智能搜索
谷歌强大的搜索引擎早已为我们“定制”了个性化搜索结果。假设你我同时搜索某样相同东西时,我们也可能会得到不同的搜索结果。一名工程师曾说,即使你退出了搜索,也会有57项信息被谷歌监视——从你使用的电脑到你在哪使用的浏览器——都会用来调整你的搜索结果。正如谷歌董事长埃里克?施密特所言:“人们很难观看或消费那些在某种意义上没有为他们量身定制的东西。”现在我们被一个个过滤算法包围着,它们决定何时何事对我们显示或隐藏,让我们保持对其他观点的距离,只让我们看到它们提供的“现实世界”。
《鹰眼》是2008年上映的科幻电影,里面有一台由美国国防部设计的超级计算机,能自动实时采集、结构化和非结构化整个世界的数据,几乎能控制所有电子系统和自动化设备。这已经非常适合如今大数据分析系统和智能城市的定义描述,但是在电影中,超级计算机已经有了自己的思维,可以采取自己的行动,决定谁必须死,谁可以活,我们现在是否也正朝着这个方向努力前进?
五、结束语
虽然大数据有重要价值,但它也给我们的个人安全带来重大风险,不管我们喜欢与否,我们的个人数据是我们日常生活的副产品。网上购物,车牌监拍,社交发布,这些产生的数据信息其实早已把我们的生活展现给了任何人,只不过很多时候没有被那些别有用心的人所利用。因此,我们需要考虑的是:当我们使用新的应用程序和移动设备时,我们的隐私和安全会有多少风险?下次安装东西时,权限设置是否会出卖我们的私人信息?现在数据已不再仅仅是数据,它已经是一种可以被公司、政府和个人买卖的商品!
最后,本文一方面呼吁消费者既该意识到自己的私人数据是如何被收集、利用,反过来约束他们自由的,也该意识到应该由自己决定对个人数据分享的“度”。另一方面,也希望科技公司能负责任的既让城市变得聪明,也能在实践中尊重个人隐私,并给消费者选择的自由!
总之,当民主社会中的权利和自由得到遵守和保护时,好处才会远远大于风险。智能城市虽好,但代价不能是自由。
参考文献:
[1]ICT Facts and Figures 2017.Brahima Sanou&ITU-D.2017
[2]Deja VVVu: Others Claiming Gartners Construct for Big Data. Doug Laney. 2001
[3]What is Big Data.Villanova University. 2014
[4]Making data analytics work: Three key challenges. McKinsey & Company. 2013
作者簡介
孙杨昕 北京对外经济贸易大学统计学院在职人员高级课程 研修班学员 100043endprint