徐高阳
很难想象“大数据”这个词进入人们的视野至今已经过了11个年头,从2008年9月《自然》杂志推出了名为“大数据”的封面专栏后,这一理念就迅速成为了互联网技术行业中的热门词汇,仿佛聊天不带大数据就说明你不是个业内人士。
不止一次在地铁、咖啡馆等公共场所看到几位身着衬衣、看似一丝不苟的中年男子在高谈阔论,其话题总是离不开项目、融资、大数据。如今大数据在应用上已经日渐成熟,它无处不在,应用于各个行业,每个企业都在积累自己的数据库并将其视若珍宝。
便利与隐私
大数据在百度百科中的定义是,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
这个定义,在很多人看来云里雾里,我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解。在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:数量大、价值大、速度快、多样性。
通俗地讲,大数据的处理就像提炼“原油”的过程。通过如今的互联网和生活中各种渠道,我们能得到海量的数据,收集数据的过程就像是“原油”的采集。得到“原油”后再通过计算机一系列的算法和工具删去没用的信息、储存有用的信息,来进行一系列的分析加工整合,就提炼出了“成品油”,得到有用的数据,而这些“成品油”则应用在我们生活中的各个领域。
在工作方面,越来越多的公司将以数据为驱动进行管理和运营,简单地说就是数据驱动创新(设计和生产环节)、数据驱动管理(人、财、物的管理)、数据驱动服务(客户服务、内部服务)。另外,传统的工作考核方式将产生较大的变化,从工作量的衡量方式逐渐转变为工作价值的衡量方式,这会从根本上改变人们的工作方式,未来工作方向将以数据为指导。
在学习方面,大数据带来了大量的新知识,对于传统职场人来说,在大数据时代需要掌握一系列关于数据分析和数据管理方面的知识,以保持自身的职场竞争力。对于学生来说,大数据更是需要重点学习的内容之一,未来大数据技术将逐渐得到落地应用,所以掌握大数据相关技术是大数据时代的必然要求。
在出行、消费以及娱乐方面,大数据将会带来更多的智能化体验,大数据会对每个人进行针对性的数据分析(用户画像),匹配出更适合的产品。越来越方便,将是大数据时代带给人们比较明显的感觉。
大数据为生活带来的便利是有目共睹的。但乐在其中的同时,大数据也无时无刻不在“监视”着我们的生活。权威专家指出,大数据从创造之始就有被泄露的风险,它已被列入2017开放式Web应用程序安全项目十大风险防范项之中。
近几年,大大小小的网上个人信息泄露事件频发,信息安全问题比以往任何一个时代都更为突出。越来越多的公民个人信息成为不法分子争抢的“香饽饽”,要么被直接出卖非法获利,要么被犯罪分子利用,从事电信诈骗、非法讨债甚至绑架勒索等犯罪活动。犯罪分子通过各种途径收集到人们被泄露出去的隐私,经过筛选分析用户特征,进行精准犯罪。例如在中国安全防范产品行业协会发布的一例案例中,上海某上市公司的总账会计陈某,被不法分子收集到的信息克隆出公司微信群骗取169万元,这就是典型的隐私泄露造成的网络诈骗案件。
隐私泄露对个人所造成的影响毕竟是有限的,但对公司和国家造成的危害则是巨大的。不法分子通过各种途径收集对方公司的某些重要信息,将信息兜售给其竞争对手从而对公司造成巨大损失,如果是重点行业的公司机密被泄露那不仅对公司来说是致命的,还会对国家安全造成威胁。例如土耳其5000万居民信息泄露事件,某黑客攻击土耳其存放国民身份信息的信息库,并将导出的信息泄露到公网上,其中包括了土耳其总体埃尔多安的详细身份信息,这对土耳其国家安全造成了严重威胁。
此外,大數据还可以做到裹挟用户思想,改变其三观,最终引导整个社会朝着某个设计好的方向发展。例如著名的Facebook用户隐私泄露案件,其中数据研究公司剑桥(Cambridge Analytica)分析利用从Facebook手中获取到的用户数据,分析用户行为和思维并向用户精准投放广告,在用户接收到的信息中加入影响总统竞选的成分,从而潜移默化地影响广大选民的思想,达到裹挟用户思想的目的,甚至间接影响美国大选。
大数据杀熟与电话营销
在使用智能手机上的App时,我们都习以为常地同意一系列条款,大多时候不会去细看其内容。里面往往隐藏了许多获取用户数据的条款,虽然没有到偷偷使用收音和摄像功能监控我们生活的地步,但已经足够通过我们在App上的登录和操作来获取一些基本的数据。
大数据杀熟就是基于这些数据的一种新时代的利润创造方式,表面上美其名曰“更好地利用价值曲线”,实质上是违背商业道德的无耻行径:“就算我允许监测我的行为收集数据,但并不代表同意你利用这些数据,如通过对类似顾客分析得出的对价格的低敏感者并暗中修改价格。”
北京市消费者协会3月27日发布“大数据杀熟”调查报告,高达56.92%的被调查者表示有过被“大数据杀熟”的经历。其中,打车、购物以及酒旅住宿都是重灾区。
2018年,一名网友就在某社区发帖称:“我已经是某电商平台的老客户了,一时心血来潮,再注册一个小号,发现一款自营的电脑椅,名称是多功能人体工学转椅,用老号是显示1399元的价格,但无货,不可以加入购物车。用小号显示是预售,可以加入购物车,并可以享受八折优惠。”
据了解,大部分电商平台都采用了“千人千面”的展现方式,打开App,每个人看到的商品都不尽相同,价格自然不好比对。平台方均表示这是利用大数据,给用户个性化定制,以便更好地服务客户。
但“千人千面”的背后,难免会出现给新用户显示低价、给老用户甚至付费用户显示高价,对经常购买、购买力强的消费者调高价格等“价格歧视”行为,间接实现“大数据杀熟”。
在出行打车领域也是如此。据测试,同时同地打车到同一目的地,滴滴信任值高的人比信任值只有初始分数的人收费要多出10余元。网约车平台每次都能给到新用户以低价、老用户以“杀熟价”,“大数据杀熟”的“精准打击”可见一斑。
根据北京消协的统计数据,被网约车平台“大数据杀熟”的用户占比37.17%,而在“前瞻经济学人App”核心用户群的调查问卷中,遭遇过“大数据杀熟”的用户中有42.86%表示被网约车平台“杀熟”。
值得注意的是,在多家媒体的采访中,面对来势汹汹的“大数据杀熟”,都有不少忠实用户表示,“杀就杀吧,反正也用着习惯了,至少不会骗你”。有的用户即便怀疑平台存在杀熟行为,也苦于缺少替代性的产品,不得不睁一只眼闭一只眼,“甘愿”挨平台的“小刀”。
电话营销也是同理,在某个网站用手机号注册之后,接下来一段时间就会不断收到电话轰炸,“买房吗?买保险吗?卖房吗?”不堪其扰。虽然用手机号注册了网站的会员,但并没有任何“默许电话骚扰”的认可成分在内。
但是这些行为很大程度上已经在潜移默化中被人们习以为常了。更有甚者,有其他我们并没有留下电话的机构或者个人打来电话,准确表明了他们对我们身份了如指掌的时候,我们也不会感到过于惊讶,而是会觉得“这又是谁把我的信息出卖了”。
2018年12月31日,创宇盾网站安全舆情监测平台发现,某Twitter账户发布了一条关于超过2亿份中国人简历数据泄露的推文。在他们发现的这个充满简历的数据库中,包括姓名、电子邮箱、电话、性别、婚姻状况、政治面貌、工作技能、工作经历等信息一应俱全,虽然在这被公布之后数据库很快被删除,但有痕迹显示其中数据已经被复制了起码12次之多。与之相关的招聘网站否认了与此次事件相关并表示“这些数据是从很多其他招聘网站上爬取的”。
而此前还有高铁的信息泄露、华住集团住宿记录的泄露、马桶MT匿名社交软件对通讯录的访问申请以及被人大点名批评的QQ音乐“对用户信息的过分要求”。有些是因为黑客的攻击,还有一些是来自应用软件貌似合理的申请。
这一切确实令人心生寒意,因为每个人的一切都仿佛赤裸裸地暴露在取得数据者面前,而我们正因为无可奈何而对此变得越发淡然。
在大数据时代,也许数据的联通将会是未来的一种趋势:通过将更多的信息公开和提供给人工智能,在未来,我们能够获得更合理、更加准确的建议,人工智能可能会比我们更加了解我们自己,而前提是,获得更多的关于我们和身边的人,甚至所有人的数据。然而,在前往这个美好未来的路上,我们无疑还需要经过更多的观念调整和监管变更。
信息泄露已成常态
据报道,马云在某次浙商大会上说,你们知道中国各省份女性的胸围尺码吗?他还卖了个关子,只暗示浙江是排最后几位的。
马云引用的是淘宝大数据。还有一次,他提问“谁知道哪个省份的比基尼卖得最好”,答案是新疆。马云调侃是因为远离大海,新疆小伙能做的最浪漫的事,就是哪天给心爱的人穿上比基尼,到海边去浪漫一下。马云的解释当然是错的。因为众所周知的原因,在一些地方人们买比基尼只有上网。
这可能只是一句玩笑,但也说明数据掌握者已经对我们了如指掌。数据泄露更多的是电脑硬盘信息的泄露,比如陈冠希因为修电脑,私密照片泄露导致娱乐圈动荡,正值事业巅峰的他宣布永久退出娱乐圈。现在随着互联网的快速发展,人类进入了大数据时代,成千上万的信息汇总编辑后,包含了我们的很多隐私,我们无时无刻不在网络聚光灯下“裸奔”。
大数据在我们的生活中早已无孔不入。今天,包括阿里这样的互联网巨头都号称自己是数据公司,数据早已成为一门大生意。随便一个网站、App,就有可能把我们的姓名、年龄、电话、职业甚至身份证号、银行账户、实时定位、家庭住址、个人喜好、社交圈子搞到,可见信息泄露已经成为常态。
随着黑客技术的发展,各种链接、各种App背后可能都暗藏木马病毒,一不小心点击进去就会造成个人隐私、重要信息泄露。
对于人口比较集中的区域,基本都有相关个人隐私信息登记表,一旦这些信息表被别有用心的人掌握,那么所有個人隐私信息都变成了不法分子谋财的工具。比如:2018年9月7日晚,江苏常州市公安局陆续接到常州大学怀德学院部分学生和院方报警:有在校学生身份信息遭到泄露,泄露信息的学生人数超过2600名。
现在很多商业网站及机构都有数据库,存储了大量用户的个人隐私。据一份安全报告显示,在被调查的网站中43.9%存在安全漏洞,一年或有55亿条个人隐私信息因这些网站漏洞而泄露,而这些漏洞的修复率竟不足一成。比如2018年10月,Facebook存在漏洞,被曝受到黑客攻击,近3000万用户隐私泄露。
个人信息被泄露的现象早已是司空见惯,买了车,推销保险的就来了;买了房,装修中介也知道了。然而为什么会有大量公民个人信息泄露?最大原因就是有利可图、有机可乘、有法难平。近年来,公民个人信息交易黑市“刚需”旺盛,贩卖公民个人信息已形成成熟的产业链。在市场经济和信息社会条件下,公民个人信息已成为一种重要的市场资源。金山软件首席安全专家李铁军曾表示,日常生活中个人信息泄露的现象屡见不鲜,甚至已呈现产业化趋势。
由此可见,在这大环境下,既有源头,又有市场,自然就滋生一批 “钻空子”的人趁机谋利,由于此类犯罪成本低,获取公民个人信息无需技术含量,通常为一些部门和行业从业人员利用职务便利窃取公民个人信息,央视“3·15”晚会就曾曝光,部分银行工作人员通过中介向外兜售客户个人信息将近3000份,造成损失达3000多万元,说明个人信息泄露已经不只是涉及隐私的问题,而是切切实实成为犯罪的“黑洞”。
除此之外,倒卖信息涉及部门已从传统的工商、银行、电信、交通、教育、卫生等部门,向房产、物业、保险、邮政、快递等行业迅速蔓延。而买卖的信息内容更是无孔不入,可以说是涉及到了个人生活中的方方面面。因此一些培训、房地产、家装等行业的专家,就会利用这些信息挖掘商业中的潜在客户,或者实施非法商业竞争;而一些不法分子则利用这些信息实施电信诈骗、网络诈骗等,甚至有些直接实施抢劫、敲诈勒索等严重暴力犯罪活动;还有的则被某些“调查公司”和“私家侦探”所利用,调查婚姻、非法讨债等活动。我们的隐私就在一次次倒卖中变成了别人创造“价值”的工具,而最终买单的只能是我们自己。
守住大数据红线
数据安全涉及每个人的切身利益,如何合理合规地收集使用大数据,如何平衡个人信息保护和产业发展,成为当下亟待解决的问题。
中国移动法律与监管事务部副总经理于莽表示: “数据的生命周期,包括了数据的产生、采集、存储、流通、应用、销毁六个环节,涉及数据来源者、数据收集者、数据控制者、数据加工者四种主体角色。”
据于莽介绍,数据来源者也称数据主体,在现实生活中,数据来源者并不单一。如在微信系统中,微信号的所有权属于微信服务商,个人仅享有使用权,因此微信号的数据来源者既包括个人和微信服务商;数据收集者即记录数据的主体,如各大平台;数据控制者即存储数据主体,不仅包括自行收集并存储数据,还包括通过数据公开、数据分享和数据交易等流通行为,从其他主体处取得数据,成为数据控制者的主体;数据加工者则指通过数据整合、数据清洗、数据脱敏、数据标准化和数据建模等手段,有效地聚集和分析数据,使数据产生新价值的主体。
相关专家指出,规范大数据首先要限制数据采集。数据采集是大数据获取个人信息的源头,所以要想防止个人信息泄露首先就要限制对于个人信息的采集,这是从根源上来解决问题。
其次应限制数据应用边界。要想防止数据泄露,一个重要的基础是要限制数据的应用边界,这需要通过管理手段和技术手段来联合完成。从技术的角度来说,边缘计算与云计算的结合应用能够在一定程度上限制数据的应用边界,同时也能够提升系统的整体响应速度,相信在5G时代边缘计算将有长足的发展。另外,当需要进行数据交换时,要严格遵循数据脱敏流程。
新浪互联网法律研究院秘书长王磊说:“数据商业化利用要有其规范,一是应充分尊重用户,保障个人信息权益;二是数据收集和使用应当遵守现有商业秩序;三是充分尊重平台在数据收集中的权益;四是建立数据追溯和共享机制;五是技术中立应当具有合理边界。”
王磊提出: “大数据时代,数据的巨大价值逐渐为人所知,这其中尤以个人数据的价值为甚。在个人数据商业化利用的链条中,数据开发者都希望通过基于个人数据而占据不可替代的优势地位。因此,数据开发者之间关于个人数据的获取和有效流转,成为个人信息保护和商业化利用面临的问题。”
北京市高级人民法院民三庭法官張玲玲表示:“在大数据时代,信息所具有的价值已日渐成为企业的核心竞争力,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,如果不加节制地允许市场主体任意使用或利用他人通过巨大投入所获取的信息,任由技术任性,将形成技术霸权,不利于产业创新和诚实经营,最终损害健康的竞争机制。因此,市场主体在使用他人所获取的信息时,仍然要遵循公认的商业道德,在相对合理的范围内使用。”
张玲玲同时称,平台方应通过用户协议或隐私协议等方式收集用户信息,明确告知收集的信息内容、目的,坚持“最少必要”原则;第三方通过开放端口Open API获取数据,应尊重开发者协议,遵守Open API合作开发模式及数据共享规则。
众所周知,数据财产是大数据时代的核心生产要素,那么大数据到底是谁的财产?应该受到什么样的保护呢?对此,中国政法大学传播法研究中心副主任朱巍认为,带有可识别性的个人信息不可以商业化使用。但经过分析和处理,用于分析用户行为、判断用户消费能力喜好、做精准广告的网络行为信息则属于大数据,具有知识产权属性,哪个公司开发就归哪个公司所有。
中国人民大学教授孟雁北建议,在大数据权属确定及行为规制方面,构建一个更宏观的整体系统化法律框架体系,以尽可能避免法律和法律之间的冲突,在调整个人信息保护、大数据的运用及数据规制上,形成一个相对有机融合的法律体系。
近年来,与大数据、个人信息保护相关的法律相继出台。2017年6月1日实施的《中华人民共和国网络安全法》,对个人信息保护提出专门要求;2018年5月1日,国家标准《信息安全技术个人信息安全规范》实施;个人信息保护法、数据安全法被列入人大立法计划。
对于大数据应用的发展,相关专家建议,规范数据采集行为;规范数据流通与共享行为;落实数据安全保障的相关制度;建立网络安全检测预警体系;完善网络安全事件预案,定期进行演练。
要强化法治思维,把握大数据应用的发展方向。在数据产业风起云涌、数据立法加快完善、执法力度不断加强的形势下,守住法律底线、把握监管规律,是落实公司战略、推动数据类业务有序发展的重要保障。
在大数据法律体系中,数据安全、个人信息保护是贯穿收集、存储、传输、处理、使用、销毁等数据全生命周期的两条红线。以数据安全、个人信息风险防控为重点,配置相应的审核力量,依照不同业务模式,制订合同范本和法律风险防范指引,才能保障大数据应用健康发展。