尹妙英
(对外经济贸易大学,北京 100029)
数据的爆发式增长和社会化趋势是导致大数据安全的本质原因,从1980年阿尔文·托夫勒提出“大数据”概念到2009年,大数据已成为炙手可热的话题,截至2013年,大数据分析已成为当前和未来研究的重要方向[1]。大数据指的是无法用常规技术或工具对其进行处理、管理、分析和服务的大数据集合,是海量数据和计算机的完美结合[2]。大数据解决了海量数据收存、管理、计算、分析、应用的问题[3]。企业、政府和科学研究群体促进生成公众数据集和数据共享[4]。这些数据包括文本数据(即结构化数据、半结构化数据和非结构化数据)、多媒体数据(如视频数据、图片数据、音频数据)及多平台数据(如通信、社交媒体网站、传感器网络、网络物理系统和物联网)[5]。Dobre在2014年报道,全世界每天大约产生2.5亿亿字节的数据,其中90%的数据是非结构化的[6]。Gantz曾推断到2020年,将产生、模仿和消费超过40万亿千兆字节的数据[7]。与传统数据相比,大数据含有大量的非结构数据且需要更多的实时分析。大数据的出现及发展促进了经济的发展,提高了人们的生活水平,同时也带来了新的挑战。本文就大数据的应用领域、发展趋势、安全问题和挑战进行分析和展望。
2016-06,国务院发布《关于促进和规范健康医疗大数据应用发展的指导意见》,该文件指出健康和医疗大数据是国家战略资源,大数据的改革可以提高医疗效率,推进医疗保健的深刻变革[8]。随着国家政策的支持,我国的医疗健康大数据已涵盖个性化健康管理和保障、医疗服务、医疗机构、食品安全等多方面数据集合。例如通过集合健康数据、生命体征的指标,形成个体化数据库和电子健康档案,并通过电子设备,随时监控血压、心率等生命体征指标,进行健康管理及疾病提示[9]。另外随着个性化数据库的共享,将提高疾病诊断的快速定位以及个体药品不良反应等反复检查。
金融行业在大数据应用方面具有天然优势,金融企业积累了大量高价值的数据[10];金融行业资金雄厚,可以吸引到大数据技术的高端人才,也有能力采用大数据的最新技术[11]。银行和金融服务公司利用大数据分析来区分欺诈行为和合法商业交易[12]。通过应用分析和机器学习,他们能够根据客户的历史数据检测其信用情况,以辨别其是否存在欺诈行为。如发现客户有欺诈行为记录,系统将建议立即采取行动,比如阻止违规交易等[13]。同时还可以根据数据集定义将客户分成不同的客户群,这些数据集可能包括客户人口统计数据、日常交易以及外部数据等。然后根据客户的细分市场,找出更适合他们的促销和营销活动。另外还可以进行精细化营销以及风险评估等。
电信行业拥有庞大的数据资源。工信部统计数据显示,2016年我国电话用户高达15.3亿户。手机用户每天产生庞大的话单记录、信令数据、上网日志等数据。如此大规模的用户导致运营商每天搜集的数据可达PB级[14]。目前大数据在电信方面的应用主要包括客户关系的管理、网络管理、优化和企业运营管理[15],例如提升网络质量和网络利用率,引导营销方向等。
大数据与传统数据相比主要差异概括为:数据量大,数据种类繁多,处理速度快,价值密度低。而大数据与传统数据相比优势为以下几方面。
传统数据需要通过人工获取数据,且需要人工输入数据,该操作会增加工作量,浪费时间且不能够保证准确性。而大数据是直接通过仪器收集数据,减少工作量。例如交通数据,没有电子记录仪之前需要人工去记录某个路段是否拥堵、拥堵时间、拥堵距离等,从而进行预测,但是突发状况、交通事故没办法预测。而现在通过仪器记录数据,不仅能够实时记录路况,而且还能进行预测接下来时间哪些路段拥挤、哪些路段畅通,方便人们进行路线选择。
传统数据的数据生成是为了某个目的而进行数据收集分析,而大数据是先收集记录所有数据信息,而后为了某个目的对大数据进行数据价值挖掘,并且所收集的数据信息可以用于各个目的分析,而不用为了目的再去收集数据信息,即大数据的可挖掘性强。例如淘宝数据,通过用户购买行为判断用户现状,对于孕妇,可根据前几次购买记录判断是否怀孕以及怀孕周期,从而根据不同周期推荐不同商品;另外商家还可以根据销售记录判断是否热销,是否补货,不同季节销售不同商品等等。
Apache Hadoop、Spark等开源应用程序已经开始主导大数据领域,且这种趋势将持续下去[16]。调查发现,截止2018年底,预计将有60%的企业运行Hadoop,且其使用量每年增长32.9%左右[17]。
2017年,通过对2 800名从事商业智能工作的专业人士调查预测发现,数据可视化和数据挖掘将成为一个重要趋势。数据挖掘包括对数据及其之间关联分析以及数据的展现方式[18]。因此,可视化模型作为数据转化为可视化方式将成为一种趋势。另外许多企业研究“历史”大数据预测未来行为,同时目前最新的研究也为预测行为提供更多的价值,为企业发展方向以及定位提供有利支持。通过数据分析可以应用于互联网中,例如提高零售、重塑医疗等。
机器学习是计算机的一种培训过程,目前用于各种活动,比如实时广告、模式识别、欺诈检测和医疗保健等。未来,它将变得更智能、更快、更高效。广告公司的业务发展总监Ronald Van Loon表示:“数字业务现在需要走向自动化”。机器学习算法从大量结构化和非结构化数据中学习,例如文本、图像、视频、声音、肢体语言和面部表情,为机器开启了一个新的维度,从医疗保健系统到视频游戏和自动驾驶汽车,各种应用程序层出不穷[19]。另外机器学习还可以应用于教育行业、医疗保健、人工智能等。
随着社会信息化和网络化的快速发展,数据呈爆炸式增长,大数据时代已经全面开启。大数据时代机遇和挑战并存,其引起的安全问题同样引人深思。大数据面临的安全问题主要体现在以下几个方面。
事实证明,大数据如果未被妥善处理,就会泄露用户隐私。网络犯罪分子可以通过大数据分析,预测用户的行为和状态[20]。目前数据的收集、存储、管理、使用均不规范,用户无法确定自己隐私信息的用途,且无法确定自己的隐私是否泄露,因此保护用户隐私是大数据安全首要解决问题[21]。同时大数据运营过程中,可能会产生假数据。为了故意降低大数据分析的质量,网络犯罪分子可以伪造数据并将其“倾入”到用户的数据集中[22]。例如,制造公司使用传感器数据来检测生产过程中的故障,网络罪犯就会侵入系统,让传感器显示虚假的结果,比如错误的温度。这样,用户就不会收到预警信号,错过了挽救严重损害问题的机会。
数据来源或者数据的历史记录,使大数据安全变得更加复杂。因为大数据是一个巨大元数据的集合,它包含每一个数据项的信息。目前,数据来源是一个大问题[23]。从安全的角度来看,这是至关重要的,因为未经授权的更改源数据可能会产生错误的数据集,这将为收集所需的信息增加难度。同时无法跟踪的数据源可能是查找安全漏洞和虚假数据生成案例根源的巨大障碍。
大数据安全审计有助于发现自身的安全漏洞,但很少有企业去做大数据安全审计[24]。因为处理大数据本身就有许多挑战和顾虑,安全审计往往会加重这些挑战。此外,缺乏时间、资源、专业人员,使得这种计安全审计更加不切实际。虽然大数据存在许多安全问题,但这并不意味着应避讳大数据,从此不再与它产生交集。我们应该做的是充分认识大数据安全问题,并尽力去战胜它,构建一个更加安全的大数据时代。
大数据的优点是毋庸置疑的,但其仍存在一些急需解决的挑战。一些是由大数据特性引起的,一些是由现有的分析模型和方法引起的,还有一些是由目前的数据处理系统局限性引起的[25]。目前对大数据挑战的关注点主要集中在如何正确理解大数据定义,如何决策生成和收集数据类型,如何保护个人隐私,以及如何确保大数据安全问题等方面。但数据的复杂性为解决这些问题增加了难度,因此了解大数据的复杂性是亟待解决的问题,是解决大数据问题的关键。大数据带来了许多挑战和变化,只有不断追踪和适应变化,及时做出调整,才能处于不败之地。