南阳医学高等专科学校 张 琪
大数据环境下的安全与隐私保护
南阳医学高等专科学校 张 琪
当前时期,大数据已成为互联网信息技术产业发展的大热点,人们的生产生活已经离不开手机和电脑,个人信息及隐私都存储于互联网上。为了防止信息的泄露,安全与隐私保护已成为大数据面临的两个重要问题。本文分析了解决大数据安全与隐私保护问题的关键技术。
大数据;信息安全;隐私保护
大数据对当前社会的影响已经深入到方方面面,各大互联网企业早就意识到大数据的重要性,在发展过程中收集了大量有用的数据。利用大数据的专业的处理技术提取有用的信息,这些信息有相当的价值,可用于公司下一步战略发展的指导。不过,大数据与生俱来地存在着及大的安全隐患,由于个人大量的数据存储于互联网上,如果泄漏很容易被用来分析个人的基本情况,相当于没有任何遮挡的暴露隐私。
大数据与传统的信息安全问题相比,面临的挑战性问题有以下几个。
1.1 大量个人数据的保护
大数据的存储没有得到妥善处理会对用户的隐私造成极大的损害。根据隐私的外在表现形式,可将隐私分为抽象的隐私和具体的隐私,抽象的隐私是指隐私内容是由一些数据、情报等形式所形成的,具体的隐私是指隐私的内容能够以具体形状、行为等形式表现出来。人们面临的威胁并不仅仅局限于个人隐私信息的泄漏,更在于不法分子基于大数据对个人状态和行为的预测和分析。比如,通过分析用户的所有微博、微信等信息,可以推测其生活习惯、消费能力和个人喜好等。
当前的互联网公司众多,大部分公司由于实力限制对用户数据的收集、存储、管理与使用等环节都缺乏规范,缺乏重视。用户无法确定自己的信息是否保密,是否被他人不正当利用,自己也不能控制自己的信息在不再使用时销毁掉。
1.2 大量虚假信息的排除
在这个数据爆发时代,有用信息多,无用或虚假信息也不少。很多数据收集到后如果不通过分析判断很难分辩出哪些是有用的,哪些是虚假无用的。这些数据有可能是人为刻意伪造的,想通用这些信息误导分析者,使其做出对其有利的行为。这类信息往往具有隐蔽性,混杂在其它真实数据当中。比如,淘宝的一些商品的评价,往往都是各类评价都有的,但有些商家雇人刷好评,试图让人们相信大多数人还是很看好这件商品的。这样一些买家的真实体验的评价就被当能少数人的意见而忽略。网络中的虚假信息产生的影响是不可低估的,同时这种虚假信息是很难排除的。还有一种情况是由于信息经过一断时间后原始的信息来源发生变化,造成的信息失效。这种情况能可能过数据审核发现,对无效数据进行去除或更新。
由于当前很多事务的办理都在网上,网站或者软件公司不能很好的保护用户的信息,而且当前个人自己信息的态度也不是很重视。总之,泄漏很容易,防范不可少。
2.1 软件根据提供的服务要求用户提供信息
现在大多数的手机软件都会在安装时开启一些功能来收集用户的数据。比如QQ和微信之类的社交软件会自动攻取你的联系人信息,当有联系人也使用相同的软件时,软件会自动提醒你是否加为好友,并显示其一些信息。有些浏览器和资讯软件会要求用户提供位置信息。而用户对这些是没有办法选择的,不得不接受这些服务。
2.2 个人隐私信息的自我泄漏
随着互联网的普及互联网+的发展推动,越来越多的单位和个人倾向于在网上办理各种事务,交流和娱乐。人们在利用网络的时候为了方便,会主动提交个人的真实姓名,照片甚至生日和家庭住址等信息,这种做法虽然显得真诚,但也将自己的隐私暴露给了不该知道的人。
2.3 公司出于利益目地主动收集或购买数据
现在大数据已广泛应用于各行各业中了,每个行业对数据都有着及其的渴望。因为这些在数据能让公司更加全面地了解客户的特点,了解市场的需求,了解当前领域的发展动向。所以公司就需要大量的隐私数据来了解真实的情况,因为这将带来巨大的收益而同时付出的代价却是极小了,所以他们会利用各种办法收集、购买所需数据,这必然会造成大量的用户隐私信息泄漏。
当前迫切需要对大数据面临的安全问题进行解决,对用户隐私保护、数据内容真实性验证,数据加密、访问控制等方面进行技术研究。
3.1 数据匿名发布保护技术
要有效地保护用户的数据安全和隐私,数据匿名发布保护技术是结构化数据(或称关系数据)的核心技术。用户一次性、静态地发布数据是大部分数据匿名发布保护技术设定的前提。但现实情况下是多变的,用户发布数据是持续多次的。因此攻击者可以从不同的方式,网络地址获得各种信息,以此来组建特定用户的信息体系。所以这一技术也不够成熟,需要进一步的研究。
3.2 社交网络匿名保护技术
社交网络产生的数据中,大量的是用户隐私的非结构化数据。这类数据特点是有一定的相关性,一般窃取信息者都会利用相关属性进行分析整合,重塑个人的信息。由于社交网络的图结构的特征,社交网络中的典型匿名保护为用户的用户标识匿名与属性匿名,这些数据在发布时既隐藏用户的标识又隐藏了用户间的关系,这样攻击者就不能通过节点属性关系来识别用户的身份信息。社交网络匿名保护技术面临的问题是,攻击者根据用户在社交网络上公开的信息来推测匿名用户,进一步判断用户与其它用户之间的连接关系。
3.3 数据水印技术
数据水印技术是将保护识别信息以隐蔽的方式插入原始数据中,且不破坏原结构不影响使用。多用于图片、文档和多媒体数据中,这类数据的特点是有一定的冗余信息且在使用中允许有一定的精度差。该技术可用于残缺数据的验证,前提是残余数据量达到一定的阈值,就可验证出水印,因此有广阔的发展前景。
3.4 数据溯源技术
由于数据来源的多样,信息来源变化较快,所以有必要记录数据的来源及其传播过程、处理方式等,为后期的挖掘与决策提供辅助支持。首先通过分析技术获得大数据的来源,然后进行安全策略和安全机制的处理,同时用户却不希望数据来源本身这个隐私被分析者得到,所以这是一个要解决的问题。另一个问题是数据有大规模、多样性和高速性的特点,使得标记信息是否正确成为此技术自身的安全问题。
3.5 自适应的访问控制
由于大数据安全管理员可能缺乏一定的专业知识,使得其无法为用户提供相应的访问数据,针对这种情况提出了自适应访问控制技术。通过统计学的方法定义了量化的算法,从而实现用户隐私数据的可量化控制。
大数据时代的到来,带来了新的发展机遇,同时也带来了其安全问题。针对大数据环境下的安全和隐私保护问题,行业内的技术人员研究出了一些关键的技术,但这些技术并不太完善还需要进一步的研究与讨论。大数据发展初期还需要政府提出相关的政策和法律规范来促进和保护,相信大数据会在未来更加安全、高效地为人们服务。
[1]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1).
[2]谢邦昌,姜叶飞.大数据时代 隐私如何保护[J].中国统计,2013(06):24-28.
[3]戈悦迎.大数据时代信息安全与公民个人隐私保护[J].中国信息界,2014(1).