●尹 婷 赵思佳 李合军
现阶段,依然有诸多问题存在大数据发展过程中,用户最担心的问题就是安全和个人隐私,商家利用互联网的作用可以熟知人们的网上的各种举动,例如网购习惯、好友联系状况以及阅读习惯等,通过大量的实际案例得知,就算收集了大量没有价值的数据信息,也会将用户的隐私泄露。大数据具有广泛的安全概念,用户所面对的风险不单纯是隐私的外露,同时还有较多的安全风险存在大数据储存、处理和运输等过程中,因此,想利用技术方法阻止商家使用用户信息也具有一定难度。现有的方法在对用户隐私信息进行保护的同时增加了设置的复杂性,同时安全性也有待提高。本文选用一种基于大数据分析的隐私信息保护方法,大数据的价值密度很低,在众多的数据当中有利用价值的数据少之又少,因此在对数据中的价值提取时需要利用大数据的分析技术作为支撑,利用大数据技术可以有效地提高获取到的信息的价值,同时保证了网络中用户隐私信息的安全①。
人们普遍认为大数据十分复杂,并且规模较大,对数据的处理难以使用现有的数据库管理工作来完成,大数据具有多样、高速并且规模大的特征。不同来源大数据可以分为三种:(1)来源于人类,人们在使用互联网的过程中产生文字、图品以及视频等不同的信息;(2)来源于计算机,各种不同的数据通过计算机系统而产生,存在的方式则是以文件、数据以及多媒体方式,同时也有审计和日志生成信息;(3)来源于各种物体,比方说摄像头等设备搜集的数据②。
1.获得知识与推测趋势。人们在很久之前就可以对数据进行分析,最初以获得知识并利用知识为目的,但是有诸多真实信息存在大数据中,个体差异能够通过大数据分析遗弃,为人们提供更加精准的事物原则,针对自然或是社会现象可以通过挖掘出得到更精准的预测。其中Google 公司的GoogleFluTrends 是经典的案例网站,将人们对流感信息的搜索进行统计分析,利用Google 服务器上的IP 地址获取来源地址,进而将全世界不同的流感情况的预测公布出来⑤同时,人们对股市行情的预测也可以利用Twitter 来完成③。
2.分析掌握个性化特征。不同群体特征通过个体活动得到满足,同时也有明显的个性化特点存在其中,就好比细长的尾巴出现在“长尾理论”中,这些特点或许各不相同,企业完成数据的积累或许需要大量的时间,同时也需要从不同维度进行搜集,这样就可以将用户的行为规律分析出来,进行个体轮廓的精准的描绘,让用户享受到优质的服务以及个性化的商品,同时可以推荐出更加精准的广告。比如Google 分析用户的习惯和个人爱好利用大数据来完成,广告商可以获取精准的活动效果④。
现阶段,公认为最有效的方式就是大数据进行真实性分析,诸多企业经营开始实施了对大数据真实性的研究,比方说Yahoo 和Thinkmaii 利用大数据科技的优势,将邮件中的垃圾信息过滤掉;大数据分析也可以完成社交平台上虚假评论的区分;又比如说新浪等大型社交平台对不同垃圾信息的分类使用大数据分析来完成,垃圾信息的鉴别能力在大数据的数据真实性分析技术下可以实现一定程度的提高。一方面,利用大数据分析的优势可以得到更加精准的结果,比如说有虚假信息出现的点评网站中,通过大数据分析就获取评论者的位置、评论时间以及内容等重要信息;另一方面,将机器学习结束融入到大数据分析中,能获取大批量的信息,但是有一定的困难存在这种技术中⑤。
针对发生机制和隐私泄露的问题而言,第一步需要建立完善的用户信息隐私问题机制模型,下图就完美展示了用户隐私泄露点和发生机制间的联系。
第一点隐私泄露为:用户没有匿名使用网络服务,之后又未进行失真处理,因此,造成隐私泄露的问题。
第二点隐私泄漏为:用户的个人信息被网络服务方完全掌握的形式下:(1)隐私攻击者对信息进行了攻击,导致信息泄露;(2)大数据接受到网络服务挖掘信息的信号,从而开始挖掘第三方数据,但是信息加密没有得到有效的结果,从而造成用户信息泄露。
第三点隐私泄露为:用户在使用网络时,留下的信息被隐私攻击者盗取,而造成隐私信息发生泄露,发生原因主要是用户没有较高的隐私保护观念,以及没有使用有效的保护方式。
通过以上对用户信息隐私泄露点和发生机制的分析,用户隐私信息泄露的原因主要包括四点:(1)用户自身不具备较高的隐私保护意识,同时也没有使用有效的保护方式,因此导致用户泄露隐私信息;(2)网络服务方内部不具备严格的数量管理制度;(3)第三方的隐私保护技术不具备完整有效性,导致用户的隐私信息被泄露;(4)隐私保护技术漏洞给攻击者提供了机会,通过非法手段得到用户信息⑥。
选用一种大数据存储中的隐私信息保护策略,对大数据的存储方式进行重新的设计,并对存储的数据进行完整性检验,同时制定控制协议,控制用户对网络数据信息的访问权限,以此保证网络用户隐私信息不被泄露,提高数据存储整体的安全性。
粘性访问控制策略是专门针对网络用户,将传输的数据信息制定成一个固定形式的文件,并将数据与文件一同传输到模拟服务器当中。当上传的数据被使用、下载时需要上传用户的授权才能够获取。同态验证策略是一种利用同态映射机制的隐私保护策略,这种策略可以实现对上传数据的求和形式验证,以此保证了在数据传输以及计算的过程中,用户隐私信息的安全⑦。
通常情况下,数据的存储主要是由网络用户、可信机构、验证者组成的。网络用户通过可信机构将本地的数据信息存储在云端,以此减轻本地存储的压力,同时允许合法的用户对其数据进行访问。在对数据进行存储的过程中,通过可信机构将数据进行分块处理,并生成密钥,以此保证后续的数据具有一定的验证性,再将分块的数据分配到不同的节点当中,并建立起相应的列表⑧。再通过验证者对数据的完整性进行检验,并向云服务簇发出挑战,当云服务得出反馈结果后,在对结果进行验证。若在这一过程中,出现了不能通过验证的分块数据,则对其分块数据的所在位置进行定位,并通过适当的处理对数据进行恢复。再利用上文提到的粘性访问控制策略对生成的密钥进行加密,并将加密后的文件与密钥一同存储在网络云端当中,其他用户想要获取信息只需提供符合要求的密码即可解密所需的数据信息⑨。
网络用户需要在可信机构中完成信息注册,再通过机构给予的属性及密钥获取到相应数据信息。数据的拥有者将上传的信息进行加密从而得到一份文本密文,再通过相应的策略对密钥进行加密,任何符合属性要求的用户都可以获取到相应的解密密钥,从而获取到真正的数据信息,以此完成数据访问控制协议的设计⑩。
本文选用一种基于大数据分析的隐私信息保护方法,大数据的价值密度很低,在众多的数据当中有利用价值的数据少之又少,因此在对数据中的价值提取时需要利用大数据的分析技术作为支撑。⑪通过本文的设计研究已经可以在一定程度上保护用户隐私信息的安全性,在今后的研究中还将对用户的个性化隐私偏好进行研究,并设计出更加灵活且实用的保护隐私策略,在保证网络用户的隐私信息得到安全保障的同时,灵活地对数据信息进行处理,方便符合用户属性以及具有密钥的用户更加快速地获取到相应的信息数据。
注释:
①张金年.我国大数据时代个人信息研究现状与热点分析[J].图书情报导刊,2020,5(04):56- 66
②张建珍,牛煜艳,李强.大数据背景下在线学习用户的隐私保护研究[J].智能计算机与应用,2020,10(02):236- 239
③蒋玉婷。基于大数据分析的隐私信息保护方法研究[J].信息记录材料,2019,20(11):244- 245
④杨朝晖,王心,徐香兰.医疗健康大数据分类及问题探讨[J].卫生经济研究,2019,36(03):29- 31
⑤王平水,朱新峰.基于大数据分析的移动社交网络用户隐私信息关联关系研究[J].赤峰学院学报(自然科学版),2018,34(08):49- 51
⑥刘凌宇. 个人数据安全的风险控制与保障体系研究 [D]. 山西大学,2018
⑦陆雪梅,古春生.大数据环境下用户信息隐私泄露成因分析和保护对策[J].现代情报,2016,36(11):66- 70
⑧李凤华,李晖,贾焰,俞能海,翁健.隐私计算研究范畴及发展趋势[J].通信学报,2016,37(04):1- 11
⑨马立川,裴庆祺,冷昊,李红宁.大数据安全研究概述[J].无线电通信技术,2015,41(01):1- 7
⑩冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(01):246- 258
⑪张成焉,王继辉.社交网络中用户数据偏好分析[J].电子世界,2018(12)