基于DBSCAN 算法的大数据时代信息安全研究

2022-12-28 07:56相旭东
无线互联科技 2022年20期
关键词:个人信息信息安全聚类

相旭东,赵 璇

(滁州学院,安徽 滁州 239000)

0 引言

如今社会的高速发展,导致数据呈爆炸式增长,需求不断增加,数据量也在增加,加速了大数据时代的形成。 大数据时代人们的生活更加便捷,但是给人们的信息安全甚至生命安全也带来了巨大的威胁。 赵旭等[1]对大数据时代下个人信息面临的威胁做出分析:大数据时代技术更加先进,个人信息更容易泄露,可能是由于自我疏忽导致信息外露,也可能是不法分子的入侵,还有可能是部分企业强制对个人信息的收集等;朝鲁门[2]提出的预防策略是物理防御、防火墙技术和网络完全漏洞扫描技术;林丽星[3]采用K-mean 聚类算法判别其属于安全数据还是异常数据,最终完成Spark 环境下网络数据安全监测;张滨[4]提出5G 数据安全整体防护方案,助力5G 数据安全发展与治理。 但是,现如今的预防策略依旧需要改进,技术需要不断更新,将更多更先进的技术应用于信息安全,才可能在极大程度上避免信息泄露。

1 大数据背景下的信息安全

1.1 信息的重要性

要想知道数据的重要性,首先得知道数据能干什么? 有什么价值? 凡是发生过的必然留有痕迹,数据的作用就是记录这些痕迹,将其存储起来,便于以后的查阅或学习,或者将相关的数据收集统计进行分析,从而解决、验证相关问题。

数据存在的价值,究其根本就是为人们对事物的观察和做出正确的决策提供科学帮助,用数据刻画出信息,例如冬奥会人们最关注的项目,数据显示是短道速滑,其次是冰壶、花样滑冰和冰球。

帮助人们形成正确的决策。 以冬奥会的跳台滑雪项目为例,将多个测风气象站建设在场馆周围,跳台上安装超声风传感器,最大可能地对风向、风速进行精准测量,什么方位的风向和风速适合出发,这些数据给参赛运动员和教练提供了较好的判断标准。

1.2 信息泄露的案例

2008 年,各种网络泄密事件相继出现,“3·15” 晚会暴露出大量的垃圾短信和个人隐私泄露问题,此后的十几年,信息安全的话题一直是“3·15”晚会的“常客”,如图1 所示是近10 年来 “3·15”晚会涉及的信息安全问题的相关案件。

图1 信息泄露案例

1.3 信息泄露的原因

为什么侵犯个人信息的行为被严令禁止却依旧猖獗? 究其原因,信息给不法分子带来的利益是巨大的,窃取的个人信息可能被转卖给企业,企业会通过数据分析筛选出对其有益的人群推销产品,最终目的是获利;还可能被诈骗集团利用,通过掌握的信息实施诈骗。

个人信息为何会被不法分子掌握。 经调查发现,信息泄露的原因主要有两个方面,一是用户的个人安全意识薄弱,不够注重信息安全问题,例如在社交网站上公开自己的定位、状态等个人信息,很容易被居心叵测的人利用;二是企业自律意识薄弱,监管混乱,管理制度不完善,由于监管不到位导致信息被盗取并倒卖,甚至一些企业网站或App 对用户信息进行强制收集。信息泄露很容易造成网络犯罪,如网络诈骗、被“人肉”、被网暴,关乎每一个用户的人身安全。

如何预防信息被不法分子获取,政府要完善法律法规,加强监管力度,企业更应该自律守法,个人要提高防护意识。 除此之外,技术层面的防护更是时时被需要。

2 信息安全防护技术

2.1 机器学习感知风险

机器学习可以应用在信息科技风险识别、风险评估、风险监测和风险控制等整个科技风险管理过程,利用机器学习方法可感知风险,分析风险规律和风险行为,评估风险影响,进行风险量化等,而风险识别是风险管理的第一步,只有识别出风险才能有效地进行风险管理,因此要先研究机器学习技术在风险识别方面的应用[5]。

引入数据预处理,分析数据之间的相关关系,对数据进行深入地理解然后提取特征,通过转换构建特征工程,对模型进行训练,优化参数算法,对模型进行评估,选出最合适的模型,然后进行部署。

将DBSCAN 聚类算法应用到风险识别系统中,通过模型学习和训练后的系统,可以分析用户的行为,识别其风险性,监测其动向,发现“危险行为”及时阻断其与服务器的连接。

2.2 DBSCAN 聚类算法

2.2.1 算法简介

DBSCAN 是一种将两个足够接近的核心点分成在相同的集群中的密度聚类算法。 足够接近指的是两个核心点的欧式距离小于等于半径。

定义1 密度:在数据集中指定点的密度根据该点Eps 半径内的点数(点的自身也被涵盖在内)来估计。

定义2 核心点:假定有一个点作为一个核心,在这个中心附近的点数不低于一个给定的阈值MinPts,而MinPts的值是由使用者规定的。

定义3 边界点:边界点不是核心点,但可能会落在某一个或多个核心点的邻域内。

定义4 噪声点:噪声点不会落在任何一个核心点的领域内,不是核心点同时也不是边界点。定义5ε领域:以核心点为圆心半径ε内的区域。定义6 直接密度可达:点q在核心点p的ε邻域内,这样的两个点就称p直接密度可达q。

定义7 密度可达:在某个样本集合内,有样本点p1,p2,p3,…,pn,其中p=p1,q=pn;若pi到pi-1直接密度可达,那么p密度可达q。

定义8 密度相连:在某样本集合中有一点o,假设o到p和q密度可达,则称q与p密度相连。

2.2.2 算法步骤

在数据集中任选一点作为核心点,以该核心点为圆心找出与该核心点的距离不大于Eps 的所有点;判断该ε邻域内点的个数,若该领域内的点的个数没有达到最小阈值MinPts,那么该点就会被标记为噪声点;如果其ε领域内的点个数不小于MinPts,则将这点作为核心样本点标记,并为其分配一个标签。 随后遍历该核心点直接密度相连的点,如果这些点尚未被分配到任意一个簇,那么就给这些点分配到上述核心点的标签。 若它们是核心样本,那么就依次访问其直接密度相连点。 以此类推,簇的集群会逐渐壮大,如果在簇的Eps 距离内无法找到更多的核心样本,则选择另一个未被访问过的点,并重复同样的步骤。

2.2.3 算法实现

(1)数据来源:问卷收集。

(2)聚类过程:使用Python 语言实现对问卷数据处理。

使用pd.read_exce()方法读取数据。

使用切片的方式选取部分特征:“所用时间”“总分”。

利用Z-score 标准化方式(x-μ)/σ对数据进行预处理,将不在同一量级的数据转化成相同量级。x代表观测值,μ作为总体平均值,σ作为总体标准差。 标准化的结果是没有任何实用价值的,只能用来做相对的比较,如图2 所示为标准化后的数据。

图2 归一化数据

建立DBCSCAN 模型,将聚类结果可视化,如图3所示,异常数据由“●”“■”“+”表示。

图3 聚类结果

(3)对聚类结果进行分析。

将聚类结果与原数据对比可知,DBSCAN 算法将异常的数据识别为噪声点,并将其标记为-1,1,2,如表1 所示,在可视化窗口中用不同于非异常点的标识来标记。

表1 部分原数据

对用户的行为进行分析,将用户的异常行为识别为噪声点,实时监控其操作,及时阻断其与服务器的连接,防止用户信息的强制泄露,从根本上保障用户的信息安全。

3 结语

随着新技术的出现和应用,用户信息泄露的方式越来越多,要从海量数据中检测有危险的信息十分困难,因此,需要进一步完善法律规定,加强执行力度,更需要用户提高自我保护意识,从根本上预防信息泄露,同时需要更新的技术手段阻止信息泄露,本文利用了DBSCAN 聚类算法对用户行为进行分析,将用户分类,规避风险。

除了技术上的防护,更重要的是政府、企业和个人等各方面都要加强对个人信息的安全保障。 从个人方面来看,要提高安全意识,及时销毁或收好有个人信息的各种单据票据,如火车票、快递单以及银行业务的单据等。 不贪图小便宜,不随意扫码,不给陌生人提供验证码、ID 码,不轻易相信短信及邮件中的任何网页链接。从政府方面来看,要加大网络违法犯罪的惩罚力度,推行更健全的法例和规例,鼓励开发信息安全系统,建立信息监管体系。 从企业方面来看,要强化行业自律机制,树立社会责任意识,绝不能知法犯法,对涉及个人信息安全的工作加强监督,提高员工的职业道德素养。

猜你喜欢
个人信息信息安全聚类
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
警惕个人信息泄露
保护信息安全要滴水不漏
高校信息安全防护
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
保护个人信息安全刻不容缓
一种层次初始的聚类个数自适应的聚类方法研究
信息安全