摘 要 随着智能设备的普及,其应用系统已成为恶意软件攻击的主要目标,存在巨大的网络安全隐患。健身App因其获取数据的隐私性和敏感性,面临的数据安全问题更加严峻,其安全度量模型成为解决这一挑战的关键点。目前的安全度量模型多数基于静态特征构建,未能全面考虑智能设备的动态网络行为。为了弥补这一不足,提出一种基于网络行为的健身App安全度量模型,运用协方差矩阵对网络空间进行转换,提高了对恶意软件攻击识别的准确率,根据健身App的动态网络行为特征,更全面地揭示了其安全状态,同时结合黎曼度量,有效描述了网络安全风险,并计算其值,从而构建出一个基于恶意软件攻击识别与黎曼流形的风险度量模型,以实现更安全的数据保护。
关键词 数据安全;网络行为;黎曼流形;风险度量模型;协方差矩阵
中图分类号:G804.2 学科代码:040302 文献标志码:A
DOI:10.14036/j.cnki.cn11-4513.2024.05.004
Abstract With the widespread adoption of smart devices, they have become prime targets for malicious software and malicious traffic attacks, posing significant cybersecurity risks. Fitness apps, due to the privacy and sensitivity of the data they acquire, face even more serious data security issues, making their security measurement models a key hotspot for addressing this challenge. Existing security measurement models are mostly based on static featu-res and fail to fully consider the dynamic network behavior of smart devices. To address this limitation, this paper proposes a network behavior-based security measurement model for fitness apps, utilizing covariance matrices to transform the network space, thereby enhancing the accuracy of malicious attack detection. By considering the dynamic network behavior characteristics of fitness apps, it more comprehensively reveals their security status. Furthermore, by combining Riemannian metrics, it effectively describes network security risks and computes their values, thus constructing a risk measurement model based on attack recognition and Riemannian manifolds to achieve more secure data protection.
Keywords data security; network behavior; Riemannian manifold; risk measurement model; covariance matrix
在当前的数字化背景下,智能设备,尤其是安卓系统,面临着日益复杂的网络安全挑战。由于其开放性和应用的多样性,用户能够下载来自不同信息源的应用程序,这为恶意软件提供了可乘之机,使其更容易植入安卓系统并进行各种风险性操作。因此,安卓系统应用的安全性问题逐渐成为关注焦点。
健身App作为健康管理的重要工具,其具有为用户制定健身计划的功能,需要获取用户的一些个人隐私信息。然而,其对中心服务器的频繁访问容易遭到恶意软件的攻击,从而导致隐私数据被窃取,进一步致使用户隐私泄露、运动数据篡改、系统和服务器受损等,严重影响用户体验和健康数据的可信度。
本研究以健身App使用场景为背景,结合2020年加拿大网络安全中心与加拿大网络安全研究所提供的安卓恶意软件数据集(Canadian Institute for Cyber-security project in collaboration with Canadian centre for cyber security for Android Mavware in 2020,CCCS-CIC-AndMal-2020)关于安卓系统恶意软件的分类和行为特征信息,研究基于网络行为的安全风险度量方法,将攻击识别与风险度量相结合,度量了网络安全的累积风险,有效应对潜在的恶意软件威胁,为用户提供更安全、可靠的健康管理服务。
常见的度量方法主要有3类:评估体系模型、逻辑推理模型和数据分析模型。1)评估体系模型包括构建指标体系、赋予指标权重及计算风险值。例如:Yuan等学者提出了基于层次分析法的网络效能评估方法[1];Xu等学者建立了威胁与漏洞识别模型[2];Zhao等学者提出的多维分析法,实现了指标赋权的主观性优化[3]。2)逻辑推理模型是根据先验信息对系统进行感知与评估[3]。例如:王增光等学者提出了基于隐马尔可夫模型的网络安全评估方法[4];Yu等学者构建了网络安全评估指标体系[5];Zhao等学者提出了基于拒绝服务(DOS)证据理论的分布式拒绝服务(DDoS)分层网络威胁态势评估方法,通过加权算法获得网络当前风险[6]。3)数据分析模型主要采用机器学习或深度学习对数据进行分类处理。例如:Gao等学者通过选择合适的径向基函数(RBF)模型,得出了最佳参数[7];严俊龙等学者提出了基于映射归纳与支持向量机(SVM)相结合的网络安全状态预测模型,并进行分布式训练,优化了模型的训练速度[8-9];Ajeetha等学者使用朴素贝叶斯与随机森林2种分类器处理混淆矩阵,获得了比当前更优的算法[10];Shende等学者利用长短期记忆法与攻击检测相结合,实现对网络状况的观察与识别[11]。
本研究的主要贡献在于:1)针对现有度量方法存在主观性较强、度量精度较低的问题,提出了安全风险值的计算方法,利用协方差矩阵进行网络流量特征的空间转换,提高了识别效率与准确率,并通过实验验证了使用黎曼度量计算安全风险的有效性;2)针对当前网络风险评判标准不统一的问题,提出了将正常状态下的网络流量的黎曼均值作为网络安全风险度量基线,体现了使用黎曼度量进行计算的优越性与有效性;3)针对持续攻击产生的累积风险,提出了风险累积系数,并列出了计算方法和综合行为风险的计算公式,同时提出了基于协方差矩阵特征空间变换与极限树相结合识别恶意软件攻击的方法,提高了健身App平台对恶意软件的防御能力。
1 健身App风险分析
以下从健身App的架构特点和数据特点两方面分析健身App当下面临的风险。
1.1 健身App架构分析
健身App的基本网络架构如图1所示,分为用户端和云端两部分,一共5层:数据采集和边缘计算层属于本地端,包括用户端和本地数据管理两部分;云平台层和软件系统层属于云端,包括服务器、云端数据和监控分析三部分;本地端模块和云端模块通过数据融合层进行交互。
从健身App网络架构可知,本地端采集的个人身份信息、大量运动数据等隐私数据基于信息安全会分散存入不同云端服务器,这为恶意软件的攻击提供了可乘之机,而运动数据实时上传,又为DDoS攻击提供了便利。正是因为健身App这种装机量大、服务器多、数据传送实时的特点,使得其更容易遭到恶意软件的渗透。因此,形成适于对健身App网络环境安全评估的方法尤为急迫。
1.2 健身App数据安全分析
健身App作为一种通过智能手机或健身手表等设备,辅助用户记录和分析个人健康和运动数据的应用程序,其数据特征包括用户注册信息、健身手表数据、健身App运动数据、身体基本信息等,诸如性别、年龄、身高等身体数据,运动时间、运动类型、运动地点等运动数据,甚至血压、心率、体脂率等健康敏感数据。而对于需要调整饮食、作息等个人习惯来增强健身效果的特殊用户,健身平台需要获取其每日食谱、作息安排等隐私数据,甚至还需知晓用户的病史。这些数据都是与用户密切相关、且需要保密、不能被第三方窃取的隐私敏感信息[12]。
健身App涉及用户的个人隐私和健康信息种类多、基数大,所以需要严格的隐私保护措施来确保用户数据的安全性和隐私性,防止数据泄露和滥用。
2 基于黎曼流形的网络安全风险度量
针对健身App隐私数据容易被恶意软件攻击、窃取等安全问题,本研究选取了网络安全风险度量的概念。网络安全风险度量即量化网络系统风险以对网络系统安全状态[13]进行精准描述。本研究中通过协方差矩阵变换丰富网络特征,并将网络流量特征映射到高维空间,根据安全状态下的网络流量确定安全基线,计算当前网络状态与安全基线之间的黎曼距离来判定攻击软件的种类。同时,通过计算累积风险值,对当前网络状态进行度量和描述。
2.1 空间转换与协方差矩阵
恶意软件通常会引起异常的网络流量,其与正常流量相比,存在异常的带宽利用率、数据包频率、连接持续时间等差异。通过对流量数据进行时序分析,可以检测出突发性的流量增长,从而发现恶意软件。本研究运用了协方差矩阵,通过分析网络流量特征之间的关系提高识别恶意攻击的准确率。
按照时间段对网络流量数据进行划分,对网络特征之间进行协方差计算,协方差计算公式如下。
cov(X,Y)=E[(X-E(X))(Y-E(Y))] 1)。
每个时间段内的数据为一个样本,对在初始情况下具有n个特征的样本,通过空间转换成一个n×n的协方差矩阵对该样本进行刻画。高维随机变量的协方差计算公式如下。其中,xi与xj分别表示高维向量的某2个随机变量,假设一共存在k个实例,则xim中的m表示第m个实例,如公式(2)所示。
cov(xi,yi)=∑k m=0(x-E(x))(xjm-E(xj))2)。
在分析网络流量时,每个随机变量表示网络流量的一个特征,而k个n个特征的网络流量的描述则可以通过以下的n×n的协方差矩阵进行描述,如公式(3)所示。
3)。
协方差矩阵的对角线上的元素为同一特征值的方差,表示该特征的离散程度,而其他元素则表示不同特征值之间的协方差,表示2个不同特征之间的相关性。
2.2 基于黎曼度量的网络安全风险计算方法
Zhao等学者提出,可以基于攻防对抗效用构建网络安全评估框架[14]。还有学者根据网络行为效用计算原理采用微分流形[15]对网络场景进行了刻画,形成了网络行为客观度量方法[16]。本研究通过协方差矩阵对网络特征值进行处理,使用协方差矩阵对网络状态进行描述,通过对协方差矩阵的对角线增添微小扰动可实现协方差矩阵的正定性。本研究的网络安全状态描述是基于对称正定流形[17]形成的(简称SPD流形)。
由n×n的矩阵构成的空间为一个具有离群特征的黎曼流形,因而可以使用黎曼测地线对空间中点的距离进行计算,该距离即当前网络空间状态与预定的安全状态[18]之间的差距。对称正定流形的黎曼距离计算方法最常见的是仿射不变度量,如公式(4)所示,所以本研究的实验也采用该方法。
δL (X,Y)?劬‖log(X)- log(Y)‖ 4)。
在估算安全风险时,安全风险度量基线被用于对比的标准状态。安全风险度量基线的设定值为无攻击、正常运行状态下的特征平均值作为安全风险度量基线,与该基线的差距表示安全风险值。
本研究通过采集大量安全状态下的网络数据以获得多组对应网络安全状态特征值的协方差矩阵。对多组协方差矩阵进行黎曼矩阵的计算以获得网络安全状态的基准值。根据黎曼度量计算当前网络状态特征值的协方差矩阵与基准线矩阵的黎曼距离。对于1组含有k个n×n的SPD流形[19]的正定对称矩阵的数据集合(xi∈ sym+d),流形的每一点的风险值通过公式(5)计算。
Riski=δ(xi,b) 5),
式中:δ表示SPD流形的黎曼测地线的计算函数; b表示安全度量基线的黎曼均值。
2.3 安全风险度量模型
由于恶意软件攻击的安全风险是一个持续的过程,因而安全风险也是一个逐渐积累的过程,本研究中的风险累积系数η用于对当前网络风险进行描述,随着攻击的持续,网络服务资源逐渐被耗尽,风险累积系数随之增大,某一时刻(t)的风险累积系数计算方法见公式(6),式中:a=2。
ηt=log a(∑t-1i=sRiski) 6)。
当前的实时安全风险值由自检测到网络攻击开始的当前网络协方差矩阵与安全基线间距离和取对数得出,取对数是为了确保风险累积系数的增长幅度可控,使ηt可以增长到过大的数值。某一时刻(t)的综合风险值由公式(7)计算得出。
Rt=(1+ηt )Riskt7)。
综合风险值由累积系数与当前安全基线共同决定,在受到特定攻击时,Riskt的值变化幅度稳定在非常小的范围内,因而在相同攻击阶段,Rt可以很好地体现出ηt的累积变化,在不同攻击状态下,Rt可以很好地体现出Riskt的属性。
3 实验数据分析
3.1 数据来源
本研究使用CCCS-CIC-AndMal-2020[20-21]数据集进行分析验证。该数据集包含14个恶意软件类别,其中有广告软件、后门程序、文件感染者、无类别、潜在有害应用程序、勒索软件、风险软件、恐吓软件、特洛伊木马等,包括内存、应用程序编程接口(API)、网络、电池、日志工具(Logcat)和进程六大类共144个特征,可以模拟健身App可能遇到的不同类型的网络安全威胁,而数据集中的特定恶意软件类别,如潜在有害应用程序和零日攻击,更是直接与健身App所面临的潜在网络安全威胁相关,非常贴近健身App的实际情境。
3.2 实验流程
网络流量数据特征众多,本研究以CCCS-CIC-An-dMal-2020数据集提供的144个特征变量为基准进行处理,数据处理流程如图2所示。
3.2.1 数据预处理
在本阶段首先对数据进行筛选审核以进一步进行数据挖掘,本阶段包括数据清洗和特征选择。首先对数据进行清洗与无纲量化处理,将无法训练的“脏”数据进行清洗。其次,如“Hash”“Family”等特征不具有通用意义,因而需要对此类特征进行人工删除,避免其影响模型有效性。本研究通过随机森林选择对结果影响较大的20个特征值及其权重,如图3特征权重所示,后续实验将以这20个核心特征作为基础。
3.2.2 协方差数据处理
使用协方差矩阵对网络流量进行描述,以200组流量数据为1组,计算对应于一个时间段的网络流量特征的协方差矩阵,该矩阵选取20个特征作为网络流量的描述矩阵,以实现升维,将原本20个特征值增长至400个。由此可以证明,对于n条d个数据集合,其协方差矩阵是一个d×d的矩阵A。该矩阵A的对角线数值是原有指标的方差,体现了每个指标的离散程度,可用来表征不同攻击可能会导致的某些指标离散程度的变化;其非对角线数值是2个随机变量的协方差,可以反映这2个变量的总体误差以及这2个变量的相关性。因此,矩阵A是对称的。为了降低数据的计算、存储成本,根据矩阵A的对称性,本研究将处理后的数据又进行降维处理,将d×d的数据压缩至d(d + 1)/2的向量。
实验采用逻辑回归、随机森林决策树以及SVM算法对处理前与处理后的数据进行分类识别,并对不同分类算法的识别结果进行横向对比。同时对网络流量数据得出的协方差分别计算黎曼距离与欧式距离,使用K邻近(KNN)算法根据2类距离对攻击进行分类。
3.2.3 网络安全基线
由于协方差矩阵具有非负定对称特点,本研究通过对协方差矩阵的对角线数值增加微小正向扰动以确保其正定性,从而获取SPD流形,根据协方差矩阵度量基线计算对应的协方差矩阵组,增加相应扰动,并计算黎曼均值,将结果设定为安全风险度量基线。
3.2.4 安全风险值度量
本实验通过向正向流量中分批次插入恶意攻击数据模拟受到多种攻击的网络流量状态。整个模拟过程包含53 439条流量数据,通过将当前网络状态的协方差矩阵作为输入数据,并使用Extra Tree对网络攻击进行识别,可以计算出网络流量协方差与网络安全基线的黎曼距离,进而得出实时网络安全风险值。在攻击持续时间内,根据风险累积系数可以计算出综合网络安全风险值。
3.3 结果与分析
3.3.1 逻辑回归算法、随机森林算法和SVM算法
使用逻辑回归算法、随机森林算法以及SVM算法对原始数据和协方差变换后的数据进行对比,识别效果如表1、表2和表3所示。
3种机器学习算法均对数据集CCCS-CIC-And-Mal-2020的14类恶意软件进行分类,并训练相应模型,以及采用精确率、召回率和精确率与召回率的调和平均数作为评判指标。
由上表数据可知,使用协方差变换之后,机器学习算法对大部分网络攻击的识别的效果更佳,与未采用协方差变换的情况相对比,在良性No_Category以及PUA软件攻击的识别方面采用协方差变换有了大幅度的改善。
图4为3种算法的准确率对比图汇总,从中可知,不同类别算法对使用协方差矩阵进行数据变换后的分类效果明显更好。
将经过变换后的网络安全特征协方差矩阵作为数据,分别使用逻辑回归算法、随机森林算法、SVM算法及极限树算法分别进行攻击识别,识别结果如图5所示。
从图5可知,SVM算法在识别攻击时的效果明显好于逻辑回归算法,略好于随机森林算法和极限树算法。这说明使用SVM算法可以非常准确地对网络攻击流量进行分类,可以为后续的累积安全风险度量提供有力支撑。
3.3.2 KNN
利用KNN算法对欧式距离和黎曼距离对恶意软件分类的效果进行对比,结果如表4所示。
由实验结果可知,基于黎曼距离的KNN算法的分类效果更精确,说明黎曼距离能有效反映SPD流形的状态差异,从而证明了黎曼度量能用于网络安全风险值的计算。
3.3.3 风险计算
在正常流量中分批插入恶意攻击数据模拟攻击行为,针对整个流量数据,根据公式(6)计算得出的实时风险值如图6所示。
通过识别恶意攻击类型并确定攻击持续性,针对恶意攻击持续时间段内的全部流量数据,根据公式(7)计算综合风险测评结果如图7所示。
从图7可知,在受到网络攻击时,网络实时安全风险值会明显增大,而在安全状态下会出现一个比较小的安全风险值,该风险值的变化与攻击与否相吻合。同时在计算安全风险值时,健身App处于无监督状态,这也说明可以通过这种度量方法对未知的恶意软件攻击风险进行度量。而累积风险是在考虑实时安全风险的基础上,增大了持续攻击所产生的累积风险的影响,从而可以计算出一个综合的网络安全风险值。从图7可知,在攻击初期的网络安全风险的大小主要由实时安全风险决定,但随着攻击时间的持续,攻击持续时间对风险值的影响将越来越大,这也与真实环境下恶意攻击的特点[22]相吻合。
通过实验,充分证明了使用协方差与极限树结合识别攻击的算法的有效性,同时也证明了使用黎曼度量计算实时网络安全风险值的有效性,以及结合累积风险计算综合网络安全风险的合理性。
4 结论
针对健身App存在的容易被恶意软件渗透和攻击而引发的信息安全问题,本研究提出了一种安全风险值的度量方法,通过协方差矩阵处理数据,进行网络流量特征的空间转换,在逻辑回归算法、随机森林算法和SVM算法的验证下,模型的准确率分别提高了29%、5%和33%,验证了协方差矩阵处理数据的优越性,使健身App平台能在网络攻击初期以及攻击过程中作出风险预警,尽早地对用户数据进行防护,从而尽可能地减少损失。本研究提出了使用正常状态下的网络流量的黎曼均值作为网络安全度量基线,采用KNN算法,选择欧拉度量和黎曼度量2种度量方法进行测试。其中,黎曼度量的模型准确率提高了5%,验证了使用黎曼度量评估安全风险的有效性,为健身App平台的安全维护提供了有效标准。最后,本研究提出了风险累积系数,并列出了计算方法和综合行为风险的计算公式,通过将53 439条数据种插入恶意攻击软件,有效地模拟出真实环境下的恶意攻击,得出该模型的实时风险和综合风险的计算结果,与真实环境被恶意攻击的特点吻合,可以为健身App实际开发提供良好的参照。
参考文献:
[1] YUAN Z, YAO S, XIA C, et al. Network efficacy evaluation based on AHP for network security situation assessment [C]//Proceedings of the 2016 6th International Conference on Mach-inery, Materials, Environment, Biotechnology and Computer.Paris: Atlantis Press, 2016:797-800.
[2] XU N, ZHAO D. The research of information security risk asses-sment method based on AHP[J]. Advanced Materials Resear-ch, 2011, 187: 575-580.
[3] ZHAO X, XU H, WANG T, et al. Research on multidimensional system security assessment based on AHP and gray correlation [C]///Proceedings of Trusted Computing and Information Securi-ty: 13th Chinese Conference, CTCIS 2019. Shanghai: Springer Singapore, 2020: 177-192.
[4] 王增光,卢昱,赵东昊. 基于隐马尔科夫模型的网络安全风险评估方法[J]. 空军工程大学学报(自然科学版),2019,20(3):71-76.
[5] YU J, HU M, WANG P, et al. Artificial intelligent techniques and its applications[J]. Journal of Intelligent & Fuzzy Systems, 2018, 34: 861-869.
[6] ZIHAO L, BIN Z, NING Z, et al. Hierarchical network threat situation assessment method for DDoS based on DS evidence theory[C]//Proceedings of 2017 IEEE International Conference on Intelligence and Security Informatics (ISI). Beijing: IEEE,2017: 49-53.
[7] GAO H S, GUO A L,YU X D, et al. RBF-SVM and its application on network security risk evaluation [C]//Proceedings of the 2008 4th International Conference on Wireless Communications, Netw-orking and Mobile Computing. Shanghai: IEEE, 2008: 36-39.
[8] HU J, MA D, LIU C, et al. Network security situation prediction based on MR-SVM [J]. IEEE Access, 2019, 7: 130937-130945.
[9] 严俊龙,李铁源. 基于 SVM 的网络安全风险评估模型及应用[J]. 计算机与数字工程,2012,40 (1): 82-84.
[10] AJEETHA G, PRIYA G M. Machine learning based DDoS atta-ck detection[C]//Proceedings of the 2019 Innovations in Power and Advanced Computing Technologies (i-PACT).Pisca-taway: IEEE:i-PACT, 2019: 1-5.
[11] SHENDE S. Long short-term memory (LSTM) deep learning method for intrusion detection in network security[J]. Internat-ional Journal of Engineering Research, 2020, 9(6): 1615- 1620.
[12] 周志雄,唐子人,贾晓芸,等. 全民健身信息服务平台关键技术研究[J]. 首都体育学院学报,2023,35(3):257-266.
[13] KUMAR R, GUPTA D. Software bug prediction system using neural network[J]. European Journal of Advances in Engineer-ing and Technology, 2016, 3(7): 78-84.
[14] ZHAO X, ZHANG Y, XUE J, et al. Research on network risk evaluation method based on a differential manifold[J]. IEEE Access, 2020, 8: 66315-66326.
[15] 詹汉生. 微分流形导引 [M]. 北京:北京大学出版社,1987:8-12.
[16] ZHAO X, CHEN Q, XUE J, et al. A method for calculating network system security risk based on aLie group[J]. IEEE Access, 2019, 7: 70610-70623.
[17] 陈维桓. 微分流形初步[M]. 2 版.北京:高等教育出版社, 2001: 35-38.
[18] YI B, CAO Y, SONG Y. Network security risk assessment model based on fuzzy theory [J]. Journal of Intelligent and Fuzzy Systems, 2020, 38(4):3921-3928.
[19] 纪永强. 微分几何与微分流形[M]. 北京:高等教育出版社, 2000: 77-90.
[20] KEYES D S , LI B , KAUR G ,et al. EntropLyzer: Android malware classification and characterization using entropy analysis of dynamic characteristics[C]//Conference on Reconc-iling Data Analytics, Automation, Privacy, and Security: A Big Data Challenge.Canada: IEEE, 2021:1-2.
[21] RAHALI A , LASHKARI A H , KAUR G ,et al.DIDroid: Andr-oid malware classification and characterization using deep image learning[C]// Proceedings of 2020 the 10th International Conference on Communication and Network Security (ICCNS 2020).Tokyo:ICCNS, 2020: 70-82.
[22] RAMOS A, LAZAR M, FILHO R, et al. Model-based quantita-tive network security metrics: A survey [J]. IEEE Communic-ations Surveys and Tutorials, 2017, 19(4): 2704-2734.