陈楠 田立勤 毋泽南 张艺 武文星
摘 要:随着网络信息安全技术的不断发展,行为认证已成为身份验证研究的重要内容之一。针对传统用户行为认证方法中由于行为信息量过多而导致的认证时间过长问题,提出了一种基于三支决策的用户访问行为认证方法。该方法首先通过三支决策对获取的部分行为特征进行预先认证,将待检测用户认定为合法用户、延迟决策用户和非法用户三个类别,再通过二支决策方法对继续获取行为特征的延迟决策用户进行进一步认证,在提高认证实时性的同时,克服了认证过程中由于特征不足而导致的不确定性问题,从而保证行为认证结果的准确性。实验结果表明,该方法能够取得较好的认证效果并有效降低认证时间。
关键词:访问行为;行为特征;三支决策;用户行为认证;访问信息安全
中图分类号:TP309 文献标识码:A DOI:10.3969/j.issn.1003-6970.2021.02.001
本文著录格式:陈楠,田立勤,毋泽南,等.基于三支决策的用户访问行为认证方法研究[J].软件,2021,42(02):001-005+027
Research on User Access Behavior Authentication Method Based on Three Decisions
CHEN Nan1, TIAN Liqin1,2, WU Zenan2, ZHANG Yi1, WU Wenxing1
(1.School of Computer, North China Institute of Science and Technology, Beijing 065201;
2.School of Computer, Qinghai Normal University, Xining Qinghai 810000)
【Abstract】:With the continuous development of network information security technology, behavior authentication has become one of the important contents of identity verification research. Aiming at the problem of too long authentication time due to the excessive amount of behavior information in traditional user behavior authentication methods, a user access behavior authentication method based on three decisions is proposed. This method first pre-authenticates some of the acquired behavior characteristics through three decision-making methods, and recognizes the users to be detected as legitimate users, delayed decision-making users, and illegal users, and then uses two decision-making methods to determine the delayed decision to continue acquiring behavior characteristics. The user performs further authentication, which not only improves the real-time of authentication, but also overcomes the uncertainty problem caused by insufficient features in the authentication process, thereby ensuring the accuracy of the behavior authentication result. Experimental results show that this method can achieve better certification results and effectively reduce certification time.
【Key words】:access behavior;behavior characteristics;three decision-making;user behavior authentication; access information security
0引言
隨着互联网信息技术的快速发展,电子商务、互联网金融和工业信息化等各个领域都获得了前所未有的创新力和推动力。人们在享受互联网技术带来便利的同时,网络应用和服务信息访问的安全问题也变得日益严峻[1-3]。
身份认证是保障网络信息安全服务的基础,现行主流的身份认证手段包括基于密钥的身份认证和基于生物学特征的身份认证,但传统的静态身份认证方法无法保障企业或个人因信息泄露而导致的敏感数据丢失和恶意利用的问题[4]。在用户进行身份信息验证后,增加对用户行为的认证,使得认证更加完善[5-6]。文献[7]提出一种结合专题分析和有向图分析的自由文本按键行为特征分析方法,以解决自由文本按键时的动态性问题,并构建神经网络模型对恶意用户行为进行认证。文献[8]提出一种基于用户鼠标行为的身份认证方法,采用层次划分法对用户的鼠标行为特征进行划分,并利用随机森林分类决策模型对用户的鼠标行为进行认证,解决用户行为数据中存在的过拟合和噪声问题。文献[9]构建了一种基于封闭集的朴素贝叶斯分类模型,对Web导航连接日志数据集中的用户行为进行认证,对访问用户的合法身份进行有效验证。
目前基于行为认证的研究主要是通过二支决策思想对用户行为信息进行认证,二支决策通常需要获取用户的完整行为信息,若要在较短的时间内对用户行为进行认证,则需减少用户行为数据的收集,但较少的行为信息不能够全面的描述用户行为习惯,并且会导致最终认证结果的准确率降低。对此,本文提出一种基于三支决策的用户访问行为认证方法,利用三支决策对先获取的用户行为状态认证集进行预先认证,并结合二支决策对后续获取的完整行为认证集信息进行最终认证,保障了行为认证的实时性和准确性。
1相关工作
1.1 用户行为认证
在对用户行为进行认证时,将用户与服务提供者在交互过程中所获取的实时行为证据提交给相应的行为认证服务器,服务器根据提交的行为证据与存储在数据库中的历史行为证据信息进行认证,根据认证结果确定用户访问行为的合法性。服务提供者在用户请求服务时首先获取访问用户的部分行为证据信息,如访问时间、用户终端IP地址和操作系统等信息。然后将行为信息提交到行为认证服务器与历史行为证据信息进行预先认证,服务提供者为通过预先认证的用户提供访问服务,并继续获取实时行为证据对用户行为进行进一步认证。
1.2 三支决策
三支决策(Three-Way Decision,3WD)思想源自于解决分类问题的决策粗糙集(DTRS)理论,是由Yao[10]等提出用于处理不完整、不精确信息的决策分析理论。在人们实际决策当中,对信息了解不够全面和证据掌握不足的事物,往往需要做进一步决策,通过延迟决策可以避免分类信息不足时盲目决策所造成的风险。三支决策的基本思想是将论域集划分为三个两两互不相交的区域,即正域POS(X)、边界域BND(X)和负域NEG(X),并对不同的区域采取不同的决策处理[11]。
根据概率粗糙集[12-13]理论,假定论域为U,令Pr(X|x)表示任何一个对象在属于x的条件下属于状态X的评估函数,x所对应的状态集合可以表示为,X和分别表示为属于X和不属于X。给定一对阈值,其中,假设集合中值为接受状态和拒绝状态分别由和所确定,那么概率正、负和边界域可定义为:
(1)
根据以上论域集合的划分[14],若对象在属于x的条件下关于状态集合X的条件概率大于阈值α,此时的对象被划分到正域POS(X),即采取接受策略;若对象在属于x的条件下关于状态集合X的条件概率小于阈值β,此时的对象被划分到负域NEG(X),即采取拒絕策略;若对象在属于x的条件下关于状态集合X的条件概率介于α和β之间,此时的对象被划分到边界域BND(X),即采取延迟决策,所对应的三支决策模型如图1所示。
1.3逻辑回归
由逻辑回归[15](Logistic Regression,LR)主要是用于描述给定的一组训练样本对象x与具有二分类性质的分类标签之间的一种最佳映射关系的统计方法。定义数据集,,,,输入向量特征为,分类标签为y,这里X和用0和1表示,通过sigmod函数将任意输入映射到[0,1]区间范围内,sigmod函数形式如下:
(2)
式中z表示为特征向量的线性回归模型:
(3)
其中θ为各学习特征的回归系数,再将线性回归得到值映射到sigmod函数中,实现特征向量与该样本分类结果的条件概率相关联,公式如下:
(4)
2基于三支决策的用户行为认证
2.1 二支决策行为认证
二支决策定义:在给定信息量的情况下,对当前对象的行为状态进行决策判断,并根据决策结果采取接受或拒绝两种决策行动。
用户分类算法是认证决策模块的核心,现有的用户行为认证方法都是二支分类行为认证,该方法对认证源信息进行计算,将一次计算的结果作为划分用户访问行为合法性的依据。假定给定一组用户行为特征进行行为认证,通常采用分类器计算当前用户的分类条件概率,行为认证的条件概率表示公式如下:
(5)
基于二支决策的行为认证系统通过二支决策分类器对获取的用户访问行为特征进行认证,对认证为合法的用户采取接受策略,对认证为非法的用户采取拒绝策略,具体的认证决策模型如图2所示。
二支决策行为认证系统包括五个模块:数据采集模块、数据预处理模块、特征提取模块、分类与认证模块。该系统主要包含两个阶段,行为认证分类器的构建阶段和行为认证阶段。在行为认证分类器的构建阶段,对采集到的训练数据进行预处理,获得能够描述用户访问行为的数据,并对行为数据进行特征提取,得到访问行为特征x1,x2,…,xn,再将提取的行为特征用于训练用户行为二支决策分类器。在行为认证阶段,数据采集模块自动采集用户的实时访问行为数据,进过数据预处理,特征提取模块将获得的行为数据进行处理计算得到用户的访问行为特征x1,x2,…,xn,最后将待检测的行为特征送入已经训练好的用户行为二支决策分类器中来认证当前用户是否为合法用户。若当前用户行为认证为非法,则系统会采取拒绝策略;若用户行为认证为合法,则系统采取接受策略。该方法通过一次认证确定用户行为的合法性,但收集完整的用户行为信息需要较多的收集时间,导致系统面临的安全风险增加。
2.2 三支决策行为认证分类方法
三支决策定义:是二支决策的推广,在给定不确定或不完整信息条件下,对当前对象的行为状态进行决策判断,并根据决策结果采取三种决策选择,即接受、拒绝和延迟决策。
在对用户行为做三支决策分类研究时,先对获取的部分行为特征进行决策分类,如系统在用户登录时获得的访问行为:操作系统、访问时间、IP、浏览器、域名、来访URL,点击URL,密码错误数等。由于信息的不充分性和不确定性,三支决策的关键是利用有限的信息对用户进行划分。本文用U表示某个用户,对具有x={x1,x2,…,xn}行为特征描述的对象而言,状态集记为,包含表示用户合法性的两个互补关系的状态X和。行动决策集记为A={αP,αB,αN},其中αP,αB,αN表示将当前用户对象x划分到POS(X),BND(X)和NEG(X)的三种行动决策方式,依次表示为x∈POS(X),表示当前用户行为认证为合法采取接受决策;x∈BND(X),表示当前用户对象需要进一步调查,采取延迟决策;x∈NEG(X),表示当前用户行为认证为非法采取拒绝决策。在不同用户状态下采取不同策略所对应的损失函数矩阵如表1所示。
其中λPP,λBP和λNP表示当前用户对象x∈X时,分别采取行动策略αP,αB,αN所对应的损失函数值;λPN,λBN和λNN表示当前对象x∈X时,分别采取行动策略所对应的损失函数值。根据贝叶斯最小风险决策规则[16]计算可以得到最佳阈值α和β的值为
(6)
(7)
并且
(8)
通过训练集对分类器进行训练获得参数 的值,从而求得用户行为认证为合法的条件概率为
(9)
因而,利用上式可以求得用户U的访问行为被认证为合法的条件概率。某一时刻j所获取的行为特征,其中,在此条件下用户的访问行为被认证为合法的条件概率P(X|xj),结合最小风险决策提出以下3条规则对用户行为进行三支决策分类:
(P)如果P(X|xj)≥α,则选择xj∈POS(X),当前用户U的访问行为合法;
(B)如果β≤P(X|xj)≤α,则选择xj∈BND(X),当前用户U的访问行为需要延迟决策;
(N)如果P(X|xj)≤β,则选择xj∈NEG(X),当前用户U的访问行为非法。
2.3 三支行为认证模型
为了提高用户行为认证系统在较少的期望认证时间内对不确定性信息的处理能力,从三支决策的角度对已有的二支决策模型进行扩展,构建三支行为认证模型,如图3所示。该模型主要由数据采集、数据预处理、行为特征提取、分类与认证等五个模块组成。
(1)数据采集模块利用埋点和日志记录等方式采集用户U的访问行为数据,获得用户访问系统时的所有访问、浏览、点击等行为数据。
(2)数据预处理模块对原始行为数据中的异常值进行处理,并删除原始行为数据中的一些不相关数据、重复数据等。该模块从原始采集数据中挖掘出适应用户行为认证模型的用户行为数据,如:访问时间、IP、域名、客户标识、访问标识、产品类型等。
(3)对预处理过的用户行为数据进行特征提取,特征提取模块将用户行为数据组合成用户U的访问行为特征x1,x2,…,xn,并计算行为特征的特征值。行为特征包括:操作系统、点击类型、访问速度、停留时间等。
(4)将提取的用户行为特征对三支行为认证模型进行建模获得分类器,然后通过计算模型的损失函数得到三支决策分类的阈值α和β。
(5)用户行为认证模块在对用户U的实时行为进行决策时,将系统先获得的部分行为特征x1,x2,…,xk输入到决策分类器中得到决策概率P(X|x),利用决策概率对当前用户行为进行三支决策分类,判定当前访问用户U的合法性,若当前访问行为合法,则系统采取接受策略;若当前访问行为非法,则系统采取拒绝策略;若当前访问行为需要延迟决策,则系统继续收集用户U的行为特征xk+1,xk+2,…,xn,并使用二支决策分类器对用户U的n个行为特征进行决策分类,获得最终的行为认证结果。
3实验
3.1 实验配置
硬件环境:CPU型号为Intel core i7-8750H@2.2GHz,内存为DDR4(16G),硬盘为WXF1A28J5D(1000G);软件环境:操作系统为Windows10 64位,开发环境Python 3.7,集成开发环境为PyCharm 2019。
3.2 评价指标
指标1:ROC曲线是反应敏感性和特异性连续变量的综合指标,曲线描述了假正率和真正率之间的变化关系。AUC(area under curve)为ROC曲线下的面积,AUC越大说明模型分类效果越好。
指标2:准确率(Accuracy)表示用户行为认证过程中,用户行为样本分类正确的次数占总分类次数的比值。计算公式如下:
(10)
一般情况下,认证结果的准确率越高,说明模型对用户行为误判的可能性越低。
指标3:期望认证时间指行为特征向量认证的期望时间,三支行为认证模型的期望时间TmethodTWD计算公式如下:
(11)
其中BND_RATE表示需要进行延迟决策的访问行为样本占总测试集样本数量的比率。
3.3 实验结果与分析
根据以上所提出的三支决策行为认证分类方法,下面通过一个实例來验证三支行为认证模型的有效性。现有用户U与某电商平台服务器的5505组交互数据,已对合法和非法用户行为进行标记,由于用户行为具有时序性,将用户行为样本集的前70%作为训练集,其余30%作为实时用户行为用于检验模型的分类效果。先对数据进预处理,去除异常值、重复和不相关的数据,并提取用户行为特征,用获得的行为特征向量训练集学习分类模型,并将测试集数据作为用户的实时访问行为对模型进行检验。
实验过程中本文将行为测试集输入到已经训练好的分类模型中,其中分类算法逻辑回归的正则化参数C=0.8,通过多次实验并根据最小风险决策规则求得三支决策的阈值α=0.95,β=0.38。实验最终获得的ROC曲线如图4所示。ROC曲线的左上角代表真正率为100%,假正率为0,ROC曲线越靠近左上角,则三支行为认证模型的性能越好。从图4可以发现三支行为认证模型整体的AUC为0.88,说明该模型能对用户行为的正负样本起到很好的分类效果。
下面采用不同的二支分类模型对样本数据集进行学习,并检验本文所提出的基于三支决策的用户访问行为认证方法对认证结果的影响,实验结果如表2所示。
通过以上实验结果可以看出,三支行为认证模型较其他分类模型仍具有较高的准确率,期望认证时间为4.37s,较逻辑回归二支分类模型的期望认证时间缩短了3.04s。因此,三支行为认证模型能在较少的期望认证时间内对用户行为进行认证,并保证较高的认证准确率,实现对用户访问行为的有效检测。
4结语
本文以电商访问行为数据集作为研究和分析对象,根据三支决策理论对原有的二支决策模型进行改进,提出了一种基于三支决策的用户访问行为认证方法,降低用户行为认证时间,并提高用户行为认证模型的容错性和处理不确定信息的能力,具体内容如下:
(1)将三支决策理论引入用户行为认证模型中,以解决行为认证过程中行为特征收集时间过长而导致的安全风险问题,首先通过三支决策实现访问用户的预先认证,再结合二支决策分类对延迟决策用户进行最终认证,从而提高系统认证的实时性,以降低信息访问的安全风险。
(2)通过延迟决策克服行为认证过程中部分用户认证的不确定性问题,以防止因行为特征的不完整性和不精确性而导致的决策错误,使得认证模型更加适合用户实际访问环境下的行为决策应用,保障了行为认证结果的准确性。
(3)针对用户访问行为认证概率划分,根据决策粗糙集理论,对代价损失函数矩阵进行计算,获得三支划分的阈值α和β,接下来可以结合新的边界理论进行进一步研究,形成自动化的边界阈值确定方法。
参考文献
[1] Goel N K,Jha C.Analyzing users behavior from Web access logs using automated log analyzer tool[J].International Journal of Com- puter Applications, 2013,62(2):29-33.
[2] 张晶.大数据平台下数据库访问信息安全管理仿真[J].计算机仿真,2017,34(7):436-440.
[3] 徐澄.面向企业信息安全的网络攻击防范手段研究[J].中国电子科学研究院学报,2020,15(5):483-487.
[4] Kent A D,Liebrock L M,Neil J C.Authentication graphs:Analyzing user behavior within an enterprise network[J].Computers & Security,2015,48(feb.):150-166.
[5] 朱莉蓉,陈宁江,何佩聪,等.基于动态信任管理的云用户行为认证服务系统[J].广西大学学报(自然科学版),2015,40(6):1485-1493.
[6] Chao Shen,Yufei Chen,Xiaohong Guan,Roy A Maxion.Pattern-Growth Based Mining Mouse-Interaction Behavior for an Active User Authentication System[J].IEEE Transactions on Dependable and Secure Computing,
2020,17(2).
[7] Ahmed,Traorelssa A A Biometric recognition based on freetext keystroke dynamics[J].IEEE Transactions on Cybemetics,2014,44(4)458-472.
[8] 徐剑,李明洁,周福才,等.基于用户鼠标行为的身份认证方法[J].计算机科学,2016,43(2):148-154.
[9] Dia,Diye,Kahn G,Labernia F,et al.A closed sets based learning classifier for implicit authentication in web browsing[J].Discrete Applied Mathematics,2020(273):65-80.
[10] Yao Y.The superiority of three-way decisions in probabilistic rough set models[J].Information Sciences,
2011,181(6):1080-1096.
[11] LIANG D,XU Z,LIU D.Three-way decisions based on decision-theoretic rough sets with dual hesitant fuzzy information[J].Information Sciences,2017(396):127-143.
[12] 于洪,王國胤,姚一豫.决策粗糙集理论研究现状与展望[J].计算机学报,2015,38(8):1628-1639.
[13] LANG G,MIAO D,CAI M.Three-way decision approaches to conflict analysis using decision-theoretic roughset theory[J].Information Sciences,2017,406:185-207.
[14] Luo S.Three-Way Decision in a Multi-Source Information System and Its Applications[J].IEEE Access, 2019(7):108343-108359.
[15] Mao Yi,Chen Wen-lin,Guo Bao-long,et al.A novel logistic regression model based on density estimation[J].Acta Automatica Sinlca,2014,40(1):62-72.
[16] YAO Y Y.Three-way decisions with probabilistic rough sets[J].Information Sciences,2010,180(3):341-353.