潘仙张 郭文平 应国良
1(台州学院信息技术中心 浙江 临海 317000) 2(台州学院数学与信息工程学院 浙江 临海 317000)
用户动态键盘行为分析的网络安全模型
潘仙张1郭文平2应国良2
1(台州学院信息技术中心 浙江 临海 317000)2(台州学院数学与信息工程学院 浙江 临海 317000)
提出一种用户动态键盘行为模型即KDM,它结合了用户敲击键盘的频率、习惯和用户登录密码的认证方式,能达到zero-FAR,而传统论文中误识率(FAR)比较高。它极大地提高了用户登录系统的安全性,FAR比拒识率(FRR)重要的多。在ROC曲线中,KDM能保证0%FAR的情况下改善FRR,没有用等错误率(ERR)这个指标,这一点和传统论文有很大的不同。通过历史数据,证明了提出的方法非常实用。KDM能在毫秒内分析用户的键盘行为特征,这对基于生物特征的系统安全认证非常有效。
键盘动态行为模型 认证系统 登录安全 信息系统安全
随着社会发展,人们的生活、工作中越来越依靠计算机系统,人们依靠计算机系统的安全保护隐私数据,信息安全不仅影响人们的工作,公司的发展,甚至国家的安全。2014年2月习近平任网络安全小组组长,把网络安全提升到了国家战略层次,目前国内外的安全技术以白名单为主流。而国产安全产品严重依赖国外的技术,本文通过挖掘用户的键盘行为数据作为用户安全登录系统的依据,为国产安全产品提供学术上的严格论证和技术分析,提升国产信息化安全水平。根据2006年的CSI/FBI ,因计算机安全问题造成的经济损失成为了第二大经济损失[5]。利用口令来确认用户的身份,是当前最常用的认证技术。口令是由字母或数字、或字母和数字混合组成,它既可以由系统产生,也可以由用户自己设定。基于用户口令的认证技术最主要的优点是简单易行。所以,几乎所有需要保密的系统中,都采用了口令认证方式。但口令认证很容易受到攻击,攻击者可能通过多种方式获取用户口令,或猜到用户口令。口令认证是目前工业界和学术界最通用的保护系统的方式。口令的安全性方法就是指加密技术。密码本身的安全性已经在学术界和工业界得到了证明[23],可是用窃取的口令攻击系统却很难防范(像用木马盗用密码、或被人偷窥到密码)。系统安全登录检测问题非常突出,系统的口令认证因其简单而被普遍应用,可是口令一旦被窃取,任何人都可以进入系统,对系统造成毁灭的灾难,影响了正常工作。用户认证指系统通过用户名、密码识别合法用户,这对信息系统是非常关键的一个环节。
如今采用用户名、密码认证非常普遍,如E-commerce 系统、ssh、ftp等。用户都是通过用户名和密码认证进入系统,获得系统的各种操作权限,很多的密码在系统认证中存在致命的缺陷,这些用户密码很容易被人攻击。原因是大部分人都选择自己容易记忆特殊字符作为密码。而黑客也正是利用了人们的这个缺点,他们采用人的心理学方式暴力穷举密码[1],这样就能比较容易地破解出用户密码,一旦密码被窃取,黑客就获得了系统的权限进行破坏行为,比如在系统里安装病毒、木马以及破坏敏感信息等。因此,系统登录页面的认证对用户至关重要。仅仅通过设置密码保护信息系统的安全是不够的。为了解决非法用户入侵信息系统,本文引入生物认证技术,生物认证技术并不是取代用户密码认证机制,而是作为用户密码认证的补充。当每个人使用计算机的时候,敲击键盘是最习惯的动作,本文提出把用户敲击键盘的行为结合到用户密码认证体系中,生物认证就是充分利用了人的行为习惯,像敲击键盘的行为、字迹、移动鼠标的行为等。本文采集每个人敲击键盘的行为习惯数据,进行统计分析,得出每个人的键盘敲击频率信息,利用这些信息识别用户,因为每个人敲击键盘的行为习惯是不同的,也很难被人模仿。本文的技术在不需要增加额外的硬件成本的情况下,极大地提高了信息系统认证的安全性。而且,用户也几乎不可能忘记自己敲击键盘的行为习惯,这是每个人固有的特质。文献[2]表明每个人敲击键盘的行为频率方式是不同的,是不被其他人模仿的。我们也可以通过虚拟键盘阻止黑客的攻击。文献[3-4,23-24]证明了通过每个人敲击键盘的行为习惯认证是非常安全的认证方式。本文能通过用户敲击键盘频率区分不同的用户。本文提出的模型不仅关心用户输入的内容,也关心用户输入的行为方式。如今,生物认证技术在产品的安全中非常流行,像指纹认证、虹膜认证、人脸认证、声音认证等。这些都是一些静态的认证技术,也比较容易被黑客伪装。本文的认证技术没有这些缺点,它是个动态的安全认证方式,它基本不可能被人所模仿。键盘敲击者想忘记自己敲击键盘的习惯也很难,这种习惯非常稳定。本文提出的KDM模型的工作方式见图1。当一个新的用户在注册信息的时候,KDM就会生成这个用户敲击密码行为字典A。A中包含了用户敲击两个键的时间间隔、用户停留在一个键的时间、用户敲击一个键的时间等信息。用户注册完信息后,他的这些敲击键盘的行为信息就会保存在信息系统的数据库中。当该用户登录信息系统的时候,KDM会先对用户名密码进行验证,当用户名密码验证通过后,再对用户敲击密码的行为信息和该用户保存的字典A进行比对,当它们的差异在阈值内则认证通过,否则认证失败,不允许通过。文献[6-7]用实验证明了,这种认证的错误率在1.17%~5%。
图1 KDM认证过程
用户敲击键盘的习惯是用户特有的特征,像用户敲击2个键之间的间隔时间,用户停留在某个键盘的时间。每个人敲击键盘的习惯具有很大的区分度[14]。在1895年,由Bryan和Harter提出用户操纵电台的动作习惯有很大的区分度[8],基于这个想法,在战场上可以区分是否敌人的电台信号[9]。在1980年,Gaines等[4]依据前人的这方面研究成果,把这个想法应用到了电脑上。他的研究只是基于很小的数据集,只采集6个专业打字员的打字习惯信息,他们打字的频率非常稳定。请他们打3段话的字,这3段话是不同的长度,但是都包含相同的密码句子,只采集和分析他们在一个键的停留时间,实验结果表明能100%区分这些字是谁打的。17个志愿者打2段话,一段话包含1 400个字母,另一段话包含300个字母,研究者把每个人的行为方差设为0.05 s,结果获得了12%FRR和6%FAR[11]。Blrha等采用敲击每个键盘的停留时间特征作为区分合法用户和非法用户的依据,结果获得了2.8%FRR和8.1%FAR[10]。随着计算机用户越来越多,系统的安全性获得了空前的关注。Obaidat和Sadoun通过用户敲击键盘的停留时间和敲击2个键盘的时间间隔作为联合特征区分合法用户和非法用户,他们采用神经网络作为分类器。他们把15名志愿者敲击键盘的行为信息作为字典。实验结果表明0%FRR和0%FAR[12],这是到目前为止最好的实验结果。可是他们采集的每个人的行为习惯数据都非常有区分度,数据都非常的正规,几乎没有噪声,并没有考虑到异常情况,这是他们实验的局限性,不能代表普遍情况。因此Sang等仿真Obaidat和Sadoun的实验,他们也是采用用户敲击键盘的停留时间和敲击2个键盘的时间间隔作为联合特征,采用SVM作为分类器,获得了0.1%FRR和0.02%FAR。他们也是没有考虑到用户敲击键盘的异常情况,比如用户身体不舒服导致敲击键盘的速度变慢等。Karnan论述了不同的分类算法在用户敲击键盘行为特征的分类结果[15]。Harun采用神经网络作为分类器,获得了22.9%的误报率[16]。Giot等采用SVM作为分类器,误报率在1.58%到15.3%之间[17]。Cho等采用多种神经网络作为分类器,获得平均误报率是1%[19],可是当他的实验被Killourhy和Maxion重复时却获得86%的误报率。Bleha等用10个志愿者敲击键盘的行为数据作为采集样本的数据集,获得了99%的准确率[10]。Idrus等实验表明,采用用户敲击键盘习惯作为区分不同用户的准确率能达到90%。BioPassword就是依据用户敲击键盘行为习惯识别不同用户的商业产品(http://www.biopassword.com/)。目前主流分类算法是基于统计的分类模型、神经网络、SVM,以及其他的一些机器学习算法。数据集会被划分为训练集和测试集。而普通的线性回归、神经网络、SVM很容易拟合到噪声,导致过拟合。由于在实际环境中,敲击键盘的情况复杂,比如用户是个电脑新手,他敲击键盘比较陌生,他敲击的频率很不稳定。在以往的论文中几乎没有考虑这些特殊情况。而在安全领域,FAR比FRR重要的多,因为一旦FAR发生,非法用户就会侵入信息系统,他就会盗取用户信息,或破坏信息系统。而当FRR发生,系统只会拒绝合法用户登录系统,只是给使用者带来了一定的不便性,但并不会带来致命的损失。所谓信息系统的认证安全,就是人为制定规则,如果用户能匹配到这个规则,那这个用户就是合法用户,否则就是非法用户。基于用户敲击键盘行为习惯特征并不适合每一个人,把它应用到安全领域还需要权衡FAR和FRR的关系。在安全方面,本文提出的KDM模型能相对很好地解决这些问题,它是基于大数据的非线性分类器,在保证0%FAR的情况下提高FRR。
2.1 KDM特征选择
研究用户动态键盘行为数据的方法有很多种,本文中定义用户敲击键盘的行为信息如下:敲击两个键之间时间间隔(PP)、释放两个键的时间间隔(RR)、当一个键按下而另一个键释放的时间间隔(PR)、当一个键释放而另一个键按下的时间间隔(RP)。具体情况如图2所示,本文以密码”greyc”说明键盘行为信息。
图2 以“greyc”说明键盘行为信息
(1)
PP=Pi-Pi-1
(2)
RP=Pi-Ri-1
(3)
RR=Ri-Ri-1
(4)
本文把用户敲击键盘的行为习惯应用到了用户登录页面的认证过程,用户敲击键盘的行为数据从用户注册时候获得。系统给每个用户设置了参考阈值,作为他们允许的偏差范围。每个用户输入的用户名、密码的试错次数是10次。每个用户的键盘行为字典在数据库中记录的形式如下:M={MPR,MPP,MRP,MRR}。在认证的时候,用户登录系统的键盘行为数据是T,我们用T和M作比较,如果他们的值超过一定的阈值,就拒绝用户,否则就接受用户。 信息系统对用户的登录情况分为4种:(1) 合法的用户正常登录;(2) 非法的用户拒绝登录;(3) 合法的用户被拒绝;(4) 非法的用户能登录。传统的论文中以FAR和FRR作为评价系统的标准。FAR是衡量非法用户能登录系统的标准,FRR是衡量系统拒绝合法用户的标准。他们的计算公式如式(5)、式(6)。ERR就是当FAR等于FRR的情况。而用ERR作为系统的安全评价标准很不合适。
FRR=NFR/NAA×100%
(5)
FAR=NFA/NIA×100%
(6)
NFR是合法用户被拒绝的数量,NFA是非法用户被正常登录的数量,NAA是合法用户的总量,NIA是非法用户的总量,在以往的论文中以获得低的FAR和FRR作为系统安全可用的标准。在ROC中FAR和FRR的关系如图3所示。
图3 FAR和FRR的关系
由于用户敲击键盘的现场情况非常复杂,我们也不可能把所有情况细节一一枚举出来,发生在统计学上的一类错误和二类错误是不可避免的。从图3中,我们看到:当FRR降低的时候,FAR会升高;当FRR升高的时候,FAR会降低。在现实生活中,用户为了安全的需要,会接受一定范围的FRR。用户也能忍受多试几次登录系统;可是对于一定范围的FAR,用户是不能接受的,比如用户的隐私数据被泄露出去,后果会非常严重。像这次美国选总统事件中,希拉里的失败是因她的隐私信息被黑客曝光。本文提出:在用户的登录认证中,保证0%FAR的情况下改进FRR。当用户输入用户名密码的时候,他们的PR、PP、RP和RR是独立的、唯一的身份识别标识。图4以密码“greyc laboratory”说明每个用户的PP时间。我们用式(7)计算M,M代表MPR,MPP,MRP,MRR。图5以密码“greyc laboratory”说明每个用户的PP、PR、RR的联合特征。图5中不同的标记代表不同的用户。每个用户敲击键盘的频率是不同的,敲击键盘的行为特征越多,在系统的认证中就越安全。
图4 当输入密码“greyc laboratory”时每个用户的PP情况
图5 三个用户的PP、PR、RR时间
(7)
在式(7)中,Ti代表用户PP、PR、RP、RR的时间,n代表用户发生PP、PR、RP、RR的次数。信息系统的安全问题是个图灵停机问题,信息系统的安全是个相对的概念,系统的安全规则定义如公式所示。
A=B1∩B2∩…∩Bn
(8)
式中:A代表安全情况,B1,B2,…,Bn代表系统安全规则。从式(8)中看出系统的安全规则越多,系统就越安全。本文的的安全规则定义如下所示:
A=PP∩PR∩RP∩RR
(9)
我们在用户的注册中获取PP、PR、RP和RR的信息,分别计算他们的M,再把M的联合特征C存在数据库中,当用户在认证的过程中,用贝叶斯分类器进行决策。
2.2 KDM计算模型
任何系统误认证是不可避免,这是由于现场情况的所有细节不可一一判断。比如,一个用户由于感冒,导致他和另一个用户敲击键盘的习惯很接近,接近到阈值之内,这样就很难区分他们。因此需要为每个用户设置不同的阈值。从图3中,我们看到,对于特定的安全,就是FAR和FRR的博弈。本文的认证过程中,是使用式(18)保证0%FAR。假设每个用户都有唯一的PP、PR、RP、RR联合特征C的时间序列函数T(C),曲线T(C)是个平滑的连续的时间序列曲线,它的微分形式是式(15),因采集的PP、PR、RP、RR联合特征的时间序列信息是个离散集合,用式(16)近似计算式(15),通过设置Var和T′阈值保证0%FAR。信息系统中存储的是每个用户离散的规则A,见式(14)。当用户认证的时候,KDM通过式(18)作出是否合法用户的决策。每个用户敲击键盘行为特征信息符合高斯分布N(μ,δ)。本文中的训练集合是T1,T2,…,Tn,μ通过式(19)计算,δ通过式(20)计算。KDM认证过程分为2个步骤:(1) KDM通过设置阈值Var判断正在注册的用户是否符合KDM认证要求,若该用户符合KDM要求,KDM采集该用户的敲击键盘信息并存储在数据库,KDM只适合敲击键盘频率稳定的用户;(2) 当用户在认证的时候,KDM按式(18)决策该用户是否合法用户。在式(18)中U是指用户,并假定用户的每次键盘行为是个独立事件。
(10)
(11)
(12)
(13)
(14)
(15)
(16)
式(16)中Mi指的是第(i+1)次和第i次之间的敲击键盘事件,Mi-1指的是第(i-1)次和第i次之间敲击键盘事件。
p(y=U|M)∞(M|y=U)
(17)
(18)
(19)
(20)
p(y=U|T′)∞(T′|y=U)
(21)
p(M,T′|y=U)=p(M|y=U)×p(T′|y=U)
(22)
B=VarPP∩VarPR∩VarRP∩VarRR
(23)
本文的实验数据基于公共数据集http://www.ecole.ensicaen.fr/~rosenber/keystroke.html[21],这个数据集中的每个用户输入密码“greyc laboratory”20次。使用KDM过滤掉敲击键盘不熟练的用户,只剩下敲击键盘熟练的用户。表1统计出了Var和KDM选择合适用户数的关系。
表1 阈值Var和KDM选择合适用户数的关系
本文设置Var(包含VarPP、VarPR、VarRP、VarRR)为0.18%,得出的实验结果和文献[22]的Giot实验结果进行比较,见表2。
表2 KDM结果和Romain Giot的算法实验结果比较
从实验结果看,本文的FAR比Romain Giot的要好,FAR是信息系统安全的关键。系统的认证是必不可少的模块。本文在保证0%FAR的时候能使FRR达到可接受的范围。
本文讨论了安全领域的FAR和FRR博弈均衡点。在保证0%FAR的情况下,得到8.3%FRR。KDM模型能在工程实践中,极大地改善信息系统认证过程中的安全问题。
[1] Monrose F,Reiter M K,Wetzel S.Password,Hardening Based on Keystroke Dynamics[C]//ACM symposium on Information,computer and communications security,USA,1999:73-82.
[2] Jiang C H,Shieh S,Liu J C.Keystroke statistical learning model for web authentication[C]//ACM Symposium on Information,Computer and Communications Security.ACM,2007:359-361.
[3] Monrose F,Rubin A.Authentication via keystroke dynamics[C]//ACM Conference on Computer and Communications Security.ACM,1997:48-56.
[4] Gaines R S,Lisowski W,Press S J,et al.Authentication by Keystroke Timing:Some Preliminary Results[R].Rand Report R-256-NSF.Rand Corporation,1980.
[5] Gordon L A,Loeb M P,Lucyshyn W,et al.CSI/FBI Computer Crime and Security Survey[J].Information Management & Computer Security,2006,15(3):78-101.
[6] Gunetti D,Picardi C.Keystroke analysis of free text[J].Acm Transactions on Information & System Security,2005,8(3):312-347.
[7] Araujo L C F,Sucupira L H R,Lizarraga M G,et al.User authentication through typing biometrics features[J].IEEE Transactions on Signal Processing,2005,53(2):851-855.
[8] Bryan W L,Harter N.Studies in the physiology and psychology of the telegraphic language[J].Psychological Review,1970,4(1):27-53.
[9] Dunstone T,Yager N.Biomtric system and data analysis:design,evaluation and data mining[M].Springer-Verlag,Berlin,2009:86-92.
[10] Bleha S,Slivinsky C,Hussien B.Computer-access security systems using keystroke dynamics[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1990,12(12):1217-1222.
[11] Umphress D,Williams G.Identity verification through keyboard characteristics[J].International Journal of Man-Machine Studies,1985,23(3):263-273.
[12] Obaidat M S,Sadoun B.Verification of computer users using keystroke dynamics[J].IEEE Transactions on Systems,Man,and Cybernetics.Part B,Cybernetics:A Publication of the IEEE Systems,Man,and Cybernetics Society,1997,27(2):261-269.
[13] Sang Y,Shen H,Fan P.Novel impostors detection in keystroke dynamics by support vector machine[C]//International Conference on Parallel and Distributed Computing:Applications and Technologies.Springer-Verlag,2004:666-669.
[14] Joyce R,Gupta G.Identity authentication based on keystroke latencies[J].Communications of the Association for Computing Machinery,1990,33(2):168-176.
[15] Karnan M,Akila M,Krishnaraj N.Biometric personal authentication using keystroke dynamics:A review[J].Applied Soft Computing,2011,11(2):1565-1573.
[16] Harun N,Woo W L,Dlay S S.Performance of keystroke biometrics authentication system using artificial neural network (ANN) and distance classifier method[C]//International Conference on Computer and Communication Engineering.IEEE,2010:1-6.
[17] Giot R,El-Abed M,Hemery B,et al.Unconstrained keystroke dynamics authentication with shared secret[J].Computers & Security,2011,30(6):427-445.
[18] Killourhy K S,Maxion R A.Comparing anomaly-detection algorithms for keystroke dynamics[C]//Ieee/ifip International Conference on Dependable Systems & Networks.IEEE,2009:125-134.
[19] Sungzoon Cho,Chigeun Han,Dae Hee Han,et al.Web-Based Keystroke Dynamics Identity Verification Using Neural Network[J].Journal of Organizational Computing & Electronic Commerce,2000,10(4):295-307.
[20] Idrus S Z S,Cherrier E,Rosenberger C,et al.Soft biometrics for keystroke dynamics:Profiling individuals while typing passwords[J].Computers and Security,2014,45(3):147-155.
[21] Idrus S Z S,Cherrier E,Rosenberger C,et al.Soft biometrics database:A benchmark for keystroke dynamics biometric systems[C]//International Conference of the Biometrics Special Interest Group (BIOSIG),France,2013:1-8.
[22] Giot R,Ei-Abed M,Rosenberger C.Keystroke dynamics with low constraints SVM based passphrase enrollment[C]//IEEE International Conference on Biometrics: Theory,Applications and Systems.IEEE Press,2009:425-430.
[23] Chen J,Zhu G,Yang J,et al.Personalized Keystroke Dynamics for Self-Powered Human-Machine Interfacing[J].Acs Nano,2015,9(1):105-121.
[24] Syed Z,Banerjee S,Cukic B.Normalizing variations in feature vector structure in keystroke dynamics authentication systems[J].Software Quality Journal,2014,24(1):1-21.
NETWORKSECURITYMODELFORUSERDYNAMICKEYSTROKEBEHAVIOURANALYSIS
Pan Xianzhang1Guo Wenping2Ying Guoliang2
1(InformationCenter,TaizhouUniversity,Linhai317000,Zhejiang,China)2(CollegeofMathematicsandInformationEngineering,TaizhouUniversity,Linhai317000,Zhejiang,China)
We present a method of dynamic keystroke model that is called KDM, which combines the user’s frequency of tapping the keyboard, habits and user login password authentication. Compared with the higher FAR(False Accept Rate) in traditional papers, KDM can reach zero-FAR. And it can greatly improve the security of user login system. FAR was more important than False Reject Rate (FRR); in the ROC curve, KDM guaranteed to improve FRR when FAR is 0%. This paper has not used the index of ERR (equal error rate), which is quite different from traditional papers. The historical data show that the method presented in this paper is very practical. The KDM can analyze user keystroke dynamic feature data within millisecond, which is very effective for biometric-based system security certification.
Keystroke dynamic model Authentication system Login secure Information system security
2017-01-26。浙江省自然科学基金项目(LY14F020036);2015年度浙江省公益技术应用研究计划项目(2015C321 13)。潘仙张,工程师,主研领域:Web系统安全,计算机网络,软件工程。郭文平,硕士。应国良,教授。
TP393.07
A
10.3969/j.issn.1000-386x.2017.11.056