范晓东 王源 李金泽 张博锋 郑诏今
摘 要:互联网和5G时代的到来导致数据爆炸性的增长,海量APP丰富着大家的生活,用户口令作为目前用途最广也是相对安全的认证形式仍然存在一些问题,比如容易收到穷举攻击、字典攻击等。为了保护用户的数据及个人隐私,指导用户设置高强度口令,我们对美国近2000万用户账户与口令通过PCFG(概率无关上下文法),构建口令规则集后进行强度测试,得到高强度密码应符合大小写字母、数字和特殊字符等多种混合的条件,同时个人多账户密码设置差异尽可能大才能保证安全。
关键词:高强度口令;PCFG:用户安全;个人隐私;
·引言
当今主要的安全认证形式是以用户自己选择的文本输入作为密码口令,但这种方式非常容易受到猜测攻击。另外,现有的用来评估密码强度的方法,即通过建模进行对抗性密码猜测,其准确率不高,这种方法对于实时的客户端密码检查来说,要么是不准确的,要么是数量级太大速度太慢。因此,本文旨在通过研究大量的美国地区用户密码口令,构建美国用户密码口令规则集,帮助用户选择安全性较高的密码口令,以提高用户信息安全。
本文将通过研究两千万条美国用户口令,利用PCFG(概率无关上下文法),构建马尔可夫模型,从而生成美国用户口令规则集,再根据此规则集构建满足美国用户习惯的密码口令,并使用该测试集对用户密码口令进行强度测试,以此保证用户可以选择安全强度较高的密码口令,达到保障用户隐私安全的目的。
·实验材料
(1)实验数据
在本节中,我们使用我们获取的美国用户口令列表中的约2000万美国用户的账号和口令,格式为账号:密码。相关数据全部来自外网真实数据资料。
(2)实验所用模型
在本实验中,我们使用的模型为PCFG(Probabilistic Context Free Grammar)模型,也就是概率上下文无关文法,或称为SCFG(Stochastic Context Free Grammar),随机上下文无关文法。
我们使用我们获取的美国用户口令列表对PCFG模型进行训练。我们把基于美国用户口令数据集训练出来的PCFG模型称为PCFG-1,把基于开源密码数据集RockYou训练出来的PCFG模型称为PCFG-2。形成对照实验。
·实验过程与结果分析
(1)实验准备
在本节中,我们使用我们获取的美国用户口令列表对PCFG模型进行训练。美国用户口令列表中包含约2000万美国用户的账号和口令,格式为账号:密码。
在数据集的基础上,我们对这些数据用python进行数据清洗,提取美国用户的口令列表,以纯文本的格式存储在code.txt文件中。以换行符为分界。
我们通过使用机器学习来识别美国用户的创建密码习惯。PCFG模型是通过对美国用户密码列表进行训练而生成的。我们把该模型称为规则集,其中包含密码许多的不同部分和相关出现的概率。
(2)实验过程
我们把基于美国用户口令数据集训练出来的PCFG模型称为PCFG-1,把基于开源密码数据集RockYou训练出来的PCFG模型称为PCFG-2。形成对照实验。
对照实验过程如下:
a.基于PCFG-1模型进行密码猜测,由程序生成一个密码列表,并将此列表基于PCFG-1模型来估计这些密码的可能性,也就是密码强度评分。
b.基于PCFG-1模型进行密码猜测,由程序生成一个密码列表,并将此列表基于PCFG-2模型来进行密码强度评分。
c.基于PCFG-2模型进行密码猜测,由程序生成一个密码列表,并将此列表基于PCFG-1模型来进行密码强度评分。
d.基于PCFG-2模型进行密码猜测,由程序生成一个密码列表,并将此列表基于PCFG-2模型来进行密码强度评分。
我们通过密码强度评分来客观的体现出美国用户口令与大众口令的区别。密码强度评分输出格式如下:第一个值是原始密码,第二个值是表示该密码是否属于“网站”、“电子邮件地址”或者“其他”,第三个值是密码强度,值越低越安全,如果是0.0则代表该密码不会由该模型生成。第四个值是密码的OMEN级别,如果值为-1,则表示该密码不会被OMEN算法所生成。
(3)实验结果
在对PCFG-1模型的训练中,我们得到美国用户口令有如下特征:
密码长度为 1 : 0
密码长度为 2 : 0
密码长度为 3 : 0
密码长度为 4 : 201472
密碼长度为 5 : 358887
密码长度为 6 : 3427000
密码长度为 7 : 2822980
密码长度为 8 : 5600752
密码长度为 9 : 2536454
密码长度为 10 : 2790461
密码长度为 11 : 756887
密码长度为 12 : 531257
密码长度为 13 : 290679
密码长度为 14 : 207889
密码长度为 15 : 268423
密码长度为 16 : 122828
密码长度为 17 : 41352
密码长度为 18 : 41580
密码长度为 19 : 22764
密码长度为 20 : 27283
密码长度为 21 : 11951
口令中使用前五的电子邮箱列表:
yahoo.com : 9637
mail.ru : 4705
hotmail.com : 4076
gmail.com : 2809
aol.com : 2804
口令中使用前五的域名列表:
yahoo.com : 356
.au : 252
mail.ru : 186
hotmail.com : 104
google.com : 85
口令中使用前十的年份列表:
2010 : 36015
2009 : 23924
2011 : 22757
2000 : 21412
2008 : 20426
1995 : 17538
1992 : 17276
1990 : 17006
1994 : 16874
1991 : 16527
對照实验结果如下(结果顺序同上述实验过程顺序):
(4) 结果分析
根据上面图表,我们可以得出美国用户口令比较偏爱8位数的密码,且使用电子邮箱、域名和年份等信息的概率较大。建议该地区用户避开yahoo.com、2010等关键词,以提高密码强度。通过b,c两组对照实验可以看出,基于PCFG-1模型生成的密码有可能会被基于PCFG-2模型的密码生成器破解出来,而基于PCFG-2模型生成的密码却很少能被基于PCFG-1模型的生成器所破解。这就说明该美国地区的用户创建口令的习惯是不安全的。并且该地区用户以后若想测试一个密码的安全性完全可以通过本文中的PCFG-1模型进行检测,或者是通过PCFG-2模型来生成一个密码。如此一来,用户口令被当地用户所破解的概率将大大减小。
·实验总结
此项实验研究表明,近年来美国地区用户设置密码安全性明显提高,由最初单纯的字母组合、生日日期、常用短语、广为人知的网站地址和邮箱转变为大小写字母与数字混合、更多无法发现规律的数字组合、特殊符号的加入以及长度的提高,使得密码破译难度明显上升。但同时随着网站账户的不断增多,所需要的密码数量也越来越多,对单个用户的密码设置分析发现,个人密码呈现单一化,即大量账户和网站共用同一个密码,一旦密码被破译,个人隐私安全和经济财产安全受到严重威胁。通过以上分析,密码设置中包含大小写、数字和特殊字符,多账户密码设置时差异较大,是现在看来个人信息保护的最优方式。
参考文献:
[1] Matt Weir ; Sudhir Aggarwal ; Breno de Medeiros ; Bill Glodek. Password Cracking Using Probabilistic Context-Free Grammars. 2009 30th IEEE Symposium on Security and Privacy
[2] Keika Mori ; Takuya Watanabe ; Yunao Zhou ; Ayako Akiyama Hasegawa ; Mitsuaki Akiyama . Comparative Analysis of Three Language Spheres: Are Linguistic and Cultural Differences Reflected in Password Selection Habits? 2019 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW)
[3] 毕红军;谭儒;赵建军;李昱甫.基于主题PCFG的口令猜测模型研究. Netinfo Security2019年08期ISSN:1671-1122
[4] 夏之阳;易平.基于神经网络的多源密码猜测模型. Communications Technology2019年01期ISSN:1002-0802