仿冒网站的识别技术及防范策略

2023-10-12 23:27万小博米昂
中国新通信 2023年16期
关键词:安全防范机器学习黑名单

万小博 米昂

摘要:随着互联网技术的发展,电子商务、移动支付的普及,互联网已经完全融入人们生活。各类网站业务形态多样,衍生出了丰富多彩的信息化内容。互联网在成为信息传播和交流的便捷手段的同时,也成为不法分子实施违法犯罪活动的新型工具。许多不法分子瞄准了目前网上银行和网络购物的普及趋势,开始通过仿冒网站等手段非法获取用户数据,网络诈骗也逐渐成为一种常见的诈骗手段。基于此,本文以仿冒网站为对象,探究其识别技术的应用现状及防范措施。

关键词:仿冒网站;识别技术;黑名单;特征提取;机器学习;安全防范

一、引言

仿冒网站是指界面、功能等设计得跟真实网站几乎一样的虚假网站,目的在于欺骗访问者。他们通常伪装成银行官网或是电商平台,窃取访问者提交的银行账号、密码、短信验证码等个人信息,或是在访问者的手机中自动植入木马,从而骗取访问者的财产。由于互联网特有的间接性和隐私性,犯罪分子往往很难被绳之以法,这就导致了利用仿冒网站来进行犯罪的案例数量增长十分迅速,给企业和个人用户带来巨大的经济损失的同时,逐渐在社会上引起了对网络环境的诚信度的质疑风潮,使网络环境不断恶化。

根据CNCERT监测数据显示,仅2021年上半年就监测发现针对我国境内网站仿冒页面约1.3万余个。从承载仿冒页面IP地址归属情况来看,绝大多数位于境外。根据CNNIC第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,63.2%的网民表示过去半年在上网过程中未遭遇过网络安全问题,较2021年12月提升1.3个百分点。此外,遭遇个人信息泄露的网民比例最高,为21.8%;遭遇网络诈骗的网民比例为17.8%;遭遇设备中病毒或木马的网民比例为8.7%;遭遇账号或密码被盗的网民比例为6.9%。通过对遭遇网络诈骗网民的进一步调查发现,除冒充好友诈骗、钓鱼网站诈骗和利用虚假招工信息诈骗外,网民遭遇其他网络诈骗的比例均有所下降。其中,遭遇钓鱼网站诈骗的比例为24.7%,较2021年12月上升0.9个百分点。

仿冒网站的主要表现形式有两种:一是仿冒网站的URL链接与真实网站较为接近;二是仿冒网站的标题、页面架构等内容与真实网站较为相似。因此,对仿冒网站的检测可以通过对网站域名的分析和对网页内容检测等层面来实现[1]。对域名的分析可以利用威胁情报、网站域名的相似程度检测等方式;而对网页的检测主要是针对网站的内容来识别,比如文字、图片、布局、风格等,通过对这些内容的分析,总结出一些共有的特征,再利用统计方法和机器学習的分类计算来进行相似度检测。

二、常见的仿冒网站识别方法

以非法盈利为目的的仿冒网站的出现,严重地影响了在线金融服务、电子商务的发展,对我国公民利益和个人信息安全构成严重威胁。在当今数字经济飞速发展背景下,对社会及经济层面也造成了极为恶劣的影响。如何快速识别仿冒网站,也成为确保我国公民个人信息安全及保障数字经济发展的重要一环。从安全角度来讲,识别仿冒网站有很多直观的方法,可以通过域名注册信息、第三方权威认证服务等多种手法来验证网站的真实性[2]。本部分列举了日常访问互联网的过程中一些常见仿冒网站识别方法。

(一)识别网站URL

域名(Domain Name),又称网域,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。在网络这个虚拟的世界里,域名天然地具有一种唯一性,相同的域名只能解析到相同的位置。正因为域名具有这种与生俱来的特性,人们可以假冒商标,却不能假冒域名。

可将网站URL每一个“/”之间视为一个部分,一个完整的网站URL一般由三部分构成。第1部分为协议,第2部分为域名,第3部分为文件名。由于域名的唯一性,仿冒网站域名必然和真实网站域名无法完全相同,因此一些仿冒网站会通过仿冒与真实域名相似域名的方式来构造仿冒网站。例如,利用视觉相似性,将字母“i”用数字“1”替代,将字母“o”用数字“0”替代等。通过域名对比的方式可以直观发现仿冒网站。

以上描述与网址的基本信息相关,也是防止进入假冒网站比较有效的方式。

(二)检查浏览器安全标志

网站应用层协议一般建立在HTTP协议基础之上,但HTTP协议是明文传输的,任何通过HTTP协议进行的通信都可能被监听、截获、窃取、篡改。为了避免这种情况,HTTP协议与SSL相结合催生了HTTPS协议。HTTPS是以安全为目标的HTTP通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性[3]。

绿色地址栏是EV SSL证书的展示形式,凡是安装了EV证书的网站,浏览器的地址栏会显示绿色的安全锁扣,并且带有绿色的公司名称。当用户访问时浏览器的地址栏会变成绿色,并在地址栏后面显示一个安全锁标志和轮流显示此网站的单位名称和此证书的颁发机构,明确指出此网站的身份已经此证书颁发机构严格验证,网站安全可靠。但凡看到绿色地址栏,就表示该网站是受到最高等级的EV证书保护的,在这个网站进行交易或者输入个人信息都是安全的。同时,部分浏览器会将国内外知名网站及信誉较好或有业务合作的公司网站添加到白名单中,在客户端访问这些列入白名单的网站时,绿色地址栏被激活。绿色地址栏是无法被仿冒,它是网站身份和可靠性的无可辩驳的证明。

(三)查看网站证书

如果一个网站没有绿色地址栏,那么安全连接标志只能说明此次连接是安全的。这意味着,没有第三方可以监听并窃取信息。但这并不意味着网站就是真实合法的网站,因为仍然无法判断连接的服务器是否为真实的。

SSL服务器证书可以有效地证明网站的真实信息、使用域名的合法性,进而识别真实网站和仿冒网站。SSL证书在申请的时候都会通过严格的审查手段对申请者的身份进行确认,网站证书一般包含网站的真实域名、网站的所有者、证书颁发组织等信息。通过对证书的查看,也可以识别和发现仿冒网站。

(四)查看网站ICP备案信息

根据《非经营性互联网信息服务备案管理办法》,在中华人民共和国境内提供非经营性互联网信息服务,应当依法履行备案手续。ICP备案是对网站主办者信息的备案,以便确定网站主办者的真实合法性。正规合法网站必须通过ICP备案,域名注册商才能进行域名解析服务。备案的目的就是为了防止在网上从事非法的网站运营活动,打击不良互联网信息的传播。仿冒网站一般无法备案,无法在工信部备案系统查询到相关信息。

网站备案号一般会在网站页脚公示,而仿冒网站一般无备案号或者公示的备案号为虚假备案号,因此通过查看网站备案信息的方式可以识别仿冒网站。

三、仿冒网站检测识别技术的应用现状

随着社会公众对仿冒网站的关注度越来越高,以及大数据、人工智能、机器学习等技术的发展,近几年仿冒网站检测的相关技术发展迅速。现有的比较典型的检测仿冒网站的方法有:基于黑白名单机制的检测,基于文本特征或网页图像特征的匹配检测[4],和基于机器学习的分类检测。

(一)基于黑名单的检测

基于黑名单的检测技术利用已有的黑名单对给定的URL进行匹配,黑名单数据库中为已知的仿冒网站网址。当给定的URL匹配上黑名单数据库中的网址时即可认为该网站为仿冒网站。基于黑名单的检测方法匹配精度高,检测速度快,实现快捷方便,因此在各种浏览器及网络安全产品中该方法得到了广泛的使用。但是,黑名单不能完全穷尽,并且只能检测已知的仿冒网站[5]。若想达到良好的检测效果,黑名单数据库必须实时更新。根据一项统计显示,20%的仿冒网站存活时间仅为一天,80%的仿冒网站存活时间不超过一个星期。因此,很可能在被加入黑名单之前,该仿冒网站就已经无法访问了,从而使得基于黑名单的检测效果非常有限。

现阶段,有很多公开的威胁情报库会共享仿冒网站数据,例如中国互联网网络安全威胁治理联盟(CCTGA)主持并建设的网络安全威胁信息共享平台,每日会公开共享仿冒网站URL地址及仿冒网站服务器IP地址信息。

(二)特征匹配检测

仿冒网站在URL、页面结构等方面存在一定的共性特征,因此可以通过提取URL特征、页面结构特征等方式来识别仿冒网站。

仿冒网站为了获得访问者的信任,其网站LOGO、页面架构、页面内容应该尽可能地与真实网站相似。通过提取疑似仿冒网站的页面结构、页面内容、图片特征等信息,与真实网站的页面特征进行对比,通过设置一定的阈值,即可实现仿冒网站的检测。

宋明秋等人基于特征匹配检测,提出了基于敏感特征的仿冒网站检测算法PhishDetector[6]。算法结合网站的URL异常及Web页面的身份异常,提取敏感特征,使用线性分类器对可疑网站进行分类。通过实验结果表明,基于敏感特征的仿冒网站检测方法,提高了仿冒网站检测的正确率,显著降低了误判率。

(三)基于机器学习的分类检测

虽然提取URL异常特征以及Web页面异常特征来识别仿冒网站拥有更高的准确率,但是识别效率低,且提取页面特征较为复杂。因此,近年来使用机器学习方法进行仿冒网站检测和识别成为研究的重点。

杨鹏等人结合特征分析及机器学习算法,提出了一种基于Logistic回归和XGBoost的仿冒网站检测方法[7]。该方法通过提取URL、网页、文本向量等特征,结合Logistic回归将高维和稀疏的文本特征转换为概率特征,并基于以上融合特征,构建了XGBoost分类模型。XGBoost是高效的梯度提升决策树算法,它在原有的GBDT基础上进行了改进,使得模型效果得到大幅提升。利用该算法,使得对仿冒网站的检测具有更好的准确率、精确率和召回率,并且处理速度更快。

四、仿冒网站识别技术应用面临的挑战

(一)识别难度高

虽然仿冒网站识别技术在不断发展,但是仿冒网站的数量并未有明显减少,其识别难度也呈现逐步抬升的态势。为遏制这一情况,也会有相关技术的研发与应用,但对于广大的互联网用户来讲,其效果并未达到预期。比如一些识别技术的应用需要用户进行真伪的识别。以网址域名的识别方式为例,在网址的构成方面,是加入了可以表明其实际所在区域的标识,但对于用户来说其识别难度依然很大;再比如相关网站安全证书的查看,是有一定计算机基础知识的互联网访问者才会运用的方法,这就限制了在数量上占大多数的普通用户能够使用该方法;部分网络平台可就输入的网址提供与之相关的安全信息,但因缺少硬性规范,平台所收集的安全信息难以做到完全可靠。因此,在识别技术方面,仍有很长的路要走,尤其在應用方面,更要确保识别技术简单高效,并具备应用的普遍性。

(二)监管不严、惩罚力度不够

为有效遏制仿冒网站发展趋势,单单靠技术支持还远远不够,甚至可以说技术只能解决技术层面的问题,而遏制违法行为还需要相关监管机制的健全,以及相关惩罚措施的明确与加强。但在现阶段,网络安全法律法规方面尚存在不足,并未从根源杜绝仿冒网站的出现,更未在其出现后采取严厉的惩罚措施。惩罚力度不够则无法就相关违法行为进行有效约束,更无法对潜在违法者形成威慑。

为此,应明确认识仿冒网站的危害,其存在不仅会造成个人财产的损失,更会对规范经营的企业造成极为负面的影响,比如其生产经营环节,以及企业信用等,如坐视其蔓延,将拖慢经济的整体发展脚步,所以,应明确仿冒的重要性及必要性。通过防治意识的确立,构建科学健全的管理机制,进一步明确并从严设置相关法律法规,从根源入手,从落于实处入手。与此同时,作为网络用户也应提升自身的识别能力,从简单易懂的识别技术入手,以循序渐进的方式对相关的防范知识进行学习并掌握,毕竟无论识别技术有多好用,使用相关技术的是人。防范并识别仿冒网站,应以管理制度为基础,以识别技术为前提,从法律层面、从个人层面,实现全面的、科学的、有理有力的综合防治。

五、仿冒网站防范建议

(一)加强防范意识

以网络技术提升为背景,仿冒网站为追求更大利益,对真实网站的网址与内容等进行仿造,以实现其违法目的。针对此现状,大多用户在不了解,甚至无认知情况下,泄露了个人信息,造成资金及财产损失。为避免此类现象发生,应普及全民的网络安全知识,提高广大用户与服务提供商的安全防范意识,安全常识教育是反网络仿冒工作中防患于未然的主要环节[8]。如在浏览网站、使用APP过程中,收到中奖信息及亲朋求助信息时应保持警惕;不轻易点击短信、邮件中以及聊天对象发来的任何链接;通过官方渠道或者正规应用商店渠道下载APP应用等。

(二)加强仿冒网站识别技术研究

现有的仿冒网站检测技术研究大部分是基于黑名单检测、威胁情报分析、主机安全防护、语义分析、蜜罐技术、防火墙和机器学习方法等。随着互联网技术的发展,仿冒网站的伪造及反检测手段在提升,仿冒网站检测技术的研究也面临着更大的挑战。只有加强仿冒网站识别技术的研究,综合利用云计算、大数据、人工智能等技术,才能有效遏制仿冒网站发展蔓延的趋势。

(三)加强法律法规建设,加大监管力度

针对仿冒网站发展趋势,国家应进一步完善相关法律法规,对网络环境进行深度净化,以实现全面监控。同时规范相关行业标准,适当提高网站注册门槛,也可以发挥一定的制约作用。互联网技术飞速发展,在信息技术发展的过程中,信息反馈与总结速率,远远低于技术提升速率,从而导致安全与发展之间失衡,造成出现仿冒网站等利用技术进行违法犯罪行为。

因此,在提高社会认知与监控技术能力的同时,也要积极总结经验,并建立高效且具有专业技术能力的监督部门并加大监管与执法力度,以有效遏制仿冒网站,并减小其危害。

六、结束语

当今互联网的发展速度日新月异,仿冒网站有出现时间不固定、本身基数巨大,而且进行诈骗的手段复杂多变等特点。单一固定的仿冒网站识别技术已经很难快速准确识别仿冒网站。随着仿冒网站的“仿真”技术提高,相应的仿冒网站检测效果会下降,并产生很多大量且错误的警告信息,误报率较高。因此,进一步完善法律法规顶层设计,增强全民网络安全防范意识,并不断更新迭代仿冒网站识别技术的需求,迫在眉睫。

参  考  文  獻

[1]卢康,周安民.基于图像相似性的钓鱼网站检测[J].信息安全与通信保密,2016(3):115-117.

[2]李倩.钓鱼网站技术与防护[J].硅谷,2012(1):193.

[3]张宝玉.浅析HTTPS协议的原理及应用[J].网络安全技术与应用,2016(7):36-37,39.

[4]云雷,李丹,王欢欢.钓鱼网站检测技术研究综述[J].电子产品可靠性与环境试验,2021(5):39.

[5]Sahoo D,Liu C,Hoi S.Malicious URL Detection using Machine Learning:A Survey[J].2017.

[6]宋明秋,曹晓芸.基于敏感特征的网络钓鱼网站检测方法[J].大连理工大学学报,2013(6):903-907.

[7]杨鹏,曾朋,赵广振,等.基于Logistic回归和XGBoost的钓鱼网站检测方法[J].东南大学学报(自然科学版),2019,49(2):207-212.

[8]孙蔚敏,刘洋.网络仿冒(Phishing)的防范[J].信息网络安全,2006(10):40-42.

万小博(1987.08-),男,汉族,河北保定,硕士研究生,工程师,研究方向:网络安全、数据安全、个人信息保护。

猜你喜欢
安全防范机器学习黑名单
防晒黑名单?第2款就翻车了!
受惩黑名单
受惩黑名单
黑名单
老年病人输液的护理安全防范与管理
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
社会反恐形势与大学生安全防护能力分析
浅谈医院网络安全