一种识别HTTPS违规网站方法的研究

2022-05-11 12:31文|檀
互联网天地 2022年4期
关键词:域名加密违规

□ 文|檀 鹏 温 暖

0 引言

HTTPS协议是HTTP协议的安全版本,目前国内外互联网网站企业均在大力推进其应用,由HTTP网站访问改为HTTPS网站访问。HTTPS协议在保护用户隐私、保障传输数据完整性的同时,也给网站内容的安全管理带来了巨大的挑战。针对此网络安全威胁,本文对HTTPS违规网站的识别进行了研究分析。

1 HTTPS协议概念

HTTPS全称为Hyper Text Transfer Protocol over Secure Socket Layer,HTTPS协议是基于SSL或者TLS加密的HTTP消息交互协议,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性,是以安全为目标的HTTP 通道,被广泛用于万维网上安全敏感的通讯。

2 HTTPS协议应用情况

HTTPS协议具有加密、防篡改、身份认证等优点。2014年起,国外网站陆续启用HTTPS协议。目前,谷歌、Facebook、Twitter等国外主流网站已全面应用HTTPS,国内百度、淘宝、京东等主流网站也已全面启用HTTPS,实现网络流量的加密传输,避免传统HTTP网络出现的用户信息泄露、流量劫持行为的发生。

3 HTTPS违规网站识别意义

HTTPS加密网站传输的应用日趋普及,HTT PS网站流量占总流量的比例也越来越大。HTTPS网站传输的加密特性被一些不法分子利用,存在传播违法违规内容的情况。由于传输的网站信息被加密,导致违规内容无法被流量还原等传统的技术方式识别发现,具有巨大的危害性。开展HTTPS违规网站的识别,有利于发现网络流量中隐藏的违法违规内容,找出潜在的网络安全风险,保护人民群众合法权益,具有重要意义。

4 HTTPS违规网站识别目的

本文的研究目的是通过研究HTT PS违规网站的特点,分析研究HTTPS网站加密传输过程的各个环节,发现HTTPS违规网站的传输域名,然后对网站内容进行下载,存储在本地,通过文字、图片等内容算法进行分析,最终发现HTTPS违规网站,为HTTPS违规网站治理提供技术思路方案,打击HTTPS违规网站,保护未成年人身心健康,更好地维护人民群众合法权益。

5 前期HTTPS违规网站识别理论和观点

前期万维网传输采用HTTP协议应用最广泛,由于HTTP协议传输的内容是明文传输,对于HTTP协议传输的网站内容一般采用流量抓包,然后进行流量还原,把网站的文字、图片等内容,从二进制流还原成为正常的文字、图片,然后采用内容识别算法对图片、文字中的违法违规内容进行识别,以此发现HTTP违规网站。

随着技术的发展,万维网的互联网传输出现了加密的HTTP协议,即为HTTPS 协议。由于HTTPS协议对网站的传输内容进行了加密,流量不再是明文传输,抓取到的流量包全部被加密,无法采用传统的流量还原方式进行内容还原,无法发现识别违法违规内容。亟需探讨新的识别方式,发现HTTPS网站域名,并可以获取到HTTPS网站传输的内容,进行违法违规内容识别,从而发现辨别HTTPS违规网站。

6 HTTPS网站识别存在的问题

由于HTTPS网站采用了加密传输的方式,导致难于采用传统的流量还原方式发现HTTPS域名及内容,加大了网络安全威胁风险。

(1)难于发现违规HTTPS域名

互联网网站启用HTTPS协议后,流量被进行了端到端加密,在网络中传输的域名也被加密,无法采用传统的流量还原方式进行还原,难于发现HTTPS域名。

(2)难于识别违规内容

由于HTTPS网站流量被进行了端到端加密,在网络上不再采用明文进行传输,传统的流量还原方法无法还原网站内容信息,获取不到网站内容,所以无法进行违规内容识别。

(3)网络安全威胁风险大

对于加密传输的手机恶意软件、僵木儒等无法进行有效识别,影响公共互联网网络安全威胁监测处置,使网络安全威胁风险加大。

7 解决方案

首先在HTTPS网站访问未加密的三次握手阶段,发现提取HTT PS网站的海量域名;然后用大数据过滤算法对海量域名进行计算,获得疑似违规域名;再将网站内容下载到本地,通过内容识别算法,识别出违法违规内容,发现HTTPS违规网站。识别HTTPS违规网站流程图如图1所示。

图1 识别HTTPS违规网站流程图

(1)提取HTTPS域名

针对HTTPS网站的识别,直接对其加密流量进行还原,是无法做到的。但在HTTPS网站与访问用户交互初期,其流量是非加密、明文传输的。因此可以在网站流量出口,部署流量采集设备,从网站HTTS Hello交互过程中,采集、解析其访问流程中Client Hello报文中的字段,提取HTTPS域名,将域名存储下来,进行HTTPS网站违规信息识别。HTTPS网站初始访问流程图如图2所示。

图2 HTTPS网站初始访问流程图

(2)大数据过滤算法

提取到HTTPS域名之后,由于同时提取到的域名数量巨大,需要对域名进行处理,过滤掉重复的、没必要识别的域名。首先进行去重处置,去掉重复的域名;然后采用黑名单、白名单过滤,去掉已经明确的不需要再次进行识别的域名;下一步采取域名关键字、特征等过滤算法,再次筛选疑似违规的域名。大数据算法过滤疑似违规域名流程图如图3所示。

图3 大数据算法过滤疑似违规域名流程图

(3)获取网站内容

根据过滤的HTTPS 疑似违规域名,采用爬虫等方式,对HTTPS网站的内容进行访问,下载到本地存储。爬虫可以选择爬一层,或者多层的方式,对文字、图片、音频、视频等内容进行下载。

(4)违规内容识别

根据文字、图片、视频、音频等内容识别算法,对下载的内容进行违规违规信息的识别,如果识别出违法违规内容,则可以判定HTTPS网站为违法违规网站,可以提交封堵,阻断违法违规内容的传播。

8 应用场景

本文的研究方法可以应用在云计算中心、IDC企业建站、CDN内容引入等业务的流量清洗,发现HTTPS传输的违规内容,减少网络安全风险,维护企业合法利益,保护人民群众合法权益。

(1)云计算中心。云计算中心需对自己客户的网站内容进行保护,可主动识别发现HTTPS流量中的违法违规内容,清查云服务器中的违规信息,帮助客户发现HTTPS违规网站,通知客户下线处置HTTPS违规内容,更好的维护企业的利益,发展更多的客户,创造更大的价值。

(2)IDC企业建站业务。在机房出口部署设备,抓取HTTPS网站访问三次握手的通讯,发现HTT PS网站,对IDC企业建站客户的HTTPS流量进行清查,发现识别客户网站的违规内容,通知客户进行IDC企业网站清除内容。

(3)CDN 内容分发网络业务。在机房出口部署设备,发现HTTPS网站域名,采用爬虫方式下载内容,存储内容进行违规内容的算法识别,发现HTTPS违规网站,通知CDN客户进行内容清除,停止引入违规的HTTPS网站。

9 创新点

(1)能够提取发现被加密的HTTPS网站域名。

通过在HTTPS网站流量被加密之前的三次握手通讯过程,发现HTTPS的网站域名,解决了HTTPS域名无法被发现的难题,为HTTPS网站违规内容识别做出了重要一步。

(2)能够获得HTTPS 网站内容

HTTPS违规内容被加密后,无法被流量还原。发现HTTPS域名后,必须能够识别网站的内容,才能发现违规内容。本文采用爬虫方式,将HTTPS网站内容下载下来,并进行存储,解决了HTTPS网站内容获取的问题。

(3)能够识别HTTPS加密违规内容

下载下来的内容是非加密的,所以可以采用图片、文字等违规内容识别算法,将违规的图片、文字识别出来。那么对应的HTTPS网站即是违规的。

10 结束语

为打击HTTPS违规网站,本文提出了一种识别HTTPS违规网站的方法。首先在HTTPS网站访问的三次握手通讯过程,发现HTTPS域名,然后通过爬虫方式,将HTTPS网站内容下载下来,最后使用文字、图片等内容识别算法,将违规的文字、图片识别出来,进而可以判断HTTPS网站为违规网站。通过本方法可以更好地识别HTTPS违规网站,打击加密传输的违规内容,维护人民群众合法权益。

猜你喜欢
域名加密违规
违规借调的多重“算计”
聊聊违规担保
保护数据按需创建多种加密磁盘
《江苏教育研究》官方网站域名变更公告
《江苏教育研究》官方网站域名变更公告
谷歌禁止加密货币应用程序
加密与解密
驾照