尚秋明,王利军,邓桂英,赵彤,张立坤
(中国互联网络信息中心 技术研发部,北京 100190)
随着互联网的高速发展,网络赌博、淫秽色情等不良信息的传播越来越泛滥,对我国网民尤其是未成年网民的生活及学习产生十分不良的影响[1]。网络赌博、淫秽色情等网络不良信息一直是我国净化网络环境重点打击的内容。域名是网络信息的主要访问入口,通过技术手段对网络不良信息进行检测,进而对相关域名进行过滤封堵是不良信息治理的重要保障。随着5G 时代的到来,域名不良应用空间不再局限于传统互联网网站,网络直播、APP、微信群等新型互联网应用不断涌现,进一步加快不良信息的传播速度和增长规模,管控难度增加,安全问题更加严峻,不良域名的实时检测和处置需求进一步提高。
现有不良域名的检测识别多是基于域名相关信息,包括注册信息、DNS 解析服务器、网站IP 归属地等,结合不良域名黑白名单,利用机器学习预测模型,实现对域名不良程度进行判定。该方法的前提是不良域名之间存在若干相关性。由于域名的注册成本较低且可选注册的顶级域名类型超过1 000个,借助于大量的域名托管服务商和云服务商,域名注册者可通过打破不良域名之间关联关系,实现逃避此类检测算法的目的。同时该方法的域名不良判定结果仍需大量的人工检验工作,以便开展相关处置工作。
此外,还有根据网页DOM 相关结构进行相似性判定,同时存在判断结果不准确,处置前需要人工一一核验的工作投入问题[2]。在利用文本相似性进行判定方面,随着网络信息指数级地增长,敏感词越发多变,要求敏感词库涵盖周全且不断更新十分不现实,现有的文本过滤筛查机制准确率也相应下降[3-5]。在利用图片相似性进行判定方面,随着图片样本空间的增大,不良图片因其海量规模、形式多样、隐蔽性越来越强等特点,现有的图片相似性算法出现误判、错判、无法判定等现象,局限性越来越大,且事后需要大量人工辅助纠正,泛化能力较差,可靠性不高[6]。
以上检测识别方法都可识别实现对不良域名网页内容的自动识别、截图取证与判定,进而加快不良域名人工核验认定的速度。但是,根据日常不良域名认定处置经验,大量网络赌博、淫秽色情等不良域名的网页内容存在高度相似性。不良域名网站运营者多采用注册大量域名的方式来部署同一套网站代码的方式,变相规避域名被封。
本文根据大量不良域名内容高度相似性特点,提出一种针对“涉黄”“涉赌”两类网站快速发现和处置的系统解决方案,该方案利用图像相似性聚类和相似性搜索等技术,大幅提升不良域名人工审核工作效率,可实现不良域名及时判定及处置的工作目标。结果表明,该系统对于全网的不良域名应用实现常规监测,快速发现、精准识别、高效率处置有很好的效果。
实施数据集全部为主动探测数据,是指通过对顶级域的区文件解析获取到的域名列表。包含“.CN”域名和151 个通用顶级域(其中.COM 域名数量超过1.4亿,.NET域名1 300 多万个等)共计2 亿多域名。
本方案实施环境如表1 所示。
表1 实施环境
图1 为提供一种不良域名核验应用场景示意图,在图1 所示场景中,互联网基础资源大数据平台中存储了已确认不良域名、注册数据、DNS 数据(如DNS 解析服务器)、网站IP 归属地、域名黑名单等域名相关信息。互联网基础资源大数据平台通过接口连接有不良域名处置系统,该不良域名处置系统用于对不良域名进行域名停止解析、域名删除、网站停止访问、网站内容清理等处置操作。互联网基础资源大数据平台连接至相关应用(如不良数据分析、数据统计、疑似不良域名应用识别等),对不良域名的相关信息进行统计分析或者对域名进行进一步识别。
本模型设计思路为:
(1)通过筛选规则快速筛选出疑似不良域名,完成已有顶级域的大范围全域检测和快速筛选。将新注册域名放在后续黄赌识别的优先队列,可以提高检测效率,有效降低延迟,便于及时发现将新注册域名应用于不良网站的情况。
(2)将疑似不良域名对应的网站截屏图像作为检索项,在已人工确认的不良网页截图库中进行相似性搜索,若搜索命中,则将最相似网页截图的域名不良分数作为该域名的不良相似度分数,将该域名不良类型作为该域名的不良类型,无需人工判定。
(3)对于在不良域名网页截图库中未搜索到匹配项或图片重合度未达到阈值的域名,按照不良域名人工审核时间间隔,进行网页截图的智能识别(包含文本识别、图像识别),并分别计算色情疑似度、赌博疑似度分数。
(4)根据日常不良域名认定处置经验,大量淫秽色情、网络赌博等不良域名的网页内容存在高度相似性,为避免人工判定过程的大量重复劳动,利用图像相似性聚类和相似性搜索技术,将高相似网页图像自动归类,推送给人工进一步判定。审核人员参照步骤(3)智能识别结果,对网页图像聚类结果每个分类进行不良类型的批量标识,即一个不良域名标识即全类标识。
下面将进行每个步骤的详细阐述。
疑似域名快速筛查指利用大数据技术对域名对应网站数据(网站A 记录、网页DOM 结构、网页文本内容等)进行特征提取及分析,根据规则筛选出涉黄、涉赌疑似域名列表。
疑似域名快速筛查过程如图2 所示,包含如下主要步骤:
(1)通过解析区文件,获取“.COM”“.NET”等通用顶级域(gTLD)域名列表,以及“.CN”等国家域名的域名列表。
(2)采用分布式数据采集系统遍历所有域名,针对域名或者域名变种(加上www.前缀),按照具备A 记录、80端口已开通、网站为中或英文网站等规则进行快速筛查,将符合筛选条件送入筛选域名列表。
(3)对网站内容进行自动化采集、截屏取证、清洗和预处理(将域名网站对应的截图保存在图片库中;对网站文本内容进行清洗和预处理,剔除HTML、JavaScript脚本、特殊字符、乱码和停用词等内容,对汉字进行繁简转换以及分词处理,将清洗后的文本内容存入文本库中),将包括有关网络赌博、淫秽色情关键词的网页域名定义为疑似不良域名。
(4)获取疑似域名IP 解析归属地、ICP 备案信息、域名DNS 解析信息、域名注册人等信息并保存,以供后续数据关联分析。
通过疑似域名快速筛查,完成已有顶级域的大范围全域检测及快速筛选,同时,基于新注册域名的近实时的检测,一方面可避免大范围的爬网,提高检测效率;另一方面,可有效降低发现延迟,避免不良网站带来的恶劣影响。
不良网页截图库相似性检索是指将新采集的截屏图像文件作为检索项,在已人工确认的不良网页截图库中进行相似性搜索,若搜索命中,则将最相似网页截图的域名不良分数作为该域名的不良相似度分数,将该域名不良类型作为该域名的不良类型,无需人工判定。
图像相似性检索框架如图3 所示。
(1)离线处理过程。首先遍历已取证域名网页截图库,对图像库中每个图像进行特征提取,将提取的所有特征进行量化处理,创建多维倒排索引。
(2)在线处理过程。对疑似不良域名网页截图进行特征提取,经过有序量化处理及多维倒排索引后,通过图像相似性匹配算法(近似RANSAC 算法),将疑似不良域名网页截图的特征与已取证不良域名网页截图特征库中的特征元数据进行相似性匹配,若满足条件(相似度阈值以上),则按照相似度数值大小返回检索结果。
对于在不良域名网页截图库中未搜索到或图片重合度未达到预设值的截图,按照不良域名人工审核时间间隔,进行基于网页截图内容的智能识别(包含文本识别、图像识别)。
2.4.1 不良文本识别
不良文本识别是指筛选域名网页中满足和不满足文本特征值,再根据筛选出的特征值差异计算阈值的过程。当域名文本信息特征值超过阈值时,进行不良信息分类标记处理。
图4 为本方案的不良文本识别流程,关键词自动提取和权值计算主要采用LDA(Latent Dirichlet Allocation)主题模型。其中,Dirichlet 是指一类高维连续概率分布,是Beta 分布在高维的推广。LDA 模型包含文档、主题、词汇三层结构,假设文档主题的先验分布和主题中词汇的先验分布均服从于Dirichlet 分布。利用Dirichlet-Multi共轭特性,通过贝叶斯推断方法得到基于Dirichlet 分布的文档主题后验分布和基于Dirichlet 分布的主题词汇后验分布,从而根据文档与词汇之间的知识,生成文档与主题、主题与词汇的信息,完成关键词的提取和权值的计算。
(1)将不良域名网址爬取网站文字内容并进行数据清洗和预处理。
具体包括:去掉HTML 标签、JavaScript 脚本、特殊字符、乱码和停用词,汉字繁简转换以及分词处理。通过构建词频矩阵训练LDA 模型,得到带权重的不良关键词词典,利用AC 自动机算法针对不良关键词进行高效匹配。
(2)统计文本集单词次数和文本集词总量,计算文本集单词平均词频。
设文本集第i 个单词次数为Ni(i 为T 特征项的维数,i=1,2,3,…,N),计算文本集词总量ΣNi(i=1,2,3,…,N),计算文本集单词平均词频f(Ti,x)=ΣNi/N。
(3)确定关键词集。
选择出现次数大于文本集中单词出现次数的数学期望值的单词作为关键词,即遍历文本集T,若Ni≥f(Ti,x),将该单词加入关键词表K(Kj(j=1,2,…,M)为关键词集中的关键词);否则,放弃该单词。
(4)计算关键词集的平均权重。
ΣNj为关键词集K 中所有单词权值之和,则关键词集的平均权重=ΣNj/M。
(5)计算域名不良得分。
对过滤出的关键词去重后个数大于等于7 个的,取关键词去重权值的平均值作为文档不良度得分;对个数小于7的,取关键词去重后权值平均值×关键词去重后个数/7 作为文档不良度得分,公式表示为:
2.4.2 不良图像识别
相对于网页文本内容,网页图像能承载更多的内容。如何通过图像识别算法来对网页内容进行不良识别是不良域名发现的关键环节,集中于涉黄图像识别及涉赌图像识别。
(1)涉黄图像识别
网页图像涉黄一般是指网页上的图像包含暴露身体性器官的图片。目前,图像涉黄检测技术相对成熟,主要采用深度学习技术,由于涉黄图片目标明确,比较容易检测。
深度学习技术基于人工神经网络,属于机器学习的一个新领域,该技术通过结合低级特征表达抽象高级属性类别及特征,可模仿人脑机制解释数据,包括文本、图像及声音等。目前,深度学习类型包含监督或非监督两种,前者以卷积神经网络为代表,后者以深度置信网络为代表[7]。深度学习方法利用大数据的优势,能够自动学习特征表示、高效提取图像的全局特征和上下文信息。但对于经典不良图像识别存在训练数据类型单一、数据质量不高、图片误识率较高等缺点与难题。
为此,研究者们根据各自研究目标类型的特点,选择了不同的卷积神经网络算法对图片的基础特征进行提取[8]。Girshick[9]等人提出基于区域候选的卷积神经网络R-CNN 用于图像目标检测,避免了传统图像处理中涉及复杂的目标特征,同时在准确率和速度上得到很大提升。He[10]提出一种新的网络结构(在ResNet 设计残差模块)解决了无法构建更深网络的问题,使得网络的深度直至152 层卷积层时最低错误率仅为3.57%。王红君[11]等人采用弱监督迁移训练算法训练ResNet 模型,在大规模复杂场景下(光照、摄像机视角、存在移动物体、气候、地貌特征等条件的大幅变化)提取图像特征,解决了提升精度和鲁棒性问题。周忠义[12]在ResNet-50 模型基础上,通过增加浅层网络层到深层网络层的多个通路,将具有更强细节纹理信息的浅层特征和具有更明确语义分类信息的深层特征相结合,增强了后续卷积运算的特征信息,分类准确率达到99.2%。雷景生等[13]以完整图像作为输入和输出,利用Inception 模块对噪声图像进行去噪,使用改进Inception 反卷积模块将去噪图像进行还原,有效去除了图像中存在的高斯噪声。王丹峰等[14]将Inception 网络结构融入检测网络中以提升网络结构复杂度和检测精确度,一定程度上提高精确度和检测速率。
以上每个算法模型在一定的条件下对涉黄图像识别判断均起到一定的识别效果。相比于GoogleNet,Inception3 模型的非对称结构在减小网络计算量方面具备明显的优势。该模型通过增加非线性激活减小过拟合概率,采用辅助分类结构加速训练过程、提升主分类器效果,且通过一定步长卷积与池化并行的操作有效降低维度。ResNet 模型则针对于随网络加深、准确率下降的问题,采用Identity Mapping 和Residual Mapping 的设计,即如果网络已经到达最优,继续加深网络时,Residual Mapping 将趋向于0,仅余Identity Mapping,使网络一直处于最优状态。经过对多种模型的试验对比,考虑算法间适应匹配度、提高效率优先方面,最终选定Inception3与ResNet50 构成的双模型进行组合预测。
在实时图像检测识别场景中,图片不良程度监测主要包括以下两个实施步骤:
①提取网页图像下载链接并依次下载。
②依次对每张图片进行涉黄识别。首先对图片进行预处理,主要包括:图片颜色空间的变换、图片灰度变换和大小调整、图片增强和去噪。预处理过的图像经由Inception3 与ResNet50 双模型进行检测,将两个模型的综合打分作为图片的涉黄度得分。选取3 个最高涉黄度得分的平均值作为域名涉黄分数。实验证明,该双模型组合检测方法在大数据量和多复杂数据类型、数据清洗手段、迁移学习等方面有效地提高了召回率,降低了单一模型带来的误识率。
(2)涉赌图像识别
相对于涉黄网页图像区分度高,涉赌网页特征不突出且不易区分,针对这种特征,本模型采用文献[15]中提到的方法,利用卷积神经网络技术进行涉赌图像的识别判定。
①收集大量网页图像数据以构造训练算法所需的数据集,采用正负样本的网页截图,即涉赌的网页截图和正常网页截图,利用卷积神经网络进行训练。
在训练过程中发现,当ResNet 网络层数达到足够深时,在评测集上存在网络退化、梯度消失爆炸问题。因此,采用重新构造的SE-Resnet 算法(在ResNet 网络基础上进行优化,增加压缩激励(Squeeze-and-Excitation)模块),在验证集上对涉赌网页进行识别和评测,算法获得了良好的识别效果。同时,通过在线数据增强技术(如随机图像颜色变换、随机翻转、随机抠图等技术)提升数据的多样性和数据量及模型的泛化能力。
②利用训练涉赌识别模型计算域名涉赌度分数。对于确认的不良网页截图,存入图像库,构建图像相似性搜索库,供后续图像检索使用。
根据日常不良域名认定处置经验,大量网络赌博、淫秽色情等不良域名的网页内容存在高度相似性,即不良域名人工审核认定存在大量的重复工作。为避免高相似不良域名重复认定,以便及时对不良域名进行相应处置,利用图像相似性聚类和相似性搜索等技术,将高相似网页图像自动归类,推送给人工进一步判定。
(1)对于在不良域名网页截图库中未搜索到或图片重合度未达到预设值的截图,按不良域名人工审核时间间隔,将指定时间段内获取的网页截图进行自动归类后推送给审核人员。
(2)审核人员参照智能识别计算出的色情疑似度分数、赌博疑似度分数,对网页图像聚类结果每个分类进行不良类型的批量标识(即一个不良域名标识即全类标识),同时提供手动筛选机制,将错误归类的个别域名剔除或单独设为一类。
(3)从已确认的网页图像聚类结果中选取最靠近聚类中心点的图像,存入图像库,构建图像相似性搜索库,供后续图像检索使用。随着图像库规模的增加,图像相似度搜索结果将更加精准,将大大提升系统不良判定准确率和系统自动化率,提升不良域名的人工审核效率。
(4)考虑到图像规模的大小,在实际检索场景中对于中小规模图像库(图像数量为5 万幅以下)及大规模图形库(图像数量为5 万到上千万幅)采用不同的处理方式:
①中小规模的最近邻图像检索。当图像数量为5 万幅以下时,由于图像数目较少,通过比较查询图像与图像库中每幅图像之间的距离,返回与查询图像最近邻的图像集合。
②大规模的近似最近邻图像检索。当图像数量为5万到上千万幅时,考虑到特征的存储空间和检索速度两个因素,采用近似最近邻检索策略,返回与查询图像最近邻的图像集合,同时按采样时间和命中频率持续地对样本库的图片进行更新替换。
为检验准确率,采用4 万余张疑似不良域名网页截图最终分为150 多类,网页截图聚类测试结果准确率为99.86%。结果表明,该方式可大幅提升了不良域名人工核验认定工作效率,有效降低了人工成本,实现了不良域名及时处置。
目前,该方法已应用于基金“国家互联网基础资源大数据(服务)平台”项目,并对2 亿多的域名进行监测采集与判定分析,最终发现不良域名155 万个。为验证本方法的准确率,对经过人工抽样10 000 个不良域名样本(淫秽色情和网络赌博域名各自5 000 个)进行判定,验证结果为机器打分总体准确率为99.67%,其中淫秽色情类准确率为99.66%,网络赌博类准确率为99.68%。实验表明采用本文提出的不良域名快速核验方法可以有效地识别出涉黄、涉赌网页类别,大幅提升不良域名的人工审核效率和准确率,且具有较高的准确率。
本文提出了一种不良域名快速检验方法。对于未判定为不良的疑似域名进行后续跟踪,定期截取网站主页进行检测,一旦潜伏域名启用后,可及时发现色赌类域名及非法网站,从而达到大幅度提升色赌类网站的发现及举报量的目标;对于已判定为不良的域名进行挖掘分析,结合站群信息、DNS 解析数据、域名注册数据进行综合关联分析,为相关部门提供有价值线索,以发现及治理违法组织。本模型对于网络空间不良域名全方位监测,掌握不良域名的滥用程度、分布态势及违法域名一体化治理等方面,可发挥一定效力。
针对实验结果分析过程中发现的问题,下一步将采用迁移学习的方式对模型进行持续优化,提升对特定类型图片处理的敏感性,改进对攻击样本的抵抗效果。