网站群中不良外链的治理方法研究

2022-08-29 06:59肖波邓甜甜周春光
电脑知识与技术 2022年20期
关键词:域名页面内容

肖波,邓甜甜,周春光

(长沙学院网络与现代教育技术中心,湖南长沙410022)

1 引言

对于大型的社会团体、企事业单位,其官方网站以及多个二级部门的网站,通常建立在网站群平台之上。网站群是以统一标准、统一规范、建立在统一技术架构基础之上的若干个能够相互共享信息、按照一定的隶属关系组织在一起的统一管理的网站集合[1]。以某高校为例,其网站群包括1个学校官网、30多个二级学院或研究机构和20 多个行政部门的网站,网站群中每天发布的信息量近百条,自2010年以来,信息量累计超过20万条。

在庞大的网站信息中,存在大量指向第三方网站的链接信息,这些链接可能随时间的推移,指向的目标网站发生了变化,通常是域名注册过期而被新的公司注册使用,其网站的内容或性质发生了变化,甚至变成诈骗或黄赌毒等非法的网站。我们将这种指向第三方不良信息的网页链接,称为不良外链。如果对网站群中的外链不进行监管,不能预防和清理不良外链,将会误导网站访问者,助长不良信息的传播,造成恶劣的社会影响,甚至有可能成为网络安全事故。

第三方网站何时发生变化,网站群中的有效外链何时成为不良外链,这是不可控的。如何在有效外链变为不良外链之前进行预警和清理,是大型网站群平台管理面临的一项重大挑战。

2 治理方法概述

治理的方法,可以从管理角度出发,建立完善的外链监管机制,包括发布前对链接甄别、分类标识,内容发布时的审查,发布后的持续跟踪,内容过期后的删除,链接变化后的清除等。这些方法是将网站群的内容发布的流程更加规范化,信息管理更加精细化。其代价是需要网站管理员付出更多的时间和精力,甚至需要人工对若干年前发布的链接进行识别并清理,在实际操作中因各种原因并不能完全清理,治理的效果欠佳。

在实际中发现很多网站平台将所有外链进行了统一跳转,对列入黑名单的恶意域名进行了屏蔽,同时对访问者点击外链跳转时进行了提醒,这种严苛的方式可能并不友好,使用户迷惑。某些技术方法采用网络爬虫对目标网站的内容和关键词进行分析[2-4],识别出不良外链进行清理。

在此基础上,对于不良外链的分析判定,网络爬虫应该收集更多的关于目标网站的备案、注册等信息,并结合外链在本网站群中使用的情况做出更准确的分析判断。全面可靠的治理方法是采用自动化的程序,提取出网站群中的每一条链接,然后对链接按域名进行分类、可信度分析、持续跟踪审查,及时识别出无效的、不可信的外链,尽早判定出不良外链并进行清理。这一治理方法,涵盖了外链在网站群中从发布到撤销的全生命周期的监管。

3 链接的提取与分类

链接广泛分布在网站群平台的各个网站的各级页面中,为了达到全面的治理效果,需要将链接全部提取出来,并对其进行分类,以便进一步处理。

3.1 链接的提取

链接的提取可采用网络爬虫抓取和读取数据库、文件的方式得到网页内容,然后通过标签查找或字符串匹配的方法提取其中的链接信息。

网络爬虫是一种自动化程序,通过不断向Web服务器发送页面请求来获取网页数据。为提高对网站群中链接信息的抓取效率,需将抓取范围限定在本单位的域名范围内,并结合网站群的层次结构、导航信息、栏目结构,根据网站群系统在页面中的特定标签值对爬虫算法进行优化。在实践中发现,不良外链通常存在于若干年前发布的信息中,这需要爬虫的算法更多地关注网站中的历史页面,在网站的列表页进行广度优先的搜索。采用网络爬虫需要不断地通过网络与服务器进行交互,因网络延迟和步骤的往复,其效率较低,耗费系统资源较多,并存在信息遗漏或延误的情况。

读取数据库或文件的方法是直接从网站群系统的数据库或文件中获取信息。网站群系统,也是内容管理系统(CMS)[5],其前端页面上展示的文字内容都存储在后台数据库中,通过分析其数据库的结构,可直接获取到以HTML语言或纯文本形式存在的信息。对于静态网页的网站,其网页内容同时以文件形式存储在Web服务器的网站主目录中,可直接读取这些网页源代码文件。该方法高效快捷,信息全面,但需要网站群厂商公开数据底层设计或提供查询接口。

通过上述两种方法获取到网页信息后,需进一步提取其中的链接信息。网页中的链接信息通常以HTML 语言的A 标签存在,少量链接以纯文本、图片中的文字、二维码链接等形式呈现。链接的提取可分步进行,首先对HTML 语言进行处理,直接读取A 标签的HREF 属性值即可得到链接。然后剔除所有HTML标签得到页面文字内容,和其他纯文本信息一并进行处理,此时可采用正则表达式或其他字符串匹配查找的方法。在实际应用中,为了不遗漏链接,需制定比较宽泛的匹配规则。例如,在文本信息中查找链接,根据链接的URL规则,需将点号前后属于URL字符范畴的内容组合起来,截止于空格或其他非URL 的字符,形成一条链接信息。对于图片或二维码链接,则采用图像字符识别(OCR)、二维码解析得到文本信息后再按纯文本的链接提取方式进行处理。

为方便后续步骤,在提取链接时,需记录其所处的网站、栏目、页面内容的标题、发布时间、点击数等信息。

3.2 链接的分类

对提取到的链接信息,再进行域名或主机头的提取。域名是判定链接的合法性、区分内外链接的依据。根据URL语法规则,提取的方法是:找到链接中的“//”的位置,然后从它的下一个字符开始,如果没有找到就从第一个非符号的字符开始,到后续的第一个“/”字符之前的字符结束。提取出来的信息为域名、主机头或IP地址。根据提取的结果,可将链接分为无效链接、内部链接、外部链接。

无效链接:1)提取的信息为空值。实际中多源于A标签的HREF值为“#”。2)提取的信息中不包含点号。通常是表示组织内部的主机名,在公共网络中无法明确标识。3)点号分隔的数字字符,但不符合IP地址规则。一般来自上一步骤中提取到的用点号分隔表示的日期信息。4)点分字符的最后一段,不属于顶级域名(Top-Level Domains) 的范畴。这类信息无法通过DNS进行解析。5)其他无法通过DNS解析的情况。

内部链接:1)无法提取到域名或主机头信息。这类信息通常是省略了域名或主机头表示相对路径的链接。2)提取到的域名或IP地址,属于本单位的域名或IP地址,或是内网IP地址。

其他的链接均为有效的外部链接,是需要重点关注的对象。

4 外链的可信度分析

外链的可信度分析,是分析判定外链的有效性、域名的可靠性、目标网站的可信任程度,分析预测出不良外链。对于从网络群中提取的大量外链,由自动化的程序收集相关信息对外链域名的可信度进行定性的判定或定量的评价。

4.1 可信度定性分析

根据外链的域名做可信度定性分析,可将其可信度划分为三个等级:高可信、低可信和不可信。对有效、高可信度的外链,在网站群中可正常使用;对过期、可信度低、可疑的外链,须进行持续跟踪,并根据后续的定量评价做出相应的处理;对发生改变、不可信、不良的外链,立即清除。域名可信度的定性判定的因素有以下5种。

1)域名的类型。如:政府、国防、教育机构的专属域名gov.cn、mil.cn、edu.cn,属于高可信度域名。而普通的.cn、.com、.net等域名属于低可信域名。在实际应用中发现,不良外链均出自.com、.net域名。

2)域名所指首页中的备案信息[6]。目前,国内具有高可信度的备案信息或标识主要有三种:党政机关事业单位统一标识,其管理服务平台为:http://bszs.conac.cn/;公安机关备案信息,其管理服务平台为:http://www.beian.gov.cn/;工业和信息化部的备案信息,其管理服务平台为:https://beian.miit.gov.cn/。在网站首页中公开的备案信息越多,网站域名的可信度越高,备案信息可由网络爬虫抓取得到[7],并可在相应管理服务平台查询验证。

3)域名所指网站首页内容。根据网站的标题、关键字、内容等信息进行数据分析做出判定,如果包含敏感词汇、不健康内容、非法信息,其域名判定为不可信或不良外链。

4)链接在网站群中的发布位置。例如,由党政机关部门网站发布在政策法规栏目中的外部链接,其域名可信度要高于普通二级部门发布在通知公告、活动赛事、招聘信息等栏目中的外部链接。

5)各二级部门提供的可信域名列表。根据实际经验,各二级部门均有对口的上级业务主管部门,或有业务往来的其他单位,这类外单位的域名信息可由各二级部门提供,属于高可信度域名。

4.2 可信度量化计算

对于网站群内大量的低可信度的外链域名,需结合外链在本网站群内的使用情况进行量化计算,将外链按域名进行汇总,统计相关数据指标:域名在网站群中出现的次数、域名在网站群中出现的站点数、域名出现的时间跨度、域名被点击的次数,域名最后一次在网站群中发布的时间离现在的间隔。基于这些数据,构造如以下计算公式进行量化。

式中:V0表示初始可信度估计值,范围1~10;C表示包含这一域名的外链在整个网站群中出现的次数;S表示包含这一域名的外链出现在整个网站群中的站点数;dm表示域名出现最晚时间和最早时间相差的月份数;P表示域名对应的链接被点击的总次数;W表示包含这一域名的外链最后一次出现的时间离现在的周数。计算结果V值越大,可信度越高,这类域名需要持续跟踪审查;若V值小于等于0,则视为不可信,需要对包含这一域名的外链进行清理。

以发布在某站点的招聘信息中某公司的首页链接为例,根据上述计算模型,若该公司是一家普通公司,域名可信度初值设为5,该域名的链接仅在网站群中出现一次,自信息发布之日起到计算的时间点,时间间隔一年,其域名可信度降为0,视为不可信。若该公司是一家知名大公司,域名可信度初值设为10,如果该域名在该网站群多个站点多次发布,且点击量高,域名可信度维持在较大数值,判定为可信。

5 外链的审查清理

因为第三方网站变化的不可预见性,需要对外链进行跟踪审查,预测或发现变化。审查是从包含外链的信息发布之日起,至它被删除的整个生命周期,适时进行跟踪审查。对审查发现的问题域名或外链,协同站群管理平台,进行警示或清理。

5.1 外链的跟踪审查

在发布外链信息时,要求发布者验证外链的必要性、有效性、提供外链域名的可信度参考值、文章内容与目标网站内容的关联情况、文章内容过期日期等信息。每一条新的域名外链发布时,由程序追踪记录域名对应的网站首页的标题关键字等信息,记录通过域名注册信息查询系统(WHOIS)反馈的域名的相关注册信息。常见WHOIS 查询服务地址有:中国互联网络信息中心(whois.cnnic.cn),阿里云中国万网(whois.aliyun.com),站长之家(whois.chinaz.com) 等。这些初始信息作为跟踪审查的依据。

跟踪审查的时间频度,根据可信度分析的结果来确定。高可信的域名,可每年执行一次跟踪审查。由各部门提交的可信域名名单,须每年重新审核提交一次。对于低可信度的域名,根据量化计算的数值,其可信度值越低,审查的频度越高,必要时做到每日审查一次。

跟踪审查由自动化的程序进行,验证外链是否有效、关联的内容是否发生变化、目标域名首页的标题关键字是否发生变化、目标网站首页或目标页面是否出现了敏感词汇、根据WHOIS 系统查询的注册日期是否到期、注册信息是否发生变化。随着时间的推移,发布的内容是否还有效,是否过期,重新分析域名的可信度。

审查时,如果发现小的变化,可逐步记录在案,在可接受的范围内由程序继续追踪;出现大的变化,如关联的内容发生重大的变化,域名注册信息过期,页面内容出现了敏感词汇,则可判定为不良外链,程序联动网站群平台立即进行清理操作[8];如果出现可疑情况无法自动判定时,可发出警示,由人工干预进行审查。

5.2 不良外链的清理

清理是将外链从网站群中进行删除,清理的前提条件是页面内容已经过期,或第三方网站性质发生了改变,外链已经成为不良外链。根据实际情况可以只删除页面中的链接信息,也可以将整个页面内容删除。如果某个域名的网站已经成为不良网站,则需要将网站群中所有包含该域名的外链全部清理掉,通常情况下,需要网站群平台协同处理,在网站群平台的管理端执行批量操作。在实际应用中,为了减少不良外链出现的概率,可执行比较严格的清理措施,对于页面内容过期的信息,可尽早进行撤稿处理,长期无人访问的低可信外链,可将页面中的链接删除。

6 应用效果

以上技术方法在某高校的网站群平台进行初步试用,截至2022 年3 月,获取到211186 条页面内容信息,提取出链接26835条,其中外链7250条,外链域名总数1214个,分析整理出高可信域名256个,清理出不良外链127条,因内容过期而删除的包含外链的信息483 条,主要源自招聘类活动类信息,其他低可信域名的外链,将对其进行持续跟踪审查。

7 结束语

通过以上技术方法,采用自动化的程序提取网站群平台中的链接,根据域名进行分类标识,按可信度对外链进行分类跟踪处理,结合网络群管理平台,及时自动清理过期的、无效的、不良的外链,有效地防范了不良外链产生的负面影响,减轻了管理人员的工作压力。对于不同的网站群平台或组织环境,可参照以上技术方法对外链进行监管。对于外链域名的可信度分析,可结合更多平台的共享数据进行分析,或调整参数增加权值以优化计算结果,这有待进一步研究。

猜你喜欢
域名页面内容
刷新生活的页面
内容回顾温故知新
Combosquatting域名抢注的测量研究
如何购买WordPress网站域名及绑定域名
主要内容
腾讯八百万美元收购域名
顶级域名争夺战:ICANN放出1930个通用顶级域名,申请者有上千家
网站结构在SEO中的研究与应用
浅析ASP.NET页面导航技术