复杂网络与网站评估体系研究*

2016-09-22 04:38王媛媛
甘肃科技纵横 2016年4期
关键词:泊松页面架构

王媛媛,张 瑞

(兰州财经大学,甘肃 兰州 730020)

复杂网络与网站评估体系研究*

王媛媛,张 瑞

(兰州财经大学,甘肃兰州730020)

介绍了当前网站评估存在的问题之后将复杂网络的研究方法引入到网站评估体系建设之中,接下来由网站数据架构数据处理开始,从静态评估指标和动态评估指标两方面出发,深入阐述了多项基于复杂网络的评估指标与网站体系之间的关系。为搭建高效合理的网站系统提供了一种研究新思路,进而可以帮助社会提升对网站信息的管理水平。

复杂网络;网站评估;静态指标;动态指标

1 概述

2015年7月,中国互联网信息中心(CNNIC)发布的《第36次中国互联网络发展状况统计报告》报告显示,截至2015年6月,中国域名总数为2 231万个,其中“.CN”域名总数为1 225万个,占中国域名总数比例为54.9%,“.中国”域名总数为26万个。目前,中国IPv4地址数量为3.36亿,拥有IPv6地址19 338个。中国国际出口带宽为4 717 761 Mbps,半年增长率为14.5%。但在互联网高度繁荣发展的同时,也催生了诸多问题,比如网站建设、信息维护和安全性问题等,具体表现在:(1)网站在开发初期,缺乏统一的设计规划思路,往往照搬照抄其他网站,致使后期功能受限;(2)网站信息匮乏,网站普遍存在网页设计杂乱无章、信息更新不及时,导致信息访问受阻;(3)网站安全性低,缺乏信用保障,缺乏统一的标准体系,不安全性问题成为网站发展中最大的障碍。根据相关的研究内容及成果可以看出,目前针对网站的研究内容及方法多集中在人员调查及反馈意见等方面,而对网站真实架构的研究非常少见。但是当前许多网站亟待解决的问题都直接与网站架构相关。复杂网络及动力学恰恰为我们提供了这样的一个研究体系及工具,可以直接从网站拓扑结构出发,揭示其发展规律及动力学特征。该方法为搭建及评估网站建设提供了一种新的思考方式。

2 复杂网络与网站评估

近年来,复杂网络已经成为一个跨越多学科的研究热点,它已逐渐成为研究多种复杂问题的重要方法,对复杂网络的研究正受到来自不同领域的越来越多的研究人员的关注。首先,复杂网络是指具有自组织性、自相似、吸引子、小世界、无标度部分或全部性质的网络。一个具体的复杂网络就是一个由点集V和边集E组成的图G=(V,E)。E中的每条边都有V中一对点与之相对应。对于网站而言,点集指的是在某一具体环境下的一个个独立的页面或者独立的浏览者,而边集就是页面与页面之间或者页面与浏览者之间的链接,这些关系可以是有向的,也可以是无向的,一个网站的这些信息被提取出来就构成了一个完整的复杂网络。

将这些大量的网站结构模拟拓扑出来,尝试去发现评价网站功能设计是否合理及安全的机制,进而设计出完善的网站系统。

2.1网站架构数据的预处理

基于复杂网络的网站评估体系研究,首先是建立网站的模拟拓扑图。其主要过程就是对于网站的遍历,我们采用自主设计的网络爬虫和网络机器人,同时采用深度优先搜索和广度优先搜索来进行遍历。就是首先访问网站中的首页,然后由该页面出发,依次访问各个未被访问过的邻接节点P1,P2,P3…Pt,接下来再按顺序访问P1,P2…Pt的所有还未被访问过的邻接页面,再从这些访问的页面出发,访问他们的所有未被访问过的邻接节点,如此循环下去,直到所有的节点页面都被访问到。从而收集到了网站的网页和超链接全信息。该工作包括了重复链接信息的删除,还有对各个网页的标注及编号。根据我们的研究显示,所有挖掘网站的结构呈现出两种主要的拓扑结构。第一种类型的网络我们称之为泊松网络或均匀网络,这就是通常所说的典型随机网络。这种网络的页面数量在10 000以内,页面的链接数量在数千或者几万个。它的度分布值在200以内,而且出现一个明显的峰值,在峰值两边迅速的衰减。它的其度分布p(k)近似为泊松(泊松)分布。当该网络规模N→∞时,网络的度分布接近以下格式的分布形式P(k)=e-(k),见图1(a)所示。第二种类型的网络被称为无标度(scale-free)网络,它属于十分典型的幂率(power law)分布,其度分布表现形式为P(k)∝k-r。该种类网站的页面数量非常巨大,通常以万计,页面之间的超链接数量已经多达十几万条或者几十万条,该类型网站的度分布没有峰值的特点,但是存在个别具有较多链接的页面,大部分的页面链接较少,见图1(b)所示。

2.2静态指标体系的搭建

利用复杂网络对网站的静态评估起始于基本的三项内容,分别称为度与平均度、聚集系数、平均路径长度、自组织临界值和靴襻渗流值。

2.2.1度与平均度

度在复杂网络中主要是指与页面链接的其他页面的数量,通常分为出度和入度两种,也就是其他节点指向该节点与该节点指向其他节点的数量。从遍历出的网站拓扑图可以看出有些节点具有较大的出度与入度,我们将出度与入度的平均值称为网络的节点平均度。对于泊松分布的网站其平均度的数值区间在20-60之间,这和网络的实际建设情况是相一致的。如果超过这个区间则表现为明显的不可靠性,容易产生信息孤岛。基于幂率分布的网站其平均度数值在1-80之间平均分布,该类型网站具有较好的稳健性,原因在于网站架构统一,内容涉及合理,该网站即使失效60%左右的页面也能正常使用。

2.2.2平均路径长度

该指标主要指两个页面节点之间的最短距离的平均值。该值较小则说明网站具有较小的延迟传输,网页的查找较方便。根据我们的研究显示,该值的合理区间在1到3之间,如果该值小于1,则说明网站的链接过于单一。如果大于3则说明该网站的层次过于复杂,链接冗长,对于网页的浏览造成障碍,降低网站的使用效率。

2.2.3聚集系数

该系数主要表达了网络页面节点的邻居节点数量,也就是网络的紧密程度。根据我们的研究结果显示该指标的正常数值大于0.1,较小的值则显示出该网站具有较少的连通性,没有足够的集团化特点,也就是不具备一定的发散性,而较大的聚集系数则证明该网站页面节点有较高的连通度,也就是各主题的安排较集中,形成一定规模聚集效应,方便了浏览者的浏览。

2.2.4自组织临界值

目前,许多网站在发展和演变的过程中发现网站突然发生一种拥堵现象,导致网站丧失访问功能,这是网站内部机制导致的严重事故。1987年巴克等人提出了自组织临界值的概念,它全面阐述了一个动力学系统,在外部组件和内部单元的相互制约下,会逐步到达一个动力学临界状态,在这个状态下,只要有一个微小的局部扰动就可能造成整个系统的奔溃。在我们的研究过程中,选取了连接概率这一指标对网站的稳定性进行了研究。该连接概率的取值区间在0~1之间,该值越小,网站的连通性不高,发生崩塌的可能性较小,但伴随该值的不断增加,网站在局部连通的作用力下,全面崩塌的可能性逐步增大。由此可见,伴随网站内容的不断增加,网页间的全链接不能盲目的增加,这就需要适度的添加,而且要控制网站的规模。

图1两类网络空间结构对比图

2.2.5靴襻渗流值

靴襻渗流是在1979年由Chalupa等提出的一个理论,其初始理论来自对于非磁性杂质导致磁有序降低并全部消失的物理现象。该理论与网站动力学的演化关系主要是指所有网页节点均存在两种状态,活跃状态和非活跃状态。而且所有的节点都是相对独立的,在一定的概率条件下,部分节点开始由非活跃状态转换为活跃状态。其中如果某一个节点的活跃邻居节点数达到一定数值,则该节点变为活跃节点。该模型直接与网站谣言传播、网站病毒发作以及热点事件出现的现象高度吻合。在对于泊松分布的网站的研究中,我们发现该类型的网站都存在一个十分明显的临界跳变点,这个点恰恰就是网站功能产生重大改变的关键点,该跳变点直接与网站的平均度<k>相关,该值小于5时,明显看到跳变可能性变小,换言之,在这种情况下导致网站瘫痪的可能性已经很小了,见图2所示。而幂率分布的网站则表现出较大的差异,当幂指数在[-5-4]之间时,有跳变点出现,而在[-3-2]时,则无明显的跳变点,见图3所示。

图2 泊松分布网络中平均度与临界值变化图

图3 幂率分布网络中幂指数与临界值变化图

2.3动态指标体系的搭建

利用复杂网络对网站的动态态评估起始于基本的两项内容,分别称为网络的鲁棒性和网站病毒传播与防御。

2.3.1网站鲁棒性

鲁棒性主要是指系统在遭受外力或者内部作用时,网络维持其正常功能的一种能力,这是网站所具有的一种动力学特性。它与网站的生命力直接相关,属于网站动态评价指标之一。在我们的研究过程中,我们主要采取了随机攻击策略和蓄意攻击策略两种方式。在随机攻击策略中,我们按照步骤策测试网站的随机选定的部分节点去除,结果显示平均最短路径在[2 3]区间的幂率分布网站显示出较强的稳定性,其连通度基本没有大的改变。而泊松分布的平均最短路径小于5的网站则出现了明显的访问功能受阻,同时出现了较多的孤立子网。在蓄意攻击策略下,我们选择网站中的连接最多的节点进行了删除,结果显示幂率分布的网站很快出现了访问故障,表现出较大的脆弱性。而泊松分布的网站由于其度分布的平均性,其功能保持了最大的完整性。

2.3.2网站病毒传播与防御

目前,计算机病毒给网络的使用及管理带来了巨大的威胁,包括个人信息泄露和网络功能丧失等多种问题。基于复杂网络的病毒防治是一种新的尝试。网络病毒传播共有两种模型,SIR模型和SIS模型。其中S是易感染页面,他们不会感染其他页面,但有可能被感染病毒;I是染病页面,他们已经携带染病并且具有传染性;R是免疫页面,他们是被治愈并获得了免疫能力的页面,不具有传染性,也不会再次被感染。根据我们的研究显示,泊松分布的网站存在一个病毒发作临界值,当该值大于0.13%时,也就是1 000个页面中有13个感染病毒时,就会导致网站内大面积病毒爆发,从而广泛传播,网站功能受限,生命力减弱。而对于幂率分布的无标度网络,我们的研究发现不存在这样的临界值,病毒在该类型的网站中会长期存在。

3 结束语

目前,对于网站架构评估的方法比较少,体系结构更是无从谈起。而基于传统统计研究方法对于网络架构的研究越来越显示出局限性,其主要原因在于无法对网站的实际架构以及架构与功能及网站生命力展开研究。基于复杂网络的网站评估研究提供了一条新的研究方法,它的定位直接触及网络的核心架构,以及该架构与网站表现及演化机理之间的关系,从而引导网站的建设过程,从根本上加强网站的管理水平。

[1] 刘河伟.网站人性化评估[M].北京:电子工业出版社,2015.

[2] 许跃军.政府网站与绩效评估[M].浙江:浙江大学出版社,2008.

[3] 杜平.中国政府网站互联网影响力评估报告(2013)[M].北京:社会科学文献出版社,2013.

[4] 何大韧,刘宗华,汪秉宏.复杂系统与复杂网络[M].北京:高等教育出版社,2009.

[5] 郭雷,许晓鸣.复杂网络[M].上海:上海科技教育出版社,2006.

[6] 林敏.网络拓扑结构对自组织临界行为影响的研究[D].天津:南开大学,2005.

[7] 韩定定.复杂网络的拓扑、动力学行为及其实证研究[D].上海:华东师范大学,2008.

[8] 陈小龙.复杂网络爆炸渗流研究综述[J].电子科技大学学报,2015(1):12-21.

[9] 万宝惠,张鹏,张晶,等.二分网上的靴襻渗流[J].物理学报,2012,61(16):166402-166402.

[10] 张旸.渗流相变现象的行为特征与演化机制研究[D].北京:北京航空航天大学,2014.

G250.7;TY391

A

10.3969/j.issn.1672-6375.2016.04.003

2016-3-12

2015年度甘肃省社科规划——“甘肃省网络谣言及其治理问题研究”(YB058);2015年度甘肃省高等学校科研项目——基于复杂网络的教育网站绩效评估新体系综合研究(2015B-068)

王媛媛(1980-),女,汉族,山西临猗人,研究生,讲师,主要研究方向:偏微分方程反问题、复杂网络。

猜你喜欢
泊松页面架构
基于FPGA的RNN硬件加速架构
基于泊松对相关的伪随机数发生器的统计测试方法
刷新生活的页面
一类带有两个参数的临界薛定谔-泊松方程的多重解
功能架构在电子电气架构开发中的应用和实践
带有双临界项的薛定谔-泊松系统非平凡解的存在性
基于云服务的图书馆IT架构
WebGIS架构下的地理信息系统构建研究
移动页面设计:为老人做设计
泊松分布信息熵的性质和数值计算