曾宇怀, 冯小兵, 金 晨
(1.广州地理研究所 广东省农业大数据研究中心,广东 广州 510070;2.上海对外经贸大学 金融管理学院,上海 201620)
20世纪90年代以来,以Internet为代表的信息技术的迅猛发展,使人类社会大步迈入了信息时代,城市间信息的流动总量迅速增大。广东省的基础传输网一直保持着强劲的发展势头,目前,电信网络正加快向现代综合信息网演变。截至2017年第四季度,广东省固定宽带接入用户数达到3246.8万户,3G/4G移动电话用户合计达到12846.6万户,两项数据均在全国各省排名首位。目前,广东构建物联网、云计算、大数据、智慧城市、人工智能等创新科技产业,都要建立在广域网、IP骨干网和IDC(互联网数据中心)等网络基础设施的支撑之上。研究广东省互联网网络的特征,对于当前的人工智能与大数据产业发展,保障网络信息安全,发展网络科学在空间地理学、人文社会科学中的广泛应用具有现实意义。
在当前复杂网络研究中,研究Internet主要通过由细到粗3种粒度和层次来进行[1]:IP地址层、路由器层和AS(自治系统)层。例如,采用凝聚算法和分裂算法解决社会网络的社团划分[2],以及基于在电路网络的电阻距离的社团发现算法[3],还有利用全球IP地址的地理位置、采用堆数据结构的快速CNM(Clauset-Newman)算法[4],对数量巨大的互联网IP地址层进行划分聚类。
本文从上述文献的社团划分方法出发,研究省级尺度互联网络社团划分。根据数据的获取,以广东地市级城市IP节点为对象,研究区域互联网的拓扑建模、地理衰减效应,进一步分析了网络内部中心城市经济地理衰减效应。为了与其它网络数据的类比方便,于AS层定义城市节点,存在于同一广域网络中。广东省互联网数据流量较大,通常各市电信数据中心对其它城市的信息数据每月平均接收、转发量都在1010bps以上。广东省是我国互联网三大出入端口之一,通过20多年的建设运营,已经具有亚太地区、国际Internet的基本特征,包括小世界、无标度等复杂网络特征[5-6]。
广东省互联网本身是一个巨大的多层复杂技术网络,复杂网络的复杂性体现在结构复杂、节点复杂以及各种复杂性因素的相互影响之中。因此,通过对网络节点相互间关系以及节点关系影响因素的分析,能够对网络的特性有更好的把握,从而维护信息网络的高效性、稳定性、安全性,为广东省提供更多信息服务产品和提高服务水平打好坚实的技术基础。最后,本文以广东省为例,用复杂网络模型,在经济地理范畴内作具体、实证分析,同时验证该模型的科学性、实用性和未来可扩展性的前景。
正如前言所述,今天的广东省互联网络是一个巨大的复杂网络。故本文采用复杂网络研究方法[1,5],全省共分为21个城市节点、若干条连边进行网络建模。首先用可视化方法研究该网络拓扑结构、团块区域分区,具体使用Pajek、Gephi制图、分析软件。考虑到数据的特点和空间网络模型的可求解性,本文采用经典的“地理学第一定律”——空间重力数学模型,结合城市经济GDP统计数据,对网络模型进行实证研究。最后,把广东省城市信息流量与GDP进行关联,可以定量分析得出珠三角核心城市的信息衰减距离范围。
将广东省2014年约半年的21个地级市的流量数据(表1),通过Pajek网络可视化分析软件,生成图片,如图1所示。其中,以每个城市(21个节点城市,含广州、深圳两个计划单列市)为基础构建城域网络。在该网络中,平均入度和平均出度均为21,同时网络的直径为1,节点之间的连边总数为210条,如考虑数据流入、流出方向,则为420条。网络为完全图,拓扑结构性完整。
表1 广东省地级市数据单向流量矩阵表(单位:GB/s)
根据流量大小不同,将21个城市分成3个不同群组,并以不同颜色表示。其中,深蓝色方块群组的广州、深圳、东莞、佛山四个城市的流入量和流出量均明显高于其他城市,属于第1组的核心层。而广州、深圳是核心中的核心,主要由于其与粤省外、香港、澳门具有密切的经济联系与人员往来。由此可见,珠三角的外向型经济与信息特征很显著。红色方块标注的是核心层外围城市,属于第2、第3组。
在Gephi软件中,运用Force Atlas算法(本文为非含权算法)可以定量划分生成不同组群,计算出该关系图的模块化值为0.0510(而模块化值越大,群组结构越清晰),说明该网络中的节点在一个大群组(社团)中,并且相互之间联系紧密,如图2所示。
广州、深圳、东莞、佛山4个城市处于力分布的核心部分,通过红色粗线四边形连接,为第一群组城市,说明广东省2014年上半年流量大部分集中于这4座城市,这4个大城市构成了珠江三角洲地区的信息核心;而属于第二群组的节点有5个城市:惠州、肇庆、江门、中山、珠海,分布在第一群组的边缘,绿色连接线较粗、较密集,作为珠三角的重要组成部分,但值得指出的是,汕尾市在自然、实体经济区划中不属于珠三角地区,但在信息流指标上属于珠三角范围。第三群组:绿色连接线较细而稀疏,包括汕尾、韶关、云浮、清远、茂名、湛江、河源、揭阳、汕头、梅州、潮州、阳江等12个城市,这些是珠三角地区的人力、土地、自然资源的补充来源地,也是广东省今后发展的重要增长地区。
图1 广东省21个城市数据流量关系
Fig.1 The relationships of data volume in 21 cities of Guangdong Province
图2 广东省21个城市流量关系Force Atlas分布
Fig.2 The relationships of data volume in 21 cities of Guangdong are displayed in Force Atlas’s distributions
重力模型来源于物理学中的万有引力定律:两个物体之间的作用力与两物体的质量成正比,与物体间的距离成反比[7-8]。最早的重力模型是齐波夫和斯图尔特于20世纪40年代提出的,用于对城市间人口流动的预测分析,他认为两个地区之间的人口流动与两个地区人口数量成正比,与两个地区间实际距离成反比[9]。
随着社会、经济的不断发展,人们对信息流通的要求越来越高,以计算机和互联网为载体、以电缆和光线为媒介的信息传递成为人类的主要活动之一。可以说,信息流通取代了一部分人口流动活动。因此,将重力模型应用于信息流动的分析中,两个城市之间的信息流量与两座城市经济规模成正比、与距离成反比。
传统的重力模型来源于物理学中的万有引力模型,其基本形式为
(1)
其中Xij表示城市i到城市j的信息流量,广东省城市信息数据详见表1。为了突出全局特征性,定义各城市之间为无向信息流,即总流量。Yi和Yj表示城市i和城市j的经济规模GDP,Dij指两个城市中心间的距离;Δ为期望值等于1的误差项。
我们对其进行线性化,消除异方差的影响。对(1)式两边取对数,则有
logXij=α0+α1logYi+α2Yj+blogDij+eij
(2)
本文对采用的数据进行说明:
1)流量信息数据为省级IP城域网数据。广东电信互联网络是中国电信最大的省级网络,提供宽带数据服务的用户数占广东省70%以上,因此流量数据具有代表性。
2)广东省各城市的经济规模,使用《广东省统计局2015统计年鉴》发表的广东省2013—2014年各地级以上市国民经济统计数据(表2)。
3)距离采用公路距离而非直线距离。由于广东省内高速公路已经通达每个县,公路交通最为发达和便利,因此选择公路网最短距离作为城市之间的地理距离[10-11]。
运用Matlab计算工具对(2)式重力模型进行回归分析,其中α0为常数,eij为误差项。最后得到结果α0=-2.6735,α1=0.4544,α2=0.7578,b=-0.2708。经检验,回归系数是显著的。在广东省数据流量的重力模型中,城市的经济规模和城市间距离对城市间的信息流量有影响。根据Matlab拟合结果,描绘重力模型中信息流量与经济规模和城市距离的关系曲线如图3所示。在图中能够清晰地看到:流量Xij与城市GDP的Y值(本文分为4条系列曲线)成正比、与城市间距离(D<800km)成幂指数反比(衰减)的两组关系。
图3 广东省21个城市之间数据流量的重力模型曲线(流量单位:GB/s)
Y值曲线共有4条,由上至下,依次代表4级GDP数值模拟曲线:7000、3000、1000、600亿元
Fig.3 The data flow curves of gravity model in Guangdong between the 21 cities(flow unit:GB/s)
通过上述模拟曲线与表2的各市GDP值进行关联、分级,得表3。
表3 广东省21城市GDP模拟值分级表
重力模型和Gephi可视化网络分析工具图2划分的结果相对比:
第1级加上第2级(重力模型)相当于2.1节提到的第一群组(Gephi模型),第3级前5个市(惠州、中山、茂名、湛江、江门)相当于第二群组;第3级后7个市(珠海、肇庆、揭阳、汕头、清远、阳江、韶关)加上第4级的5个市(共12个市),相当于第三群组。可见,通过两种算法和工具,对第1、2级(第一群组:珠三角核心4大城市)都较好地划分出来。对第3、4级(第二、三群组)通过进一步细分,也可以较好反映城市信息流与GDP的定量关系。
经济地理衰减特性:位于第1级的广、深、佛三大城市,其GDP综合经济值的影响范围可达到距离城市中心的600~800公里以外。这与三大城市的经济实力在广东省和泛珠三角地区的实际影响力是相吻合的。
本文对广东省2014年上半年各市城市网络流量数据进行汇总整理。运用复杂网络原理,将流量数据关系通过可视化图形展示。根据各城市流量权重大小,展示以广州、深圳、东莞和佛山为珠三角中心城市群的信息流量布局。再引入重力模型,解释城市经济规模和城市间距离等经济地理因子对城市间信息流量大小的影响。通过对广东省各城市数据进行统计拟合,得出两个城市间信息流量与城市经济规模(GDP)成正比、与地理距离成反比的结论以及全省的实际衰减距离。