基于复杂网络的电信大数据处理研究

2014-08-18 12:16张瑞
现代情报 2014年6期
关键词:动态数据复杂网络

张瑞

〔摘要〕文章针对目前电信运营商在大数据处理中的实际需求,全面分析研究了关于复杂网络在大数据处理中的关键技术和具体应用,深入讨论了复杂网络在静态数据、动态数据和社团挖掘等方面的实用,为目前电信大数据的处理提供了一种比较实用的方法。

〔关键词〕复杂网络;电信大数据;静态数据;动态数据;社团划分

〔中图分类号〕G434〔文献标识码〕A〔文章编号〕1008-0821(2014)06-0066-04

大数据是继云计算、物联网之后信息通信技术产业界又一次颠覆性的技术变革。对于整个产业而言,大数据市场是块等待挖掘的“金矿”,因此,如何充分利用大数据,并使其进一步发展壮大,也成为整个业界共同探究的热点话题。在大数据领域探索中,相较于其他企业,电信运营商由于在数据资源、基础资源、平台资源上拥有先天优势,因此对于大数据的探索需求更为深入。但目前电信业在经历近十年来的变革后,各种商业模式被打破。尽管电信运营商一直积极地推进4G网络建设,但网络的持续扩容与升级并未给电信运营商带来十分可观的收入,并且,更为严峻的是,在大数据时代,电信运营商还面临着来自数据、管理方面的巨大挑战。海量的半结构化和非结构化的数据大大降低了数据处理的效率,给运营商带来了巨大的数据存储和读写压力。如若不能缩短数据处理的周期,很多数据的价值都会被极大地稀释。此外,庞大的数据规模和复杂的数据种类也给运营商带来了管理层面的难题。

1电信运营商大数据应用及系统框架

电信运营商关于大数据的应用主要包括以下4种类型。首先,是基本的语音数据分析,运营商可以利用自动语音识别数据对自身的产品进行服务,并通过用户偏好分析,及时、准确进行业务推荐,强化客户关怀,这样就可以不断改善用户体验,增加用户的信息消费;其次,网络流量分析,主要指通过大数据分析网络的流量、流向变化趋势,及时调整资源配置,还可以分析网络日志,进行全网络优化,不断提升网络质量和网络利用率;第三,在企业经营层面,可以通过业务、资源、财务等各类数据的综合分析,快速准确地确定公司经营管理和市场竞争策略;第四,在业务创新层面,可以在确保用户隐私不被侵犯的前提下,对数据进行深度加工,对外提供信息服务,为企业创造新的价值。这样,大数据将帮助运营商实现从网络服务提供商,向信息服务提供商的转变。

结合电信运营商的业务情况以及目前大数据的挑战,业界提出了针对电信运营商大数据管理总体系统框架模型,其核心主要包括4层,即物理层、数据层、模型层和应用层。其中数据层是整个运营商大数据管理的核心部分,为上层应用提供数据支持(如图1所示)。

2电信大数据解决方案与需求分析

目前,中国移动采用Apache Hadoop软件的英特尔分发版来消除数据访问瓶颈和发现用户使用习惯,开展更有针对性的营销利用,同时利用Hadoop分布式数据库(Hadoop HBase)扩展存储。中国联通也是利用Hadoop来实现对大数据的存储和分析,构建了基于Hadoop的结构化访问数据库,还采用数据仓库技术,针对海量数据进行高性能查询和分析工作。但海量数据的出现、数据结构的改变,也给运营商的大数据管理及分析带来了挑战。主要表现在:一是由于多种业务的发展、市场需求的变化和网络规模的扩大使得运营商大数据迅速的增加,这增加了运营商大数据存储和处理的难度,使得现有数据仓库无法线性扩容,这表明传统的数据仓库无法有效存储日益增长的业务数据;二是由于新型大数据服务不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行多用户、多应用、实时有效的分析,传统的架构和数据仓库处理已不能满足新的信息服务需求。因此,运营商需要建立新型大数据中心,来存储、分析和处理海量数据。电信运营商采用的传统数据挖掘方法主要包括描述和预测两个方向,具体方法包括关联分析、分类和聚类等,这些方法较多应用于关系数据库系统,而目前电信运营商所面对的数据越来越多样化,复杂化程度不断增加,非结构化数据占据的比重不断攀升,传统的数据挖掘办法已经不能跟上电信业大数据处理的实际需求。自从1998年Watts和Strogatz在Nature杂志上发表文章,引入了小世界网络模型之后,国内外学界注意到了复杂网络研究的趋势,开始展开深入的研究。复杂网络研究的内容主要包括:网络的几何性质,网络的形成机制,网络演化的统计规律,网络上的模型性质,以及网络的结构稳定性,网络的演化动力学机制等问题。上述复杂网络的研究内容恰恰与电信运营商目前所拥有的大数据内容和处理需求紧密地结合在一起,为电信运营商的大数据处理开辟了一条崭新的方向。

3基于复杂网络大数据处理

针对电信运营商大数据处理的第一步是数据预处理及准备,以发生最多、数据量最大的客户通话行为为例,它和用户通话行为直接相关,其中涵盖的具体内容如表1所示,如通话时长,基站信息等等,如果再加入个人年龄、性别等信息,则构成多维数据,为大数据分体提供更多基础数据。接下来,针对基于复杂网络的电信大数据分析研究可以从以下3个方面展开,分别是静态研究、动态研究和社团挖掘研究。

3.1静态数据研究

电信的运营数据的结构随着时间在不断地发生变化,而且是比较典型的多维数据,复杂网络的最初研究对象是某个网络在某个特定时间段的内容,譬如,某个市、区在某几个月的通话数据,由此可以形成一个典型的网络。在这里,以IEEE VAST 2008的数据集作为研究对象,它包括了一组涉及400人左右的10天通话数据,通话记录数为9 834条。

利用复杂网络方法对远程教育网络的研究起始于基本的3项内容,它们分别是度与度分布、平均路径长度和聚类系数。

度的意义是指与该页面节点连接的其他页面节点的数目。在对电信通话数据的实际研究中主要是指一个用户存在的与其他用户通话的信息数目。一个用户节点的呼出与呼入数量又分为出度和入度。所有用户节点度的平均值称为网络的平均度。数据显示该通话记录的节点平均度为3-9,从复杂网络研究角度出发,一个用户节点无论从出度或入度的大小都直接与该用户的重要程度相关。由图2和图3可以看出,个别用户节点拥有较大的出度与入度,他们在整个网络中扮演了核心节点的角色,通过这几个节点将其他用户紧密地联系在一起。endprint

平均路径是基于复杂网络电信大数据的另一个十分重要的指标,它主要是指网络中两个节点之间最短路径的边数。任意两个节点的最大值称为网络的直径,上述网络的直径为8。平均路径长度是衡量网络转发能力的一个重要参数,具有较短路径长度可以降低传输的延迟,对于网站的查找具有决定性的作用,上述网络的平均路径长度为4-2,一般电信每个月的网络直径为20左右,整个网络的直径在15左右,这就充分说明该网络具有紧凑的结构,保证用户可以花费最短的时间联系到自己需要人,这对于电信运营商集团网络的建设及营销策略的细化非常重要。

聚类系数用于描述网络连接的聚集程度,即网络有多紧密,也就是说如果一个网络结点有数个直接的邻居结点,那么这些邻居结点之间有可能也是邻居。Watts和Strogatz首先指出,许多实际网络的聚集系数远大于相同结点规模的随机网络。

3.2动态数据研究

电信运营商大数据的分析具有其自身的特点,它的用户动态性较强,呈现出“生命周期”的特征,时间演化性是电信通话数据的复杂网络化固有属性,任何网络都会随时间呈现出一定的演化规律,但数据分析不能以秒、分、时以单位展开,这样单位内的数据量太有限,要想尝试抓住用户的核心商业价值,制定相应的营销策略,就需要以月或者季为单位进行通话数据分析。

笔者将上述的数据导入复杂网络分析软件中,最终结果如图4所示,其中包括通话日期、持续时间和基站信息,经过运算可以产生对电信数据商进行用户分析的诸多结果。首先,在图中可以发现明显的聚集效应,他们的通话概率是其他用户的2~3倍,这些用户具有更高的活跃度,这些用户在网朋友数目越多,其离网概率越小,由此可以帮助电信运营商建立流失模型,制定相应策略进而防止客户流失。其次,可以发掘出部分的个人特征及通话偏好,譬如,有些用户的通话量极少,有些用户的通话大部分发生在夜间,建立这样的用户模型将有利于发现用户的消费行为,利于各种用户套餐的制定,方便降低运营成本。最后,通过基站数据的分析,可以发现该用户的活跃地区和基站的负载程度,帮助电信运营商进行基站建设的规划。

3.3社团挖掘研究

复杂网络社团是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏。社团结构在电信运营商数据分析中扮演着十分重要的角色,它是了解整个网络结构和功能的重要途径。针对电信运营商的大数据处理而言,虽然它们的社团大小和数目是未知的,用户之间的相互联系是随时间改变的,但这种网络结构呈现出比较鲜明的层次结构,可以观察出高密度或者低密度的社团结构。通过图4,可以观察到除了大部分的聚集用户节点之外,还存在着其他类型的用户节点,比如离群点和中心点。这些中心节点将对谣言或者手机病毒的传播起到重要的作用,同时还会对新客户的发掘起到推进作用。而离群节点则是比较典型的噪音数据,对这些数据的摒弃将有助于提高正常数据的处理速度。网络社团结构的研究主要与计算机科学中的图形分割和社会学中的分级聚类有着密切的关系。

目前,基于复杂网络的许多社团网络划分算法都是在K-means基础上提出和演化的,该算法在电信大数据处理中得到广泛的应用。K-means经典算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速。该算法的关键在于初始中心的选择和距离公式。在电信大数据背景下,K-means算法在分类效果、实际运行时间方面体现出较强的实用性。通过上述数据的K-means算法社团划分实验分析,可以得到3个结构清晰的社团,他们分别包含59、29和6个用户节点。

4结束语

针对电信运营商数据处理的传统方法虽然能够在一定程度上进行分析处理,但面对规模日益庞大的数据量,这些方法往往在实际过程中显得力不从心,不能满足实际需求。但伴随着Google提出的MapReduee框架及其开源Hadoop等优秀的分布式架构涌现及应用,电信运营商能够引入复杂网络的系统科学方法进行大数据的处理分析。复杂网络对电信大数据目前大量出现的非结构化数据具有极强的适应性,其重要意义在于它对数据的宏观及微观两个方面的研究,宏观研究包括网络结构图的绘制、网络的演化和网络鲁棒性研究等,微观研究主要是个体的研究,比如重要节点的发现、个体演化、社团划分及事件发现等。而且,上述两方面的研究工作是相辅相成的,其目标是对现实的复杂网络进行有效的分析。总体来看,各个电信运营商利用大数据来推动业务转型将是未来电信市场的一个重要方向。电信运营商如果能够通过复杂网络等新技术的进步,不断释放其管道中庞大数据的潜在力量,将会成广大用户提供更好的服务体验。

参考文献

[1]郭晓科.大数据[M].北京:清华大学出版社,2012:20-130.

[2]王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013:30-208.

[3]杨胜琦.基于复杂网络的大规模电信数据分析研究[D].北京:北京邮电大学,2010:12-120.

[4]李秋静,叶云.电信大数据解决方案及实践[J].中兴通讯技术,2013,(6):34-38.

[5]汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2007:162-198.

[6]包稢.大数据,大变化,大未来——大数据支撑驱动电信运营商转型发展[J].通信世界,2013,(6):81-84.

(本文责任编辑:马卓)endprint

平均路径是基于复杂网络电信大数据的另一个十分重要的指标,它主要是指网络中两个节点之间最短路径的边数。任意两个节点的最大值称为网络的直径,上述网络的直径为8。平均路径长度是衡量网络转发能力的一个重要参数,具有较短路径长度可以降低传输的延迟,对于网站的查找具有决定性的作用,上述网络的平均路径长度为4-2,一般电信每个月的网络直径为20左右,整个网络的直径在15左右,这就充分说明该网络具有紧凑的结构,保证用户可以花费最短的时间联系到自己需要人,这对于电信运营商集团网络的建设及营销策略的细化非常重要。

聚类系数用于描述网络连接的聚集程度,即网络有多紧密,也就是说如果一个网络结点有数个直接的邻居结点,那么这些邻居结点之间有可能也是邻居。Watts和Strogatz首先指出,许多实际网络的聚集系数远大于相同结点规模的随机网络。

3.2动态数据研究

电信运营商大数据的分析具有其自身的特点,它的用户动态性较强,呈现出“生命周期”的特征,时间演化性是电信通话数据的复杂网络化固有属性,任何网络都会随时间呈现出一定的演化规律,但数据分析不能以秒、分、时以单位展开,这样单位内的数据量太有限,要想尝试抓住用户的核心商业价值,制定相应的营销策略,就需要以月或者季为单位进行通话数据分析。

笔者将上述的数据导入复杂网络分析软件中,最终结果如图4所示,其中包括通话日期、持续时间和基站信息,经过运算可以产生对电信数据商进行用户分析的诸多结果。首先,在图中可以发现明显的聚集效应,他们的通话概率是其他用户的2~3倍,这些用户具有更高的活跃度,这些用户在网朋友数目越多,其离网概率越小,由此可以帮助电信运营商建立流失模型,制定相应策略进而防止客户流失。其次,可以发掘出部分的个人特征及通话偏好,譬如,有些用户的通话量极少,有些用户的通话大部分发生在夜间,建立这样的用户模型将有利于发现用户的消费行为,利于各种用户套餐的制定,方便降低运营成本。最后,通过基站数据的分析,可以发现该用户的活跃地区和基站的负载程度,帮助电信运营商进行基站建设的规划。

3.3社团挖掘研究

复杂网络社团是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏。社团结构在电信运营商数据分析中扮演着十分重要的角色,它是了解整个网络结构和功能的重要途径。针对电信运营商的大数据处理而言,虽然它们的社团大小和数目是未知的,用户之间的相互联系是随时间改变的,但这种网络结构呈现出比较鲜明的层次结构,可以观察出高密度或者低密度的社团结构。通过图4,可以观察到除了大部分的聚集用户节点之外,还存在着其他类型的用户节点,比如离群点和中心点。这些中心节点将对谣言或者手机病毒的传播起到重要的作用,同时还会对新客户的发掘起到推进作用。而离群节点则是比较典型的噪音数据,对这些数据的摒弃将有助于提高正常数据的处理速度。网络社团结构的研究主要与计算机科学中的图形分割和社会学中的分级聚类有着密切的关系。

目前,基于复杂网络的许多社团网络划分算法都是在K-means基础上提出和演化的,该算法在电信大数据处理中得到广泛的应用。K-means经典算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速。该算法的关键在于初始中心的选择和距离公式。在电信大数据背景下,K-means算法在分类效果、实际运行时间方面体现出较强的实用性。通过上述数据的K-means算法社团划分实验分析,可以得到3个结构清晰的社团,他们分别包含59、29和6个用户节点。

4结束语

针对电信运营商数据处理的传统方法虽然能够在一定程度上进行分析处理,但面对规模日益庞大的数据量,这些方法往往在实际过程中显得力不从心,不能满足实际需求。但伴随着Google提出的MapReduee框架及其开源Hadoop等优秀的分布式架构涌现及应用,电信运营商能够引入复杂网络的系统科学方法进行大数据的处理分析。复杂网络对电信大数据目前大量出现的非结构化数据具有极强的适应性,其重要意义在于它对数据的宏观及微观两个方面的研究,宏观研究包括网络结构图的绘制、网络的演化和网络鲁棒性研究等,微观研究主要是个体的研究,比如重要节点的发现、个体演化、社团划分及事件发现等。而且,上述两方面的研究工作是相辅相成的,其目标是对现实的复杂网络进行有效的分析。总体来看,各个电信运营商利用大数据来推动业务转型将是未来电信市场的一个重要方向。电信运营商如果能够通过复杂网络等新技术的进步,不断释放其管道中庞大数据的潜在力量,将会成广大用户提供更好的服务体验。

参考文献

[1]郭晓科.大数据[M].北京:清华大学出版社,2012:20-130.

[2]王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013:30-208.

[3]杨胜琦.基于复杂网络的大规模电信数据分析研究[D].北京:北京邮电大学,2010:12-120.

[4]李秋静,叶云.电信大数据解决方案及实践[J].中兴通讯技术,2013,(6):34-38.

[5]汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2007:162-198.

[6]包稢.大数据,大变化,大未来——大数据支撑驱动电信运营商转型发展[J].通信世界,2013,(6):81-84.

(本文责任编辑:马卓)endprint

平均路径是基于复杂网络电信大数据的另一个十分重要的指标,它主要是指网络中两个节点之间最短路径的边数。任意两个节点的最大值称为网络的直径,上述网络的直径为8。平均路径长度是衡量网络转发能力的一个重要参数,具有较短路径长度可以降低传输的延迟,对于网站的查找具有决定性的作用,上述网络的平均路径长度为4-2,一般电信每个月的网络直径为20左右,整个网络的直径在15左右,这就充分说明该网络具有紧凑的结构,保证用户可以花费最短的时间联系到自己需要人,这对于电信运营商集团网络的建设及营销策略的细化非常重要。

聚类系数用于描述网络连接的聚集程度,即网络有多紧密,也就是说如果一个网络结点有数个直接的邻居结点,那么这些邻居结点之间有可能也是邻居。Watts和Strogatz首先指出,许多实际网络的聚集系数远大于相同结点规模的随机网络。

3.2动态数据研究

电信运营商大数据的分析具有其自身的特点,它的用户动态性较强,呈现出“生命周期”的特征,时间演化性是电信通话数据的复杂网络化固有属性,任何网络都会随时间呈现出一定的演化规律,但数据分析不能以秒、分、时以单位展开,这样单位内的数据量太有限,要想尝试抓住用户的核心商业价值,制定相应的营销策略,就需要以月或者季为单位进行通话数据分析。

笔者将上述的数据导入复杂网络分析软件中,最终结果如图4所示,其中包括通话日期、持续时间和基站信息,经过运算可以产生对电信数据商进行用户分析的诸多结果。首先,在图中可以发现明显的聚集效应,他们的通话概率是其他用户的2~3倍,这些用户具有更高的活跃度,这些用户在网朋友数目越多,其离网概率越小,由此可以帮助电信运营商建立流失模型,制定相应策略进而防止客户流失。其次,可以发掘出部分的个人特征及通话偏好,譬如,有些用户的通话量极少,有些用户的通话大部分发生在夜间,建立这样的用户模型将有利于发现用户的消费行为,利于各种用户套餐的制定,方便降低运营成本。最后,通过基站数据的分析,可以发现该用户的活跃地区和基站的负载程度,帮助电信运营商进行基站建设的规划。

3.3社团挖掘研究

复杂网络社团是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏。社团结构在电信运营商数据分析中扮演着十分重要的角色,它是了解整个网络结构和功能的重要途径。针对电信运营商的大数据处理而言,虽然它们的社团大小和数目是未知的,用户之间的相互联系是随时间改变的,但这种网络结构呈现出比较鲜明的层次结构,可以观察出高密度或者低密度的社团结构。通过图4,可以观察到除了大部分的聚集用户节点之外,还存在着其他类型的用户节点,比如离群点和中心点。这些中心节点将对谣言或者手机病毒的传播起到重要的作用,同时还会对新客户的发掘起到推进作用。而离群节点则是比较典型的噪音数据,对这些数据的摒弃将有助于提高正常数据的处理速度。网络社团结构的研究主要与计算机科学中的图形分割和社会学中的分级聚类有着密切的关系。

目前,基于复杂网络的许多社团网络划分算法都是在K-means基础上提出和演化的,该算法在电信大数据处理中得到广泛的应用。K-means经典算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速。该算法的关键在于初始中心的选择和距离公式。在电信大数据背景下,K-means算法在分类效果、实际运行时间方面体现出较强的实用性。通过上述数据的K-means算法社团划分实验分析,可以得到3个结构清晰的社团,他们分别包含59、29和6个用户节点。

4结束语

针对电信运营商数据处理的传统方法虽然能够在一定程度上进行分析处理,但面对规模日益庞大的数据量,这些方法往往在实际过程中显得力不从心,不能满足实际需求。但伴随着Google提出的MapReduee框架及其开源Hadoop等优秀的分布式架构涌现及应用,电信运营商能够引入复杂网络的系统科学方法进行大数据的处理分析。复杂网络对电信大数据目前大量出现的非结构化数据具有极强的适应性,其重要意义在于它对数据的宏观及微观两个方面的研究,宏观研究包括网络结构图的绘制、网络的演化和网络鲁棒性研究等,微观研究主要是个体的研究,比如重要节点的发现、个体演化、社团划分及事件发现等。而且,上述两方面的研究工作是相辅相成的,其目标是对现实的复杂网络进行有效的分析。总体来看,各个电信运营商利用大数据来推动业务转型将是未来电信市场的一个重要方向。电信运营商如果能够通过复杂网络等新技术的进步,不断释放其管道中庞大数据的潜在力量,将会成广大用户提供更好的服务体验。

参考文献

[1]郭晓科.大数据[M].北京:清华大学出版社,2012:20-130.

[2]王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013:30-208.

[3]杨胜琦.基于复杂网络的大规模电信数据分析研究[D].北京:北京邮电大学,2010:12-120.

[4]李秋静,叶云.电信大数据解决方案及实践[J].中兴通讯技术,2013,(6):34-38.

[5]汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2007:162-198.

[6]包稢.大数据,大变化,大未来——大数据支撑驱动电信运营商转型发展[J].通信世界,2013,(6):81-84.

(本文责任编辑:马卓)endprint

猜你喜欢
动态数据复杂网络
云计算环境下动态数据聚集算法研究
颞下颌关节三维动态数据测量的初步研究
基于复杂网络节点重要性的链路预测算法
基于复杂网络理论的通用机场保障网络研究
基于动态数据驱动的突发水污染事故仿真方法
PMU的原理应用及发展前景