王峰+唐美华
【摘 要】阐述了大数据发展现状和发展前景,介绍了移动通信网络大数据在城市人口管理中的解决方案,研究出一套移动通信用户行为分析模型,建立了地图网格算法、人口分布算法、人口流动模型算法。通过数据分析和数据挖掘,分析了城市人口的时空分布及动态迁移情况,为大数据在移动通信网络的应用做出了有益的探索和尝试。
【关键词】大数据 聚类分析 行为分析模型 CELL ID OD调查
中图分类号:TP391 文献标识码:A 文章编号:1006-1010(2014)-13-0038-04
1 大数据发展现状和发展前景
1.1 大数据发展现状
大数据(Big Data)具有4V特征,一是数据体量巨大(Volume),数据正在以指数级速度增长,一些行业每天产生的数据量达到TB级;二是数据类型繁多(Variety),包括以文本为主的结构化数据,以音频、视频、图片、地理位置信息等为主的非结构化数据;三是价值密度低(Value),以视频为例,在连续不间断的视频监控中,有用数据可能仅有一二秒;四是处理速度快(Velocity),这是大数据区分于传统数据挖掘的最显著特征,面对海量的数据,处理数据的效率非常关键。
近年来,大数据应用随处可见。谷歌通过分析人们在谷歌的搜索关键词,提供再捕捉服务,通过这种服务谷歌每年可以获得10亿美元的收入,亚马逊通过对其平台上互动交易的数据进行挖掘,使其在交易当中获得更好的收益。多国政府部门将大数据技术应用到便民服务和政府执法领域,例如当一辆套牌车开往某个停车场,基于大数据分析的车牌识别系统可以很快通知最近的交警前往执行处罚,交通部门开放运营车辆GPS数据,向市民发布道路实时路况。
1.2 大数据的发展前景
随着技术创新和行业需要的推动,大数据产业已步入了快车道。IDC报告称,在中国,与大数据建设相关的硬件软件服务在2016年将超过6亿美元。
维克托·迈尔在《大数据时代》一书中指出:大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,同时更多的改变正在蓄势待发。
大数据以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务。数据是信息社会的根本要素,挖掘多变的、海量的数据,不仅能为全社会提供创新的信息服务,而且能够为各行业创造价值,因此大数据应用前景非常广阔。
2 移动通信大数据在城市人口管理中的
应用
2.1 移动通信网络数据的价值
运营商的数据十分宝贵,包括网络数据、用户数据、位置数据、用户行为数据、设备终端数据等。
(1)运营商拥有海量的网络资源数据,全国数以百万计的基站形成了LBS应用需要的CELL ID(CELL Identity)数据,CELL ID是指移动通信无线网络上报终端所处的基站小区号。
(2)2010年9月1日实施手机实名制之后,在保障通信安全的同时,运营商拥有了较为准确的用户资料和消费信息数据。
(3)根据移动通信原理,网络需进行小区切换和周期性位置更新,这种定期产生的大量位置更新信息就形成了位置和轨迹数据。
(4)用户在进行发送短信、通话、数据上网、开关机等行为时,会产生大量的用户行为数据。
(5)所有终端在建立与网络的连接时,均会上报终端的IMEI号,形成了丰富的终端设备数据。
上述5类数据,经过数据分析和数据挖掘,为行业研究和服务创新提供可靠的依据,为城市人口管理和公共安全提供决策数据支持。
2.2 需求分析
随着城市经济水平的不断发展,城市人口呈现数量多、增长快、流动大等特点,给经济社会发展和社会治安带来巨大的压力,给城市人口管理和服务工作带来前所未有的挑战,政府主管部门积极探索城市人口管理的新模式。如何准确地分析城市人口分布和流动情况?如何采用创新手段提升管理和服务水平?采用科学的方法和先进的技术对移动通信网络数据进行数据分析和数据挖掘是一个非常好的突破口。据工信部发布的通信行业统计数据,2014年5月底中国移动电话用户总数达到12.56亿户,移动电话普及率达92.3部/百人。由此可见,移动通信网络大数据将在城市人口分析和管理工作中显示出独到的优势和价值。
通过移动通信网络大数据挖掘和分析,能方便快捷地获取以下信息:城市人口分布及流动情况、城市居民OD调查、城市人口异常聚集、特定区域的经济发展状况等。
2.3 系统架构
基于移动通信大数据的城市人口管理系统架构分为4个部分,如图1所示,功能描述如下:
图1 基于移动通信大数据的城市人口管理系统架构
(1)数据层,负责从外部系统获取基础数据,包括全网的话单、短信、上网流量数据,以及移动通信网络的信令数据。外部系统在向本系统输出基础数据之前,需要开发一套程序完成原始数据的格式转换和数据处理。首先要屏蔽用户隐私信息,即用户号码信息全部剔除,输出时采用经过加密的IMSI号码。其次需要筛选出关键字段,每条记录都是从原始数据的几十个字段抽取出几个关键字段,这样能大大减少数据存储量。
(2)处理层,负责对获取的结构化和非结构化数据进行处理,并准确匹配到上层定义好的各类计算模型。数据处理层采用了基于开源的Hadoop分布式架构,将传统ETL的数据提取、数据清洗、数据转化、数据校验工作承载在云计算平台上,大大降低了大数据的处理成本,提升海量数据处理的及时性。
(3)模型层,定义了与需求相关的3大模型:
◆位置分析模型:负责存储对城市地图处理后的信息数据,包括了网格的经纬度信息和对应的基站信息。结合GIS地图信息,获取用户位置。endprint
◆用户分析模型:负责存储用户信息,重点包括了用户在城市生活中重要的“居住点”和“工作点”的经纬度信息。通过该模型可以分析用户在城市的生活轨迹。
◆用户拨打重点电话模型:负责存储城市内拨打110、119、120、122等电话的时间、地点。通过该模型可以分析出城市的安全、消防、交通报警电话的时间、区域以及趋势。
(4)应用层,基于B/S架构,采用模块化独立封装技术与标准化应用接口,功能强大且扩展性强,可平滑扩展到城市人口管理以外的其他行业。
2.4 算法描述
在进行移动通信网络海量数据分析和数据挖掘时,主要采用了聚类分析计算方法,包括地图网格算法、人口分布算法、人口流动模型算法。聚类分析指将对象的集合分成由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。
(1)地图网格算法:首先针对城市地图建立坐标系,将地图空间划分成为有限个单元的网格结构,所有的处理都是以单个单元为对象。单元网格面积大于基站平均覆盖范围,因此定位精度能满足城市人口出行信息分析的技术要求。具体方法如下:
◆针对城市地图建立坐标系,按基站小区平均半径250m,建立网格。
◆为城市的所有基站分配经纬度,从而把基站全部匹配到网格。
◆对跨行政区域的网格,在数据分析时做特别处理。
◆根据用户发生通信行为时所在的网格,精确计算用户位置和轨迹。
(2)人口分布聚类分析算法:根据用户发生通信行为所在基站位置数据和网络发起的周期性位置更新数据,以加密后的IMSI号作为分析对象。在时间上,按时间段计算出每个加密IMSI号出现的次数;在空间上,将加密的IMSI号匹配到叠加了网格数据的城市行政区域分布图,挖掘出每个区域某个时段的人口数量。具体步骤如下:
◆确定移动通信网络活跃用户总数。
◆设定居住地时间为18点至次日8点,工作地时间为8点至18点。
◆根据用户发生通信行为所在的基站经纬度,计算所在网格的位置。
◆计算居住地和工作地网格内的用户数量,为了数据的准确性,以3个月为一个数据采集周期,如果一个用户出现在多个地点则以出现次数最多的地点为准。
◆根据用户网格归属统计用户的区域分布。
(3)人口流动模型算法:本项目需设置多个聚类分析对象,我们给每一个聚类设置了一个模型,然后计算满足这个模型的数据集。主要的3个模型为位置分析模型、用户分析模型、安全监测模型。如图2所示:
图2 基于移动通信大数据的城市人口管理分析3个模型
2.5 结果输出
本项目利用移动通信网络语音、短信、上网数据及网络信令等海量数据,通过特定的算法,建立分析模型,输出了以下城市人口管理分析成果:
◆基于移动通信网络数据的城市各区域人口数量分布;
◆城市人口居住地、工作地分布;
◆城市居民OD调查(Origin Destination Survey),即交通起止点调查;
◆城市人口连续出行轨迹;
◆城市人口异地出行量、出行目的地分布;
◆特定区域人员聚集分析;
◆城市各区域经济发展情况。
3 结束语
大数据被誉为“21世纪的新石油”,运营商拥有海量的网络数据、用户数据、位置数据、用户行为数据、设备终端数据。通过搭建大数据基础平台,进行数据分析和数据挖掘,开辟创新应用的蓝海,为相关行业提供新型信息服务从而实现价值创新,为政府的城市管理提供决策支持,运营商的数据十分宝贵,早挖掘,早受益。
参考文献:
[1] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[2] 涂子沛. 正在到来的数据革命[M]. 桂林: 广西师范大学出版社, 2013.
[3] 涂子沛. 数据之巅:大数据革命,历史、现实与未来[M]. 北京: 中信出版社, 2014.
[4] 刘军. Hadoop大数据处理[M]. 北京: 人民邮电出版社, 2013.
[5] IT架构设计研究组. 大数据时代的IT架构设计[M]. 北京: 电子工业出版社, 2014.
[6] Anand Rajaraman, Jeffrey David Ullman. 大数据:互联网大规模数据挖掘与分布式处理[M]. 王斌,译. 北京: 人民邮电出版社, 2012.
作者简介
王峰:工程师,毕业于中国科学与技术大学计算机科学系,现任职于中国联合网络通信有限公司深圳市分公司,研究方向为移动通信计费营帐系统开发、通信行业应用产品及解决方案、大数据应用。
唐美华:工程师,毕业于西南交通大学通信工程学院,现任职于中国联合网络通信有限公司深圳市分公司,具有多年从事移动通信网络建设和设备维护工作的经验,研究方向为3G移动通信行业应用、大数据应用。endprint
◆用户分析模型:负责存储用户信息,重点包括了用户在城市生活中重要的“居住点”和“工作点”的经纬度信息。通过该模型可以分析用户在城市的生活轨迹。
◆用户拨打重点电话模型:负责存储城市内拨打110、119、120、122等电话的时间、地点。通过该模型可以分析出城市的安全、消防、交通报警电话的时间、区域以及趋势。
(4)应用层,基于B/S架构,采用模块化独立封装技术与标准化应用接口,功能强大且扩展性强,可平滑扩展到城市人口管理以外的其他行业。
2.4 算法描述
在进行移动通信网络海量数据分析和数据挖掘时,主要采用了聚类分析计算方法,包括地图网格算法、人口分布算法、人口流动模型算法。聚类分析指将对象的集合分成由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。
(1)地图网格算法:首先针对城市地图建立坐标系,将地图空间划分成为有限个单元的网格结构,所有的处理都是以单个单元为对象。单元网格面积大于基站平均覆盖范围,因此定位精度能满足城市人口出行信息分析的技术要求。具体方法如下:
◆针对城市地图建立坐标系,按基站小区平均半径250m,建立网格。
◆为城市的所有基站分配经纬度,从而把基站全部匹配到网格。
◆对跨行政区域的网格,在数据分析时做特别处理。
◆根据用户发生通信行为时所在的网格,精确计算用户位置和轨迹。
(2)人口分布聚类分析算法:根据用户发生通信行为所在基站位置数据和网络发起的周期性位置更新数据,以加密后的IMSI号作为分析对象。在时间上,按时间段计算出每个加密IMSI号出现的次数;在空间上,将加密的IMSI号匹配到叠加了网格数据的城市行政区域分布图,挖掘出每个区域某个时段的人口数量。具体步骤如下:
◆确定移动通信网络活跃用户总数。
◆设定居住地时间为18点至次日8点,工作地时间为8点至18点。
◆根据用户发生通信行为所在的基站经纬度,计算所在网格的位置。
◆计算居住地和工作地网格内的用户数量,为了数据的准确性,以3个月为一个数据采集周期,如果一个用户出现在多个地点则以出现次数最多的地点为准。
◆根据用户网格归属统计用户的区域分布。
(3)人口流动模型算法:本项目需设置多个聚类分析对象,我们给每一个聚类设置了一个模型,然后计算满足这个模型的数据集。主要的3个模型为位置分析模型、用户分析模型、安全监测模型。如图2所示:
图2 基于移动通信大数据的城市人口管理分析3个模型
2.5 结果输出
本项目利用移动通信网络语音、短信、上网数据及网络信令等海量数据,通过特定的算法,建立分析模型,输出了以下城市人口管理分析成果:
◆基于移动通信网络数据的城市各区域人口数量分布;
◆城市人口居住地、工作地分布;
◆城市居民OD调查(Origin Destination Survey),即交通起止点调查;
◆城市人口连续出行轨迹;
◆城市人口异地出行量、出行目的地分布;
◆特定区域人员聚集分析;
◆城市各区域经济发展情况。
3 结束语
大数据被誉为“21世纪的新石油”,运营商拥有海量的网络数据、用户数据、位置数据、用户行为数据、设备终端数据。通过搭建大数据基础平台,进行数据分析和数据挖掘,开辟创新应用的蓝海,为相关行业提供新型信息服务从而实现价值创新,为政府的城市管理提供决策支持,运营商的数据十分宝贵,早挖掘,早受益。
参考文献:
[1] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[2] 涂子沛. 正在到来的数据革命[M]. 桂林: 广西师范大学出版社, 2013.
[3] 涂子沛. 数据之巅:大数据革命,历史、现实与未来[M]. 北京: 中信出版社, 2014.
[4] 刘军. Hadoop大数据处理[M]. 北京: 人民邮电出版社, 2013.
[5] IT架构设计研究组. 大数据时代的IT架构设计[M]. 北京: 电子工业出版社, 2014.
[6] Anand Rajaraman, Jeffrey David Ullman. 大数据:互联网大规模数据挖掘与分布式处理[M]. 王斌,译. 北京: 人民邮电出版社, 2012.
作者简介
王峰:工程师,毕业于中国科学与技术大学计算机科学系,现任职于中国联合网络通信有限公司深圳市分公司,研究方向为移动通信计费营帐系统开发、通信行业应用产品及解决方案、大数据应用。
唐美华:工程师,毕业于西南交通大学通信工程学院,现任职于中国联合网络通信有限公司深圳市分公司,具有多年从事移动通信网络建设和设备维护工作的经验,研究方向为3G移动通信行业应用、大数据应用。endprint
◆用户分析模型:负责存储用户信息,重点包括了用户在城市生活中重要的“居住点”和“工作点”的经纬度信息。通过该模型可以分析用户在城市的生活轨迹。
◆用户拨打重点电话模型:负责存储城市内拨打110、119、120、122等电话的时间、地点。通过该模型可以分析出城市的安全、消防、交通报警电话的时间、区域以及趋势。
(4)应用层,基于B/S架构,采用模块化独立封装技术与标准化应用接口,功能强大且扩展性强,可平滑扩展到城市人口管理以外的其他行业。
2.4 算法描述
在进行移动通信网络海量数据分析和数据挖掘时,主要采用了聚类分析计算方法,包括地图网格算法、人口分布算法、人口流动模型算法。聚类分析指将对象的集合分成由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。
(1)地图网格算法:首先针对城市地图建立坐标系,将地图空间划分成为有限个单元的网格结构,所有的处理都是以单个单元为对象。单元网格面积大于基站平均覆盖范围,因此定位精度能满足城市人口出行信息分析的技术要求。具体方法如下:
◆针对城市地图建立坐标系,按基站小区平均半径250m,建立网格。
◆为城市的所有基站分配经纬度,从而把基站全部匹配到网格。
◆对跨行政区域的网格,在数据分析时做特别处理。
◆根据用户发生通信行为时所在的网格,精确计算用户位置和轨迹。
(2)人口分布聚类分析算法:根据用户发生通信行为所在基站位置数据和网络发起的周期性位置更新数据,以加密后的IMSI号作为分析对象。在时间上,按时间段计算出每个加密IMSI号出现的次数;在空间上,将加密的IMSI号匹配到叠加了网格数据的城市行政区域分布图,挖掘出每个区域某个时段的人口数量。具体步骤如下:
◆确定移动通信网络活跃用户总数。
◆设定居住地时间为18点至次日8点,工作地时间为8点至18点。
◆根据用户发生通信行为所在的基站经纬度,计算所在网格的位置。
◆计算居住地和工作地网格内的用户数量,为了数据的准确性,以3个月为一个数据采集周期,如果一个用户出现在多个地点则以出现次数最多的地点为准。
◆根据用户网格归属统计用户的区域分布。
(3)人口流动模型算法:本项目需设置多个聚类分析对象,我们给每一个聚类设置了一个模型,然后计算满足这个模型的数据集。主要的3个模型为位置分析模型、用户分析模型、安全监测模型。如图2所示:
图2 基于移动通信大数据的城市人口管理分析3个模型
2.5 结果输出
本项目利用移动通信网络语音、短信、上网数据及网络信令等海量数据,通过特定的算法,建立分析模型,输出了以下城市人口管理分析成果:
◆基于移动通信网络数据的城市各区域人口数量分布;
◆城市人口居住地、工作地分布;
◆城市居民OD调查(Origin Destination Survey),即交通起止点调查;
◆城市人口连续出行轨迹;
◆城市人口异地出行量、出行目的地分布;
◆特定区域人员聚集分析;
◆城市各区域经济发展情况。
3 结束语
大数据被誉为“21世纪的新石油”,运营商拥有海量的网络数据、用户数据、位置数据、用户行为数据、设备终端数据。通过搭建大数据基础平台,进行数据分析和数据挖掘,开辟创新应用的蓝海,为相关行业提供新型信息服务从而实现价值创新,为政府的城市管理提供决策支持,运营商的数据十分宝贵,早挖掘,早受益。
参考文献:
[1] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[2] 涂子沛. 正在到来的数据革命[M]. 桂林: 广西师范大学出版社, 2013.
[3] 涂子沛. 数据之巅:大数据革命,历史、现实与未来[M]. 北京: 中信出版社, 2014.
[4] 刘军. Hadoop大数据处理[M]. 北京: 人民邮电出版社, 2013.
[5] IT架构设计研究组. 大数据时代的IT架构设计[M]. 北京: 电子工业出版社, 2014.
[6] Anand Rajaraman, Jeffrey David Ullman. 大数据:互联网大规模数据挖掘与分布式处理[M]. 王斌,译. 北京: 人民邮电出版社, 2012.
作者简介
王峰:工程师,毕业于中国科学与技术大学计算机科学系,现任职于中国联合网络通信有限公司深圳市分公司,研究方向为移动通信计费营帐系统开发、通信行业应用产品及解决方案、大数据应用。
唐美华:工程师,毕业于西南交通大学通信工程学院,现任职于中国联合网络通信有限公司深圳市分公司,具有多年从事移动通信网络建设和设备维护工作的经验,研究方向为3G移动通信行业应用、大数据应用。endprint