薛文倩+彭木根+梁栋
编 者 按
大数据是现代信息技术和互联网产业发展到一定阶段的必然产物。一般认为,云计算是大数据的IT基础,大数据涵盖了从数据存储、处理到应用等多方面的技术,是云计算的一个杀手级应用。据IDC报告:到2020年全球将拥有40ZB的数据量,比2012年增长近15倍。众所周知,我国是世界上最大的移动通信市场,那么,云计算与大数据在我国怎样才能取得更大的创新性发展?面对云计算和大数据时代的机遇和挑战,我国运营商该如何应对?本期云计算与大数据专题将围绕大数据时代运营商数据管控、大数据时代4G与3D技术发展、大数据与互联网的关系、大数据解决城市人口管理问题、大数据发展局限性等方面展开讨论。希望通过该专题能够帮助读者更全面地了解大数据时代我国移动通信行业的发展前景,促进云计算和大数据领域的兴盛繁荣。
【摘 要】大数据是现代信息技术和互联网产业发展到一定阶段的必然产物,电信运营商拥有天然的数据资源优势,为发展大数据分析服务,运营商需从技术体系、业务结构及盈利模式等多个层面实施全面转型。结合移动通信网络介绍大数据的价值链,将其分为4个阶段:数据产生、数据获取、数据存储和数据分析,研究电信运营商面临的问题与相应的发展策略,针对目前大数据的应用现状,最后对Hadoop作简单的介绍。
【关键词】大数据价值链 数据产生 数据获取 数据存储 数据分析 Hadoop
中图分类号:TN929.5 文献标识码:A 文章编号:1006-1010(2014)-13-0005-05
1 引言
技术创新和数字设备的普及促进了“数据的产业革命”。据IDC报告,全球2012年产生的数据总量约2.8ZB。接下来的8年中,全球产生数据量将超40ZB。世界各国纷纷推出相关政策,加速“大数据”的研发和应用。2012年3月,美国奥巴马政府宣布投资2亿美元出台“大数据研究和发展计划”。2013年5月,国家发改委启动“基础研究大数据服务平台应用示范”项目,大数据有望纳入我国发展战略中。2014年,我国迈入4G时代,各大运营商加快部署4G网络,成为数据流量增长的新生力量。预计2020年年底,中国4G移动连接总数将从2014年的1亿增至近9亿,这将推动电信运营商大数据产业链的发展和应用。
我国是世界上最大的移动通信市场,拥有天然的“数据矿产”资源。截至2013年年底,我国拥有6.3亿独立手机用户,11.3亿活跃移动连接,这意味着数百万中国用户拥有多个SIM卡或设备。据CNNIC报道,2013年12月,我国手机网民规模达到5亿,占网民规模总数的80%以上,这表明了移动互联网在网络应用领域的关键性作用。用户通过智能终端的即时互联通信行为,使移动网络成为大数据贮存和流动的天然载体。
大数据不同于海量数据、超大数据,通常用4V模型概括其特征,即规模巨大、类型繁多、处理速度快和价值密度低[1]。电信运营商计费、营帐、网管等系统有着大规模的数据源,数据类型多样,包括结构化、半结构化和非结构化数据。这些数据的高速生产需要运营商及时处理反馈,以满足客户的实时需求。同时运营商还可通过商业智能系统从海量数据中深度挖掘,为企业管理、网络运营、精准营销等提供有力的决策支持。目前,各大运营商已经开始积极开展大数据战略研究,开发新的商业模式,避免沦为数据流管道的困局。
面对大数据时代的潮流以及互联网企业的竞争,电信运营商固有的信息服务优势被削弱,网络运营弊端逐渐凸显。终端掌控力不足、业务创新力落后、管理运营支撑效率低等问题,使其面临着来自盈利模式和体系结构2个层面的挑战:
(1)丰富的数据资源背后存在个人隐私被泄露的隐患,应合理使用个人信息;
(2)运营IT系统分省市建设,具有强烈的地域性特色,数据整合难度大;
(3)业务数据的海量性和多样化给运营商带来巨大的存储和处理压力;
(4)大数据技术的发展瓶颈使运营商面临内部体系调整,需要加强产业链合作的转型。
虽然电信运营商在互联网时代遇到了巨大的冲击,但及时转变思维,运营商仍可以利用自身网络运营平台的优势,发展大数据服务。本文结合移动通信网络介绍大数据的价值链,将其分为4个阶段:数据产生、数据获取、数据存储和数据分析,研究电信运营商面临的问题与相应的发展策略。针对目前大数据的应用现状,最后对Hadoop作简单的介绍。
2 大数据价值链
图1描述了移动通信网络中大数据价值链的4个阶段,即:数据产生、数据获取、数据存储和数据分析。数据产生解释数据的产生渠道;数据获取分析信息的收集、传输和预处理;数据存储解决对大规模数据集的持续储存和管理;数据分析基于分析方法和工具提取潜在价值,提供决策支持。
2.1 数据产生
通信记录着人们在现代社会中的信息指纹。随着智能终端和应用技术的进步,用户不仅可获取传统的语音、数据服务,还可获取丰富的互联网业务,完成手机支付、文件传输、社交、求职等网络应用。庞大的用户群体以及日益增长的手机网民规模,使得电信运营商不仅拥有传统的用户基本信息和网络运营数据,还拥有更全面、更真实的用户网上行为信息[2]。
电信运营商的数据来源主要包括设备层、运维层和用户层3个方面。其中,设备层主要面向维护,运维层主要面向管理,用户层主要面向市场。这些数据主要来自GPRS的Gb、Gn、Gi接口,交换网的A接口、Abis口,PS域的lu-PS接口、Gn接口、Gi接口,CS域的MC接口、lu-CS接口等。
◆设备层数据以结构化为主,包括基站的基本配置参数(LAC、CI、天线增益、发射功率等)和网络测量信息(如主服电平、邻区电平、KPI等)。
◆运维层数据以结构化为主,也存在非结构化数据。包括网络性能指标(如附着成功率、附着用户数、数据拥塞率等)、网络业务统计(如网元日志、流量、话务、用户数等)和客户投诉工单。endprint
◆用户层数据不仅包含结构化数据,还包含大量的半结构和非结构化数据。包括用户的基本信息(年龄、职业、入网渠道、资费等)、用户的终端信息(品牌、操作系统、屏幕尺寸、终端应用等)和用户的业务使用行为(如上网日志、详单记录、行为足迹、社交网络圈等)。
2.2 数据获取
移动互联网的数据通常零散的分布在不同的载体中,具有碎片性和多样性特征,数据获取成本较高。数据量的庞大,在给应用分析带来便利的同时,也对信息的获取带来一定的困扰。数据获取可分为3个子步骤,即数据采集、数据预处理和数据传输。
运营商主要使用的数据采集方式是DPI数据采集器。数据采集设备按照指定的周期和IP地址对网络中的数据包进行采集并拆包,提取有用信息。随着移动互联网用户不断增多,为分析用户行为并加强网络管控,数据采集方式还包括日志文件和网络爬虫。日志文件记录用户的网上行为,包括上/下线时间、私网IP地址、访问URL、访问时间等信息。网络爬虫是用于处理用户上网日志中的未知URL地址,负责从互联网系统中爬取网页具体信息,便于后续对该网页进行分类。
从网络中采集到的数据往往是异构多源的,具有噪声、冗余、不一致性等特点。数据预处理可提高数据质量,降低数据的传输和存储压力,增强数据分析结果的准确性。常用的数据预处理方法有:数据清洗、数据集成和冗余消除。数据清洗过滤不完整的、错误的、重复的脏数据。数据集成通常采用数据仓库方法,即ETL(抽取-转换-加载),将来自不同数据源不同类型的数据碎片整合成统一格式。冗余消除通过冗余检测、数据压缩、去重技术减小数据量,节省存储空间。
采集的大部分数据往往需要经由IP骨干网传输到数据中心,进行存储。随着数据业务的蓬勃发展,IP骨干网流量带宽需求越来越大。2013年,各运营商开始对骨干网进行大规模扩容,部署100G传输网络。目前,超100G技术也日渐成熟,面对当前流量和带宽的发展趋势,超100G将是未来更合理的选择。数据中心作为通信服务的支撑平台,其架构和现状已无法满足大规模数据的增长和计算要求。各运营商相继发布云战略,开始布局云计算数据中心。在云计算技术的驱动下,未来数据中心将具备小型化、高性能、可靠性、可扩展性及绿色节能等特点。
2.3 数据存储
运营商拥有丰富的数据资源优势,包括用户资料、用户上网数据、呼叫记录数据、网络监控数据等。这些数据只有妥善存储和长期运营,才有可能进一步挖掘其潜在的价值。以某省移动现状为例,若将网络所有数据进行保存,只能保留2天。汹涌而来的数据洪水和日益复杂的业务结构,给电信运营商带来极大的存储压力和访问压力,也对高性能、高吞吐量、大容量的基础存储空间提出了较高需求。
传统数据仓库无法线性扩容,日益增长的存储需求使得集中存储管理难度加大,成本升高,扩容压力增加,存储效率下降。更重要的是,传统数据仓库难以满足非结构化数据的处理要求。Google提出了GFS、BigTable、MapReduce三项关键技术,推动了云计算的发展和应用[3]。源于云计算的虚拟资源池和并发计算能力,2011年中国移动、中国电信、中国联通相继推出“大云计划”、“天翼云”和“互联云”,大大缓解了数据中心IT资源的存储压力。
终端和云存储有着天然的联系。智能终端的普及使手机内容急剧增加,但手机不是一个大容量存储设备,难以做到合适的备份。于是,云存储成为理想的选择和发展的趋势[4]。为个人用户提供数据统一管理和存储的服务,2012年3大运营商纷纷发布个人云存储服务。电信推出“天翼云存储”,移动推出“彩云服务”,联通推出“沃云”。
2.4 数据分析
数据的核心是发现价值,而驾驭数据的核心是分析。分析是大数据研究最关键的环节,尤其对于传统难以应对的非结构化数据。运营商利用自身在运营网络平台的优势,可突破传统运营模式,发展大数据分析服务,提高运营商在企业和个人用户中的影响力[5]。
数据分析方法通常包括3个步骤:数据可视化、统计分析和数据挖掘。
◆数据可视化借助图形化手段,直观清晰的反映海量数据的分布和各属性间的相关性。
◆统计分析运用统计方法定量或定性的分析数据对象,涉及描述统计和推断统计。
◆数据挖掘是一门交叉学科,涉及人工智能、机器学习、统计学习、数据库系统等,旨在从大量数据中揭示隐含的、未知的、有价值的模式。
电信运营商通过丰富的数据资源将数据封装为服务,实现从传统的网络服务提供商向信息服务提供商转型。然而数据分析要逐层深入,切忌盲目分析。电信级的大数据应用可分为2大类:区域价值研究和客户价值研究。其中,区域价值研究旨在精细化运营,增强网络智能管理能力,提升企业战略分析。客户价值研究旨在精准营销,提高客户占有率,提升客户体验。图2描述了大数据在电信领域的应用。
(1)区域价值研究
1)了解网络运营现状
包括不同制式网络中现有网络负载和资源的使用情况、企业各部门人力资源、设施设备等的拥有情况、竞争行业业务分析等。如分析不同制式网络中的流量流向、流量分布及人群流动规律,并将网络划分为不同层次的价值区域。
2)精细化网络运营
包括均衡不同价值区域的网络负载、优化网络资源配置、加强企业管理、完善企业战略分析等。如针对2G流量多、3G流量少的价值区域,若是3G网络质量所致,则加强网络维护优化;若是3G用户少所致,则加强3G终端营销等措施。
3)深化并延伸区域价值
包括网络建设规划、网络性能预测、市场变化预测,为实现智慧城市、远程医疗等新兴产业提供信息服务。如根据目前运营网络现状,规划新建基站的最佳站址,以确保网络覆盖、网络资源利用最大化。基于区域用户群体的流动分析预测,帮助市政部门人流疏导、规划交通等。endprint
(2)客户价值研究
1)了解客户群体现状
包括客户细分及了解不同价值层次客户的行为信息。如根据客户的静态信息和部分行为信息,将客户划分为不同价值层次。针对不同层次的客户,对其业务偏好、行为习惯、社交网络、位置轨迹等进行深入剖析。
2)改善客户经营服务
包括高价值客户保有、潜在价值客户提升、低价值客户维系、业务推荐等。如提供灵活的差异化服务,对高价值客户加强关怀,改善用户体验,实时推荐有用信息;利用高价值客户带动相关低价值客户升值等。
3)深化并延伸客户体验
包括客户离网预测、业务创新、提供实时信息推荐服务等。如基于客户一定时间内的行为信息预测离网概率,对于高危用户及时采取个性化需求服务;基于用户位置信息和行为预测,实施精准推荐或精准营销。
3 Hadoop应用现状
Hadoop是Apache基金会资助的开源项目,基于Google的GFS和MapReduce思想,开发的一个可支持数据存储和分析的分布式系统基础架构。它可以在大量廉价的硬件设备组成的集群上运行应用程序,能够为应用程序提供一组稳定可靠的接口。
目前,Hadoop已发展为业界公认的开发和处理大数据的软件平台。全球范围内80%的在线旅游网站都在使用Hadoop,美国70%的智能手机数据服务背后都由Hadoop来支撑。随着大数据技术的成熟应用和推广,我国3大运营商业务系统也在加快布局大数据平台。中国移动在Hadoop上部署“大云2.5”大数据PaaS产品,用于业务分析查询和业务挖掘。中国联通将Hadoop技术成功引入用户上网记录集中查询与分析支撑系统。中国电信结合大数据和云计算,在积极开展“智慧城市”的建设。
4 结束语
电信运营商利用大数据推动战略转型是未来电信市场非常重要的发展方向。运营商需要掌握大数据技能,构建数据产生、获取、存储、分析全方位一体化的大数据体系,探索新形势下的业务创新和商业模式。
参考文献:
[1] 黄勇军,冯明,丁盛勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013,29(3): 7-11.
[2] 张超. 云计算和大数据给运营商带来的机遇和挑战[J]. 电信技术, 2013(9): 22-24.
[3] 于艳华,宋美娜. 大数据[J]. 中兴通讯技术, 2013,19(1): 57-60.
[4] 陈达忠. 通信运营商大数据量系统数据存储云化浅谈[J]. 邮电设计技术, 2012(3): 54-57.
[5] 谢华. 大数据在移动通信中的应用探讨[J]. 科技创业家, 2014(2): 125-127.
作者简介
薛文倩:硕士毕业于北京邮电大学,现任职于无线信号处理与网络实验室,主要研究方向是无线网络自组织技术中的自治愈技术,数据挖掘技术,大数据分析技术。发表SCI期刊文章2篇,会议论文2篇,核心期刊文章1篇,申请专利2项。
彭木根:北京邮电大学教授、博士生导师,长期从事无线网络协同通信理论、无线网络编码、无线网络自组织、云无线接入网络信息理论和关键技术等研发工作。主持完成了国家自然科学基金、科技部“863”项目、国际科技重大专项等多项国家级和部级科研项目,先后荣获教育部、中国通信学会和北京市多项科技成果奖项,发表SCI论文30余篇,荣获国际学术会议最佳论文奖3次,授权技术发明专利40余项,技术发明专利转让给企业近30项。
梁栋:博士毕业于北京邮电大学信号与信息处理专业,现任教于北京邮电大学通信与信息工程学院,近年来主要从事无线通信协同通信和管理机制的研究、仿真建模与产业化探索工作,已在国内外期刊和会议上发表论文50余篇,撰写学术专著和教材2本,提交科技发明专利申请近10项,曾参与、主持科研项目10余项。endprint
(2)客户价值研究
1)了解客户群体现状
包括客户细分及了解不同价值层次客户的行为信息。如根据客户的静态信息和部分行为信息,将客户划分为不同价值层次。针对不同层次的客户,对其业务偏好、行为习惯、社交网络、位置轨迹等进行深入剖析。
2)改善客户经营服务
包括高价值客户保有、潜在价值客户提升、低价值客户维系、业务推荐等。如提供灵活的差异化服务,对高价值客户加强关怀,改善用户体验,实时推荐有用信息;利用高价值客户带动相关低价值客户升值等。
3)深化并延伸客户体验
包括客户离网预测、业务创新、提供实时信息推荐服务等。如基于客户一定时间内的行为信息预测离网概率,对于高危用户及时采取个性化需求服务;基于用户位置信息和行为预测,实施精准推荐或精准营销。
3 Hadoop应用现状
Hadoop是Apache基金会资助的开源项目,基于Google的GFS和MapReduce思想,开发的一个可支持数据存储和分析的分布式系统基础架构。它可以在大量廉价的硬件设备组成的集群上运行应用程序,能够为应用程序提供一组稳定可靠的接口。
目前,Hadoop已发展为业界公认的开发和处理大数据的软件平台。全球范围内80%的在线旅游网站都在使用Hadoop,美国70%的智能手机数据服务背后都由Hadoop来支撑。随着大数据技术的成熟应用和推广,我国3大运营商业务系统也在加快布局大数据平台。中国移动在Hadoop上部署“大云2.5”大数据PaaS产品,用于业务分析查询和业务挖掘。中国联通将Hadoop技术成功引入用户上网记录集中查询与分析支撑系统。中国电信结合大数据和云计算,在积极开展“智慧城市”的建设。
4 结束语
电信运营商利用大数据推动战略转型是未来电信市场非常重要的发展方向。运营商需要掌握大数据技能,构建数据产生、获取、存储、分析全方位一体化的大数据体系,探索新形势下的业务创新和商业模式。
参考文献:
[1] 黄勇军,冯明,丁盛勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013,29(3): 7-11.
[2] 张超. 云计算和大数据给运营商带来的机遇和挑战[J]. 电信技术, 2013(9): 22-24.
[3] 于艳华,宋美娜. 大数据[J]. 中兴通讯技术, 2013,19(1): 57-60.
[4] 陈达忠. 通信运营商大数据量系统数据存储云化浅谈[J]. 邮电设计技术, 2012(3): 54-57.
[5] 谢华. 大数据在移动通信中的应用探讨[J]. 科技创业家, 2014(2): 125-127.
作者简介
薛文倩:硕士毕业于北京邮电大学,现任职于无线信号处理与网络实验室,主要研究方向是无线网络自组织技术中的自治愈技术,数据挖掘技术,大数据分析技术。发表SCI期刊文章2篇,会议论文2篇,核心期刊文章1篇,申请专利2项。
彭木根:北京邮电大学教授、博士生导师,长期从事无线网络协同通信理论、无线网络编码、无线网络自组织、云无线接入网络信息理论和关键技术等研发工作。主持完成了国家自然科学基金、科技部“863”项目、国际科技重大专项等多项国家级和部级科研项目,先后荣获教育部、中国通信学会和北京市多项科技成果奖项,发表SCI论文30余篇,荣获国际学术会议最佳论文奖3次,授权技术发明专利40余项,技术发明专利转让给企业近30项。
梁栋:博士毕业于北京邮电大学信号与信息处理专业,现任教于北京邮电大学通信与信息工程学院,近年来主要从事无线通信协同通信和管理机制的研究、仿真建模与产业化探索工作,已在国内外期刊和会议上发表论文50余篇,撰写学术专著和教材2本,提交科技发明专利申请近10项,曾参与、主持科研项目10余项。endprint
(2)客户价值研究
1)了解客户群体现状
包括客户细分及了解不同价值层次客户的行为信息。如根据客户的静态信息和部分行为信息,将客户划分为不同价值层次。针对不同层次的客户,对其业务偏好、行为习惯、社交网络、位置轨迹等进行深入剖析。
2)改善客户经营服务
包括高价值客户保有、潜在价值客户提升、低价值客户维系、业务推荐等。如提供灵活的差异化服务,对高价值客户加强关怀,改善用户体验,实时推荐有用信息;利用高价值客户带动相关低价值客户升值等。
3)深化并延伸客户体验
包括客户离网预测、业务创新、提供实时信息推荐服务等。如基于客户一定时间内的行为信息预测离网概率,对于高危用户及时采取个性化需求服务;基于用户位置信息和行为预测,实施精准推荐或精准营销。
3 Hadoop应用现状
Hadoop是Apache基金会资助的开源项目,基于Google的GFS和MapReduce思想,开发的一个可支持数据存储和分析的分布式系统基础架构。它可以在大量廉价的硬件设备组成的集群上运行应用程序,能够为应用程序提供一组稳定可靠的接口。
目前,Hadoop已发展为业界公认的开发和处理大数据的软件平台。全球范围内80%的在线旅游网站都在使用Hadoop,美国70%的智能手机数据服务背后都由Hadoop来支撑。随着大数据技术的成熟应用和推广,我国3大运营商业务系统也在加快布局大数据平台。中国移动在Hadoop上部署“大云2.5”大数据PaaS产品,用于业务分析查询和业务挖掘。中国联通将Hadoop技术成功引入用户上网记录集中查询与分析支撑系统。中国电信结合大数据和云计算,在积极开展“智慧城市”的建设。
4 结束语
电信运营商利用大数据推动战略转型是未来电信市场非常重要的发展方向。运营商需要掌握大数据技能,构建数据产生、获取、存储、分析全方位一体化的大数据体系,探索新形势下的业务创新和商业模式。
参考文献:
[1] 黄勇军,冯明,丁盛勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013,29(3): 7-11.
[2] 张超. 云计算和大数据给运营商带来的机遇和挑战[J]. 电信技术, 2013(9): 22-24.
[3] 于艳华,宋美娜. 大数据[J]. 中兴通讯技术, 2013,19(1): 57-60.
[4] 陈达忠. 通信运营商大数据量系统数据存储云化浅谈[J]. 邮电设计技术, 2012(3): 54-57.
[5] 谢华. 大数据在移动通信中的应用探讨[J]. 科技创业家, 2014(2): 125-127.
作者简介
薛文倩:硕士毕业于北京邮电大学,现任职于无线信号处理与网络实验室,主要研究方向是无线网络自组织技术中的自治愈技术,数据挖掘技术,大数据分析技术。发表SCI期刊文章2篇,会议论文2篇,核心期刊文章1篇,申请专利2项。
彭木根:北京邮电大学教授、博士生导师,长期从事无线网络协同通信理论、无线网络编码、无线网络自组织、云无线接入网络信息理论和关键技术等研发工作。主持完成了国家自然科学基金、科技部“863”项目、国际科技重大专项等多项国家级和部级科研项目,先后荣获教育部、中国通信学会和北京市多项科技成果奖项,发表SCI论文30余篇,荣获国际学术会议最佳论文奖3次,授权技术发明专利40余项,技术发明专利转让给企业近30项。
梁栋:博士毕业于北京邮电大学信号与信息处理专业,现任教于北京邮电大学通信与信息工程学院,近年来主要从事无线通信协同通信和管理机制的研究、仿真建模与产业化探索工作,已在国内外期刊和会议上发表论文50余篇,撰写学术专著和教材2本,提交科技发明专利申请近10项,曾参与、主持科研项目10余项。endprint