雷蕾+熊伟
【摘要】目前,商业智能系统作为电信行业主要的客户行为数据分析平台,在新业务模式下已不能满足挖掘客户需求以支撑一线营销的需要。通过讨论大数据时代的数据特点,分别从数据采集及处理、数据调度及存储、数据分析及应用三方面总结出各项数据管理的应对策略,为系统优化提供了参考。
【关键词】大数据商业智能数据管理
中图分类号:TP311.5文献标识码:A文章编号:1006-1010(2014)-09-0069-03
1 背景及研究现状分析
移动互联网时代,新型应用不断涌现,客户行为习惯也随之改变,电信运营商从以语音收入为主的业务模式,进入到了语音和流量双经营的业务模式。在此背景下,IT支撑每天面对数以PB级的海量数据[1],数据前所未有的生成速度和数量带来了“数据雪崩”(Data Avalanche)和“数据洪流”(Data Deluge)[2-3]。如何从中挖掘有价值的商业信息,适应“数据经济”(Data Economy)和“数据科学”(Data Science)[4-5]的大数据时代,这是客户挽留营销和收入增长的重要环节。
根据电信运营商现有的IT系统架构,管理及分析客户业务数据主要由基于企业级数据仓库的商业智能(Business Intelligence)系统完成。目前,面对业务部门的需求,该系统存在以下问题:
(1)分析数据缺失:客户移动互联网行为数据采集不完整,无法还原客户应用场景。
(2)数据量剧增带来存储和处理性能的压力:一个省的用户流量数据每日可达150亿条,约是传统语音计费数据的15倍。生产系统数据进入数据仓库时,ETL调度性能及数据仓库的扩容速度不满足需求。
(3)大量非结构化数据无法用传统的建模方法分析:采集到的URL串等客户行为数据,无法直接反映客户行为特征,必须经过处理和转换才能获得有用的建模信息。
2 大数据时代各项应对策略
通过上述分析,可以看出在大数据时代,商业智能系统面临的是从数据采集处理、调度存储到分析的一系列问题,本文从完善数据源开始,探讨一套完整的数据管理策略。
2.1数据采集及处理
商业智能系统并不产生实际的生产数据,数据仓库的数据都是从其他网络、计费、客服等生产系统获取的,按照既定的接口通过ETL调度定期更新及完善数据仓库中的数据。大数据时代,2G、3G、4G、WLAN四网并行,除了保证2G、3G及4G网络GPRS话单、WLAN流量话单、客户位置信息、终端信息的采集外,为了精准分析客户的行为信息,还需新增两类数据的采集,如表1所示:
表1两类客户行为数据基本信息
客户行为数据 主要处理技术 数据来源
上网内容 文本挖掘、爬虫技术 GGSN(Gateway GSN,网关GSN)等网关日志采集
客户端应用 DPI解析
(1)上网内容
指采集用户使用HTTP协议的上网行为日志,通过文本挖掘、爬虫技术对URL进行分析,获取用户的上网内容。一个省每日从网络侧获取的非结构化的URL在50亿条左右,约占1TB存储,其中隐含着具有商业价值的用户偏好信息。对于一线市场营销人员,需要的是每个客户的特征标签,比如,某用户的特征标签是喜欢上网阅读,阅读内容为言情小说,这样就可以向这位用户推荐一些手机阅读的产品。因此,需要将这些非结构化的URL记录转化为用户上网内容偏好标签,主要有以下两种方式:
1)上网搜索关键字提取:针对搜索产生的URL,解析其中关键词获取标签信息。
2)网页内容提取:
◆建立以URL为主键的“网页信息分类库”,该信息库对网页内容进行分类,并给每条URL打上分类标签;
◆将清洗过滤后的用户URL记录和“网页信息分类库”匹配,按照一定的规则(如访问次数最多的类型)给客户打上分类标签;
◆如果库中没有相应的URL信息,则需要通过爬虫及文本挖掘完善“网页信息分类库”。
(2)客户端应用
即识别出用户客户端的应用,如QQ音乐、百度搜索等应用。目前主要依靠在GGSN(Gateway GSN,网关GSN)上部署DPI(Deep Packet Inspection,深度包检测)硬件设备来实现。DPI技术通过对应用流中的数据报文内容进行探测,例如对数据报文中特定比特串进行检测,从而确定数据报文真正的应用类型[6]。在目前的实际应用中,通过解析识别出来的应用已达到 1 400种以上,基本覆盖当前热门应用。
2.2数据调度及存储
其他系统采集处理后的数据,通过ETL调度到商业智能系统的数据仓库中进行存储,为下一步数据分析做准备。为了减轻大数据量带来的数据仓库调度和存储压力,对原有系统架构进行变更,引入云平台完成数据入库前的预处理工作,同时提升ETL调度性能。数据仓库架构转变如图1所示:
图1数据仓库架构转变
下面说明引入云平台的作用及带来的两项提升:
(1)完成数据入库前的预处理:减少入库的数据量;减少入库时数据处理操作。
表2是用户上网日志在云平台上处理前后数据量的比对,基于28台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统。
表2上网日志经云平台处理前后数据量比对
字段 存储空间
处理前:59个字段 处理前:1TB
处理后:16个字段 处理后:600GB
可见数据量缩小了约40%,减少了入库数据量及处理操作,降低了ETL调度及数据仓库存储压力。
(2)完成数据文件调度到数据仓库的处理:提升ETL调度能力。
以应用DPI解析结果入库为例,采用8台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统后,系统前后调度性能的比对如表3所示:
表3DPI解析结果调度性能提升
数据量 ETL调度时间
入仓库前:80亿条 采用传统数据仓库ETL调度方式:8小时
入仓库后:6亿条 引入云平台后:1.5小时
可见其性能提升了5倍多,并在调度过程中完成数据的合并转换工作。
2.3数据分析及应用
经过上述流程,电信行业大数据时代主要新增的两类客户行为数据:客户上网内容和客户端应用,已经转化为数据模型的输入变量,借助数据模型完成数据分析工作。从上网日志中提取转换后的变量包括:上网内容一级分类(阅读、游戏、音乐等)、上网内容二级分类(以阅读为例:社科科普、名著传记、科幻小说等)、上网搜索关键词等;从客户端应用解析转换后的变量主要是具体应用及应用分类。
数据模型可利用客户的这些上网行为特征,分析出营销挽留活动的目标客户,现在热点数据模型的种类如表4所示:
表4数据模型分类及应用场景
数据模型分类 应用场景
套餐营销类 识别目标客户,推荐优惠的流量资费套餐
终端营销类 识别潜在购机客户,推荐符合需求的智能终端机
业务营销类 针对不同类型的客户,推荐感兴趣的业务应用
网络分流类 引导客户从2G网络分流到3G、4G及WLAN网络,使网络资源负载均衡
3 总结
综上所述,首先通过文本挖掘、爬虫、DPI解析技术处理从网络侧采集到的客户上网行为数据;再通过搭建云平台提升ETL调度性能,减少数据仓库存储压力;最后,将标签式的客户行为特征变量,通过数据模型转化为可被一线营销人员采用的信息。
目前,本文所述的这套大数据管理策略已在个别分公司试用,虽然还处在尝试阶段,但是效果已逐步被认可。根据当前在建设中遇到的困难来看,网页日志解析的全面性以及DPI对新应用解析的研发速度有待提高。另外,云平台部署的成本投入也是个需要探讨的问题,目前是通过购买新的刀片机来实现的,背离了云平台采用廉价、闲置的X86 PC设备构建的初衷。
参考文献:
[1] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 吕锦扬. DPI技术在移动数据网络分析的应用[J]. 电信技术, 2013(6): 72-75.★
作者简介
雷蕾:硕士毕业于西安交通大学软件工程专业,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为BI系统架构及数据挖掘技术应用。
熊伟:硕士毕业于天津科技大学,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为软件开发和测试各类应用技术。
endprint
【摘要】目前,商业智能系统作为电信行业主要的客户行为数据分析平台,在新业务模式下已不能满足挖掘客户需求以支撑一线营销的需要。通过讨论大数据时代的数据特点,分别从数据采集及处理、数据调度及存储、数据分析及应用三方面总结出各项数据管理的应对策略,为系统优化提供了参考。
【关键词】大数据商业智能数据管理
中图分类号:TP311.5文献标识码:A文章编号:1006-1010(2014)-09-0069-03
1 背景及研究现状分析
移动互联网时代,新型应用不断涌现,客户行为习惯也随之改变,电信运营商从以语音收入为主的业务模式,进入到了语音和流量双经营的业务模式。在此背景下,IT支撑每天面对数以PB级的海量数据[1],数据前所未有的生成速度和数量带来了“数据雪崩”(Data Avalanche)和“数据洪流”(Data Deluge)[2-3]。如何从中挖掘有价值的商业信息,适应“数据经济”(Data Economy)和“数据科学”(Data Science)[4-5]的大数据时代,这是客户挽留营销和收入增长的重要环节。
根据电信运营商现有的IT系统架构,管理及分析客户业务数据主要由基于企业级数据仓库的商业智能(Business Intelligence)系统完成。目前,面对业务部门的需求,该系统存在以下问题:
(1)分析数据缺失:客户移动互联网行为数据采集不完整,无法还原客户应用场景。
(2)数据量剧增带来存储和处理性能的压力:一个省的用户流量数据每日可达150亿条,约是传统语音计费数据的15倍。生产系统数据进入数据仓库时,ETL调度性能及数据仓库的扩容速度不满足需求。
(3)大量非结构化数据无法用传统的建模方法分析:采集到的URL串等客户行为数据,无法直接反映客户行为特征,必须经过处理和转换才能获得有用的建模信息。
2 大数据时代各项应对策略
通过上述分析,可以看出在大数据时代,商业智能系统面临的是从数据采集处理、调度存储到分析的一系列问题,本文从完善数据源开始,探讨一套完整的数据管理策略。
2.1数据采集及处理
商业智能系统并不产生实际的生产数据,数据仓库的数据都是从其他网络、计费、客服等生产系统获取的,按照既定的接口通过ETL调度定期更新及完善数据仓库中的数据。大数据时代,2G、3G、4G、WLAN四网并行,除了保证2G、3G及4G网络GPRS话单、WLAN流量话单、客户位置信息、终端信息的采集外,为了精准分析客户的行为信息,还需新增两类数据的采集,如表1所示:
表1两类客户行为数据基本信息
客户行为数据 主要处理技术 数据来源
上网内容 文本挖掘、爬虫技术 GGSN(Gateway GSN,网关GSN)等网关日志采集
客户端应用 DPI解析
(1)上网内容
指采集用户使用HTTP协议的上网行为日志,通过文本挖掘、爬虫技术对URL进行分析,获取用户的上网内容。一个省每日从网络侧获取的非结构化的URL在50亿条左右,约占1TB存储,其中隐含着具有商业价值的用户偏好信息。对于一线市场营销人员,需要的是每个客户的特征标签,比如,某用户的特征标签是喜欢上网阅读,阅读内容为言情小说,这样就可以向这位用户推荐一些手机阅读的产品。因此,需要将这些非结构化的URL记录转化为用户上网内容偏好标签,主要有以下两种方式:
1)上网搜索关键字提取:针对搜索产生的URL,解析其中关键词获取标签信息。
2)网页内容提取:
◆建立以URL为主键的“网页信息分类库”,该信息库对网页内容进行分类,并给每条URL打上分类标签;
◆将清洗过滤后的用户URL记录和“网页信息分类库”匹配,按照一定的规则(如访问次数最多的类型)给客户打上分类标签;
◆如果库中没有相应的URL信息,则需要通过爬虫及文本挖掘完善“网页信息分类库”。
(2)客户端应用
即识别出用户客户端的应用,如QQ音乐、百度搜索等应用。目前主要依靠在GGSN(Gateway GSN,网关GSN)上部署DPI(Deep Packet Inspection,深度包检测)硬件设备来实现。DPI技术通过对应用流中的数据报文内容进行探测,例如对数据报文中特定比特串进行检测,从而确定数据报文真正的应用类型[6]。在目前的实际应用中,通过解析识别出来的应用已达到 1 400种以上,基本覆盖当前热门应用。
2.2数据调度及存储
其他系统采集处理后的数据,通过ETL调度到商业智能系统的数据仓库中进行存储,为下一步数据分析做准备。为了减轻大数据量带来的数据仓库调度和存储压力,对原有系统架构进行变更,引入云平台完成数据入库前的预处理工作,同时提升ETL调度性能。数据仓库架构转变如图1所示:
图1数据仓库架构转变
下面说明引入云平台的作用及带来的两项提升:
(1)完成数据入库前的预处理:减少入库的数据量;减少入库时数据处理操作。
表2是用户上网日志在云平台上处理前后数据量的比对,基于28台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统。
表2上网日志经云平台处理前后数据量比对
字段 存储空间
处理前:59个字段 处理前:1TB
处理后:16个字段 处理后:600GB
可见数据量缩小了约40%,减少了入库数据量及处理操作,降低了ETL调度及数据仓库存储压力。
(2)完成数据文件调度到数据仓库的处理:提升ETL调度能力。
以应用DPI解析结果入库为例,采用8台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统后,系统前后调度性能的比对如表3所示:
表3DPI解析结果调度性能提升
数据量 ETL调度时间
入仓库前:80亿条 采用传统数据仓库ETL调度方式:8小时
入仓库后:6亿条 引入云平台后:1.5小时
可见其性能提升了5倍多,并在调度过程中完成数据的合并转换工作。
2.3数据分析及应用
经过上述流程,电信行业大数据时代主要新增的两类客户行为数据:客户上网内容和客户端应用,已经转化为数据模型的输入变量,借助数据模型完成数据分析工作。从上网日志中提取转换后的变量包括:上网内容一级分类(阅读、游戏、音乐等)、上网内容二级分类(以阅读为例:社科科普、名著传记、科幻小说等)、上网搜索关键词等;从客户端应用解析转换后的变量主要是具体应用及应用分类。
数据模型可利用客户的这些上网行为特征,分析出营销挽留活动的目标客户,现在热点数据模型的种类如表4所示:
表4数据模型分类及应用场景
数据模型分类 应用场景
套餐营销类 识别目标客户,推荐优惠的流量资费套餐
终端营销类 识别潜在购机客户,推荐符合需求的智能终端机
业务营销类 针对不同类型的客户,推荐感兴趣的业务应用
网络分流类 引导客户从2G网络分流到3G、4G及WLAN网络,使网络资源负载均衡
3 总结
综上所述,首先通过文本挖掘、爬虫、DPI解析技术处理从网络侧采集到的客户上网行为数据;再通过搭建云平台提升ETL调度性能,减少数据仓库存储压力;最后,将标签式的客户行为特征变量,通过数据模型转化为可被一线营销人员采用的信息。
目前,本文所述的这套大数据管理策略已在个别分公司试用,虽然还处在尝试阶段,但是效果已逐步被认可。根据当前在建设中遇到的困难来看,网页日志解析的全面性以及DPI对新应用解析的研发速度有待提高。另外,云平台部署的成本投入也是个需要探讨的问题,目前是通过购买新的刀片机来实现的,背离了云平台采用廉价、闲置的X86 PC设备构建的初衷。
参考文献:
[1] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 吕锦扬. DPI技术在移动数据网络分析的应用[J]. 电信技术, 2013(6): 72-75.★
作者简介
雷蕾:硕士毕业于西安交通大学软件工程专业,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为BI系统架构及数据挖掘技术应用。
熊伟:硕士毕业于天津科技大学,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为软件开发和测试各类应用技术。
endprint
【摘要】目前,商业智能系统作为电信行业主要的客户行为数据分析平台,在新业务模式下已不能满足挖掘客户需求以支撑一线营销的需要。通过讨论大数据时代的数据特点,分别从数据采集及处理、数据调度及存储、数据分析及应用三方面总结出各项数据管理的应对策略,为系统优化提供了参考。
【关键词】大数据商业智能数据管理
中图分类号:TP311.5文献标识码:A文章编号:1006-1010(2014)-09-0069-03
1 背景及研究现状分析
移动互联网时代,新型应用不断涌现,客户行为习惯也随之改变,电信运营商从以语音收入为主的业务模式,进入到了语音和流量双经营的业务模式。在此背景下,IT支撑每天面对数以PB级的海量数据[1],数据前所未有的生成速度和数量带来了“数据雪崩”(Data Avalanche)和“数据洪流”(Data Deluge)[2-3]。如何从中挖掘有价值的商业信息,适应“数据经济”(Data Economy)和“数据科学”(Data Science)[4-5]的大数据时代,这是客户挽留营销和收入增长的重要环节。
根据电信运营商现有的IT系统架构,管理及分析客户业务数据主要由基于企业级数据仓库的商业智能(Business Intelligence)系统完成。目前,面对业务部门的需求,该系统存在以下问题:
(1)分析数据缺失:客户移动互联网行为数据采集不完整,无法还原客户应用场景。
(2)数据量剧增带来存储和处理性能的压力:一个省的用户流量数据每日可达150亿条,约是传统语音计费数据的15倍。生产系统数据进入数据仓库时,ETL调度性能及数据仓库的扩容速度不满足需求。
(3)大量非结构化数据无法用传统的建模方法分析:采集到的URL串等客户行为数据,无法直接反映客户行为特征,必须经过处理和转换才能获得有用的建模信息。
2 大数据时代各项应对策略
通过上述分析,可以看出在大数据时代,商业智能系统面临的是从数据采集处理、调度存储到分析的一系列问题,本文从完善数据源开始,探讨一套完整的数据管理策略。
2.1数据采集及处理
商业智能系统并不产生实际的生产数据,数据仓库的数据都是从其他网络、计费、客服等生产系统获取的,按照既定的接口通过ETL调度定期更新及完善数据仓库中的数据。大数据时代,2G、3G、4G、WLAN四网并行,除了保证2G、3G及4G网络GPRS话单、WLAN流量话单、客户位置信息、终端信息的采集外,为了精准分析客户的行为信息,还需新增两类数据的采集,如表1所示:
表1两类客户行为数据基本信息
客户行为数据 主要处理技术 数据来源
上网内容 文本挖掘、爬虫技术 GGSN(Gateway GSN,网关GSN)等网关日志采集
客户端应用 DPI解析
(1)上网内容
指采集用户使用HTTP协议的上网行为日志,通过文本挖掘、爬虫技术对URL进行分析,获取用户的上网内容。一个省每日从网络侧获取的非结构化的URL在50亿条左右,约占1TB存储,其中隐含着具有商业价值的用户偏好信息。对于一线市场营销人员,需要的是每个客户的特征标签,比如,某用户的特征标签是喜欢上网阅读,阅读内容为言情小说,这样就可以向这位用户推荐一些手机阅读的产品。因此,需要将这些非结构化的URL记录转化为用户上网内容偏好标签,主要有以下两种方式:
1)上网搜索关键字提取:针对搜索产生的URL,解析其中关键词获取标签信息。
2)网页内容提取:
◆建立以URL为主键的“网页信息分类库”,该信息库对网页内容进行分类,并给每条URL打上分类标签;
◆将清洗过滤后的用户URL记录和“网页信息分类库”匹配,按照一定的规则(如访问次数最多的类型)给客户打上分类标签;
◆如果库中没有相应的URL信息,则需要通过爬虫及文本挖掘完善“网页信息分类库”。
(2)客户端应用
即识别出用户客户端的应用,如QQ音乐、百度搜索等应用。目前主要依靠在GGSN(Gateway GSN,网关GSN)上部署DPI(Deep Packet Inspection,深度包检测)硬件设备来实现。DPI技术通过对应用流中的数据报文内容进行探测,例如对数据报文中特定比特串进行检测,从而确定数据报文真正的应用类型[6]。在目前的实际应用中,通过解析识别出来的应用已达到 1 400种以上,基本覆盖当前热门应用。
2.2数据调度及存储
其他系统采集处理后的数据,通过ETL调度到商业智能系统的数据仓库中进行存储,为下一步数据分析做准备。为了减轻大数据量带来的数据仓库调度和存储压力,对原有系统架构进行变更,引入云平台完成数据入库前的预处理工作,同时提升ETL调度性能。数据仓库架构转变如图1所示:
图1数据仓库架构转变
下面说明引入云平台的作用及带来的两项提升:
(1)完成数据入库前的预处理:减少入库的数据量;减少入库时数据处理操作。
表2是用户上网日志在云平台上处理前后数据量的比对,基于28台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统。
表2上网日志经云平台处理前后数据量比对
字段 存储空间
处理前:59个字段 处理前:1TB
处理后:16个字段 处理后:600GB
可见数据量缩小了约40%,减少了入库数据量及处理操作,降低了ETL调度及数据仓库存储压力。
(2)完成数据文件调度到数据仓库的处理:提升ETL调度能力。
以应用DPI解析结果入库为例,采用8台刀片服务器(BL465G7:AMD O6134*2,32GB内存,2*300GB硬盘;D2200:300G*6)构建的Hadoop分布式系统后,系统前后调度性能的比对如表3所示:
表3DPI解析结果调度性能提升
数据量 ETL调度时间
入仓库前:80亿条 采用传统数据仓库ETL调度方式:8小时
入仓库后:6亿条 引入云平台后:1.5小时
可见其性能提升了5倍多,并在调度过程中完成数据的合并转换工作。
2.3数据分析及应用
经过上述流程,电信行业大数据时代主要新增的两类客户行为数据:客户上网内容和客户端应用,已经转化为数据模型的输入变量,借助数据模型完成数据分析工作。从上网日志中提取转换后的变量包括:上网内容一级分类(阅读、游戏、音乐等)、上网内容二级分类(以阅读为例:社科科普、名著传记、科幻小说等)、上网搜索关键词等;从客户端应用解析转换后的变量主要是具体应用及应用分类。
数据模型可利用客户的这些上网行为特征,分析出营销挽留活动的目标客户,现在热点数据模型的种类如表4所示:
表4数据模型分类及应用场景
数据模型分类 应用场景
套餐营销类 识别目标客户,推荐优惠的流量资费套餐
终端营销类 识别潜在购机客户,推荐符合需求的智能终端机
业务营销类 针对不同类型的客户,推荐感兴趣的业务应用
网络分流类 引导客户从2G网络分流到3G、4G及WLAN网络,使网络资源负载均衡
3 总结
综上所述,首先通过文本挖掘、爬虫、DPI解析技术处理从网络侧采集到的客户上网行为数据;再通过搭建云平台提升ETL调度性能,减少数据仓库存储压力;最后,将标签式的客户行为特征变量,通过数据模型转化为可被一线营销人员采用的信息。
目前,本文所述的这套大数据管理策略已在个别分公司试用,虽然还处在尝试阶段,但是效果已逐步被认可。根据当前在建设中遇到的困难来看,网页日志解析的全面性以及DPI对新应用解析的研发速度有待提高。另外,云平台部署的成本投入也是个需要探讨的问题,目前是通过购买新的刀片机来实现的,背离了云平台采用廉价、闲置的X86 PC设备构建的初衷。
参考文献:
[1] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 5-9.
[2] Clifford Lynch. Big data: How do your data grow[J]. Nature, 2008(455): 28-29.
[3]The Economist. The data deluge[EB/OL]. [2012-12-10]. http://www.economist.com/node/15579717.
[4] Mitch Waldrop. Big data: Wikiomics[J]. Nature, 2008(455): 22-25.
[5] Mike Loukides. What is data science[EB/OL]. [2012-12-01]. http://radar.oreilly.com/2010/06/what-is-data-science.html.
[6] 吕锦扬. DPI技术在移动数据网络分析的应用[J]. 电信技术, 2013(6): 72-75.★
作者简介
雷蕾:硕士毕业于西安交通大学软件工程专业,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为BI系统架构及数据挖掘技术应用。
熊伟:硕士毕业于天津科技大学,现任职于中国移动(深圳)有限公司,从事业务支撑系统测评工作,研究方向为软件开发和测试各类应用技术。
endprint