大数据及其在电信业中的应用

2013-04-29 10:06许文杰
无线互联科技 2013年5期
关键词:大数据

许文杰

摘 要:介绍了大数据基本概念、特点和常用技术架构HADOOP,并探讨了大数据技术在电信业中的应用。

关键词:大数据;HADOOP;分布式文件系统(HDFS);可扩展存储系统

1 大数据

“大数据”就是从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。

1.1 大数据的特点

大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。⑴Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;⑵Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;⑶Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;⑷Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;⑸Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。

1.2 大数据的常用技术架构--HADOOP

Hadoop有许多元素构成。其最底部是Hadoop Distributed File System,即HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers 和TaskTrackers组成。

对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这些节点包括NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点。

存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。

但HDFS并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大型文件。如果客户机想将文件写到HDFS上,首先需要将该文件缓存到本地的临时存储。如果缓存的数据大于所需的HDFS块大小,创建文件的请求将发送给NameNode。NameNode将以DataNode标识和目标块响应客户机。同时也通知将要保存文件块副本的DataNode。当客户机开始将临时文件发送给第一个DataNode时,将立即通过管道方式将块内容转发给副本DataNode。客户机也负责创建保存在相同 HDFS名称空间中的校验和文件。在最后的文件块发送之后,NameNode将文件创建提交到它的持久化元数据存储。

Hadoop框架可在单一的Linux平台上使用,但是使用存放在机架上的商业服务器才能发挥它的力量。这些机架组成一个 Hadoop集群。它通过集群拓扑知识决定如何在整个集群中分配作业和文件。Hadoop假定节点可能失败,因此采用本机方法处理单个计算机甚至所有机架的失败。

2 大数据和数据仓库的区别与联系

二者的联系:大数据的出现,是对数据仓库的补充和完善。大数据技术与传统数据仓库技术相比,在海量数据存储,海量数据实时处理,异构化数据的存储和处理等方面具备显著的优势;但传统的数据仓库技术在数据展现,数据分析等领域依然有着不可替代的地位。因此,大数据必然是和数据仓库相辅相成的,不断促进新技术的发展和涌现。

二者的区别:出发点不同、存储的数据不同、存储机制不同、提供的功能不同、基本元素不同、容量不同。

3 大数据在电信业中的应用

如何有效的利用大数据处理技术,以快速支撑精确营销和市场决策,成为电信企业寻找新的业务增长点和突破点的关键。电信企业的大数据应用主要从以下几个方面考虑:

⑴准实时或实时批量数据处理。例如批量话单文件计费,批量内容计费,网间结算,加快各业务系统之间的数据交互,同时,可以满足用户对通话清单、短信清单、流量清单的详单近实时或实时查询需求,提升服务质量。

⑵在线分析应用。例如结合智能手机终端、平板电脑终端、PC终端的实时客户信息展示,报表数据查询,多维分析查询等,准确掌握客户信息,提升营销精确率,为客户推荐适合的优质产品,提高客户满意度的同时拓展了新业务,增加了业务收入。

⑶流量经营与流量提升,提升客户价值。例如通过对用户上网行为的分析,如上网时长,上网流量,WLAN时长,WLAN流量,上网时段,浏览网页内容等进行综合数据分析,全面刻画用户的完整上网行为,从而提升流量运营新思路。

⑷帮助电信企业改善服务,提升服务质量,提高客户满意度。例如基于用户消费数据的分析行为,以帮助电信企业更好地改善服务质量,比如通过话单数据分析可以发现哪些时段、哪些地段通信量过于集中,以便相应地改善网络容量。

4 结束语

大数据技术的兴起是数据仓库技术发展的必然趋势,大数据技术也为电信企业从海量业务数据中提取有用信息提供了强有力的支持。随着大数据时代的到来,快速的构建适合企业发展的大数据平台,高效的研究大数据应用,精准的分析大数据中有用信息,从而支持企业市场决策,牢牢把握市场运营,将会是电信企业在激烈的行业竞争中获取胜利的关键。

[参考文献]

[1]《大数据》.清华大学出版社.

[2]《HADOOP实战》.机械工业出版社.

[3]《HADOOP权威指南(中文版)》.清华大学出版社.

[4]架构大数据:挑战、现状与展望.计算机学报.

猜你喜欢
大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索