杨李娜
(新华通讯社,北京 100803)
通信行业大数据平台项目应用与实践研究
杨李娜
(新华通讯社,北京 100803)
本文首先对大数据平台以及Hadoop框架的概念和特点进行了介绍,然后依次对Hadoop架构核心、技术优点进行了阐述,最后对通信系统话单处理中Hadoop架构的应用进行了剖析。
大数据;Hadoop框架;通信系统;话单
Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理;Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度;Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务,它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在它上面开发和运行处理海量数据的应用程序。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。简单地说,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
图1 Hadoop主要项目
如图1所示,Hadoop主要项目有:
⊙ Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。
⊙ MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群。
⊙ HDFS:分布式文件系统,运行于大型商用机集群。
⊙ Zookeeper:一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。
⊙ HBase:一个分布式、按列存储数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。
⊙ Pig:一种数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。
⊙ Hive:一个分布式、按列存储的数据仓库,管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引起翻译成MapReduce作业)用以查询数据。
⊙ Mahout:一个在Hadoop上运行的可扩展的机器学习和数据挖掘类库(例如分类和聚类算法)。
⊙ Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。
⊙ Sqoop:在数据库和HDFS之间高效传输数据的工具。
Hadoop技术框架主要优点有:
⊙ 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
⊙ 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
⊙ 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
⊙ 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
⊙ 低成本。与一体机、商用数据仓库以及QlikView,Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的,当然,Hadoop上的应用程序也可以使用其他语言编写。Hadoop在大数据处理中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面的天然优势,其分布式架构将大数据处理引擎尽可能的靠近存储。
随着移动互联网的飞速发展,用户数量不断增加,电信及移动互联网悄悄进入了大数据时代。数据的迅速膨胀及多样化充斥着移动及电信的各种业务,对消息的实时处理在各种数据处理平台中显得更加重要。Storm的快速计算能力、可靠的消息传输机制在实时数据处理方面有着天生的优越性,适合处理要求高响应的集群的业务数据。因此,将storm应用于电信及移动互联网的有高响应要求的业务中,将会提高整个系统的运行效率,增强系统的稳健性。
3.1 话单处理简介
融合计费系统应遵循的技术原则:规范性,开放性,扩展性,继承性,易用性,准确性。话单作为融合计费系统的一部分,易用性和准确性在话单处理中尤为重要。易用性体现在高响应,即对数据进行实时快速处理;准确性体现在账务的清晰明了。这都要求计费系统有较高的响应,Storm的实时计算能力和可靠的传输机制恰恰满足了这个需要。
图2 计费系统简单架构
如图2所示,计费系统中增加Stream compute Storm模块,对系统的数据进行实时处理。例如:根据需要定制获取用户话单的时间间隔,每隔5分钟对用户话单进行一次获取(包括了用户的语音话单和流量话单),实时进行批价,对流量进行套餐监控及费用计算,这些复杂的事件全部在Stream compute Storm模块完成,此模块采用并行处理方法,实现对数据的快速处理;采用可靠的消息传输机制,保证账务的准确性。
3.2 话单获取
如图3所示,Storm的每个Spout组件都会有多个task,task的数量由用户决定,Spout组件从外部获取话单信息,并行批处理话单的记录,将其按照用户定制的分组策略将各个记录或者域发送到指定的Bolt。
获取话单记录时,Spout可以有多个,每个Spout得Worker也可以有多个,在每个Worker中又可以有多个线程处理话单记录,进程和线程的个数可以根据需要在topology中进行预设和调整,这种灵活的分配策略可以保证获取话单的速度不会因为数据量的增加而降低性能。
图3 话单获取流程图
3.3 解析话单
Spout获取一条语音话单,并将这条话单记录经过简单处理按照分组策略转发到指定的Bolt A。Spout会中东将记录转发出去,Bolt被动地接收。此处的分组策略采用按字段分组的方式,即把话单中按字段进行分割,每个字段都有指定的Bolt的task,这种指定在topology中进行配置。例如,用户ID由task1进行标记处理,用户当前通话时长由task5进行标记与转换处理,处理的目的便于在用户的所有信息处理完毕后进行信息合并。
在语音话单记录解析的过程中,进行了实时的计算,对每个话单记录域即一条记录的字段进行标记处理,这种标记处理是并行处理的,因此十分高效。对于流量的计算可以采用固定时间间隔进行合并分析,实现流量监控,降低风险。
3.4 合并话单
对于一条话单记录,多个Bolt对其进行处理完毕后,要按照指定策略进行合并,生成完整的话单文件,便于入库或者查询等。一条话单的每个字段按照用户需要处理完毕后,分散在多个worker的多个task中,要形成一条完整的话单记录需要对处理完毕的用户信息进行合并处理,从大量的数据中挑出单个用户的所有信息,这种用户信息挑选可通过Storm的可靠消息传输机制实现。对于限定时间内没有处理完的字段,可通知Bolt进行重新处理。
在处理复杂事件时要做到三点:减少应用存储数据(在分析数据之前)造成的延迟;实时地分析多个数据流,能够关联不同数据流中的事件,从而发现新的相关情形;能够迅速响应新发现的危险或机会,并且将先前发现的规律应用到新的数据流分析模型中。能够利用已有的应用开发能力快速开放新的高性能、高扩展度的应用,确保应用和系统的连贯性。
大数据Hadoop平台的成功应用上不胜枚举,Facebook使用1,000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。同时,一些提供Hadoop解决方案的商业型公司利用自身技术对Hadoop进行优化、改进、二次开发等,再以自有产品形式对外提供商业服务,相信不久的将来,Hadoop技术将成为进入大数据领域的必备技术。
[1] 涂子沛.数据之巅.北京:中信出版社,2014
The Application and Project of Big Data Platform in the Industry of Communication
Yang Lina
(Xinhua News Agency, Beijing, 100803)
Firstly, the concept and characters of big data platform and Hadoop framework,And then the advantage and core of Hadoop framework, finally, the Development and application of Hadoop platform on tickethandling in communication industry are analyzed.
Big data; Hadoop Framework; Communication System; ticket
10.3969/J.ISSN.1672-7274.2015.09.010
TN91
B
1672-7274(2015)09-0043-04