郭 军
(61932 部队,北京 100071)
大数据时代的到来,改变了人类生活的方方面面,人们的生活在因为大数据的到来而受益良多,比如人们的生活中支付的方式从现金支付逐渐转变成手机支付,人们的生活物品的超市购买也逐渐实现网络购买、送货上门等,这些改变给人们的日常工作和生活带来了更多的便利。但同时值得指出的是,大数据时代的到来同样也带来了一定的影响,因此需要对大数据的采集和存储投入更多的关注,以便更好的利用通信运营信息大数据。
在通信运营信息下的大数据主要是为了进行数据的采集、处理以及存储,将这些大数据进行处理可以更好的对这个时代的大数据的变化动向予以及时的把握,从而制定更好的发展方向和前景。而大数据对信息的收集主要把包括三个方面,对用户信息的收集、对网络信息的收集、对管理系统与用户的关系进行收集。
数据源层:在我国有三大通信运营商,他们各自都有着大量的数据量,而数据的宽度和广度都很大,这也以此为通信运营的大数据网络提供了丰富的数据,而通信运营大数据平台主要由数据源层、数据采集层、数据存储层、数据分析层、数据汇聚层、数据服务层、用户应用层、平台管理系统构成。
数据采集层:ETL 利用第三方数据和业务系统数据,结合业务数据库终端接口、移动DPI 信息、FTP 文件传输协议等对数据进行处理,并通过提取、转换、加载等方式传输到数据平台存储层。数据收集使用多种格式的数据源来完全覆盖结构化和非结构化数据信息。该方法能够周期性的进行数据收集,实现数据的稳定来源。
数据存储层:在数据的存储之中主要采用的是分布式的方式,将各种数据进行有条理性的存储在服务平台中,而数据存储对数据会进行更加科学的分析,在分析之后在进行更加合理的分配和存储。
数据分析处理层:对于大数据处理,为了提高海量信息处理的效率,平台对信息流的实时处理和计算主要通过离线和分布式处理方式来完成。MapReduce 因为具备较强的灵活性而被用来来完成离线处理的工作,Srorm 则主要来进行分布式的处理工作。在当今时代中,数据的基础含量也随着社会的不断进步而逐渐增加,这就对数据分析处理提出了更高的要求,所以在在数据的分析和处理的过程中更需要对相关的数据进行更加全面的分析和处理,从而有效的保障数据的有效利用率。
数据汇聚层:在数据的汇聚层中,主要通过Hbase 来对数据库中的数据进行存储和查询,这种方式能够使数据的查询更加的方便快捷,同时也能够减少数据的数据查询的繁琐性。
数据服务层:数据服务层主要是为第三方提供数据查询、分析、可视化的服务,让第三方能够及时的从信息数据服务平台及时的获得相关的数据,以为第三方的发展提供服务。
用户应用层:主要是指为用户提供短信推送、日志推送以及服务项目退浆等功能,让用户能够及时的对相关产品进行了解和使用。
平台管理系统:平台管理系统主要是指对通信运营胸大数据平台进行管理的系统,包括安全系统、维护系统以及数据采集系统等。
在通信运营大数据平台中,大数据数据采集的方法主要有三种,分别是系统日志采集方法、网络数据采集方法、其他数据采集方法。而系统日志采集方法主要有三,分别是Facebook 的Scribe、Hadhoop 的Chukwa 以及Cloudra 的Flume,这三种是最常用的系统日志数据采集方法,而且基本上每一个通信运营商都有着属于自己独特的系统日志数据采集方式。而网络数据采集方式则是通过网络的方式来完成数据的采集,首先需要将需要在某些网站上采集信息的网站数据列入到数据采集的行列中,这样才能将访问该网页的用户的信息进行收集,然后相关的爬虫会将所收集到的数据写入到数据库中。而其他的一些数据采集方法则是通过与企业活研究机构进行合作,使用一些特定的数据采集方式进行数据的采集。
在通信运营大数据的存储之中,通常采用虚拟存储技术、高性能的I/O 技术以及网格存储技术,这三种技术能够很好的实现大数据的存储,能够很好的保障数据的安全性,同时也能够更好的方便数据的搜索和查找。虚拟存储技术主要是能够提供虚拟磁盘等,可以很好的实现数据的合理应用,而且还能够很好的降低成本,优化存储方式。而网格式的存储方式也能够对数据进行很好的存储,同时也更加的富有条理性。
当今时代是一个大数据时代,大数据对人类的生活、工作和学习产生很大的影响,因此需要对大数据的收集和存储投入更多的注意力以保证收集到大量的数据,同时也需要保证数据存储的安全性和有效性,提升数据的有效利用率。