邱景富
【摘要】 在信息经济时代,石化企业开始利用大数据处理技术建立智能化工厂以提升企业自身的核心竞争力。本文从石化企业信息化建设需求、大数据的特征和大数据处理技术等方面对大数据处理技术在石化企业信息化建设中的应用进行了技术初探。
【关键词】 大数据 大数据处理 石化企业企业
大数据技术引领信息经济时代的到来,在石化企业经济效益倒逼的严峻形势下,企业决策层意识到利用先进的大数据处理技术,以最接近真实的数据预测未来以做出正确的生产经营决策的重要性。有前瞻性的石化企业已经踏上了利用云计算、大数据处理等先进技术建立智能化工厂以提升企业自身的核心竞争力的道路。
一、大数据概念
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
二、大数据相关技术
2.1 大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,Map Reduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。Map Reduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、Map Reduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。Map Reduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
2.2 大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。
2.3 大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4 大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。
三、大数据技术在石化企业的应用
3.1 NoSQL数据库技术
NoSQL(Not only SQL)数据库,指与传统的关系型数据库不同的非关系型数据库。它的数据类型是非结构化的,数据库结构不需要事先定义并可以灵活改变。相对传统关系型数据库以行模式存储数据而言,NoSQL数据库中的数据以列模式存储,横向可扩展性高,数据不需要保持严密的一致性,但是要保持结果的匹配性。它可以在多台服务器上以分布协作方式工作,支持多种非SQL语言,其处理数据的能力比RDBMS规模大得多。对于已经大量使用的Oracle数据库的石化企业来说,商用数据库及其提供相应的支持服务,此举使得石化企业在今后部署NoSQL数据库来处理综合办公中产生的大量非结构化数据。
3.2 大数据的MapReduce技术
MapReduce技术是分布式并行处理技术,其主要思想是将自动分割要执行的问题拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群中不同的处理节点并行处理,从而达到分布式运算的效果,然后再通过Reduce 函数的程序将结果汇整后输出最终结果。MapReduce模式通过大量廉价服务器来实现大数据的并行处理以提高处理速度,适用于海量的结构化、非结构化和半结构化数据的混合处理。
四、结语
大数据时代的新技术带给企业生产经营新的挑战和机遇,随着石化企业信息化和工业化融合的加深,大数据处理技术必将成为企业决策者洞察行业竞争态势的望远镜,成为提升企业核心竞争力的助推器。
参 考 文 献
[1] 邹国伟,成建波.大数据技术在智慧城市中的应用[J].电信网技术. 2013(04)
[2] 栗蔚,魏凯.大数据的技术、应用和价值变革[J].电信网技术.2013(7)