◆唐和卿
基于大数据时代的计算机信息处理技术浅析
◆唐和卿
(甘肃钢铁职业技术学院 甘肃735100)
人们大量使用手持终端设备接入互联网,产生了庞大的数据量,这些数据已经成为信息社会的巨大财富,同时也带来了数据筛选和数据安全方面的巨大挑战。数据筛选即数据可用性问题成为大数据的重要挑战之一。大数据的价值并非数据本身,而是由大数据所反映的“大决策”,“大知识”,“大问题”。近年来,大数据可用性的研究已经取得了一定成果,而计算机信息处理技术的发展就是要提高数据可用性,本文研究了大数据时代信息处理技术,供读者参考。
大数据;静态数据;流式数据;数据挖掘
大数据蕴含着巨大的价值,可以从中获取丰富的信息,对改善和预测人们的生产生活,更加深入地认识和控制物理世界具有重要的战略意义。但随着各类信息数据的爆炸性增长,数据质量良莠不齐,部分数据呈现低价值性而数据整体呈现高价值性,劣质数据的大量涌现,极大地降低了数据的可用性,使数据之间的关联性更加复杂。
大数据主要有三个来源:(1)互联网上的数据库资源;(2)各种科学实验与观测数据;(3)物理信息系统,如智能电网,智慧城市等。
批量处理:主要操作大容量静态数据集,并在计算过程完成后返回结果。常用于对历史数据进行分析,不适合对实时性要求较高的场合。
特征:一、数据体量巨大;二、数据精度高;三、数据价值密度低,例如监控数据,数据始终存储在某种类型的持久存储位置中。目前的主要应用为Apache Hadoop,专用于批处理的处理框架。Hadoop(集群)——大数据框架,用于由通用硬件构建的大型集群上运行应用程序。类似于CPU进程被分解为多个线程的操作,它的计算任务会被分割成小块运行在不同的节点上,每个小块可能被多次运行,实现了Mapreduce(分布式计算层)的编程范型。它提供了分布式存储(文件)系统HDFS,数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。基本步骤如下:
(1)从HDFS文件系统读取数据集;(2)拆解数据集并按需分配至所有可用节点;(3)计算节点上的数据子集,中间态重新进入HDFS;(4)按键分组重新分配中间态结果;(5)汇总节点计算的结果并对每个键的值进行还原;(6)计算的最终结果重新写入HDFS。
这种方式对每个任务需要多次执行读取和写入操作,速度较慢,对持久存储依赖严重。MapReduce可以处理来自服务器磁盘空间的庞大数据集,意味着相比其他技术,MapReduce可以在硬件上直接运行,它的运行不需要大容量的内存支持[1]。MapReduce的缩放能力极高,对包含数万个节点的应用也能轻松应对。如今围绕Hadoop已经形成了辽阔的生态系统,Hadoop集群本身也经常被用作其他软件的组成部件。很多其他处理框架和引擎通过与Hadoop集成也可以使用HDFS和YARN(集群资源管理器)。
典型应用实例:一、社交网络;二、电子商务;三、搜索引擎;四、物联网;五、云计算。
流式数据的处理,完成数据的动态清洗,格式处理。流式数据的特点:数据连续不断,来源众多,格式复杂,物理顺序不一,数据的价值密度低,对应的处理工具则需要具备较高性能,以及实时、可扩展等特性。Hadoop主要是为离线数据设计,并不能够对在线数据流进行处理。此外,随着智能终端的普及,如今互联网已经渐变为移动互联网,用户可以随时随地使用手持终端接入互联网。流式数据的规模量逐步增长,内容和服务的实时性愈加重要。这也就对实时计算能力提出更高的要求,因此分布式的实时计算平台Storm应运而生。系统基于Hadoop平台,采用Storm作为实时计算框架,为在线任务的执行提供外部环境。并且采用KeyValue数据库HBase作为主要的存储方式,使得系统在高并发的情况下仍然能够稳定服务。此外,用户可以根据规则对业务处理逻辑进行自定义,大大提高了用户使用数据的效率[2]。
流处理中的数据集是“无边界”的,基于事件处理,随着新数据的抵达持续更新,如果没有命令停止则一直不间断执行,处理结果实时可用。同一时间只能处理很少量的数据,不同记录间只维持最少量的状态。对流式数据采用批处理方法,采用对进入系统的数据进行缓冲的机制,这使得该技术可以处理巨大体量的传入数据,提高单位时间内的数据吞吐率,但新数据进入缓冲区要等待缓冲区已有数据清空,这样会导致延迟增高。
特点是灵活,直观便于控制。以DBMS为主,有两类应用:联机事物处理(OLTP)和联机分析处理(OLAP)如:spark系统,Dremel系统。Dremel 是由Google 研究出的“交互式”数据分析系统。可以组建成百上千的集群,处理存储容量为PB(拍字节,1024TB)级别的数据。Dremel处理一个数据为秒级,而MapReduce是分钟级。2009年Google的研究人员通过对每日超过30亿次搜索请求和网页数据的挖掘分析,在H1N1流感爆发几周就预测出流感传播;通过对微博、论坛、聊天记录等网络大数据的挖掘分析能够发现社会动态,预警重大和突发性事件[3]。
图像数据处理技术基本可以分成两大类:模拟图像处理(Analog Image Processing)和数字图像处理(Digital Image Processing)。数字图像处理是将图像的模拟信号转换成数字信号并利用计算机进行处理的过程[4]。其优点是处理精度高,重现性能好,灵活性高,效果易于控制,可进行复杂的非线性处理,使用不同的图像处理软件能获得不同的处理效果,但在进行复杂的数字图像处理的时候处理速度会较慢,数字图像的处理对计算机硬件性能的要求较高。数字图像处理技术主要包括:图像变换、图像压缩和编码、图像增强和复原、图像分割、图像描述、图像分类(识别)。图像处理技术的理论和技术的日趋成熟,对图像处理科学的发展作用越来越大,影响深远,在人工智能,人工模拟,航空航天,军事,视频和多媒体系统、生物医学、电子商务等领域被广泛应用。基于图数据处理系统Apache Hadoop,典型应用为中文知识图谱,知立方平台,zh-ishi.me,知件等。
数据挖掘(Data Mining)是从巨大体量的数据中通过数学算法搜索隐藏在其中的有价值的信息的过程,这些数据可能包含不完全、有噪声、模糊、随机等属性。根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等[5]。
大数据挖掘技术主要有这几项:一、有效的大数据预处理技术;二、非向量数据挖掘技术;三、分布式大数据挖掘技术。
总之,计算机信息处理技术的日益发展为人们的生产生活带来了极大的便利,更快、更高效,精度更高的计算机信息处理技术也在众多科研人员的努力下快速发展。有追求就会有突破,只有不断满足社会大众生活需求,才能使计算机处理技术高效快速发展,这是机遇,亦是挑战。不断加强计算机信息处理技术方面的研究,让互联网数据为人民大众的福祉牟利,为推动我国现代化建设牟利。
[1]郭若男.基于Hadoop平台的在线数据处理系统的设计与实现[D].北京邮电大学硕士论文,2015(08):1-70.
[2]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(05):1147-1162.
[3]李红俊,韩冀皖.数字图像处理技术及其应用[J].计算机测量与控制,2002(10):620-622.
[4]金育婵.数据挖掘技术中关于关联规则算法的研究[J].科技传播,2011(06):223-224,226.