大数据信息系统关键技术的问题与对策

2021-04-15 15:57
中国新技术新产品 2021年3期
关键词:预处理数据库

王 虎

(苏州市体育信息中心,江苏 苏州 215000)

计算机网络技术的发展以及无线网络技术的快速普及为大数据技术的发展带来了机遇,我国逐步进入信息化时代,人们工作和生活中产生的数据信息也在急速增长。传统的数据管理方式无法承担如此巨大的计算量和负荷量,如果无法处理与日俱增的数据,互联网及其衍生行业就将面临崩溃。大数据关键技术主要包括采集技术和预处理技术等,但是现阶段在对各关键技术的研究和发展中仍然存在一些问题,这阻碍了大数据技术的进一步发展。该文将针对大数据技术中信息系统的关键技术问题进行分析并探讨相关的解决方案。

1 大数据技术

大数据是指超过使用者本身能够处理和分析并且通过常规软件和工具无法处理的数据合集。大数据具有量大、快速、多样、低价值密度以及真实性强等特点。通过对大数据的含义及特点进行分析就可以发现,仅依靠人力和常规软件是无法对其进行收集和处理的;并且大数据的意义不仅在于单纯地收集和记录所有数据,关键是在收集后对其进行专业处理,以更加直观的方式呈现在使用者面前。云时代的到来为大数据的发展提供了更加坚实的技术基础,大数据也逐渐成为国家和社会关注的重点技术,随着研究的不断深入,大数据也不断地进入到社会的多个领域和行业,进一步促进了人类社会的发展。在信息化时代,数据已经成为信息产业实现持续发展并带动经济增长的新引擎。

现阶段,大数据的关键技术主要集中在以下5个方面:1) 数据采集技术。大数据采集技术主要是通过数据库来接受射频数据以及收集App等用户端发出的海量数据,同时,它也是大数据知识服务模式的根本技术[1]。2) 大数据预处理技术。大数据预处理技术对数据库接受的信息进行批量处理,从而实现对已收集数据进行筛选和抽取的功能。3) 大数据存储及管理技术。大数据存储技术对已收集和已处理的数据进行批量整理,并建立相应的数据库用来存储数据;除此之外,大数据存储技术还能对数据库的数据进行有效地管理,从而达到去冗余优化存储的目的。4) 大数据分析及挖掘技术。大数据分析以及挖掘技术能够凭借先进、高效的算法对用户网络行为以及情感语义等进行分析;另外,数据挖掘能够在海量的数据库中提取潜在的具有价值的信息,且数据挖掘的方法也是多样的。5) 大数据展现及应用技术。大数据展现及应用技术能够通过各种形式将大数据挖掘技术提取出来的各种有价值的信息呈现出来,同时应用到社会生产以及经济活动中,从而进行商业决策以及政治决策等活动。除此之外,大数据关键技术还可以细分为数据传输、数据存储、数据处理、数据交换以及数据交换等,它们分别在不同的技术领域内发挥具体的作用,见表1。

表1 大数据关键技术

2 大数据采集技术

数据采集技术是推动大数据技术不断发展的根本性技术,数据采集技术中的数据采集也是数字被测单元自动采集数据的一个过程。根据数据的来源进行分类可以分为内部数据和外部数据,例如互联网企业往往会使用企业数据库的日志数据,这就是最为常见的内部数据的来源之一;例如央行的征信系统就是属于外部数据。

2.1 技术问题

现阶段我国的大数据采集技术在发展过程中遇到的最主要的问题在于随着社会的不断发展,互联网中的数据量呈几何级的速度在增长,海量数据给大数据的采集带来了前所未有的挑战。现阶段大数据采集技术在研究和使用过程中主要面临以下3个问题:1) 大数据采集复杂数据的能力有待提升,与传统的数据采集模式不同,信息化时代下的数据不仅包括文本内容、图片、视频以及音频,而且非结构化数据的大量出现在一定程度上也增加了采集的难度;因此,大数据采集技术需要提升对非结构化数据的采集能力[2]。2) 并发数据的数据源多种多样,并且短时间内产生的数据量也较大,不仅需要保证大数据采集的可靠性,而且还需要保证大数据采集的高效性,从而满足对大规模数据的采集需求。3) 大数据采集技术的识别能力还有待提升,提升大数据采集技术的识别能力可以避免在海量数据库中产生重复数据。

2.2 研究对策

在针对数据量大以及数据产生速度快等问题的研究中,如果要保证数据采集的可靠性与高效性,就需要根据数据来源的不同进行有针对性的数据采集活动。首先是Web数据采集,常用的数据采集方式主要是通过网络爬虫或者通过网站公开的API进行采集。以网络爬虫为例,在数据采集的过程中,会从初始网页开始筛选,在筛选的过程中会不断地将新的网页加入到筛选行列中,直到其采集到合适的信息才会停止;例如交通管理部门在轨迹数据采集中用到的轨迹数据约简算法,其操作步骤如下:假设1个初始轨迹有n个采样点,就可以将其视为有n-1个分段,A、B、C是3个连续的时空位置点,根据其前一个位置点A和后一个位置点C来计算B的时间同步欧式距离。这就是基于大数据技术的交通管理部门数据采集与处理技术的基本原理,如公式(1)所示。

式中:sed为指令;x和y为变量和常量。

通过Web数据采集,不仅是文本信息,各种图文内容的非结构化数据同样能够在短时间内被采集并存储到数据库中。除此之外,部分互联网企业还有专门的系统日志,通过采集系统日志就能实现对企业内部业务等大数据的采集;同时,在离线的情况下也可以完成采集工作,并且该技术采用的分布式架构能够实现每秒近百兆的采集速度,极大地满足了对内部数据的采集需求。

3 大数据预处理技术

大数据技术预处理的总体框架主要是在采集和交换得到初始数据后,通过在线或者离线的方式进行传输,其中的结构化数据可以通过电子表格或者传统的关系型数据库进行处理,而半结构化或者非结构化数据可以采用华为公司的FusionInsight大数据平台或者易安信公司研发的Pivotal平台进行预处理,从而得到统一的数据视图。大数据预处理框架如图1所示。

并不是所有数据在经过采集后就可以马上投入使用,由于数据采集的来源不同,并且不同的数据在种类以及质量方面都存在差异,部分数据大体上都是不完整的,该数据统称为“脏数据”。因此,如果不加处理就对该数据进行挖掘,那么挖掘的质量也会大打折扣[3]。在收据处理的整个流程中,首先要对数据的准确性进行审核;其次是对数据的适用性进行审核,目的在于避免出现数据有误差以及与项目不匹配等现象;再次是对数据的及时性和一致性进行审核。

3.1 技术问题

一方面,首次采集到的信息一般都是不完整的“脏数据”,未加处理就对其进行分析往往也只能得到质量较低的结果;另外,不完整的数据也没有进一步挖掘的价值,一般来说,该数据缺乏一定的属性值或者仅包括聚集数据。另一方面,某些含噪声的数据不经过处理就会给使用者带来错误的信息,该数据往往包括与实际期望不符的离群值,从而导致对决策的误判等。

3.2 研究对策

想要得到高质量的数据就需要对数据进行预处理,数据的预处理主要包括数据的清洗、集成、交换以及规约。数据清洗是处理“脏数据”最为有效的方法,也是保证数据质量的重要保证。数据清洗包括遗漏值的处理、噪声数据的处理以及不一致数据的处理[4]。在处理遗漏值的过程中,可以使用全局常量的方式对这类缺乏一定属性的数据进行处理,如果该方式不能处理,就只能选择略过该数据。现阶段,在噪声数据的处理中,使用较多的方式是分箱,即对采集的原始数据进行分组,再通过特殊的算法对组内的数据进行平滑处理,从而达到清洗数据的目的;例如以分布式为设计方向的数据处理系统Hadoop,它是Apache基金会下的1个开源项目(可以免费获取),基于强大的资金和技术的支持,Hadoop不仅拥有高效的大数据预处理能力,而且还拥有海量的存储能力。现阶段,Hadoop发展迅速,其下各个项目(例如Hive、Pig等)具有不同的数据处理能力,使其能够实现对“脏数据”的处理,深入挖掘数据的属性值。Hadoop的各种项目及其功能描述见表2。

表2 Hadoop项目的功能描述

4 大数据存储及管理技术

数据的存储及对数据进行有效地管理也是大数据的核心技术,一般来说,计算机的数据存储模式与人脑有一定的联系,计算机与人脑都能通过不同部位对短期数据以及长期数据进行存储和管理。在短期数据的存储中,计算机依靠RAM进行处理。在传统的数据处理模式中,计算机的数据存储容量、存储速度往往会受到计算机性能的制约[5];而且在现阶段数据产生速度快且产生量如此大的情况下,大数据的存储以及管理对提升数据的处理效率起到了至关重要的作用。

4.1 技术问题

大数据的1个显著特征就是数据的产生量大、产生速度也较快,因此大数据存储及管理技术面临的第一个问题就在于数据量过大,如何对规模如此大的数据进行集中管理是技术层面面临的主要问题。在对大数据进行处理的过程中,数据量单位基本上都是从PB起步,并且根据研究项目的不同,数据量单位甚至能够达到ZB。另外一个问题在于数据采集的来源较多且数据的种类较为复杂,存储和管理工作需要依靠先进的算法且存在巨大的运算量。

图1 大数据预处理总体框架

4.2 研究对策

近年来,随着相关方面的扶持力度不断加大,大数据存储及管理技术的水平也在逐步提升。现阶段,在解决数据存储和管理的问题时,一般会采用不断加密、仓库存储以及云端备份的方式。一方面为了保证数据存储的安全性,越来越多的企事业单位会选择采用不断加密的方式对数据进行管理。对于企业来说,企业数据是其重要的资产,不断加密已经成为了打击数据威胁的重要手段。另一方面,云存储服务逐渐向数字化转型,这也就意味着在云端能够实现对数据的快速迁移,数据安全面临的风险就会大大降低,同时,云端数据库能够在短时间内接收并管理数量庞大的各类数据,在一定程度上有利于减轻服务器的负荷量。

5 大数据分析和挖掘技术

大数据的挖掘就是在数量庞大、缺乏完整性且有噪声的数据中,对有潜在价值的数据进行提取。大数据分析及挖据技术被广泛应用于商业及政治等领域,能够对决策起到重要的辅助作用。

5.1 技术问题

大数据的飞速发展以及其自身极高的应用价值使它不断发展成为技术领域的主流,在社会生产和发展过程中往往会产生海量的数据,在该基础上需要找到1种高效的算法去解决数据挖掘所面临的复杂的问题。同时,由于不同数据的来源以及命名方式存在差异,因此想要在该基础上深入数据的内部,同样也是当前待解决的问题。

5.2 研究对策

要对大数据进行挖掘和分析,就需要在杂乱无章的庞大数据库中提取有效的数据信息,从而找到研究对象的内在规律。在数据挖掘和分析的过程中,可以采取分类、回归分析以及聚类等方式从不同角度对数据进行挖掘。分类就是对采集到的数据进行分组,在不同的数据组中寻找数据的共同特点。而聚类同样是采用分组的方式,但是与常规分组有区别的是,聚类会以数据的相似性以及差异性特征对数据进行分类,从而使同一类别中数据的相似性尽可能大,而不同类别中数据的差异性尽可能大。

6 结语

随着社会的不断发展,大数据技术的应用层面会更加广阔,但是随着数据量的不断增大,数据的来源也将更加复杂;对数据的采集、处理以及分析也会面临巨大的考验。大数据技术研究过程中的关键技术主要包括数据的采集、预处理、存储和管理、挖掘和分析以及展示和应用这5个方面。现阶段,最主要的技术问题在于数据的量大且时效性强,需要在保证高效安全的情况下,实现对于数据的快速采集和处理,同时保证对大批数据的存储。目前,我国针对大数据的研究已经初见成效并处于世界领先的水平,相信在不远的将来我国的大数据技术将为世界网络上信息技术的发展带来全面的革新。

猜你喜欢
预处理数据库
基于预处理MUSIC算法的分布式阵列DOA估计
络合萃取法预处理H酸废水
PMU数据预处理及压缩算法
基于自适应预处理的改进CPF-GMRES算法
以转炉为预处理炉冶炼不锈钢的特点