佘朝兵
摘 要:近年来,随着我国云计算技术和互联网技术的不断发展,网络中的数据增长速度非常快,每天产生的数据量非常庞大,我國已经进入了大数据时代。在大数据时代,需要充分挖掘数据的隐藏价值,对数据加强分析。在大数据时代,采用传统的数据库已经不能对数据进行有效处理,因此,需要采用更先进的数据处理方式。主要阐述了大数据的概念和特点,并分析了大数据下的数据分析理念,阐述了相关的数据分析技术。
关键词:大数据;数据分析;计算机;互联网
中图分类号:TP311.13 文献标识码:A DOI:10.15913/j.cnki.kjycx.2017.07.045
数据分析是数据处理的核心流程,通过数据分析可以充分挖掘数据的价值。在大数据的背景下,数据量非常庞大,因此,对数据的查询、储存和分析的要求都越来越高。在实际操作中,需要针对大数据时代的特点探究有效的数据分析模式和技术。
1 大数据的概念和特点
可以将大数据看作处理能力非常强的计算机,也可以认为是对大量数据进行分析和处理的技术,即在规定的时间内对大量的数据进行分析和整合,充分挖掘数据的价值,总结出重要的信息。此外,还可以将大数据看作在规定的时间内对数据的信息分析和拆解技术。
大数据具有广泛性的特点,在大数据时代下,人们的生活方式和思想方式发生了巨大的改变,计算机和互联网已经成为了人们生活中不能缺少的部分,因此,对大数据的处理、整合和分析都在不断变化。在大数据时代下,这些数据往往是公开和透明的,很多领域都可以运用。对于这些数据的分析结果,对人们的生活、学习和工作都有很大的帮助。
大数据具有社会性的特点。大数据时代将大量的信息都汇聚在一起,通过互联网将各种数据连接在一起,充分挖掘数据的价值,促进了社会的进一步发展,因此,大数据具有社会性。此外,大数据还具有动态性的特点,在大数据的时代下,各种数据和信息都时刻发生着变化,在任何时间都会产生数据信息。
2 大数据下的数据分析技术
2.1 大数据的具体分析过程
在大数据时代下,对数据分析和处理需要按照一定的规定和流程。在实际生活中,各种数据已经在每一个领域和每一个行业都有所渗透,且这些数据在不同的地区与不同的行业之间发生着转变。大数据时代的数据分析与以往的数据分析要求不同,因此,大数据分析已经逐渐代替了原来的传统数据分析技术。在大数据时代下的数据分析技术要从社会的各个领域和地区搜集各种信息,然后将这些信息转化为有效的数据,再采用数据分析技术对数据加以分类、整合和分析。在对数据分析时,要将没有用的信息删除,对有用的信息进行深层分析和处理,并运用到实际生活和工作中,发挥数据的各种优势。
2.2 大数据的分析模式
根据数据的来源对其进行划分,可以将大数据分为以下几种:①我国不同行业和不同领域的各种统计数据。②在互联网上用户对各种信息和资源的点击率和浏览次数,且包括动态网站网页和社会网站上的各种信息的变化。在对这一类的数据搜索时,通过网络的实时监控数据和搜索关键词的搜索量就可以获得各种互联网中的数据。③通信领域的数据。包括个人用户的信息、通话记录时间等相关数据。④用户的行为以及用户对系统的操作等日志数据。
由于大数据的数量非常多,且来源于不同的领域和行业,可通过各种途径获取。对于非结构化的数据,在对其分析时,对于通信领域的数据,可以采用查询和归纳统计的方式来实现,可以在较短的时间内获取有价值的信息。对于这种数据处理,采用查询式的分析模式。
对于日志数据,可以对用户的点击浏览行为分析,从而了解日志和系统的运行行为。如果是在互联网中产生的数据,则应通过搜索引擎来对数据进行检索、处理和分析。由于我国的科学技术在不断进步,大数据的分析引擎已经变得非常便捷和准确,可以在海量的信息中获取最有价值和最有用的数据。对于网页数据和日志数据而言,在实际处理过程中比较接近,通过对数据的仔细分析就可以得到有价值的信息。
国民经济中非常重要的数据主要通过实时监控来分析。这种数据分析模式称之为实时数据分析处理模式。无论是哪种数据分析模式,都可以采用关联规则、回归分析、分类和神经网络等来处理。
2.3 大数据分析技术
在大数据时代下,数据量非常庞大,且其来源非常复杂,这些数据资源是不断变化的,为了从不断变化和迅速增张的数据中分析和得出有利用价值的信息,要采用先进的数据分析技术。只有这样,才能处理数据量非常大的数据。由于数据的结构和种类非常多,而主要的数据类型为非结构化的数据类型和半结构化的数据类型,因此,可以采用基于MapReduce的大数据处理技术来处理分析技术。
在实际的对数据处理的过程中,对于基于MapReduce的连接算法,其可以有效提高对相关数据的查询效率。在大数据时代,数据量非常庞大,采用这种连接算法,可以提高算法的执行效率,对提高查询效率有很好的作用,通过加入索引的方式使网络的传输量减小,提高查询任务的效率和质量。
基于MapReduce的迭代算法是数据挖掘的一种重要方式,尤其是在大数据时代,采用这种方式,可以有效处理海量数据的分布式计算框架,可以采用局部线性的方式避免运行延迟出现,从而有效提升运算执行效率和速度。
基于MapReduce的调度算法,对其优化可以有效提升上层算法的效率。在一般的数据处理中,常见的调度机制是推测执行调度策略。但在异构的环境下,这种方式并不好,而大数据背景下的数据很多都为异构数据,因此,需要对基于MapReduce的调度算法进行优化,采用容量调度策略和公平调度策略。在对任务查询时,可以重新组合,对模型优化。
3 结束语
大数据时代需要分析的数据在数量上非常多,且有多种来源,很多数据都非常复杂,因此,在分析时要降低维度、将其逐层抽象,然后对多种类型和来源数据进行解读和概括。在实际的数据分析中,需要针对不同来源的数据采用不同的分析模式,具体分析时采用基于MapReduce的数据分析技术可以满足大数据时代数据分析要求。
参考文献
[1]单海波.浅谈大数据时代的数据分析与挖掘[J].科技创新与应用,2016(24).
[2]程学旗,靳小龙,王元卓.大数据系统和分析技术综述[J].软件学报,2014(09).
[3]张学敏.大数据时代的数据分析[J].电子世界,2014(16).
[4]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02).
〔编辑:张思楠〕