林潘能
摘要:伴随信息化水平的不断提高,信息系统的应用范围不断拓展,与此同时,信息数据量不断增加,由此产生了大数据,也促进了大数据挖掘技术的发展。本文简单阐述了大数据及数据挖掘的概念,并就大数据挖掘当中数据处理与数据挖掘两方面探讨了数学的运用,间接地表明了数学对于大数据挖掘的重要性和作用,在对大数据进行挖掘的過程当中应充分发挥数学的作用。
关键词:大数据时代 数据挖掘 数学
中图分类号:TP311 文献标识码:A 文章编号:1009-5349(2018)09-00253-02
随着全球进入信息化时代,现数据已渗透于人们生活及工作的各个角落,并逐步成为社会生产的重要因素之一,人们也开始运用大数据来改变传统的生产模式及消费模式,从而推动人类社会进入大数据时代。在大数据时代,数据挖掘成为时代的核心,如何深入挖掘大数据当中有用的信息成为各行业关注的重点。数学是实施数据分析的重要手段,在挖掘大数据时,必然要运用到各种数学理论及知识。
一、大数据挖掘概述
(一)大数据的概念及特征
进入信息化时代,“大数据”已成为人们耳熟能详的词汇。何为“大数据”,百度百科是如此定义的:无法在一定时间内利用常规软件工具捕捉、管理或处理的数据集合,需采取新模式才可进行处理的信息资产。维克托·迈尔-舍恩伯格及肯尼斯·库克耶所编写的《大数据时代》当中,是如此定义大数据的:无法利用随机分析法而必须采取所有数据进行分析处理的数据。[1]大数据包括结构化、半结构化及非结构化数据,现多数大数据均为非结构化数据,数据量大且形式多样。
大数据具5V特征,即Volume(大量),数据容量大;Velocity(高速),数据获取及处理速度快;Variety(多样),数据类型多样;Value(低价值密度),数据价值较低;Veracity(真实性),数据质量较高且真实。相关统计表明,至2011年,全球数据量增长达1.8ZB,全球人均数据资源量超过200GB[2],且近些年来,伴随信息化水平的不断提高,信息技术及信息资源的广泛应用,全球每年数据增长率高达50%,现全球已进入大数据时代。
(二)数据挖掘概念
数据挖掘是大数据的重点内容,其是伴随大数据的出现而逐步形成的新兴学科。对于数据挖掘,因侧重点不同,其方法定义也有所差异,最早对于数据挖掘的定义是指全面提取数据当中暗示或未知的可能有用的信息。现数据挖掘已成为一种专业活动,其不仅仅是一种统计模型技术,而且还有着更深层的知识发现。现数据挖掘已广泛应用于各领域和各行业,包括教育、科研、市场营销、制造业、电信业、互联网产业等,尤其多用于商业人工智能研究领域,通过提取大数据中潜在的有用的信息或知识,以为商业决策及建设提供客观数据依据。[3]
二、大数据挖掘中数学的运用
(一)运用于数据处理当中
实施大数据挖掘,首先要对数据进行收集和初步处理。大数据具强时效性,在对数据进行处理时,对时间的要求非常严格,因此,在有效的时间内,数据必须既要保持高效率,同时又要保证良好的处理效果。若原始数据存在噪声或是不完整、不统一等情况时,还应对数据进行预处理,以提高数据的准确性;若数据量或指标集过大,就可从中挑选一些较为重要的与研究结果相关的数据,或是一些能充分反映研究结果的关键指标。
在进行数据处理的过程当中,通常会利用到数学当中很多常用的或经典的分析方法,其中最为常用的便是统计学方法,如描述性分析法、回归分析法、相关性分析法等。其中回归分析法通常与相关性分析法相互结合,在进行相关性分析的基础上,通过观察某两个或多个相关变量的数量变化关系,再建立相应的数学模式,以利用已知量来推断未知量。进行回归分析的主要目的在于利用样本数据对参数进行估计,然后通过建数学模型,以检验、判断或预测参数或模型。另,在进行数据处理时,还会利用到很多数学理论。如测度论,即通过运算结合两个或多个单调测度,以构造出一个新的单调测度,在实施数据降维处理时,即可应用测度论,相比于利用传统的主因子分析法,此分析方法可有效保证数据的完整性,从而保留更多相关信息,提高分析结果的科学性。
(二)运用于数据挖掘当中
数据挖掘是大数据的核心,大数据看似复杂、无规律,要想从巨大量的数据当中获取有效或有价值的信息,就必须实施数据挖掘。数据挖掘具应用性、工程性、集合性和交叉性。在实施数据挖掘的过程当中,数学发挥着无可替代的作用。在进行数据挖掘时,常用的数学方法有神经网络、关联分析法、聚类分析法及决策树法等,其中最重要的当属聚类分析法,其还广泛应用于其他行业及领域,包括心理学、医学、统计学、市场营销行业、数据识别等。
聚类分析法是以“物理类取”为基础,依一定标准,将具较大相关性的对象划为一类,且尽量拉大不同类对象间的差异,从而将数据集或关键指标进行科学分组。在利用聚类分析法实施数据挖掘的过程当中,所应用到的数学方法主要有灰色关联分析、目标函数模糊及区间值算法等。首先,利用灰色关联分析,通过比较几何曲线间的几何形状来判断数据间的关联性大小,几何形状(下转第252页)(上接第253页)越相近,表明关联性越大,反之则小。灰色关联分析实施数据挖掘多用于样本数据量较小,或是样本存在残缺现象的数据分析当中,如因历史原因导致数据样本缺少的数据分析,或是因样本更新速度过快导致样本数据不统一等情况的数据分析。其次,利用目标函数模糊,将数据实施标准化后再进行标定,并建立模糊矩阵,然后采取直接聚类或模糊等价矩阵的方式实施数据集或关键指标的聚类,同时也可利用最大树法或是编网法进行聚类。目标函数模糊具效率高、伸缩性大、处理维度高等特征,是数据挖掘过程当中使用的重点方法。实际上,目标函数模糊的聚类分析法在人们的日常生活当中也非常常见,各类数据分析、数据挖掘,甚至图像处理都会应用到此方法进行数据集或关键指标的聚类。目标函数模糊法相对科学,其应用也相对成熟,是解决聚类问题的有效方法。最后,利用区间值算法,可对数据挖掘过程当中一些能进行转化的“比较型”数据,或是有固定取值范围的数据进行分析。区间值算法是一种常用的数学方法,其在数据挖掘中的应用多体现于对不完全的系统信息进行挖掘和分析。在实施数据挖掘时,所采取的区间值算法主要有以下三种:数与区间聚类法、区间与区间聚类法以及矩阵与区间聚类法,其中数与区间聚类法最为常用,可高效、准确、真实地对不完全的系统信息进行统计分析。在对区间值进行确定时,既可由具丰富经验的专家进行确定,也可利用统计学方法进行确定。
三、结语
总而言之,发展至今,大数据已不仅仅是指单纯的数据,其是一种技术,也是一种应用。要想真正做好大数据的应用,首先应牢牢掌握其应用的理论基础,自数据的前期收集着手,进行深入分析,并形成结论。而在整个过程当中,大数据无论是处理或是挖掘都需数学理论的支撑,包括其后期应用,也需应用到数学知识。因此,在实施大数据挖掘的过程当中,应充分重视数学的作用,并合理应用数学知识。
参考文献:
[1]王少博,景剑文,房玄骅.浅谈大数据背景下数据挖掘的方法及其应用[J].管理观察,2017(14):102-103.
[2]张倍娴.数学在大数据挖掘中的应用研究[J].教育科学(全文版),2016(4):284.
[3]王小龙.数学在数据挖掘中的应用[J].中国科教创新导刊,2014(2):74.
责任编辑:刘健