王赫楠 岳慧平 夏书剑
摘要:由于数据的格式、信息等十分复杂,不利于分析和决策,因此如何在海量数据的背景下挖掘出更为有效的信息,以帮助决策者分析和应用数据,成为亟待解决的问题。基于此,数据挖掘技术应运而生,其主要应用于数据集。文章主要研究了如何从海量数据集中挖掘出有价值、有规律的信息。
关键词:数据挖掘;系统开发;存储
中图法分类号:TP311文献标识码:A
Research on application of data mining technology underbackground of big data
WANG Henan, YUE Huiping,XIA Shujian
(Liaoning University of Traditional Chinese Mledicine,Shenyang 110000,China)
Abstract:Since the format and information of data are very complex, which is not conducive to analysis and decision-making, how to mine more effective information in the context of massive data to help decision-makers analyze and apply data has become an urgent problem to be solved. Based on this, data mining technology emerges as the times require. It is mainly used in data sets. How to mine valuable and regular information from massive data sets is the main content of data mining research.
Key words: data mining, system development,storage
1引言
各行業都会产生海量的数据,这是由于信息技术(云计算技术、移动计算技术、机器学习技术等)的不断进步,以及硬件存储能力、云平台存储能力的不断提升所致。大量的数据背后蕴藏着有效的信息,这些信息将为教育、电商、医疗、科研等领域的发展提供参考依据,研究者需要对其进行分析和整理。如何从这些数据中提取有价值、有规律的信息,以便在分析和决策的过程中发挥更为有效的作用,是研究者急须解决的问题。
数据挖掘技术是指从海量的数据中挖掘出有用信息的一门技术。数据挖掘技术涉及统计学原理、知识工程技术、数据检索技术、人工智能领域以及数据库技术等[1~5],其应用范围较广。当下,教育、医疗、科学研究、传统工业制造、金融分析等领域均可以利用数据挖掘技术挖掘和整理数据信息,对行业的发展产生了积极作用。
2概述
随着技术不断进步,人们可以方便地获取和存储大量数据,企业的关注点从获取数据信息转变为提取数据中有价值的信息,使其能够掌握行业发展规律,以获得更大的经济效益,从而扩大市场份额。
数据挖掘技术的逐渐发展可以帮助各领域解决数据分析问题。数据挖掘技术涉及专业领域,如统计学知识、信息技术应用、分类聚类、人工智能技术等。如何利用各种技术和方法辅助数据挖掘技术更好地分析数据信息,是数据挖掘研究的重要方面。数据挖掘技术的逐渐发展为各行各业带来了一定的经济效益。因此,数据挖掘技术的研究和应用受到了企业人士以及科研工作者的重点关注,成为研究的热门领域[6]。
利用数据挖掘技术可以对数据信息进行深度剖析,挖掘出有价值的内容。其涉及范围较广,并且在逐渐发展和延续。目前,数据挖掘技术主要涉及以几个方面,即分类和聚类、预测分析、关联规则、序列发现等。为了实现数据挖掘功能,主要基于统计分析方法和其他方法。相关统计分析方法包括时间序列分析、聚类、判别因子和因子分析等。统计分析方法在数据挖掘领域的功能支持主要表现在高级多元统计方法。这些统计分析方法目前已经较为常见,数据挖掘技术在统计分析方法的基础上进行了扩展和延伸;其他方法主要指模糊逻辑、神经网络、决策树等,数据挖掘领域对这些方法的应用主要体现在工具研发和应用研究等方面。随着技术的不断发展和成熟,数据挖掘技术也成为各领域数据分析的主要手段和研究方向。
近年来,大数据分析成为各领域研究的热点。与此同时,不同的研究者给出的大数据定义也各不相同。目前,较为被公众认可的定义是由维基百科、IBM 公司、高德纳大数据研究部门、国际数据中心等提出的。由以上机构给出的有关大数据的定义主要考虑大数据不同的特征,包括数据量大、数据种类的繁多、价值密度低、速度快等,给出了有关大数据的定义的不同说明。不论大数据的定义如何,其最终目的都是希望从各领域海量的数据中提取出对相关领域发展有价值的数据信息,除却一些无意义的干扰数据信息,能够对实时更新的数据保持处理的时效性,且要实时处理流式数据。
3数据挖掘技术
海量数据的背后离不开计算机技术的发展,也离不开数据搜集能力的提升。目前,在金融、医疗、商业、企事业单位办公、研发及开发等领域已经有很多成型的数据库。这些数据库中存储的数据除了数据量大的特点外,还有不完善、有噪声数据干扰、模糊、格式不统一、随机等特点。那么,对于数据分析人员来说,如何从这些大体量数据中提取出有价值、有规律的数据信息,挖掘人们很难分析出的潜在规律,是一项具有挑战性的研究工作。分析数据之前,我们需要对时间序列进行降维操作,这可以在保留较少数据的情况下,反应时间序列的主要形态特征,为之后的数据挖掘打下基础。图1为原始时间序列及压缩后的对比。
数据挖掘技术为实现数据信息的分类聚类、决策分析提供了依据,数据挖掘方法如下。
3.1 Decision tree
Decision tree(决策树)是数据挖掘技术的典型方法之一,其目的是对数据信息进行分类处理,其基于信息论原理。首先,创建一个决策树,依据是已经确定的数据集。其次,预测分析,根据创建好的决策树展开工作。创建决策树是为了形成数据规则。在这个过程中,实现数据规则可视化,由其得出的结果也更容易理解。决策树的优点较多,如较易理解、处理效率高、较高精确度。目前,决策树是一种较为常用的数据挖掘方法。
3.2 Neural network
Neural network(神经网络)由若干个单元构成,这些单元类似于人脑中的神经元。我们将这些单元称为节点,神经网络由这些节点在网络中彼此连接构成。一旦有数据输入,节点彼此协同工作,以确定数据模式。输入层、中间层、输出层是组成神经网络的三个层次。
3.3 Genetic algorithm
Genetic algorithm 遗传算法包含染色体的概念,这里的染色体不同于人体的染色体,其由问题可能的解按照一定的方式进行编码产生。创建初始种群,根据选取的若干染色体计算适应值,根据预定的評价函数计算初始种群中染色体的适应值。具有高适应值的染色体代表其性能较好。对性能较好的染色体进行 copy,利用遗传算子,生成性能更好的染色体,进而形成新的种群,直到最后形成一个性能最优、最能适应环境的个体,即可形成最优解。
3.4数据可视化
大体量的数据有时不能直观反应其规律,很难直接观察其规律,用于工作和科研。数据挖掘技术提供了可视化系统。利用多维数据中的关键点,可视化呈现数据的发展趋势和形态特征。可视化工具具有增强原有图形工具的效果,对于多维数据可进行可视化操作。
3.5粗糙集法
针对不完善、不精确、模糊的处理问题,我们可以使用粗糙集理论的方法。粗糙集理论的优缺点如下:优点—无须一些扩充的数据信息以及预备信息,算法十分简单;缺点—需要先分类属性,对于连续属性处理效果不好。在粗糙集理论应用中,如何离散化连续的属性是难点。粗糙集理论可以处理数据约简、相关性挖掘、评估数据等问题,主要应用于预测模型创建、数字逻辑分析以及近似推理等方面。
4大数据背景下的数据挖掘技术
大数据挖掘技术的数据种类繁多、数据量大,因此不同于以往的数据挖掘方法。大数据挖掘技术不再过多依赖传统数据挖掘技术的算法和模型。针对海量数据,大数据挖掘技术的应用可以发挥较好的功效,帮助研究者提取出有用的数据信息,为研究提供有价值的参考。其挖掘方法如下:社会计算、数据演变分析、知识计算、深度学习等。并且,大数据挖掘技术针对不同领域的数据种类,可以利用不同的数据挖掘方法。流数据挖掘、Web 数据挖掘以及空间数据挖掘是大数据挖掘技术的三个分支。与传统数据挖掘方法相比,大数据挖掘技术在数据处理流程上是有区别的。同时,大数据挖掘技术可以更加科学有效地处理数据挖掘问题。
4.1相关技术
针对流数据、空间数据以及互联网数据,大数据挖掘技术被分成流数据挖掘技术、空间数据挖掘技术以及 Web 数据挖掘技术。这三种数据挖掘技术应用在不同的场景。例如,零售数据、股票数据、车辆监控数据等属于流数据挖掘技术;互联网领域的传统数据挖掘属于 Web 数据挖掘技术领域;空间数据挖掘技术不同于流数据挖掘技术以及 Web 数据挖掘技术,其具有明显的空间性,基于空间分析法,使用综合属性数据分析方法处理空间数据挖掘的问题。
大数据挖掘技术同传统数据挖掘技术一样被应用于各行各业,如金融行业的数据处理问题、教育行业的数据处理问题、道路交通领域的数据处理问题、电子商务领域的数据处理问题、医疗行业的数据处理问题、生物医学领域的数据处理问题、邮政行业的数据处理问题等,应用十分广泛。
4.2发展趋势
如今,越来越多的研究者参与数据挖掘研究,数据挖掘技术也逐渐走向成熟。统一化、标准化数据挖掘语言、可视化方法开发、数据存储类型匹配问题、应用研究、整合数据挖掘、数据库以及 Web 数据库系统,是数据挖掘的主要研究方向。标准化是目前各个领域开发的基础,数据挖掘技术也不例外。数据挖掘所使用语言的标准化,将有利于数据挖掘系统的开发和应用;可视化操作能够使用户更加直观地了解数据变化的规律,更加容易理解。因此,可视化技术是数据挖掘技术的未来发展趋势,能够更友好的支持人机交互操作;数据类型多种多样,其存储类型也呈现出多样化特征。研究与各种数据存储类型匹配的问题,将成为研究的热点之一;数据挖掘方法对于各领域的支持效果不尽相同。而目前,各行业对数据挖掘技术的依赖度逐年上升,都希望通过数据挖掘技术有效提取信息。所以,针对于某一领域的数据挖掘系统开发尤为重要。数据库系统以及 Web 数据库系统是数据挖掘领域不能忽视的两个系统,如何整合相关系统,实现紧耦合[7],是数据挖掘技术需要解决的问题。
5总结
数据的来源渠道越来越多,其结构越来越复杂,数据量越来越大、种类越来越丰富,并且其隐含的经济及科研价值也越来越大,这对数据挖掘技术提出了更高的要求。从各行业产生的海量数据中挖掘出有用的数据信息,可以指导行业发展以及为科研提供数据支撑。这需要越来越多的研究者投身其中,真正开发出一些实用、有效的软件平台来支撑数据分析、可视化、提取等。大数据挖掘技术是未来各领域必不可少的技术支撑,将吸引更多的研究者投身其中。
参考文献:
[1]赵刚,蒋文丽.数据库技术发展综述[ J].黑龙江科学,2021,12(16):48?49.
[2]黄心依.机器学习在数据挖掘中的应用研究[J].信息记录材料,2021,22(8):121?123.
[3]韩明.数据挖掘及其对统计学的挑战[ J].统计研究,2001(8):55?57.
[4]吕鸣剑.数据挖掘在知识工程中的应用研究[J].电脑知识与技术,2011,7(23):5550?5551.
[5]王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456?474.
[6]吴昉,宋培义.数据挖掘的应用[ J].贵州科学,2012,30(3):54?56.
[7]陶翠霞.浅谈数据挖掘及其发展状况[ J].科技信息(科学教研),2008(4):72+98.
作者简介:
王赫楠(1986—),硕士,讲师,研究方向:数据挖掘,计算机应用。
岳慧平(1980—),硕士,副教授,研究方向:计算机应用。夏书剑(1984—),硕士,讲师,研究方向:计算机应用。