王榕 江西外语外贸职业学院
大数据时代下,以大数据挖掘平台为支持,能够高质量、高效率的来对数据进行处理。在云计算背景下来构建大数据挖掘平台,能够促进数据挖掘获取效率的显著提升,有助于合理控制企业成本,满足用户对于挖掘计算的性能需求。可以说,云计算与大数据之间存在着密切的联系,彼此相辅相成,大数据以云计算为基础,并且是云计算的重要应用。
在先进科学技术的支持下,云计算作为一种先进的计算方式,以现代互联网为支持,能够结合实际需求出发,将网络平台各项可共享的软硬件资源信息提供给计算机与其他设备。通过并行计算与分布式计算技术应用价值的协调发挥,云计算的优势也得以充分凸显出来,这就使得市场用户在这一方面的需求也能够得到满足。从本质上来看,大数据挖掘就是以海量数据为对象,对高价值的需求信息数据进行挖掘,为用户提供帮助,保证决策的科学性,通过数据挖掘技术应用价值的发挥,能够为整个社会的和谐发展提供帮助。就云计算与大数据挖掘之间关系来看,彼此相辅相成,互相促进,大数据挖掘平台的建立,以云计算为重要基础,通过云计算的合理化运用,能够将数据计算处理效率显著提升,为企业创新发展提供可靠助力,企业也具备了创造更多经济效益的能力。而在云计算发展过程中,大数据挖掘技术的应用占据着重要地位,通过预测任务与描述任务的协调配合,来促进云计算的稳定发展。这一过程中预测任务就是依照属性值来科学预测目标属性值,而描述任务就是对不同数据之间潜在的联系模式进行有效总结。
现代社会快速发展,数据信息量巨大,个体在工作与生活中所接触到的信息也具有多样化的特征,工作效率与数据价值之间也存在着密切的联系,这就需要做好数据价值挖掘工作,自海量信息中将具备潜在价值的数据精准提取出来,以此为依托,对大数据挖掘平台进行构建,保证数据挖掘的时效性。传统单机系统下,存在诸多不足,整体数据处理的运行效率不高,并且在这一过程中会消耗较多的能源,实际效果并不理想。而在云计算背景下,对大数据挖掘平台进行构建,能够确保与新时期下大数据挖掘计算性能要求相符合,可支配资源得以获取,并且数量巨大。在云计算背景下,能够于计算组成的“云”中分布复杂的计算任务,把握用户实际需求,通过云系统诸多能力的发挥来对任务进行分配,这就需要就云系统的计算、应用以及存储等能力进行综合分析,确保高效率的开展数据挖掘,满足市场用户对于价值数据的需求。在海量应用数据中,数据挖掘就是随机加工并处理,在系统筛选和优化工作,确保所获取信息数据具有潜在的应用价值。大数据的特征在于复杂、模糊、海量,这就需要以先进存储运算技术为支持来进行辅助。云计算技术的应用,能够促进数据挖掘效率的提升,并且能够有效控制用户对于数据运算与存储的成本。
大数据挖掘平台中,数据挖掘法是一项重要技术,与统计学、建模学、模式识别等学科领域都存在密切关联,神经网络、统计分析、决策树等都是常用的数据挖掘方法,其中统计分析有着简单的操作,就是通过相关、方差、最大小值等方法来科学的统计分析数据统计规律。神经网络方法的运用,以自我学习、适应和组织为显著特征,主要以各项数据为对象,做出联想分类和预测工作。决策树的作用在于,分类整理相关数据,运用简单图形来进行准确描述。不同数据挖掘方法在不同行业领域内数据挖掘中的应用,必须要把握其特征,重视其各自优势的发挥,立足市场用户需求特点出发,保证数据挖掘的针对性和实效性。
云计算技术的应用,能够通过分布式并行计算与文件存储技术的应用来为用户提供帮助。分布式并行计算技术源于科学计算领域,在云计算技术不断创新的情况下,分布式并行计算技术也得以快速发展,在各领域内得以应用,范围也逐步扩大,比较经典的应用案例为Spark和Hadoop。在数据挖掘工作中,通过分布式并行技术的合理化应用,能够显著提升工作效率。通过文件存储技术的应用,能够快速处理并加工数据,为并行计算的开展提供保障,并在学术领域和经济领域创造较多的现实价值。
顶层构建需要重视工作流子系统和用户接口子系统,以用户为对象进行操作,前者作用在于为在数据挖掘相关任务的建立方面为用户提供帮助,后者作用在于促进用户交互功能的实现,以输入模块为支持来对参数进行设置,保证数据挖掘算法选择的适用性,在MapReduce平台的支持下,来对数据进行挖掘,所选择理解方式必须具有可视化特征,来将结果呈现出来。在工作流子系统中,用户可结合数据挖掘需求建立工作流任务,保持任务之间并行,任务内部也得以并行,用户新算法的添加也更为便利。在用户接口子系统中,包含用户输入模块和结果展示模块,依据并行分类算法来将算法参数输入其中,并在结果展示界面生成直方图或者圆饼图等,保证数据挖掘工作的整体效率,大数据挖掘平台构建的价值也得以充分体现出来。
在大数据挖掘系统中,以中间层为核心,其中模块为数据预处理子系统和并行数据挖掘子系统。在云计算背景下,同类型、同结构的数据挖掘可通过MapReduce 计算模型来实现,在不规则大数据的预先处理方面,主要应用数据预处理子系统,经过处理后可获得结果,数据挖掘算法的输入得以明确。数据预处理过程中,一般会应用到数据转换、数据抽取、集成以及加载等方法。在预处理后,噪声数据、无用数据等得以有效减少,数据挖掘的整体效率也能够得到明显提升。在大数据挖掘平台中,并行数据挖掘子系统占据着重要地位,随着经典数据挖掘算法的出现,在应用过程中必须要积极整合、改造现有算法以及并行化策略,优化云计算平台,从而确保数据挖掘的实效性。
在整个系统中,数据中心层处于底层位置,能够对大数据进行存储,通过分布式并行来处理数据。在数据中心层,为确保数据安全性与高可用性得到保证,必须要对多份副本进行保留。云计算过程中所应用的工作模式为并行式,能够满足大量用户的请求需求,回应的时效性较强。
在社会发展新技术下,云计算技术不断创新,大数据挖掘平台的构建,要把握云计算背景,正确运用数据挖掘法和分布式并行技术,做好顶层、中间层和数据中心层的构建,确保大数据挖掘平台具有良好的应用价值,能够高效的处理加工海量数据,精准完成数据挖掘任务,满足用户需求,使得应用价值更为显著,这对于整个社会经济的稳定健康发展也具有重要意义。