随着科学技术的发展,大数据在人工智能领域起着越来越重要的作用,基于大数据平台的数据分析与挖掘已经成为各科研单位的研究热点。本文通过对大数据的发展、算法分析以及平台设计进行探究,对大数据平台的应用进行了展望,力求为智能化技术的发展提供创新的思路。
【关键词】大数据 人工智能 算法设计
1 大数据的发展概述
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据包括海量的数据信息与高强度的数据处理能力,大数据是相对于传统数据处理应用程序来说,不足以处理大型、复杂的数据集的新型处理模式,包括分析、捕获、数据整理、搜索、共享、存储、传输、可视化查询、更新和信息管理。大数据通常仅指使用预测分析、用户行为分析或某些其他高级数据的分析方法,这些方法从数据中提取价值,很少涉及特定大小的数据集。数据集分析可以发现新的联系与信息。科学家、企业高管、医学从业者、广告和政府都定期在互联网搜集大数据,这些数据在金融、城市信息学和商业信息学等领域更为重要。科学家在电子科学工作中遇到了很多需要处理海量数据的问题,涉及气象学、基因组学、复杂物理模拟、生物学和环境研究等。大数据包括文本、图像、音频、视频,它通过数据融合可以完成未来数据的机器学习,大数据通常是数字交互的无成本的产品。越来越成熟的概念更清楚地描述了大数据和人工智能之间的区别,人工智能使用具有高信息密度的数据的描述性统计来测量事物、检测趋势等。大数据使用归纳统计和来自非线性系统识别的概念,从具有低信息密度的大量数据集中推断出法则,例如回归、非线性关系和因果效应,以揭示关系和依赖性或者进行结果和行为的预测。
2 大数据技术中的算法分析
2.1 神经网络算法
神经网络系统是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。神经网络是一种计算方法,基于神经单元的大集合,解决由轴突连接的生物神经元的大群集的问题。 每个神经单元与许多其他神经单元连接,并且可以对所连接的神经单元的激活状态影响中实施抑制。每个单独的神经单元可以具有将所有其输入的值组合在一起的求和功能。在每个连接和单元本身上可以存在阈值函数或限制函数,使得信号在传播到其他神经元之前必须超过极限。这些系统是自学习和训练的,而不是明确编程的,并且在传统计算机程序中难以表达的,这种方案在特征检测领域中效果很好。神经网络的目标是以与人类大脑相同的方式解决问题,现代神经网络项目通常使用几千到几百萬个神经单元和数百万的连接, 这比人类大脑的复杂性还要少几个数量级,更接近于蠕虫的计算能力。 为了训练它们,通常发生几千次交互循环。 神经网络已被用于解决使用普通的基于规则的编程难以解决的各种各样的任务,如智能化学习。历史上,神经网络模型的使用向高级人工智能的方向移动,其特征在于包含在具有一些动力系统的认知模型的参数中的知识。
2.2 灰色关联度分析
灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,来进行归纳和评价,作为衡量因素间关联程度的一种方法。灰色关联度分析使用特定的信息概念。它定义没有信息为黑色的情况以及具有完美信息为白色的情况,这些理想化的情况都不会出现在现实世界的问题中。事实上,这些过渡阶段的情况被描述为灰色。因此,灰色系统意味着其中部分信息是已知的并且部分信息是未知的系统。根据这个定义,信息质量形成从信息的缺乏到完整信息的存在过渡过程。由于不确定性总是存在,灰色分析可以得出一系列关于解决方案的清晰陈述。在一个极端情况下,这种方案无解,在另一个极端情况下,具有完美信息的系统具有独特的解决方案。在中间情况中,灰色系统将给出各种优化的解决方案。灰色分析试图找到最好的解决方案,提供了确定一个好的解决方案的技术来解决现实世界的问题。
3 大数据平台的设计
3.1 平台层
大数据分布式存储系统:研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求。
分布式数据挖掘运行时系统:突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。
3.2 功能层
高可扩展性大数据挖掘算法:基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力。
分布式工作流引擎:基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎。
交互式可视化分析技术:启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。
3.3 服务层
基于 Web 的大数据挖掘技术:Web 的大数据挖掘方法和流程,实现易于使用的基于 Web 的大数据挖掘技术,构建基于 Web 的大数据分析环境。
基于Open API 的大数据挖掘技术:Open API 的大数据挖掘方法,研究大数据挖掘开放接口、开放流程,构建基于 Open API 的大数据分析模式。
4 大数据算法的应用分析
4.1 数据挖掘
数据挖掘是发现大数据数据规律的计算过程,涉及人工智能、机器学习、统计和数据库系统结合的方法,它是一个跨学科的计算机科学子领域。数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可以理解的结构以供进一步使用。除了原始数据分析外,它涉及数据库和数据管理方面、数据预处理、模型和推理、复杂性考虑、结构整合处理、可视化和在线更新。数据挖掘是一个热门的领域,并且经常应用于各种形式的大规模数据或信息处理,主要包括收集、提取、存储、分析和统计以及计算机决策支持系统的应用,包括人工智能、机器学习和商业智能。实际的数据挖掘任务是大量数据的自动或半自动分析,从而提取先前未知的数据存在模式,例如聚类分析、异常数据检测和关联规则挖掘、顺序模式分析等,这通常涉及使用诸如数据索引的数据库技术。数据收集、数据准备或结果解释和报告都不是数据挖掘步骤的一部分,但是作为附加步骤属于整个数据挖掘过程。数据挖掘、数据捕获和数据窥探是指使用数据挖掘方法对较大数据集的部分进行抽样分析。虽然这些数据集太小,不足以进行可靠的统计推断以得出更多有价值的信息。然而,这些方法可以用于创建新的假设,以测试更大的数据群体。
4.2 机器学习
机器学习是计算机科学的子领域,它使计算机能够学习而不用明确编程。从模式识别和计算学习理论在人工智能的研究演变而来,机器学习探索学习对数据进行预测算法的研究和构建,这样的算法克服了严格的静态程序指令数据驱动的预测或决策,通过从样本输入来建立一个模型。机器学习在一系列计算任务中使用,其中有着明确算法的设计和编程是不可行的,比如垃圾邮件过滤、检测网络入侵者或恶意内部人员、光学字符识别、搜索引擎和计算机视觉,这些方面都没有明确的算法表示。机器学习与计算统计密切相关,并且经常与计算统计重叠,计算统计也集中在通过使用计算机的预测中。它与数学优化有着紧密的联系,它将方法、理论和应用领域传递到现场。机器学习有时与数据挖掘相结合,后者的子领域更侧重于探索性数据分析。机器学习也可以是全自动化的,用来学习和建立各种实体的行为预测,然后用于发现有价值的异常情况。在数据分析领域,机器学习是一种用于设计适合预测的复杂模型和算法的方法,在商业应用中,这被称为预测分析。这些分析模型允许研究人员、数据科学家、工程师和分析师通过学习数据中的历史关系和趋势来产生可靠的、可重复的决策和结果并揭示隐藏的规律。
5 总结与展望
大数据技术算法的创新是一条光明而曲折的路,在这条路上会出现很多难题与挑战,这个任务长期而又艰巨,需要结合实际经验,不断地进行总结归纳。为实现自身的长远发展而进行大胆革新,利用创新思维进行现代化建设,从而大踏步地走向智能化的大數据发展目标。
参考文献
[1]陈晓,赵晶玲.大数据处理中混合型聚类算法的研究与实现[J].信息网络安全,2015(04).
[2]杨婷婷,林昌露,刘忆宁,张胜元.基于多方排序协议的安全电子投票方案[J].计算机系统应用,2015(08).
[3]文坤,廖瑛,杨雅君.带有空间机械臂的航天器系统惯性参数辨识[J].飞行器测控学报,2015(04).
[4]何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015(04).
[5]黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014(01).
[6]孔凡新,刘丽.云环境下的隐私保护密文排序查询[J].计算机工程与设计,2014(01).
[7]何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014(04).
[8]程芳权,彭智勇,宋伟,王书林,崔一辉.云环境下一种隐私保护的高效密文排序查询方法[J].计算机学报,2012(11).
[9]王茜,杨正宽.一种基于加权KNN的大数据集下离群检测算法[J].计算机科学,2011(10).
[10]陈书让.超大数据量的快速排序法[J]. 物探化探计算技术,2000(04).
作者简介
李跃(1979-),男,黑龙江省大庆市人。研究生学历。现为大庆师范学院讲师。
作者单位
大庆师范学院 黑龙江省大庆市 163712