张一林 罗杨川云
大数据算法与数据分析技术探究
张一林 罗杨川云
贵州大学大数据与信息工程学院,贵州 贵阳 550000
随着科学技术的发展,大数据在人工智能领域起着越来越重要的作用,基于大数据平台的数据分析与挖掘已成为各科研单位的研究热点。通过对大数据的发展、算法分析以及平台设计进行探究,对大数据平台的应用进行了展望,力求为智能化技术的发展提供创新的思路。
大数据;人工智能;算法设计
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据包括海量的数据信息与高强度的数据处理能力,是相对于传统数据处理应用程序不足以处理大型、复杂的数据集的新型处理模式,包括分析、捕获、数据整理、搜索、共享、存储、传输、可视化查询、更新和信息管理。大数据通常仅指使用预测分析、用户行为分析或某些其他高级数据的分析方法,这些方法从数据中提取价值,很少涉及特定大小的数据集。数据集分析可以发现新的联系与信息。越来越成熟的概念更清楚地描述了大数据和人工智能之间的区别,人工智能使用具有高信息密度的数据的描述性统计来测量事物、检测趋势等。大数据使用归纳统计和来自非线性系统识别的概念,从具有低信息密度的大量数据集中推断出法则,以揭示关系和依赖性或者进行结果和行为的预测[1]。
2.1 神经网络算法
神经网络系统是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。神经网络是一种计算方法,基于神经单元的大集合,解决由轴突连接的生物神经元的大群集的问题。 每个神经单元与许多其他神经单元连接,并且可以对所连接的神经单元的激活状态影响中实施抑制。每个单独的神经单元可以具有将所有其输入的值组合在一起的求和功能。这些系统是自学习和训练的,而不是明确编程的,并且在传统计算机程序中难以表达的。
2.2 灰色关联度分析
灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,来进行归纳和评价,作为衡量因素间关联程度的一种方法。灰色关联度分析使用特定的信息概念。它定义没有信息为黑色的情况以及具有完美信息为白色的情况,这些理想化的情况都不会出现在现实世界的问题中。事实上,这些过渡阶段的情况被描述为灰色。因此,灰色系统意味着其中部分信息是已知的并且部分信息是未知的系统[2]。
3.1 平台层
大数据分布式存储系统:研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求。
分布式数据挖掘运行时系统:突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。
3.2 功能层
高可扩展性大数据挖掘算法:基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力。
分布式工作流引擎:基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎。
交互式可视化分析技术:启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。
3.3 服务层
基于 Web 的大数据挖掘技术:Web 的大数据挖掘方法和流程,实现易于使用的基于 Web 的大数据挖掘技术,构建基于 Web 的大数据分析环境。
基于Open API 的大数据挖掘技术:采用Open API 的大数据挖掘方法,研究大数据挖掘开放接口、开放流程,构建基于 Open API 的大数据分析模式[3]。
4.1 数据挖掘
数据挖掘是发现大数据数据规律的计算过程,涉及人工智能、机器学习、统计和数据库系统结合的方法,它是一个跨学科的计算机科学子领域。数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可以理解的结构以供进一步使用。除了原始数据分析外,它涉及数据库和数据管理方面、数据预处理、模型和推理、复杂性考虑、结构整合处理、可视化和在线更新。数据挖掘是数据库信息分析的过程。目标是从大量数据中提取模式和信息,而不是数据本身的提取。数据挖掘是一个热门的领域,并且经常应用于各种形式的大规模数据或信息处理,主要包括收集、提取、存储、分析和统计,以及计算机决策支持系统的应用,包括人工智能、机器学习和商业智能。实际的数据挖掘任务是大量数据的自动或半自动分析,从而提取先前未知的数据存在模式,例如聚类分析、异常数据检测和关联规则挖掘、顺序模式分析等,这通常涉及使用诸如数据索引的数据库技术。
4.2 机器学习
机器学习是计算机科学的子领域,它使计算机能够学习而不用明确编程,从模式识别和计算学习理论在人工智能的研究演变而来。机器学习探索学习对数据进行预测算法的研究和构建,这样的算法克服了严格的静态程序指令数据驱动的预测或决策,通过从样本输入来建立一个模型。机器学习在一系列计算任务中使用,其中有着明确算法的设计和编程是不可行的,比如垃圾邮件过滤、检测网络入侵者或恶意内部人员、光学字符识别、搜索引擎和计算机视觉,这些方面都没有明确的算法表示。机器学习与计算统计密切相关,并且经常与计算统计重叠。计算统计也集中在通过使用计算机的预测中,它与数学优化有着紧密的联系,是将方法、理论和应用领域传递到现场。机器学习有时与数据挖掘相结合,后者的子领域更侧重于探索性数据分析。
大数据技术算法的创新是一条光明而曲折的路,在这条路上会出现很多难题与挑战,这个任务长期而又艰巨,需要结合实际经验,不断地进行总结归纳,为实现自身的长远发展而进行大胆革新,利用创新思维进行现代化建设,从而大踏步地走向智能化的大数据发展目标。
[1]陈晓,赵晶玲.大数据处理中混合型聚类算法的研究与实现[J].信息网络安全,2015(4):15.
[2]杨婷婷,林昌露,刘忆宁,张胜元.基于多方排序协议的安全电子投票方案[J].计算机系统应用,2015(8):15.
[3]文坤,廖瑛,杨雅君.带有空间机械臂的航天器系统惯性参数辨识[J].飞行器测控学报,2015(4):15.
Research on Large Data Algorithm and Data Analysis Technology
Zhang Yilin Luoyang Chuanyun
College of Big Data and Information Engineering of Guizhou University, Guizhou Quiyang 550000
With the development of science and technology, big data is playing an increasingly important role in the field of artificial intelligence. In this paper, the development of large data, algorithm analysis and platform design are explored, and the application of the big data platform is prospected.
Big Data; artificial intelligence; algorithm design
TP311.13
A
1009-6434(2017)02-0153-02