陈强
摘要:本文主要介绍机器学习的几种常见模型和几种常见的分类,并介绍分析数据挖掘的体系结构和二者的常见应用,最后总结二者相结合的实际应用及未来发展的趋势。
关键词:数据挖掘;机器学习;大数据
1 引言
近些年来,随着互联网行业飞速发展,无论是日常生活中还是其他领域每天都会产生非常庞大的信息量,这些信息隐含着巨大的价值,对各个领域都有着很显著的帮助。当下对数据库信息的处理只是传统的存取操作,通过简单的存取操作获得的信息只是数据库信息所包含的很少的一部分。在大数据时代,传统的数据分析方法,在时间以及空间意义上都是很难行得通的。数据挖掘通过数据统计,对数据的在线处理分析,机器学习等方法搜索大数据中有用信息,所以,数据挖掘技术是大数据时代处理分析数据的有效方法。
[1]机器学习作为人工智能的一个分支。在大数据时代飞速发展,机器学习领域主要的研究对象是如何在经验学习中改善具体算法的性能,十分契合数据挖掘对数据处理的需要。
2 机器学习
机器学习主要工作是设计和分析一些让计算机可以对现有数据自动“学习”的算法。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
2.1机器学习的基本模型
美国卡内基-梅隆大学H.A.Simon教授提出了一个机器学习决策过程模型。该模型指出,以决策者为主体的管理决策过程包括三个阶段:情报:对数据进行收集处理,研究决策环境,并确定影响决策的因素;设计:发现,开发并分析各种可行方案,选择:确定最优方案并实施。
2.2 机器学习的分类
[2]基于解释的学习:在学习过程中使用给定的数据构建一个模型,新的数据通过判断是否符合该模型判断是否符合规范来进行相关的学习;
监督学习:监督学习主要应用于回归问题和分类问题中,输入变量会有类别标签或与数值相关的标签,。回归问题是线性连续的,将输入变量与输出变量用一个函数对应;分类问题是离散的,将输入变量与离散的类别对应。
无监督学习:在无监督学习中,输出变量是不确定的,输入数据没有相关标签,对输入数据处理通过聚类的方式提取一个特殊的结构,无监督学习算法目标以某种方式组织数据,然后找出数据中存在的内在结构并进行聚类或找到更简单的复杂数据处理处理方式。
强化学习:强化学习通过不断试错寻找问题的解决方案,强化学习不需要标签,选择的行动越好,得到的反馈越多,最终通过不断的试错与反馈找到问题解决的方案。
3数据挖掘
[4]数据挖掘的目标是从数据集中提取信息,并将其转化为可用的结构,数据挖掘的实际工作是对大规模数据进行处理分析,来提取隐藏的预测性的信息,例如数据的分组、数据异常的记录、不同数据之间的关系。在数据挖掘时需要将数据分成多组,之后再使用决策系统处理数据获得更为精确的数据挖掘结果。数据收集过程、数据预处理过程、结果解释以及撰写报告过程属于“资料库知识发现”(KDD)过程,但是不属于数据挖掘的步骤,只是属于一些额外环节。现今许多公司都拥有自己的数据挖掘系统,IBM公司开发了世界上第一套名为“智能挖掘机”的应用工具。
3.1数据挖掘的体系结构
当下的数据挖掘体系结构一般分为3层,[5]第1层是数据源,数据源其中包括原始数据库、数据仓库。数据挖掘不仅仅可以建立再数据仓库之上,但是数据仓库的数据经过处理更为方便使用,建立在其上可以非常有效的提高挖掘效率。第2层是整个数据挖掘系统的管理系统,该系统是整个数据挖掘的核心层,此管理系统中囊括了诸多数据挖掘的方法分析数据仓库中的数据,其主要的方法有关联分析、分类分析、聚类分析、序列模型分析。第3层是用户界面层,用户界面层主要用户获取的信息以用户理解的方式和观察方式,现在大多使用可视化工具
3.2数据挖掘的实际应用
数据挖掘当下应用的领域非常广泛,只要所在领域数据有分析价值与需求,都可以使用数据挖掘进行数据挖掘发掘分析处理。现在大数据环境下,数据挖掘应用最集中的领域包括金融、医疗、零售和电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。
3.2.1 金融领域
金融领域的金融数据具有可靠性、完整性和高质量等特点。这在很大程度上有利于开展数据挖掘以及数据挖掘应用。数据挖掘在金融领域中有许多具体的应用,例如分析金融系统多维数据,以便专业金融从业人员把握金融市场的趋势;运用孤立点分析等方法,侦查洗黑钱等犯罪活动;应用分类技术,对银行顾客信用进行分类,为银行维持与客户的关系并且为客户提供相关服务的决策提供相应的参考。
3.2.2 医疗领域
医疗领域对人类的遗传史、遗传密码、疾病史和医疗方法等许多医疗领域中,都隐藏着不明显可见的海量的数据信息。另外,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。运用数据挖掘技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的发展。
3.2.3零售和电商领域
在零售和电子商务领域运用数据挖掘技术对零售商的海量销售数据进行处理分析,可以帮助商家有效地识别顾客的购买行为,从而把握好相应顾客购买的趋势。商家可以根据各自销售数据进行数据挖掘得到结果有针对性地采取有效措施,从而提高企业效益。在如今,数据挖掘处理分析得到的推荐系统已经成为电商电子商务的关键技术,经过数据挖掘,对网站进行系统分析,对用户的行为模式进行识别,在增加客户黏着性,提供个性化的服务,优化互联网电商网站设计等方面同样取得了很好的效果。
4数据挖掘和机器学习的合作
数据挖掘就是从已知的数据库中分析处理得到不能显而易见得到的潜在数据价值,数据挖掘结合了人工智能技术与数据库技术,其核心的技术是人工智能领域的機器学习。数据挖掘中最核心的技术是关系识别以及模式识别两种算法。将数据挖掘得到的结果运用机器学习算法,将会得到符合需求的结果。在数据挖掘中人工神经网络,仿照动物大脑结构的非线性预测模型,在进行学习模式识别,它与数据挖掘大量应用在诸多领域。
参考文献:
[1] Chaomei Chen.An Information-Theoretic View ofVisual Analytics[J].Computer Graphics,2008,28(1):18.
[2]陈良臣.大数据可视分析的若干关键技术研究[J].数字技术与应用,2015(11):98.
[3]姜晓睿,田亚,蒋莉,等.城市道路交通数据可视分析综述[J].中国图象图形学报,2015(4):454-467.
[4] 陆汝钤. 人工智能 [ M] . 北京:科学出版社,2002.
[5]梁荣华.“大数据可视分析”专栏序[J].中国图象图形学报,2015(4):453.