海量数据挖掘过程相关技术研究进展

2018-03-04 07:03唐云凯王芳刘淑英
电脑知识与技术 2018年36期
关键词:数据挖掘技术讨论研究进展

唐云凯 王芳 刘淑英

摘要:我国的信息技术水平不断提升,海量数据的复杂性与多样性对数据挖掘形成了较大困难。基于大数据环境下,为了更深入、充分地掌握是数据挖掘相关技术的研究进展与应用,可以从海量数据挖掘过程的技术框架、算法、理论、模式等方面进行尝试。综上所述,该文将对海量数据挖掘过程相关技术研究进展进行分析。

关键词:海量数据;数据挖掘技术;研究进展;讨论

中图分类号:TP311        文献标识码:A        文章编号:1009-3044(2018)36-0001-02

数据挖掘的过程是在海量数据中追寻有趣模式与认知的过程,利用海量数据挖掘技术,可有效针对大数据,从而在其中发现有用的信息与知识。针对海量数据,采用传统的分类算法、关联分析、聚类分析等数据挖掘技术显然有些无力,因此为了提取与挖掘更多有价值的数据,是人们对大数据进行研究的主要目的。

1 海量数据挖掘过程相关技术研究进展及问题

1.1 海量数据挖掘过程相关技术研究进展

1.1.1 云计算与MapReudce

Google公司早在2006年就已经提出了海量Web数据的云计算,可将其定义为将经济与拓展性作为基础的超大规模数据分布式模式,利用互联网将虚拟、抽象的数据进行计算、资源存储,最后通过平台与服务对外部的客户进行传递。在Google的内部,海量数据的处理计算与应用平台都采用了云计算的方式,其中较为典型的海量数据挖掘技术为GFS(Google file system)、MapReduce、对海量数据进行处理的Hadoop平台。在Hadoop平台中较为核心的部分是MapReduce编程模式与文件分布式系统。这种编程模式在2004年由计算机专家Dean与Ghemawat共同提出,目前已经开始被广泛应用在海量数据挖掘过程中。一般来说编程模式在对海量数据进行处理时,会经过两个阶段:Map与Reduce阶段,无论哪个阶段的运行都会运用key-value模式对数据进行输入与输出。在Map阶段进行处理时,HDFS即分布式文件系统将大量的数据进行分割,成为split块,之后为其每一个都创建独立的Mapper,利用相应的Map函数处理之后,选取出相同key的数据传递到Reduce任务中,之后将海量数据重新进行整合,再对其进行细致化的处理。

1.1.2 算法领域

算法领域作为海量数据挖掘过程相关技术中的研究重点,在2006年召开的ICDM回忆中,已经选出了较为常用的十种数据挖掘算法。其中包含分类算法、聚类算法等。但这种传统的算法并不能对海量数据合理处置。为了使传统算法更加高效,可使用经典的数据挖掘算法与MapReduce以框架的形式互相结合[1],例如对关联规则进行并行、聚类算法并行等方式,通过广大学者的不断研究与实践,已经取得了较为可观的成果。除了对各类算法领域的研究,还包含了多种相关理论,第一,统计分析理论。在早先的海量数据挖掘理论基础中,主要包含数据回归分析、因子分析等方面。事件有较大的随机性,不能够利用概率模型进行有效处理。但在实际中的海量数据中,由于其具备较强的模糊性,尤其针对海量数据的多样性特点,不能够利用传统的精确处理,因此模糊数学理论等相关理论可发挥出极大优势。第二,模糊数学理论。模糊数学理论作为有效的不确定性数据的处理方式,尤其对于海量数据进行处理时,可以发挥良好的应用效果。

1.2 海量数据挖掘过程相关技术存在问题

1.2.1 相关技术架构问题

在对海量数据进行挖掘的过程中,需要在不同的领域进行架构,由于不同领域存在较大的差异性与特殊性,对架构形成了极大的挑战。例如在农业的海量数据中,包含大量的农业基本资源如耕地、田地等,农业生产方面如育种、施肥等。在对农业中海量数据进行挖掘与处理时,面临灾害風险预测、粮食安全等多方面问题。与此同时,在构建农业云计算平台时,需要获得计算机技术的相关支持,还需要大量的农业经验与农业知识,地方政府也要提供相应的支持,为农业的云计算平台构建形成较大难度与挑战。

1.2.2 数据获取

海量数据挖掘需要将数据的获取与收集当作基础,目前常用的数据收集方法为数据检索,例如人们常用的Google、百度、传感器技术[2]、条形码技术等。但基于大数据时代的背景下,虽然数据的数量极为庞大,还是会经常出现无有效数据可用的窘迫情况,如数据壁垒问题、取得关联背景数据较为困难等,都对海量数据的挖掘形成阻碍。

1.2.3 用户隐私与安全

在目前经常会出现用户隐私泄露的问题,不仅会对用户形成较大的困扰,也会形成较多的虚假数据从而降低数据的分析效果。因此在海量数据挖掘过程中用户的隐私与安全问题亟待解决,主要是由于技术本身存在缺陷,且没有构建有效、科学的数据管理机制,造成用户隐私泄露。

1.2.4 数据处理

在获取数据之后会对数据进行预处理,例如数据清洗、数据融合、数据分析等技术。其中数据的清洗尤为关键,在2014年我国召开的数据技术大会中,有学者提出了数据记录逻辑检测办法、大数据清洗过程优化等相关控制模型,增强了数据处理的效果与效率。但在数据清洗之后会进行数据的分析,会产生时效性的问题,由于数据清洗有时不会及时完成,从而对数据挖掘的效果产生不利影响。

2 海量数据挖掘过程相关技术的处理思维

在对海量数据进行处理时会存在较多问题,为了增强海量数据挖掘过程的相关技术水平,应采用合理的海量数据处理思维即大数据与脑科学,采用人脑的思考方式可以加强大数据的处理效果。第一,深度学习。进行深度学习时,需要对人脑的思考机制进行模仿与学习。基于大数据的环境下,使用深度学习可对数据进行准确分析,并使人工智能获得有效处理,也会对传统的思维按时进行改变。无论是大数据与简单模型还是大数据与深度学习,目前大部分学者都认为基于大数据的背景下,利用简单的线性模型要好于复杂的模型。然而从人脑的思考模式来看,其机理与机制都可以从大数据挖掘过程中取得有效成果,利用模拟人脑的思考方式以及学习方式,可以获得更多、更有效的信息数据。例如在“Google Brain”研究的项目(http:en.wikipedia.org/wiki/Google_Brain)[3]便可以看出。在机器学领域的关键人物Hinton与其学生Salakhutdinov对深度学习做出的巨大贡献,这种方式也在学术界与工业界掀起了深度学习的潮流。第二,认知计算。在对海量数据进行挖掘处理的过程可以将其看作为认知过程。将数据进行转化、收集、计算、分析、表达,从而形成预估与决定,这便是标准的认识模式。但在人进行认知时候还会包含心智等方面的问题,例如情商、感受、信仰等,因此在对海量数据进行认知计算以及相关研究时,需要包含以下多个方面:首先需要考虑认知能否被计算。可以表达为人脑的认知是否可以用具体的公式或模式进行表现。在我国举办的第八届Web智能学术研讨会中,任福继教授为人们展示了情感交互智能机器人,通过实践完全可以说明认知可以利用计算的方式进行,至少在局部是可以进行计算的。其次应考虑认知应该怎样计算。其方式可以包含对数据的提取、心智局部表现、等方面。最后应考虑知识的全部相对性。对于人脑的学习过程来说,数据的量无论是多还是少都可定义为相对应的概念,如果环境出现变化,会对心智造成影响。因此需要在不断增加的数据量与环境变化中汲取知识,采用计算认知的方式,构建崭新的理论与实践模型。

3 结束语

基于大数据环境下,海量数据的挖掘过程以及相关技术不仅存在巨大价值,也面临着险峻的挑战。希望在广大的学者与研发人员不断努力、实践下,可以构建出更加完善、科学的大数据管理机制与计算模型,凸显大数据的真正价值,为人们的生活、社会的发展提供有效的数据服务。

参考文献:

[1] 米允龙,米春桥,刘文奇. 海量数据挖掘过程相关技术研究进展[J]. 计算机科学与探索,2015,9(6):641-659.

[2] 尹洪.基于数据驱动的卫星故障诊断关键技术研究[D].国防科学技术大学,2015.

[3] 何超. 基于数据挖掘的企业竞争情报智能分析研究[D].武汉大学,2014.

[通联编辑:唐一东]

猜你喜欢
数据挖掘技术讨论研究进展
MiRNA-145在消化系统恶性肿瘤中的研究进展
离子束抛光研究进展
独脚金的研究进展
试论基层电力市场营销策略
EGFR核转位与DNA损伤修复研究进展