☆牛娜
(陕西师范大学新闻与传播学院,陕西西安 710062)
数据挖掘的发展与人工智能的发展息息相关,本文浅析了数据挖掘和人工智能技术以及二者之间的联系和发展,为后续研究者的研究做一个铺垫。
数据挖掘技术的发展历史虽然很短,但发展速度很快,利用数据挖掘技术,我们可以从海量的数据中挖掘出隐藏的、有用的信息,那么,究竟什么是数据挖掘呢?目前,还没有一个准确而完整的定义,但普遍认同的定义是:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。
数据挖掘过程包括很多阶段,但总体来说数据挖掘可以分为三个阶段:准备阶段、数据挖掘阶段、结果评价阶段(如图1所示)。
图1 数据挖掘过程
准备阶段:将数据源经过数据集成、数据选择形成目标数据,然后将目标数据进行预处理,预处理之后就基本完成了数据的准备阶段。
数据挖掘阶段:确定了要挖掘的数据之后,根据挖掘的知识类型,选择合适的挖掘算法进行数据挖掘工作,最终形成一个数据模式。
结果评价阶段:数据挖掘本身就是一个发现知识的过程,这一阶段,经过对这些数据的整合、剔除等操作,形成知识以适合用户的需求。
需要强调的是,数据挖掘是一个不断循环和反复挖掘的过程,通过这种不断挖掘、不断发现来达到用户需要的效果。
数据挖掘的应用领域广,笔者就数据挖掘在图书馆的应用的文献做了初步的统计和分析,时间限定为1991年到2011年,在中国期刊全文数据库、中国优秀硕士学位论文全文数据库里共搜到14篇关于数据挖掘技术在图书馆中的应用的文献(如图2所示)。
图2 数据挖掘技术在图书馆中的应用研究状况
目前,图书馆已经成为人们经常出入的地方,而且图书馆的服务系统中保存着读者大量的信息,但有的图书馆用户所能查询到的信息还是非常有限,导致不能及时高效地从这些大量的信息中找到所需要的信息,也在某种意义上造成了资源的浪费,如何高效、准确地提取数据满足读者的个性化需求成为我们面临的难题,数据挖掘技术为我们提供了解决问题的途径。
从图2可以看出数据挖掘技术在图书馆中的应用研究情况,管理层面的研究比面向读者层面的研究更多,而图书馆主要是面向读者,为读者提供服务的,更多的是要满足读者的个性化需求,但很明显,数据挖掘在图书馆中面向读者方面的应用的研究文献还不是很多,研究偏少,今后我们应该更加注重基于数据挖掘的图书馆读者方面的研究。
人工智能(Artificial Intelligence)是计算机学科的一个分支,但它的研究范围又不仅仅涉及到计算机学科,它是综合信息论、控制论、自动化、仿生学、生物学、心理学、数理逻辑、语言学等多门学科的一门交叉性学科,人工智能至今尚无统一的定义,笔者认为,所谓人工智能,即机器可以模仿人类智能的一切行为。
我国的人工智能研究起步较晚。纳入国家计划的研究“智能模拟”始于1978年;1984年召开了智能计算机及其系统的全国学术讨论会;1986年起把智能计算机系统、智能机器人和智能信息处理(含模式识别)等重大项目列入国家高技术研究计划;1993年起,又把智能控制和智能自动化等项目列入国家科技攀登计划;进入21世纪后,已有更多的人工智能与智能系统研究获得各种基金计划支持。1981年起,我国相继成立了中国人工智能学会(CAAI)、全国高校人工智能研究会、中国计算机学会人工智能与模式识别专业委员会等学术团体。1989年首次召开的中国人工智能控制联合会议(CJCAI)至今已召开7次。中国科技工作者已在人工智能领域取得许多具有国际领先水平的创造性成果,其中,尤以吴文俊院士关于几何定理证明的“吴方法”最为突出,已在国际上产生重大影响,并与袁隆平院士的“杂交水稻”一起荣获首届国家科学技术最高奖励。[1]现在我国已有数以万计的科技人员和研究者从事不同层次的人工智能研究,人工智能研究已在我国深入展开,它必将为促进其他学科的发展和我国现代化建设做出新的重大贡献。
(1)专家系统。专家系统是一个智能计算机程序系统,每个专家系统的内部都有具有专家水平的某个领域的知识与经验,人们能够利用这些知识和经验来解决该领域的问题,它应用人工智能技术进行推理和判断,模拟人类专家的决策过程来解决那些需要解决的复杂问题。
(2)机器人学。人工智能的研究日益得到重视的一个重要原因之一就是机器人学。人工神经网络在机器人中的应用、专家系统在机器人控制中的应用等是未来研究的热点。
(3)模式识别。模式识别是指用计算机代替人类或帮助人类感知模式,是对人类感知外界功能的模拟,研究的是计算机模式识别系统,也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。
(4)数据挖掘。数据挖掘的功能在于预测,预测性的挖掘就是在当前的数据上进行推断,数据挖掘通过预测未来趋势及行为做出前摄的、基于知识的决策,数据挖掘的目标是从数据库中发现隐含的、有意义的知识。
(5)分布式人工智能与Agent。分布式人工智能系统能够克服单个智能系统在资源、时空分布和功能上的局限性,具备并行、分布、开放和容错等优点,因而获得很快的发展,得到越来越广泛的应用。
数据挖掘是人工智能的一个重要分支,他们有相互的交叉点。人工智能技术中的很多技术就在数据挖掘应用中得到了体现(如图3所示)。
图3 人工智能与数据挖掘的关系
知识表示,不同的知识有不同的表示方法,但是合理的知识表示可以使知识变得容易接受。数据挖掘正是用了人工智能的知识表示方法,比如:“啤酒和尿布”的故事是营销界的神话,啤酒和尿布这两个看上去没有任何关系的商品,通过数据挖掘的分析,发现了这两种商品之间的关联性,显然,超市利用啤酒和尿布的销售关联性,在满足用户需求的同时也为商家创造了利润,这是一个通过数据挖掘得到的知识,而知识的表示使得商家根据这种表示赚取更大的利润。
所谓推理,就是指从已知事实出发,运用已掌握的知识推导出其中蕴含的事实性结论或归纳出某些新的结论的过程。而数据挖掘在选取相应的算法、分析数据的过程中,必然要用到推理技术,比如:数据挖掘中的关联规则分析能够发掘数据之间的关联或是相关联系,就会形成A->B的逻辑蕴含式,这正是运用的人工智能中的推理技术。
知识发现是知识信息处理之前的关键问题之一,数据挖掘和知识发现有着紧密的联系,在数据库基础上实现的知识发现系统,通过综合运用统计学、粗糙集、模糊数学、机器学习和专家系统等多种学习手段和方法,从大量的数据中提炼出抽象的知识,从而揭示出蕴含在这些数据背后的客观世界的内在联系和本质规律,实现知识的自动获取。[3]在数据库中获取知识,就是从数据挖掘中发现知识,这又是数据挖掘和人工智能技术的联系之一。
搜索分为盲目搜索和启发式搜索,搜索在数据挖掘中应用很多,数据挖掘中利用搜索机制可以减轻工作量,提高数据挖掘的效率,例如:在一些数据的属性值中,如果我们通过搜索功能发现一些属性值有重复的,就可以提前删去,这样可以大大减轻我们的工作量。
数据挖掘是人工智能领域的一部分,二者相互联系,共同发展。首先,高度的智能化是数据挖掘和人工智能最终的目标,也正是因为这一目标,人工智能和数据挖掘有了千丝万缕的联系。其次,数据挖掘和人工智能都是各种技术的融合,数据挖掘和人工智能都是综合了很多学科的交叉学科。最后,数据挖掘的出现逐步发展和壮大了人工智能,二者互相联系,不可分割。
[1][2][3]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004,(8):5,21,312.
[4]钟智,尹云飞.数据挖掘与人工智能技术[J].河南科技大学学报(自然科学版),2004,(3):44-47.
[5]彭英.数据挖掘综述[J].德宏师范高等专科学校学报,2009,(1):94-97.
[6]SHICHAO ZHANG,CHENGQI ZHANG.Discovering causality in large databases[J].Applied Artificial Intelligence,2002,(16):333-358.
[7]柳炳祥,邓欢军,高淑妍,陈欢欢.基于数据挖掘的图书馆个性化服务系统[J].现代情报,2007,(3):108-109.
[8]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007:38-40.
[9]Kirk L.Kroeker.A New Benchmark for Artificial Intelligence[J].communications of the acm,2011,(8):13-15.
[10]陈建平,任斌,张会章.人工智能在智能机器人领域中的研究与应用[J].东莞理工学院学报,2008,(6):33-37.