基于Web数据挖掘技术

2009-01-07 03:06丰新秋
新一代 2009年12期
关键词:挖掘网络技术数据挖掘

丰新秋

摘要: 计算机和网络技术的发展,使得信息的发布与传播不再受到时间和空间的限制。然而,网络在带来大量信息的同时,也带来了很多问题:诸如信息过量难以消化;信息真假难以辨识;信息形式不一致等等。解决这些问题可以将传统的数据挖掘(Date Mining)同Web结合起来,即从Web文档和Web活动中抽取用户感兴趣的潜在的有用模式和隐藏的信息,为用户提供具备自适应性和智能的信息服务。

关键词 ;数据挖掘; web;挖掘;网络技术

中图分类号:G642文献标识码:A文章编号:1003-2851(2009)12-0174-01

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。

一、 Web数据挖掘定义及分类

Web数据挖掘(Web Date Mining),简称Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘、计算机技术、信息科学等多个领域进行的一项技术。

Web 数据挖掘的分类根据数据挖掘对象的不同可以将Web数据挖掘分为Web 内容挖掘、Web 结构挖掘和Web 访问信息挖掘三类(见图1)。Web 内容挖掘就是指从Web 的文档中发现提取有用信息; Web 结构挖掘是指对html 页面间的链接结构进行挖掘; Web 访问信息挖掘是从网络访问者的交谈或活动中提取信息。

二、 Web数据挖掘的过程

数据挖掘的过程可以分为6个步骤:

(一)理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。

(二)理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。

(三)准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。

(四)建模:选择和应用各种建模技术,并对其参数进行优化。

(五)模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。

三、Web 数据挖掘的常用工具

Web 数据挖掘工具如果按用途分, 可分为: Web 文本信息挖掘工具、用户访问模式挖掘工具或用户导航行为挖掘工具和综合性的web分析工具。Web 文本信息挖掘工具主要完成两方面的功能: 信息检索和对文本的分析。IBM 公司的产品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比较好的文本信息挖掘工具。用户模式挖掘工具通常实现的方法是对Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用户访问行为、频度和内容等信息, 从而找出一定的模式和规则。由Sstphen Tumer 博士编制的免费个人软件Analog 是一个用来分析Server Logs 的工具。

四、数据挖掘的应用现状

数据挖掘是一个新兴的边缘学科,它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得这一新学科得以蓬勃发展,而且已初具规模。在美国国家科学基金会(NSF)的数据库研究项目中,KDD被列为90年代最有价值的研究项目。人工智能研究领域的科学家也普遍认为,下一个人工智能应用的重要课题之一,将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。

美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的ISPA系统,研究分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(sNEcMA),利用数据挖掘技术研制了CASSIOP.EE质量控制系统,被三家欧洲航空公司用于诊断和预测渡音737的故障,带来了可观的经济效益。该系统于1996年获欧洲一等创造性应用奖。

中国的公安部门也在研究利用KDD技术总结各类案件的共性和发生规律,从而在宏观上制定最有效的社会治安综合治理的方案和措施;在微观上指出犯罪人的特点,划定罪犯的范围,为侦破工作提供方向。

五、 结 语

网络下的数据挖掘和个性化智能服务都还处于发展初期,还没有形成比较成熟的理论,尤其是在Web挖掘的实际应用方面所做的工作较少。对于某一特定领域的研究人员来说,由于他们的研究领域相对固定,挖掘其信息需求相对容易,但对普通用户来说,由于其本身的动态性与不确定性,对其兴趣模型进行挖掘还是一个难题。随着信息科学技术的发展,作为一种获取知识的有效手段,Web挖掘的方法和应用将得到更深更广的研究,这对信息服务机构提高信息服务水平有着深远的意义。

猜你喜欢
挖掘网络技术数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
将“再也没有”带向更有深度的思考中
关注数学思考 提升数学本质
浅析网络技术在高校体育教学中的应用发展
计算机网络技术与电子信息工程点滴谈
计算机网络技术对物流信息化的影响
大数据技术在商业银行中的应用分析
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究