Web文本数据挖掘技术及其在电子商务中的应用*

2011-12-22 06:28:24孙学军
菏泽学院学报 2011年2期
关键词:词条文档数据挖掘

孙学军

(1.山东大学计算机科学与技术学院,山东 济南 250101;2.临沂大学继续教育学院,山东费县 273400)

Web文本数据挖掘技术及其在电子商务中的应用*

孙学军1,2

(1.山东大学计算机科学与技术学院,山东 济南 250101;2.临沂大学继续教育学院,山东费县 273400)

简要介绍了数据挖掘、Web数据挖掘及Web文本数据挖掘技术。从特征项提取、文本关联分析、文本分类、文本聚类等方面对Web文本数据挖掘技术在电子商务中的应用作了探讨,并略述了Web文本数据挖掘技术的应用现状及其发展趋势。

数据挖掘;Web数据挖掘;Web文本数据挖掘

引言

目前,随着互联网的迅速普及,电子商务已如雨后春笋般地迅速发展壮大起来。电子商务(Electronic Commerce)就是利用计算机技术、网络技术和远程通信技术,实现整个商务(买卖)过程中的电子化、数字化和网络化。与传统的商务活动相比,它具有交易虚拟化、交易成本低、交易效率高、交易透明化、可以实现对市场资源的优化、有利于企业的技术创新活动与市场进行无缝隙连接以及有利于企业内部提高团队合作效率等优势。

所以,当今绝大数企业和商家都拥有了自己的商务网站。一个商务网站水平的高低也成为当今社会衡量一个企业是否踏入现代企业行列的一个很重要的标志。但是,在电子商务给我们带来方便、快捷的同时,它也给我们带来了一个很大的困惑。那就是如何从大量的、纷杂的web信息中找出有用的、有潜在价值的信息。结合着数据库技术的快速发展,数据挖掘技术诞生了。由于Web上面的信息绝大多数是非结构化的或者半结构化的,采用传统的数据挖掘技术显然是不行的了。因此,最近几年出现了Web数据挖掘技术、Web文本数据挖掘技术等面向Web的数据挖掘技术,很好地解决了上面的问题。

1 数据挖掘技术及Web数据挖掘技术简介

1.1 数据挖掘技术简介

1.1.1 数据挖掘定义

从技术角度来看,数据挖掘 (data mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程[1]。该定义主要包括以下几层含义:1)数据源必须是真实的、大量的、含噪声的;2)发现的是用户感兴趣的知识;3)发现的知识要可接受、可理解、可运用;4)并不要求发现放之四海而皆准的知识,仅支持特定的问题即可。

1.1.2 数据挖掘常用的知识表示模式和方法

数据挖掘的目的是发现知识,知识要通过一定的模式给出。可用于数据挖掘系统的模型和方法主要有以下几种[1]。

1)广义知识挖掘 广义知识是指描述类别特征的概括性知识。该模式挖掘的主要目的就是根据这些数据的微观特性发现有普遍性的、更高层次概念的中观和宏观的知识。主要的方法有概念描述、多维数据分析、多层次概念描述问题等几种。

2)关联知识挖掘 关联知识反映一个事件和其他事件之间的依赖或关联。数据库中的数据关联是现实世界中事物联系的变现。关联知识挖掘的目的就是找出数据库中隐藏的关联信息。关联可以分为简单关联、时序关联、因果关联、数量关联等。关联知识挖掘最常用的方法是关联规则挖掘。

3)类知识挖掘类知识刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同事物相区别。这里的类知识是指数据挖掘的分类和聚类两类数据挖掘应用所对应的知识。其中,分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。该类挖掘的目的就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的归类。它常用的方法主要有决策树、贝叶斯分类、神经网络、遗传算法与进化理论、类比学习、非线性回归、粗糙集和模糊集等。而聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽量小,而不属于同一类别的个体之间的差别尽可能的大。通过聚类技术可以对源数据库中的记录划分为一系列有意义的子集,进而实现对数据的分析。它常用的方法主要有基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网络的聚类方法和基于模型的分类方法。

4)预测型知识挖掘预测型知识是指由历史的和当前的数据产生的并能预测未来数据趋势的知识。该模式挖掘的主要目的是对未来数据的概念分类和趋势输出。它常采用的模式主要有趋势预测模式、周期分析模式、序列模式和神经网络等。

5)特异型知识挖掘特异型知识是源数据中所蕴含的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。它主要的任务有孤立点分析、序列异常分析和特异规则发现等。

1.1.3 数据挖掘过程

该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息作出决策或丰富知识。数据挖掘的过程通常有以下几步[2]。

1)确定主题在理解数据和实际业务问题的基础上,提出数据挖掘要解决的问题,定义挖掘的目标,确定挖掘要发现的知识类型。

2)数据筛选搜索与业务数据有关的内部和外部数据信息,从中选择出适用于挖掘主题的目标数据集。

3)数据清理来源于业务数据库的目标数据集中可能存在噪声数据、空缺数据、过时数据、冗余数据等,为提高挖掘的质量,需要合理地处理噪声数据,删除过时数据和冗余数据,填补空缺数据等。

4)数据变换选择的目标数据可能来源于不同的业务数据库,可能会存在数据格式、数据类型不一致等问题。即使来源于同一业务数据库中的数据,也可能会存在数据表示形式不适合具体的挖掘算法,因此有必要对目标数据进行相应的数据变换。

5)选择算法数据挖掘算法分为多种类型,同一类型也存在多种算法,也就是说,实现同一个目标的挖掘算法有很多种。因此,应根据以下两个要素选择合适的算法:一是要根据数据的特点;二是要根据用户的目标。选择合适的知识发现算法还包括选择适当的模型和参数。

6)数据挖掘运用选择的算法从清理过的目标数据集中提取出用户感兴趣的知识(模式),并以一定的方式表示出来。

7)模式解释对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其删除。如果模式不能满足用户的要求,就要分析问题的原因,并返回到前面的某些处理步骤中进行反复提取。

8)知识评价将发现的知识以便于用户理解的方式呈现給用户。这期间也包含对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。

9)知识展示由于挖掘出来的知识最终是呈现给用户的,所以,通常以便于用户对知识理解的图形等直观方式作为最终结果。因此,在知识发现的过程中还包括对挖掘出的模式进行可视化处理等。

1.2 Web数据挖掘技术

1.2.1 Web 数据挖掘技术概念

Web数据挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息[3]。它是一项综合技术,涉及Internet技术、人工智能技术、计算机语言学、信息学、统计学等多个学科领域。Web数据挖掘是对数据挖掘的一种新的应用,但又不同于传统的数据挖掘。其主要区别在于:传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识;而Web挖掘的对象是半结构化或非结构化数据。

1.2.2 Web数据挖掘技术的分类

Web数据挖掘依靠它所挖掘的站点信息来源可以分为以下三种类型[3]。

1)Web内容挖掘 Web内容挖掘是指对站点的Web页面内容进行挖掘。该类挖掘目前主要包括改进传统的WWW搜索引擎、在WWW上更智能地提取信息的搜索工具、数据库方法、对HTML页面内容进行挖掘等几种方法。

2)Web访问挖掘 Web访问挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘,即对用户访问Web站点的存取方式进行挖掘。挖掘的对象是在服务器上的包括Server Log Data等在内的日志文件记录。目前,该类挖掘流行的手段包括路径分析、关联规则和序列模式的发现、聚类和分类、改进Web站点的效率、实现个性化推荐、商业智能的发现、发现导航模式和抽取访问信息特性等。

3)Web结构挖掘 Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。例如,如果我们发现一个论文页面经常被引用,那么,这个页面一定是非常重要的。发现的这种知识可以被用来改进搜索引擎,如PageRank和Clever方法等。

1.2.3 Web 数据挖掘的过程

电子商务中Web数据挖掘的过程一般由3个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。由于篇幅有限,在此不再赘述。

2 Web文本数据挖掘技术概述

2.1 Web文本挖掘定义

Web文本挖掘是指在包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web文本数据信息中,应用数据挖掘方法以帮助人们从大量的Web文档集合中发现隐含的信息模式,提取潜在的、有价值的知识的过程[4]。它是一项综合技术,涉及Web数据挖掘、计算语言学、信息学等多个领域。它主要包含两个高层次目标:预测和描述。其中,所谓预测是指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的位置或未来的值;而描述则指找到描述Web数据的可理解模式。

2.2 Web文本挖掘过程及特点

Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等。所以,Web挖掘过程一般包括相关网页采集、文本的预处理、文本模型表示、信息或文本特征性抽取、文本分类(聚类)或结果集的数据挖掘等步骤。

Web文本数据挖掘的特点主要有以下两个:1)Web文本挖掘的对象是海量、异构、分布的Web文本;2)Web在逻辑上是一个由文档集合超链接构成的图。

3 Web文本数据挖掘在电子商务中的应用

通过前面提到的内容,大家已对数据挖掘技术、Web数据挖掘技术以及Web文本数据挖掘技术已有所了解。那么如何在电子商务中应用好Web文本数据挖掘技术呢?我认为应主要从以下几个方面进行探讨。

3.1 文本特征项提取

对Web文本中出现的词条及其权值的选取称为特征提取。特征提取主要是识别文本中词项的意义,并且提取的多数是文本集中表示的概念,以及从文本的内容抽取出来一些能代表文本内容的词条,然后通过分析这些特征词条以达到分析Web文本内容的目的。

它也就是在词条切分完成之后,选取出可以表征该文本内容特征的特征词,而去除掉那些与表达内容特征无关的多余词条,并将其放入特征词库中。不同的词条在文本中的作用是不同的,因此基于Web的文本挖掘的特征提取的重点是对文本中出现的词汇、名字、术语、日期和短语的特征提取,目标是实现提取过程的自动化。但在实际应用中,到底选择何种特征来表示文本还需要结合处理速度、识别分类精度、存储空间等方面的具体要求来决定。目前,文本特征项提取的方法主要有以下两种,简要介绍如下。

1)文本频度法 文本频度(Document Frequencv,DF)是指在所有供训练学习的文本中,含有某词条的文本总数。若某词条在某类文本中的DF值越高,则表明此词条在该类文本中的代表性越强;反之则代表性越弱。强者正是文本分类所需依据的特征,弱者则对于文本分类不重要甚至是噪声信息。为此可设定一个阈值threshold,保留DF值高于此阈值的词条作为有价值特征,消除低于此阈值的词条[5]。

文本频度法是最简单的特征维度消减算法,其计算复杂度与训练文本的数量成正比。这种算法的效率很高,但是,如果阈值设得过低将导致信息遗失。

2)词条频度法 词条频度(Term Frequency,TF)是指某词条在某类文本中出现的次数占该类文本总词条数的比例,基于词条频度的特征选取算法的步骤如下:

①设供学习的样本数为Ⅳ,属于类Cj的文本数为Nj。将词条集{ti(Cj)}按词条类属分为Nj个子集{ti}j。

②对每个子集{ti}j统计包括重复出现词条在内的词条总数nij,然后逐一统计ti(Cj)在子集{ti}j中的出现次数nij,计算每个子集中每个词条的词条频度(ti)=nij/nj。

③删除每个子集中的重复词条,对每个子集{ti}j中的全部词条按值从大到小排序,对类Cj设置阈值λj,将TFj(ti)≥λj的全部词条装入特征词库{ti(Cj)}中。

3.2 文本关联分析

文本关联分析主要是实现Web页面信息的概念提升及多层关联规则的挖掘功能。在Web文本内容挖掘的过程中,它主要是利用向量空间模型法(VSM)。它的主要优点在于将非结构化的文本表示为向量形式,使得各种数学处理成为可能。但是,向量空间模型关于词间关系相互独立的基本假设(正交假设)在实际环境中很难满足,文本中出现的词往往存在一定的相关性,即出现斜交情况,在某种程度上会影响计算的结果。同时词汇具有的同义或者多义现象也会影响文本信息的分析和处理。在这种情况下,为了更加有效地解决文本信息处理时存在的各种歧义问题,可以结合潜在语义索引的概念,对于词进行概念上的提升,使其包含更加丰富的语义信息,并根据需要形成多个抽象级。在不同的抽象级上,分别对应相应的具体含义。因此在进行文本信息处理时,需要构建一个概念词典。概念词典主要反应了层次结构的语义组织,不同的层次表明了其抽象的程度不同。层次越高,则概括性就越强,包含的下位概念可能就越多。在不同概念级别上将进行多层关联规则的挖掘;在页面集合中寻找不同词语之间的关系[5]。

3.3 文本分类

分类是数据挖掘中一项非常重要的任务,分类的目的是让机器学会一个分类函数或分类模型。该模型能把Web文本映射到已存在的多个类别中的某一类,使检索或查询的速度更快,准确率更高。文本分类是将待分类的Web文本分配到已经存在的某些类别中,属于有教师的机器学习问题,是文本挖掘的核心。

它一般分为训练和分类两个阶段,具体过程如下[6]。

1)训练阶段

① 定义类别集合 C={C1,…,Ci,…,Cm},这些类别可以是层次式的,也可以是并列式的;

② 给出训练文档集合 S={S1,…,Sj,…,Sm},每个训练文档Sj被标上所属的类别标识Ci;

③统计S中所有文档的特征矢量V(Ci),确定代表C中每个类别的特征矢量;

2)分类阶段

① 对于测试文档集合T={d1,…,dk,…,dm}中的每个待分类文档dk,计算其特征矢量V(dk)与每个V(Ci)之间的相似度sim(dk,Ci);

②选取相似度最大的一个类别arg max sim(dk,Ci)作为dk的类别;

3.4 文本聚类

文本分类可实现将Web文本归类,以便于用户在搜索时可以快速地找到相关的Web文档,文本分类是将文档归入到已经存在的类中;文本聚类的目标和文本分类是一样的,只是实现的方法不同,文本聚类是无教师的机器学习,在文档归类之前没有定义好的类可供选择,在文本聚类时,将所有类型接近的文档归为一类,使类型相同的文档尽量归为一类,类型不相同的尽量隔离开来,聚类的标准可以是Web文本的属性,也可以是Web文本的内容。

常用的文本聚类算法可以归为两类:分割式的聚类和分层式的聚类。分割聚类算法通过优化一个评价函数把数据集分割为k个部分。分层聚类是由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。分层聚类法的构造过程类似于构造哈夫曼树的过程。

4 Web文本数据挖掘的应用现状及其发展趋势

目前,Web文本数据挖掘主要在以下几个方面得到了很好地应用[7]。

1)为电子商务与政务提供技术支持 在电子商务领域,网络信息挖掘可以提供不同用户的特定信息,有的放矢地传播网络广告,可以建立客户关系管理系统,极大地提升企业的竞争优势。在电子政务领域,通过对政务数据进行定性和定量分析,可为高层管理者提供决策参考.

2)信息检索 Web文本数据挖掘对网络用户充分利用WWW资源是很有帮助的,它不仅可以对搜索结果进行有效的组织,使用户比较准确地找到需要的资料,还可以通过加快搜索时间,帮助用户节约检索时间,提高Web文本的利用价值.

3)追踪互联网中的文档 对Internet上的文档,可以制定一个组织方案,利用文本分类对这些文档进行自动编目。这样,用户不仅能够方便地浏览文档,而且还可以通过限制搜索范围使文档的查找更为容易。

随着新的、更好的Web文本数据挖掘技术的出现,它将会在更多的领域得到更多的、更好的应用。比如,为企业的决策部门提供尽可能多的、有效的信息支持;给用户提供综合信息服务;帮助企业和商家关心和分析竞争对手、合作伙伴、市场变换等企业外部环境等,以及帮助个人获取最新的、来自世界范围的和自己所感兴趣的Web信息,并在此基础上进行分析和进一步的利用等等。

5 结束语

电子商务虽以其方便、快捷的特点赢得了广大用户的信赖,但它也随之带来了大量的Web信息,特别是大量的文本信息。人们亟需新的技术来处理这些大量的、异构的、半结构化的数据,搜寻有潜在价值的信息,Web文本数据挖掘技术因此应运而生。它是将WWW技术和数据挖掘相结合的一种新技术,并已成为数据挖掘研究领域中一个重要的课题。本文结合着数据挖掘技术和Web数据挖掘技术,着重对Web文本数据挖掘技术的应用及其发展趋势进行了相应的探讨。随着文本挖掘技术的不断发展和完善,其应用领域也会不断拓宽,应用前景也会更加广阔。

[1]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007.

[2]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.

[3]Liu Bing.Web数据挖掘原理[M].北京:清华大学出版社,2009.

[4]王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513 -520.

[5]刘洋.基于Web的内容挖掘技术研究[D].哈尔滨:哈尔滨工业大学,2003.

[6]唐菁.基于Web的文本挖掘[J].计算机工程与应用,2002,21:198 -201.

[7]徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,(5):44 -46,50.

Web Text Data Mining and Its Application in E-commerce

SUN Xue - jun1,2

(1.School of Computer Science & Technology,Shandong University,Jinan Shandong 250101,China;
2.School of Further Education,Linyi University,Fei County Shandong 273400,China)

The paper introduces data mining,web data mining,and web text data mining technology,and explores the application of web text data mining technology in E-commerce in matter of feature item extraction,analysis of related parts of text,text classification,and text cluster.It also outlines the current application and its development trend.

data mining;web data mining;web text data mining

TP 311.13

A

1673-2103(2011)02-0035-05

2010-11-07

孙学军(1977-),男,山东费县人,讲师,在读硕士研究生,研究方向:数据挖掘技术。

猜你喜欢
词条文档数据挖掘
有人一声不吭向你扔了个文档
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
基于RI码计算的Word复制文档鉴别
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
2016年9月中国直销网络热门词条榜
一种基于Hadoop的大数据挖掘云服务及应用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
大数据相关词条