基于web日志挖掘聚类算法的电子商务商业智能研究

2013-01-03 02:42孟亚辉

赤峰学院学报·自然科学版 2013年12期

关键词：质心日志页面

孟亚辉

（广东石油化工学院，广东茂名 525000）

1 Web使用挖掘

1.1 数据收集

用户访问的行为会产生包含行为信息的数据,如何有效收集这些可用于挖掘的数据是数据收集的主要研究方向.

1.1.1 可使用的数据

基于Web使用挖掘的数据主要分为四类.

(1)简档

用于对Web用户的个人信息进行描述.个人信息包括用户的个人信息以及其他的隐式或者显式的用户信息,例如用户对于电影,商品等产品的评价.

(2)使用数据

用于描述Web界面的使用模式,如请求页面,页面访问时间,IP地址等.

(3)结构数据

用于描述Web页面结构组织的数据,常见结构是页面之间的超链接.

(4)内容数据

用于描述内容数据,如文件图像信息.

1.1.2 数据源

(1)服务器端数据采集

Web服务器日志记录了用户对于站点的访问行为,是Web挖掘的数据源对象,但是由于缓存的存在致使数据可靠性降低.另一种方式是直接从网络截取数据包.服务器还是用了Cookies和查询日志保存用户的使用信息,还提供结构内容数据和Web页面信息.

(2)客户端数据采集

客户端数据收集的特点是全面,准确.可利用远程代理或者愿意使用被修改的浏览器.对单个用户进行访问信息收集的优点是可以有针对性的为客户提供一个或多个喜好站点.

(3)代理端数据采集

代理端服务器访问信息主要包含用户访问日志和缓存中被访问的界面.通过对代理端服务器进行信息挖掘可获取用户访问偏好的信息.

1.1.3 数据特性

用户访问的Web页面是有不同的数据特性,研究的重点在于特性设计和扩展数据挖掘方法.数据实体具有特定属性,页面文件和用户是使用数据和其他辅助数据的连接点.用户与商业数据有关联,内容数据和结构数据与页面文件形成关联.由于Web站点访问不受时空限制,因而产生的数据量会十分庞大.对于传统的系统和挖掘方法是一个考验.

1.2 数据预处理

Web日志文件存储的是用户访问历史的原始记录,在原始记录上直接进行数据挖掘比较困难,因此为了解决这个问题,我们要在数据挖掘之前,对数据进行预处理,这个过程非常重要,预处理会直接影响到用户行为模式是否真实可靠,数据挖掘要求原始数据模型与数据模型要有一定的区别,需要进行抽取转换工作.

1.2.1 数据净化

数据净化是删除Web服务日志中与挖掘算法无关的数据,是数据挖掘的主要任务.在数据净化中主要考虑以下几方面:对用户所需信息进行分类;对用户会话进行信息识别;与模式发现和数据挖掘有关的数据项;如何过滤浏览记录.

在日志文件里,需将客户端发出的用户名请求和服务器响应的子状态删除.在用户请求网页时,有关信息自动进行下载,并记录于日志文件中,并根据数据挖掘的目的来删除不是用户请求的文件.对日志记录清除无关数据,检查URL后缀,合并记录,适当对页面发生错误的记录进行处理.为提高系统的可扩展性,我们利用缺省的后缀名列表DT帮助删除文件数据净化算法如下:

上述数据净化算法处理后的日志数据量是原始数据的10%到25%,大量降低挖掘工作数据量,提到效率.

1.2.2 用户识别

为了识别访问用户,需要借助代理服务器,网络防火墙来完成.然而正因为这样也造成了这个过程的复杂.原因是不同用户可以在相同时间通过一个简单代理访问服务器;同一个用户可以在不同机器上访问服务器;同一个用户可以在同一台机器上用不同浏览器进行访问,然而不同用户使用一台机器在不同浏览器访问也会造成混淆.

1.2.3 用户访问事务识别

利用对用户会话文件进行两步的处理来识别用户访问事务,通过根据用户对话序列构造出页面访问有向树,对其进行遍历,筛选出最大向前访问路径.

(1)有向树的扩展

原始Web数据进行预处理之后,得出用户会话文件.把用户会话页面抽象成一颗扩展有向树,过程如下:

假设当前页面为n,上一页为m.把用户会话页面的第一页作为有向树德根节点,令根节点为m,n指向下一页.注意若n不在已构造的有向树中,则从m处引出实线指向n.记为1若n已经在生成树中,那么就从m处引一条虚线指向n,记为2.重复1,2步骤直到用户会话的最后一个页面,此时就得到了用户会话的扩展有向树.

扩展有向树分为两部分,一部分是实线部分,表示有意义的有向树,表示向前遍历;另一部分是虚线部分,表示遍历时的后退路径,实际常用的是实线表示部分.有向树根节点是用户会话的第一个界面,实线表示日志记录中的路径,虚线表示路径补充的路径.

例如,某用户会化为{a,b,c,d,e,b,a,f,h}的扩展有向树如图所示

(2)最大向前访问路径

最大向前引用路径的概念是由ChenMS等人提出.首先是在Web日志挖掘中采用数据挖掘技术.通过发现最大向前引用路径,把用户会话分割成一系列部分,采取与关联规则类似的方法来挖掘访问次数频繁的路径.

挖掘频繁访问路径的方法是在每个用户会话中找到全部最大向前路径.通过构造的有向扩展树就可以找到,就是从根节点到每一个叶子节点的路径所经过的页面集合.如上图所表示的有向树,我们可以找出三个最大向前路径:{a,f,h},{a,b,e},{a,b,c,d}

2 电子商务中使用挖掘的应用

Web使用挖掘在电子商务中主要实现了对用户访问模式,兴趣习惯等挖掘,通过优化站点的服务应用,达到站点和用户共赢的局面.主要应用如下:

2.1 分类技术

对于一个从事电子商务网站而言,时时把握客户需求,关注客户动向至关重要.从大量的访问者中发现潜在客户群体同样重要.一旦发现潜在客户群,就可以实施相应策略,使他们变成注册用户群体.根据各类的公共属性,按照分类规则进行正确划分,确定是否是潜在客户.

2.2 聚类技术

运用聚类技术可以将有相似浏览习惯的客户进行分组,帮助组织者更好了解客户的特征,从而向客户提供更好的服务.浏览行为用客户ID,访问节点和访问次数描述,以URL为行,ID为列构造URL-ID的关联矩阵.可有效的对客户进行聚类.

2.3 序列分析

在服务日志里,用户的访问是用时间为单位记录.通过运用序列分析,可以挖掘用户访问的时间顺序.这些序列反应用户行为,对于商家了解客户兴趣有一定帮助,从而确定产品生命周期,采取相应商业战略.

3 聚类分析

3.1 聚类,就是把一组对象划分成若干类,每个类中对象相似度较高不同类对象相似度较低.聚类不依靠给定的类别对对象进行划分.一下为聚类分析的算法:

3.1.1 划分的方法

根据用户输入值m把对象分为m组,满足两个条件.首先每组至少含有一个对像.其次每个对象必须只属于一组,因此每个组都是一个聚类.根据循环在定位技术对聚类里的对象实施变换,直到客观划分标准达到最优化为止.

3.1.2 密度方法

主要思想是使聚类不断增长直到对象密度超过设定值为止.典型代表:DBSCAN,OPTICS.

3.1.3 网格方法

将对象的空间划分成有限数量的单位来形成网格,相关聚类操作均在网格进行.代表:STING.

3.1.4 模型方法

将每个聚类抽象成一个模型,根据模型的特性来筛选符合要求的对象.这种方法基于数据是根据潜在概率分布生成的.有神经网络和统计学方法.代表:SOMS,COBWEB.

3.2 聚类分析数据结构

数据矩阵:用p个变量描述n个对象,如性别,年龄,身高等属性来描述对象人.

相异度矩阵:用来储存n个对象之间的相似性.是n*n型矩阵其中d(i,j)是用来量化对象i,j的相异性,为非负值.i,j差异性明显时,值越大.

3.3 聚类分析算法

K-means聚类算法:

算法核心思想是接受输入量k,将n个对象划分为k个聚类,使满足同意聚类对象相似度较高,不同聚类对象相似度较低.

(1)算法介绍

K-means是一种简单的无监督学习算法,用来解决聚类问题.通过使用一个簇中心参数实现数据分类.定义K个质心,计算每一个簇质心的位置,选择方法是位置彼此尽可能远离.将数据集中距离每一质心最近的数据加入到相应簇.重新计算新加入数据的簇的质心.这样我们有了k个新的质心.重复以上步骤,不断改变k个质心的位置,直到质心位置不再发生变化.最终得到最小化目标函数如下:

(2)算法步骤

①从n个对象中任意选取k个对象作为初始聚类中心;

②循环③④,直到聚类不再发生变化;

③根据每个聚类对象均值,计算每个对象与中心对象距离,根据最小距离重新划分;

④重新计算每个聚类均值.

(3)算法存在的问题

上述方法只能在簇平均值被定义的前提下才能使用,对于有分类属性的数据不适用.凸面形状的簇用此种方法不易被发现.因为噪声和孤立点数据的敏感性.

结语:Web日志挖掘对于电子商务网站的行为规律,改善页面间的超链接结构,提高系统性能有十分重要的意义.本文主要论述了Web使用挖掘的基本概念原理,在商务电子的应用以及聚类算法的分析介绍,但仍有不少问题需要进一步研究.需要进一步改进矩阵聚类算法,并深入发现新的算法,对挖掘结果进行评估,提高实用性.

由于时间关系和作者水平有限,本文在上述方面无法逐一进行更深入的研究.不足之处,请各位老师批评指正.

〔1〕张新香.Web日志挖掘在电子商务中的应用研究[J].计算机系统应用,2006（1）:52～55.

〔2〕陈美娜.基于WEB使用挖掘的智能个性化系统研究[D].河北工业大学,2004.

〔3〕张琦琪.基于Web用途处理的聚类挖掘研究[D].太原理工大学，2004.