谢少群
摘要:XML的出现为解决Web数据挖掘的难题带来了机会,由于XML能够使不同来源的结构化数据结合在一起,使得搜索多样的数据库成为可能。该文设计了基于XML的Web日志挖掘系统,通过日志挖掘实验对电子商务网站的产品分布设置现状进行分析与评价。
关键词:电子商务;数据挖掘;XML
中图分类号:TP313 文献标识码:A 文章编号:1009-3044(2014)07-1626-03
数据库领域最活跃的领域之一就是数据挖掘,因为其现实意义,使得数据挖掘的技术研究和应用有了很大的发展,在国内外科研领域都备受关注。随着Internet技术的快速发展,电子商务发展的同时使得网络资源也随之迅猛的增长。如何使电子商务用户快速有效的利用所需资源,已经成为电子商务网站设计者急需解决的问题。将数据挖掘技术用于电子商务管理中几乎是从数据挖掘诞生就注定的,这与电子商务的特点是密切联系的。在电子商务中应用数据挖掘技术具有极大的实用价值。[1]
1 电子商务Web日志挖掘模型EC-Web-Mining设计
1.1 基于XML的Web挖掘模型实现原理
基于XML的Web挖掘模型的思想是把现有的Web页面或Web日志经过数据清洗转换成XML格式,并使用数据库工具处理XML 结构的数据以抽取出适当可用的数据。其主要步骤如下:
1)标识数据源(Web页面或Web日志)。在大多数情况下,数据源信息是易见的,但是要抽取可用的、可靠和稳定的信息源就比较困难。
2)查找数据的引用点。无论是Web 页面还是WEB日志视图中的绝大多数信息都与抽取信息无关,需从中抽取出我们需要的数据。
3)将数据映射成XML。利用数据库工具或算法将数据转换成XML格式文档。
4)合并结果并处理数据。如果只执行一次数据抽取,按照上述步骤已经完成。但是,Web 数据挖掘是一个循环往复的过程,几次简单的数据抽取还没有完成数据挖掘的任务。针对Web 数据挖掘的特殊性,要不断地在Internet 上进行数据的抽取,并将结果合并为XML 数据文件,必要时还得将XML格式文件转换为结构化的关系数据库。[2]
1.2 基于XML的Web挖掘模型
3)用户会话识别模块
用户会话识别模块将把清洗过的日志文件数据记录识别成多个用户,以方便利用挖掘算法进行挖掘。一般被采用的方法是基于日志/站点的方法。
4) XML转换模块
该模块将预处理过、进行过用户会话识别的日志文件转换成XML格式的文件。主要是将清洗过的日志文件通过Visual C#代码TxtToXml类转换为XML格式的文件,程序的功能是先读出日志文件里面的数据,经过分隔符将数据按字段分隔并存入到数组中,最后将各数组的内容加XML标记一起写入到生成的XML文件中。
5) XML数据导入模块
该模块将XML格式的文件数据通过SQL代码导入到MS SQL Server2005的数据库中,形成日志数据表以方便进行数据挖掘。主要包括XML文件格式的转换导入和日志数据表的生成操作两大功能。
6) 数据挖掘模块
该模块利用数据挖掘算法对数据进行挖掘,主要包括算法的优化、日志数据表的删除操作以及挖掘结果集的保存与删除操作等。这里主要用到的算法是Apriori优化算法—基于频繁链表的频繁集的挖掘算法[3],主要是利用Apriori算法发现频繁项集,通过对频繁项集的分析来得出电子商务网站中哪些产品是客戶最喜欢点击和购买的,从而可以适当地调整产品在网站中的分布,来提高销售量。
3 小结
本文主要是研究基于Web数据挖掘技术的电子商务数据挖掘模型,主要的工作是对Web访问信息挖掘技术进行了深入的研究,发现电子商务网站中用户的访问信息和在电子商务网站中针对用户实现页面合理布局。
参考文献:
[1] Serge Abiteboul, Dallan Quass, Jason McHugh, et al. The Lorel Query Language for Semistructured Data[J]. International Journalon Digital Libraries,1997,1(4):68-88.
[2] 张光辉.XML与Web 数据挖掘分析[J].中原工学院学报,2002,13(4):61-64.
[3] 袁鼎荣,张师超.基于频繁链表的频繁集的挖掘算法[J].计算机科学,2003(7):165-166.