数据库技术在web挖掘中研究应用

2014-04-29 00:44李宜兵郭玉堂潘洁珠陈军
电子世界 2014年19期
关键词:爬虫

李宜兵 郭玉堂 潘洁珠 陈军

【摘要】电子商务网站中可以挖掘中大量有价值信息。本文通过数据库与web挖掘技术相结合,对电子商务网站进行挖掘。通过开源的爬虫框架heritrx,对购物网站进行爬取,使用htmlparse对网页进行抽取,对抽取后的数据进行清洗存入数据库中。最后对数据库中的数据进行分析、挖掘,找出有价值的信息,对用户进行推荐等。通过web内容挖掘和数据库技术相结合,所挖掘出来的信息具有较高的可信度,具有一定的价值。

【关键词】web挖掘;爬虫;抽取;SQLSERVER

序言

电子商务购物类网站已进入了人们日常生活中。这些网站中包含丰富的数据,通过对这些数据进行挖掘,可以得到大量有用处的信息,为商家营销和买家购物提供便利。本文提出了针对于购物网站,利用数据库技术和web挖掘技术相互结合,对购物网站进行数据挖掘。结合数据库技术使得web挖掘转化为了数据库挖掘,使得挖掘更简化,结果也更准确,在此基础上设计了一个系统。该系统主要分为;数据爬取、数据抽取、数据入库、数据挖掘。

1.web挖掘概述

网络上蕴含着丰富的信息,但是网页具有无结构化,动态的特点。网页中蕴含信息不能直观的挖掘。搜索引擎的出现在一定程度上解决了人们对信息查找的需求,但是搜索引擎基于关键词的查询,不能提供有针对性的服务。因此,web数据挖掘应用而生,又可分为内容挖掘、结构挖掘、使用记录挖掘。

1.1 web内容挖掘

Web内容挖掘主要指从文档中抽取相关信息。可分为文本挖掘、多媒体挖掘。目前研究主要集中在词频统计、分类算法、机器学习、数据间隐藏的模式和生成抽取规则等。web内容挖掘可以看做是信息检索和信息查询二者的相结合。由于直接处理数据对象内容,故结果也较为准确。因此本文就是采用基于web内容挖掘的方式对购物网站数据进行挖掘分析。利用网络爬虫程序对购物网站进行爬取,再利用htmlparse对网页内容进行抽取。

1.2 web结构挖掘

web结构挖掘的目的是发现页面结构与结构之间的联系。利用结构信息,对其进行聚类、分类等,从而找出所需要的模式。结构挖掘是从的组织结构和超链接关系中推导知识的过程。网页包含的不仅仅是页面的文本内容,同时还有一页到另一页的超链接,超链接结构包含了大量的注释,通过挖掘这些结构信息,可以准确理解内容的相关性及质量。

1.3 使用记录挖掘

使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览器信息中抽取感兴趣的模式。当用户访问页面时,用户的地址、访问时间、页面等信息在日志中均有记录。通过分析这些信息,建立适当的模型,运用相应的算法,就可以挖掘出客户潜在的需求。使用记录挖掘的基本方法包括聚类、关联规则、序列模式、分类、依赖性建模、统计分析等。

2.网络爬虫

网络爬虫以一个或若干网页作为种子,在抓取网页的过程中,不断地从当前的网页上提取新的URL放入指定的队列中,直到满足停止条件。根据算法过滤无关的链接,保留相关的链接并将其放入等待抓取的URL队列。然后,根据既定的搜索算法从队列中选择下一步要抓取的URL,并重复上述过程,直到达到指定的条件而停止。网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。目前比较常见的是广度优先和最佳优先方法。本文对抓取的网页存储在本地硬盘中,以便之后的抽取并解析。

本文采用开源的Heritirx爬虫框架。它是递归执行操作的,主要的步骤如下:

(1)在预先给定定的URL中选择一个。

(2)获取URL。

(3)分析并进行归档结,得出结果。

(4)选择哪些相关性较强的URL。加入预定队列。

(5)标记已经处理过的URL。Heritirx具有可扩展的,能够结合实际应用,扩展成所需的爬虫。

3.网页抽取

网页抽取指从网页中抽取指定信息,并存入数据库中。文档数据是无结构的,没有模式信息,并且信息量巨大,适合人们浏览而不适合程序自动处理,因此息抽取较为复杂。为了从页面中抽取有用信息,运用抽取算法抽取后信息应易于系统理解和下一步处理。同时还应具有较强的可扩展性,以便能够适应各种不同风格的网站。本系统采用的是开源的htmlparser。它主要用于改造或者提取网页文件内部内容,解析的效率非常高,能够精确地解析html。htmlparser就是目前比较好的解析和分析的工具。它具有信息提取和信息转换,文本信息提取,页面内容的监控等相关功能。

4.数据库设计

本系统的数据库技术采用SQLserver2005作为后台数据,以当当网图书作为例子进行挖掘,数据库设计了一个book表,表的结构如下:(id,name,price,recommend,comment,author,press,presstime,isdn,category)

其中id为书的id号,作为这张表的主键,name为书名,price为价格,recommend为推荐度,comment为评论人数,author为作者,press为出版社名称,presstime为出版时间,isdn为isbn号,category为分类。该表包含的数据非常多。借助htmlparser包将爬取后存取在磁盘网页,解析出来,再将解析的数据存储到数据库中。

5.实验结果与分析

以当当图书作为挖掘对象,提取出相关信息,例如分类、价格,推荐度、评论人数等。存储在数据库中图书信息通过数据库中数据,可以进一步的对数据进行分析,例如找出某一类图书的最高、最低价格,以及图书的欢迎程度。综合读者的评论数、购买量,可以计算出该书的推荐度,从而可以对读者购买图书提供一个参考。图书的推荐度,如图1所示。

通过web内容挖掘和数据库技术相结合,所挖掘出来的内容具有较高的可信度,具有一定的价值。下一步可以结合用户的浏览记录,即用户行为进行挖掘,针对每个用户做个性化推荐。

参考文献

[1]唐菁,基于Web 的文本挖掘[J].计算机工程与应用,2002.

[2]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007.

[3]王继成.潘金贵.张福炎.Web文本挖掘技术研究[J].计算机研究与发展.2000,37(5):513-520.

[4]王继成.潘金贵.张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513).

[5]林瑞娟.侯德文.Web挖掘及其在电子商务中的应用研究[J].计算机技术与发展.2006,16(8):186-188.

基金项目:安徽省高校自然科学研究重点项目(编号:KJ2013A217);安徽省级质量工程项目——精品资源共享课程(2012gxk085)《数据库原理》。

作者简介:

李宜兵(1985—),男,安徽桐城人,硕士,合肥师范学院计算机学院助教,研究方向:信息检索和数据挖掘。

郭玉堂(1962—),男,安徽安庆人,博士,合肥师范学院计算机学院教授,硕士生导师,主要研究方向:人工智能和图形处理。

猜你喜欢
爬虫
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
善用网络爬虫
基于Django 的分布式爬虫框架设计与实现*
目前互联网中的网络爬虫的原理和影响
网络爬虫技术原理
谁抢走了低价机票
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术