基于陶瓷类电子商务网站的Web信息抽取系统的研究

2014-10-10 21:44詹沐清
电脑知识与技术 2014年24期
关键词:陶瓷产品互信息功能模块

詹沐清

摘要:从互联网获取信息的手段中,Web信息抽取技术是有别于搜索引擎的,它能得到更精确和更具细粒度的信息,该文在分析了Web信息抽取技术在国内外发展现状的基础上,提出了陶瓷产品信息Web信息抽取的技术路线,制定了抽取规则,开发出了一套抽取系统,得到了相关陶瓷产品信息。

关键词:Web抽取;陶瓷产品信息

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)24-5799-04

On the Application of Web Extraction System into the Ceramic E-commerce Website

ZHAN Mu-qing

(Modern Education Technology Center, Jingdezhen Ceramic Institute, Jingdezhen 333403,China)

Abstract: Among the ways of information acquisition from the internet, the Web Extraction Technology is different from Search Engine in that it can help people get more precise and more granular information. On the basis of analyzing the developing status of Web information extraction technology at home and abroad, this thesis is first to present the technical route of applying Web information exaction into the acquisition of the information of ceramic products, then to make the extraction rules, and finally to develop a set of extraction system in order to provide an access to the information of the relevant ceramic products.

Key words: Web Information extraction; information of ceramic products

随着Internet上信息的爆炸式增长,万维网(World Wide Web)已经成为全球最大的、最重要的信息资源库。如何从海量的Internet上快速准确地得到用户想要的信息,大部分人是通过高知名度的Google、百度、Yahoo等搜索引擎工具进行查找,根据查询请求,可以找到大量相关网页信息,这些信息重复率高,内容相互独立,搜索引擎的“网络爬虫”收集不到网上数据库里面的信息。因此,想要得到网络中更精确更具细粒度的信息,同时又能把得到的信息形成数据库,再根据需要进行进一步分析,便要运用到Web信息抽取技术,该文探讨的就是针对陶瓷类网站如何进行Web信息抽取。

1 Web信息抽取的国内外发展现状

信息抽取研究始于上世纪80年代,当时具有代表性的抽取系统有Linguistic String系统、FRUMP系统和ATRANS系统等。90年代的时候互联网开始蓬勃发展起来,这时信息抽取的主流变成了Web信息抽取,知名度较高的项目有卡耐基-梅隆大学“自动学习和发现中心(Center for Automated Learning and Discovery)”的“Web挖掘”项目;美国斯坦福大学开发出了一个从Web上提取半结构化信息的提取工具。现在Web信息抽取技术已经发展到了自动化阶段,但有一个比较棘手的问题是抽取规则的适应性较差,抽取数据的准确率会随着自动化程度越高而变得较低,实用性较差。

国内最早涉及Web信息抽取系统研究的文献资料是2001年4月发表的“基于结点语义关系的信息抽取技术”一文。距目前最近的有关文章是2013年12月发表的“基于互信息度量的Web信息抽取”一文,在该文中,提出基于互信息度量的Web 信息抽取方法,它能够自动识别噪声信息并保留关键信息,该方法将网页解析成DOM 树,计算叶子节点的互信息值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签的互信息值,并以此作为阈值区分噪声与非噪声。Web信息抽取系统研究这方面,国内比较著名的有中国科学院的杨少华等人,提出了先生成数据模板,再利用检测出的模板自动从网页中抽取数据的新方法;浙江大学人工智能研究所提出的基于本体论的Web信息抽取等。截止目前为止,国内外Web信息抽取系统研究中真正涉及陶瓷产品应用这一块的不多,而本文正是主要针对陶瓷产品信息的Web抽取进行一些分析和研究。

2 陶瓷产品信息Web抽取的技术路线

2.1 陶瓷产品信息Web抽取模型的确定

部分网站HTML代码不规范,不符合XHTML标准,因此不能直接采取XPath来定位结点抽取信息。该文的设计思想是利用XHTML结构化的优势,通过引入PHP开源类库SimpleDOM来进行HTML页面解析,生成DOM树结构,针对不同网站的DOM树结点规律,解析页面中的产品信息以及翻页链接等其他信息,以实现对Web网页文档的相关信息抽取。根据查询条件抽取得到的结果全部存立建立的

2.2 Web文档的预处理

Web上的数据大部分是通过HTML来描述的,HTML掺杂了数据内容及表现形式,不利于抽取,因此要进行Web文档的预处理。这个处理过程一般分三步:j、将HTML文档转化为XHTML文档;k、将XHTML解析为DOM树;l、对DOM树用匹配的方法进行过滤,去掉DOM树中无关的节点及其内容。

2.3 确定产品信息抽取规则

按站点形成产品信息抽取规则,如http://www.ccmall.cn/站点规则示例如下:

1) 找到页面中ID为TableList的第一个表格

2) 循环获取table中各行tr的第一个单元格

① [产品图片链接]:第一个IMG标签的SRC属性

② [产品名称]:类名为namelist的DIV中第一个A标签的链接文字

③ [产品详细信息链接]:类名为namelist的DIV中第一个A标签的链接href

④ [产品厂家]:类名为namelist的DIV中“店铺名称:”后的文字

⑤ [发布时间]:类名为namelist的DIV中“发布时间:”后的文字

⑥ [产地]:类名为arealist的DIV的内部文字

⑦[价格]:类名为price的SPAN的内部文字

搭建好与之匹配的websiteextraction数据库,确定信息抽取流程,检索数据模型映射库,利用该网站对应的数据模型映射规则,将XML文档中的信息导入到websiteextraction数据库。

3 系统前台界面制作

3.1 系统登录界面设计,效果如图2所示

site: 站点信息表,用于储存网页抽取站点的基本信息

products:产品信息表,用于储存网页抽取的产品信息

search_product : 抽取结果关系表,用于储存抽取条件与产品关联系统

searchconditions : 抽取条件表,用于储存抽取条件

4.2 功能实现

本系统主要通过搭建五个功能模块来实现系统整个功能,分别为:登录功能模块index.php,信息抽取功能模块search.php,抽取结果展示模块result.php,SiteProductSearch类和MyDb类。

1) 登录功能模块index.php:该模块主要用来实现登录和注册功能。

2) 信息抽取功能模块search.php:该模块主要用来输入信息抽取条件,如把陶瓷按用途来分,可分为日用陶瓷,艺术(陈列)陶瓷,卫生陶瓷,建筑陶瓷,电器陶瓷,电子陶瓷,化工陶瓷,纺织陶瓷,透千(燃气输机)陶瓷等。那我们抽取的时候就可以根据用户需要分类进行抽取。

3) 抽取结果展示模块result.php:该模块用来显示产品信息抽取结果,并支持EXCEL导出功能。根据查询条件抽取得到的产品信息如何展示,这也是抽取系统的重要内容。如上面我们根据“中国红”这个条件得到的EXCEL图,它按站点、产品、价格、图片链接、产品链接、发布时间、厂商、产地、介绍等进行了分类。

4) SiteProductSearch类:该类按各站点实现相应条件的抽取,并从结果页面中解析出产品信息。

部分功能代码如下:

public function getName(){

return static::$siteInfo['name'];

}

static protected function getPageSimpleHtml($url){

$content = file_get_contents($url);

$charset = static::$siteInfo['encode'];

if($charset != 'utf8'){

$content = mb_convert_encoding($content, 'utf8', $charset);

}

$html = str_get_html($content);

if(!is_a($html, 'simple_html_dom')){

$html = null;

}

return $html;

}

abstract protected function getSerachUrl();

abstract protected function parseProducts($html);

abstract protected function parseNextPageUrl($html);

}

5) MyDb类:该类实现数据库读写功能。

5 小结与展望

随着信息化的高速发展,陶瓷产品信息在陶瓷企业发展中起着越来越重要的作用,该文为陶瓷产品信息的获得提供了一个新的思路,然而这远远不够,我们应该深挖客户的需求,开发出更合理和实用的基于陶瓷类电子商务网站的Web信息抽取系统,加强陶瓷产品信息的获得和整理,规范陶瓷产品的信息资源,为陶瓷企业制定产品发展战略提供决策依据。

参考文献:

[1] ARASU Arvind, GARCIA-MOLINA Hector. Extracting structured data from Web pages[C].New York: Proc of the Int Conf on Management of Data,2003.

[2] 胡 睿,张冬茉,杜蓬.基于结点语义关系的信息抽取技术[J].计算机工程,2001(4).

[3] 张奇,等.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013(12).

[4] 于立艳.基于HTML的Web信息抽取技术的研究与应用[D].哈尔滨:哈尔滨工程大学,2011.

猜你喜欢
陶瓷产品互信息功能模块
数字媒体技术在陶瓷产品设计中的应用
色彩的视觉美感与当代陶瓷艺术设计
VR技术在工业陶瓷产品展示中的应用*
浅谈模块化设计在陶瓷产品设计领域的应用
基于ASP.NET标准的采购管理系统研究
输电线路附着物测算系统测算功能模块的研究
M市石油装备公服平台网站主要功能模块设计与实现
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法