基于SVM的旅游网站页面判别模型探讨

2015-04-10 03:46郭凤娟李晓东
地理空间信息 2015年1期
关键词:特征词语料分类器

郭凤娟,李晓东,2

(1.新疆大学 资源与环境科学学院,新疆 乌鲁木齐 830046;2.新疆大学 旅游学院,新疆 乌鲁木齐 830046)

基于SVM的旅游网站页面判别模型探讨

郭凤娟1,李晓东1,2

(1.新疆大学 资源与环境科学学院,新疆 乌鲁木齐 830046;2.新疆大学 旅游学院,新疆 乌鲁木齐 830046)

新疆旅游网站中存在大量页面本身为空或页面为导航页面、新闻动态及政策法规等用户关注度相对较低的页面。而用户在使用搜索引擎进行旅游信息查询时,这些页面却经常显示在搜索结果的前面,从而带来用户获取信息不畅、用户体验差等问题。为解决上述问题,提出基于支持向量机(SVM)原理构建旅游网站自动判别模型的方法,并结合9 000张训练样本语料和3 000张测试样本语料,对该模型进行测试研究。结果表明,基于该模型构建的分类器,具有良好的判别效果。当特征词超过120个,该模型的准确率、召回率及F1值均趋于收敛,达到98%。

旅游网站;搜索引擎;自动判别;支持向量机

根据第32次中国互联网发展状况统计报告,截止2013年6月底,我国网民达5.91亿,而搜索引擎用户达4.70亿,旅行预订网民达1.33亿[1]。从统计报告可以看出,搜索引擎作为互联网的基础应用,是网民获取信息的重要工具,而我国旅行预订用户相对狭窄,应用渗透水平还较低,未来增长空间广阔[1]。因此,在“眼球经济”时代的今天,如何利用搜索引擎抓住用户的眼球,将旅游信息展现给用户,成为摆在当前新疆旅游工作者面前的一个重大问题。

用户在使用搜索引擎进行信息检索时,搜索结果经常会出现网页本身已不存在或页面本身为导航页面、新闻动态及政策法规等用户关注度相对较低等情况,令用户满意度大打折扣。出现上述情况原因在于搜索引擎服务器镜像中保留上述页面,这些页面本身常包含有大量用户检索关键词,而这些关键词打分排名相对靠前,容易被搜索引擎检索出来且显示到搜索结果的最前面。当旅游网站本身已经将上述页面删除或该网站已停止使用时,便会出现可以搜索出相应网页而网页本身却打不开的现象。另外,根据笔者对新疆旅游网站的调查统计,平均每个旅游网站包含有80个上述页面,而在诸多旅游网站中包含有相同或相近关键词的旅游网站的数量更是巨大。因此,研究旅游网站的自动判别和过滤方法具有十分重要的现实意义。孙晓琳[2]等人讨论了如何对旅游网站的数量和质量进行对比分析,并提出对旅游网站的质量进行评价的5个指标。李蓉[3]等人提出以“网络影响因子”和“比价度”指标为核心,同时利用加权优序图法确定指标权重来构建旅游搜索引擎检索性能的评价体系;罗龙艳[4]等人运用层次分析法构建了以流量速度、检索范围、功能指标、服务功能等4个一级指标,下设15个二级指标的旅游搜索引擎评价指标体系。本文在上述研究的基础上,结合文献[5]~文献[11]中阐述的现代文本分类技术、搜索引擎优化处理、索引压缩等关键技术,采用SVM原理,以旅游网站的自动判别为切入点,对如何改进旅游搜索引擎的检索质量、提升用户满意度进行深入研究。

1 旅游网站判别模型原理

旅游网站判别技术是以旅游网站中网页源码为研究对象,通过定义网页的分类标准对网页进行人工标定,并从人工标定结果中选取训练样本语料和测试样本语料,然后经过文本表示和分类器训练,最终得到网页的类别。旅游网站判别流程见图1。

图1 旅游网站判别流程图

从图1可以看出,旅游网站判别的核心技术有:①网页抓取;②训练样本语料和测试样本语料选择;③分词技术;④文本表示;⑤分类器训练。

2 网页抓取

XJTourSearch(以下简称XJTS)是自主设计的一个面向新疆旅游行业的垂直搜索引擎,本文采用该搜索引擎针对新疆综合旅游、新疆地级市旅游、新疆交通旅游、新疆各大旅行社等网站进行实时采集,共采集了95万张网页,采集时按网站类别将网页分类保存至数据库中,网页采集结束后,按25∶34∶25∶10的比例从数据库中抽取其中的9.4万张网页进行测试研究,网页采集结果详见表1。

表1 各大网站网页数据采集结果

3 文档处理

3.1 网页分类标准定义

我们把抓取的样本语料及测试语料均分为2大类:①非旅游相关页面;②旅游相关页面。其中,非旅游相关页面定义为网页主要内容为空、包含信息与旅游信息相关度低,或者网页本身为新闻动态页面、政策法规页面中的任意一种页面;不满足以上条件的页面都称之为旅游相关页面。

3.2 训练样本语料和测试样本语料选择

组织60名学生对9.4万张旅游网页进行人工标定,学生共分30组,每组2人,每组标定3 000张网页,同一组内学生标定的网页相同,对同一张网页,当且仅当2人标定结果相同时方可确定其类别,否则重新进行标定。经过3轮不重复标定,样本语料的人工文本分类的结果为:旅游相关网页共80 013个,非旅游相关网页共13 987个。从旅游相关网页和非旅游相关网页中各抽取6 000张网页,并从各自的6 000张网页中分别随机抽取4 500张作为训练样本语料,剩余的3 000张网页作为测试样本语料进行模型测试。

3.3 中文分词技术

由于目前网页信息大多情况下以中文连续文本的形式存在,因此,需要将连续文本进行分词处理,即将文本切割成独立的汉字序列。本文选用ICTCLAS作为分词工具。

3.4 文本表示

3.4.1 特征选择

特征选择算法有互增益、文档频率、信息增益、卡方检验等数十种。卡方检验是一种非常有效的特征选择算法,它最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。首先假设2个变量是相互独立的(即原假设),然后观察实际值与理论值的偏差程度,如果偏差程度很小,我们就接受原假设;如果偏差程度大到一定程度,我们就否定原假设,而接受备择假设。卡方检验的计算方法如下:

式中,N表示训练语料中的文档总数;c为某一特定类别;t表示特定的词条;A表示属于类别c且包含词条t的文档数;B表示不属于类别c但包含词条t的文档数;C表示属于类别c但不包含词条t的文档数;D表示不属于类别c也不包含词条t的文档数。

3.4.2 特征抽取

1)对选取的9.4万张旅游网页进行预处理,去除网页html标签,消除停用词,过滤掉敏感词,最终得到纯文本集合。

2)对得到的纯文本集合进行中文分词和建立倒排索引。本文使用的倒排索引构建工具包为Lucene3.0。

3)读取倒排索引文件,通过式(1)给词语打分,并按分值排序,分值较大的词语即为选取的特征词。

按照词语分值顺序,本文选择前200个词语作为旅游网站页面文本特征词,用来测试特征词多少对判别效果的影响。

4 分类器训练

分类器实质是一个学习算法(或称之为数学模型),而分类器训练的目标就是通过相应的学习算法,将数据自动分到已知类别。在机器学习中,网页分类实际上是有监督的学习方法,这就意味着我们首先需要通过人工标定训练样本语料信息的方式对分类器进行一定程度的训练,然后利用训练出来的分类器对测试样本语料进行预测分类。因此,分类器的性能就取决于人工标定信息的质量和训练使用的学习算法。在中文语料的试验中,文献[5]使用了复旦大学自然语言处理实验室提供的基准语料对5种基于词空间文本模型的分类算法进行了测试,测试结果表明SVM综合性能最优。基于旅游网站的判别问题实际上是一个二类分类问题,所以本文选用二类SVM算法作为分类器训练使用的学习算法。

4.1 SVM模型原理

给定的训练语料为:

其中,xi∈X=Rn;yi∈Y={-1,1},i=1,…,l。

在给定的二类样本语料线性可分情况下,一定∃ω∈Rn,b ∈ R,ε>0,使得对所有的yi=1的下标i有(ω·xi)+b≥ε,而对所有的yi=-1的下标i有(ω·xi)+b≤-ε。记2类样本集分别为:

定义M+的凸包conv(M+)为:

定义M-的凸包conv(M-)为:

其中,N+表示+1类样本语料中样本点的个数;N-代表-1类样本语料中样本点的个数。此时,存在一个超平面ω·X+b=0将2类样本语料零误差正确划分,最优分类函数为:

在给定的二类样本语料线性不可分的情况下,可以在条件yi[ωxi+b]-1≥0中增加一个松弛因子ξi≥0,成为yi[ωxi+b]-1+ξi≥0,引入常量C作为样本惩罚因子,同时引入适当的核函数K(Xi,Xj)将原问题转换为线性可分问题,即折衷考虑最少错分样本和最大分类间隔,从而得到广义最优分类面。此时,最优分类函数为:

式(2)和式(3)中的sgn为符号函数;α*为拉格朗日乘子的估计;b*为分类阈值。

4.2 数据处理

本文借助台湾大学林智仁副教授开发的libSVM[11-13]工具包,对SVM分类及识别预测。

1)将数据转换到libSVM指定的格式,并对数据进行归一化处理。

2)选择径向基(RBF)核函数,用核函数将样本转换成核函数矩阵,相当于将输入数据通过非线性函数映射到高维空间。本文选择K(Xi,Xj)=exp(-γ|(|Xi-Xj| )|2),γ>0作为处理特征及其属性之间非线性关系的RBF核函数。

3)采用交叉验证选择最佳参数C和g(优化参数)。

4)利用得到的最佳参数C和g对训练样本语料进行训练,得到最优分类函数式(2)和式(3)。

5)利用得到的分类函数对测试样本语料进行预测分类。

4.3 评价指标

本文选取国际上常用的性能评价指标对XJTS进行整体性能评估,这些评价指标分别是:准确率(用P表示,也称为查准率)、召回率(用R表示,也称为查全率)和F1值。假设分类器判别正例为正例的个数为A,判别正例为反例的个数为B,判别反例为正例的个数为C,判别反例为反例的个数为D,可以用形式化定义描述为:

5 模型预测结果及分析

本文结合SVM模型构建分类器,针对训练样本语料进行学习训练,并用训练结果对测试样本语料进行预测分类,预测结果如图2。

图2 测试样本语料文本特征预测结果

从图2可以看出,当特征词个数为0~60之间时,随着特征词个数的增加,预测准确率、召回率及F1值大致呈线性增长趋势;当特征词个数为60~120之间时,随着特征词个数的增加,预测准确率、召回率呈现波动趋势,F1值先降后增;当特征词个数超过120时,随着特征词的增加,预测准确率、召回率及F1值趋于收敛,达到98%左右。本文是在给定训练样本语料的前提下,用训练样本语料中已训练的数据去预测测试样本语料,既减少了噪音特征对文本分类效果的影响,强化了有效特征词对文本特征预测的贡献,同时又降低了文本特征的维数,解决了高维稀疏问题。因此,在文本特征预测时,取得了良好的预测分类效果。初始阶段,有些特征词对文本分类的贡献小,有些贡献大,因此随着特征词数的增加,准确率、召回率及F1值显著增加;而在特征词数增加到一定程度时,不同特征词的贡献趋于饱和,难以加大,准确率、召回率及F1值随特征词个数的增加逐渐趋于稳定。

6 结 语

本文利用机器学习中的SVM理论构建旅游网站的页面判别模型,并以新疆主要的旅游网站为例,通过定义网页标准、选择文本特征、抽取文本特征及训练分类器,对该模型进行预测测试试验。结果表明,该模型具有良好的页面判别效果。但该模型也存在一定的不足,比如训练样本语料代表性不足。当数据规模非常大时,模型处理的复杂度会增加,处理速度和分类精度会明显下降。在下一步的工作中,首先,需要选择更具代表性的训练语料库。其次,可以考虑将聚类和分类结合在一起,进一步降低文本特征的维数,从减少分类器的训练强度,达到提升分类速度和分类精度的目的。

[1] 互联网信息中心. 第32次中国互联网发展状况统计报 告 [EB/OL].http://www.cnnic.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201307/P020130717505343100851.pdf,2013-07-17

[2] 孙晓琳,郝俊卿.西安旅游网站建设的对比评价研究[J].统计与信息论坛,2008(8):48-52

[3] 李蓉,全朝晖,董亚苹.旅游业在线搜索引擎评价体系的建立及分析[J].重庆邮电大学学报:社会科学版,2011(3):72-79

[4] 罗龙艳,窦厚玺.基于AHP的旅游搜索引擎评价分析[J].科技管理研究,2011(9):71-75

[5] 周文霞.现代文本分类技术研究[J].武警学院学报,2007(12):93-96

[6] 王专. 旅游网站的搜索引擎优化[J].旅游学刊.2007(6):11-13

[7] 单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148

[8] Jung J J.Using Evolution Strategy for Cooperative Focused Crawling on Semantic Web[J]. Neural Computing and Applications , 2009 (3):163-167

[9] Talvensaari T,AriPirkola, Järvelin K,et al.Focused Web Crawling in the Acquisition of Comparable Corpora[J]. Information Retrieval , 2008 (5):81-88

[10] Yang Yiming, Slattery S, Ghani R. A Study of Approaches to Hypertext Categorization[J] . Journal of Intelligent Information Systems, 2002 , 18 ( 2-3) : 219-241

[11] LIBSVM—Alibrary for Support Vector Machines[EB/OL]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/,2009-06-07

[12] Hsu C W.A Practical Guide to Support Vector Classification[EB/ OL]. http://www.csie.ntu.edu.tw/~cjlin/papers/ guide/ guide. pdf, 2009-06-20

[13] Bottou L,Lin C J.Support Vector Machine Solvers[EB/OL]. http://www.csie.ntu.edu.tw/~cjlin/ papers/bottou_lin. pdf,2007-02-08

P208

B

1672-4623(2015)01-0026-04

10.3969/j.issn.1672-4623.2015.01.009

郭凤娟,硕士,主要从事人文地理、旅游开发等研究。

2014-12-28。

项目来源:国家自然科学基金资助项目(41130531);新疆维吾尔自治区旅游局资助项目(XJLY2012-1);新疆大学2012年精品课程建设资金资助项目。

猜你喜欢
特征词语料分类器
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
基于实例的强分类器快速集成方法
基于语料调查的“连……都(也)……”出现的语义背景分析
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
面向文本分类的特征词选取方法研究与改进
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别