易军凯,刘慕凡,万 静
(北京化工大学信息科学与技术学院,北京100029)
基于主题与语义的作弊网页检测方法
易军凯,刘慕凡,万 静
(北京化工大学信息科学与技术学院,北京100029)
网页作弊检测可以被看作二元分类问题。当前基于内容的作弊网页检测方法主要使用统计特征,不能准确识别隐藏的作弊手段。为此,提出一种改进的作弊网页检测方法,使用语义与统计两类特征,将作弊检测深入至主题层次。该方法对网页内容进行主题建模,将网页内容映射至主题空间,根据其主题分布进行语义分析计算,从中提取语义特征,结合统计特征对网页进行分类检测。实验结果表明,该方法在精确率、召回率与F1测度上均获得了较好的效果。
分类;主题模型;潜在狄利克雷分配;语义特征;语义相似度
网页作弊指信息检索中网页使用不正当手段来获得不公正的查询相关性与重要性的行为[1]。网页作弊行为使用户获取不相关的查询结果,还可能向用户提供危险信息,造成用户安全隐患,大量作弊网页的存在还降低了搜索引擎的准确率,增加索引与查询的开销,降低了搜索引擎的系统性能[2]。识别网页作弊,提高检索内容可信度,是搜索引擎面临的主要挑战之一。
根据不同的作弊方式,目前已经提出了相应的反作弊方法。文献[2]对当今各种作弊技术进行了总结,将作弊方式分为内容作弊、链接作弊以及隐藏的作弊。文献[3]提出了一种基于内容的检测方法,使用词汇数量、标题长度、词汇平均长度等统计特征进行分类检测。文献[4]提出改进的基于内容的方法,他们使用转码功能、代码比例、拼写检查等特征进行检测,提高了传统方法的检测效果。文献[5]提出了一种基于链接的反作弊算法TrustRank,其思想是优质页面也会链向优质页面,很少链向作弊页面,从而使用图算法进行可信度传递。文献[6]提出思路相反的Spam Rank算法,该算法认为链向作弊网页的网页也大多数是作弊网页。文献[7]提出了一种将基于内容与基于链接相结合的反作弊方法,使用网络拓扑图与聚类算法,对作弊网页进行汇集识别。文献[8]提出一种基于链接结构的作弊网页过滤算法。该算法认为作弊网页之间相互勾结相互链接,链接结构具有较高的相似性。基于这一特性,对网页进行聚类与权值分配,并运行PageRank算法,以达到对Spam页面的过滤。文献[9]提出了一种基于Co-Training模型的作弊网页检测方法,该方法使用内容的统计特征与基于网络图的链接,建立2个独立的分类器,使用Co-Training半监督学习方法,利用大量未标记数据来改善分类器质量。文献[10]提出了一种基于证据的内容可信度模型检测算法,他们提出基于证据的信息可靠度模型,并在此基础上给出了新的学习算法来进行垃圾网页检测。文献[11]针对隐藏的作弊,提出了一种双爬虫检测方法,通过模拟搜索引擎爬虫与用户浏览爬虫抓取网页内容,进行对比判断。
这些方法从不同的角度提出了相应的检测算法,但是基于内容的作弊检测方法一般只考虑文本浅层的统计特征,没有考察文本深层的语义特征,不能很好识别隐藏的作弊手段;基于链接的方法则往往忽略对网页本身内容的评估。本文提出了一种基于主题与语义的作弊网页检测方法(Topic models and Semantic analysis based Spam Detection,TSSD),该方法使用深层语义特征,对网页内容进行主题建模,分析其语义特点,深入主题进行检测。同时结合浅层统计特征,对网页进行综合检测,以提高检测效果。
2.1 LDA主题模型
LDA(Latent Dirichlet A llocation)是由Blei等人提出的一种文本模型[12],可以用来识别文档或者语料库中潜藏的主题信息。
LDA主题模型中定义了词语(w)、文档(m)与主题(z)3个基本定义。其中词语是最基本的离散概念,就是自然语言中的词。文档就是多个词语的集合,主题则是一系列词语的集合。对于语料库中的每篇文档,LDA假设了如下生成过程:
(1)从参数为ξ的泊松分布Possion(ξ)中抽取N个词语;
(2)从参数为α的Dirichlet先验分布Dir(α)中为每个文档m∈[1,M]抽取多项分布θm,从参数为β的Dirichlet先验分布Dir(β)中为主题z[1,K]抽取多项分布φz;
(3)对每个词语wn,n[1,N]:
1)根据多项分布θm抽取一个主题z;
2)根据多项分布φz抽取一个词语w。
其中,M为文档的数量;K为每个文档中主题的数目,超参数α与β为Dirichlet先验概率假设,在模型推断中设定为固定值;θm表示文档m在主题上的后验概率分布;φz表示主题在词汇上的后验概率分布。
2.2 语义分析
本文使用LDA主题模型与语义相似度计算来进行语义分析。对于一个网页m,其主题分布为:Z(m)={z1,z2,…,zK}。每个主题zi(1≤K≤K)属于文档m的概率为δzK。zK中包含了一系列代表该主题的词汇,记为W(zK),对其中每个单词wi,它属于主题zK的可能性为φ(wi|zK)。
定义1 语义相似度(Sim):表示文档或术语之间语义内容或涵义内容的相似程度。本文中使用基于W ordNet(http://wordnet.princeton.edu/)的Lin方法来进行语义相似度计算。Lin方法计算2个词语c1,c2的语义相似度为:
其中,lso(c1,c2)是词语c1,c2最近的公共父节点的距离;P(c)表示c的概率。该方法除了考虑词语c1,c2的共享信息,还考虑了词语自身包含的信息,其结果贴近于人工判断的结果。
定义2 主题语义明确度(T):表示一个主题所表达含义的清晰程度。对于一个主题zi,其主题语义明确度为:
其中,Sim(wK,wl)表示单词wK,wl之间的语义相似度;nzi表示主题zi中含有的词汇数目。主题语义明确度是一个主题的内部词汇之间平均相似程度。
定义3 主题间语义相关度(TS):为2个主题间的语义相似程度。对2个主题zi,zj,其主题间语义相关度为:
式(3)反映了2个主题之间的语义相似程度。值越高,说明这2个主题的语义越相似。
定义4 主题词汇分布偏斜性(TW)。构造基准主题zb,使得对于每个词语wi(i=1,2,…,V),出现概率φ(wi|zb)=1/V。主题的词分布偏斜性TW定义为主题zi的词分布与zb的词分布的差异程度,使用KL散度进行计算:
式(4)反映了主题中词汇的分布与平均分布的差异性,TW值越小,主题上词语的分布越接近平均分布。
作弊网页检测通常被视为一个二元分类的问题:将网页用一系列特征来表示,随后使用机器学习的方法建立分类器,将网页分为正常网页与作弊网页两类。TSSD的算法框架如图1所示。
图1 TSSD算法框架
TSSD算法以网页文件作为输入,对网页内容进行预处理,抽取网页正文,去掉停用词,最终生成网页词集文档,然后使用LDA方法进行主题建模,并对构建好的主题模型进行语义分析与计算,抽取网页的语义特征与统计特征,最后使用机器学习分类算法进行分类检测。
3.1 算法设计思想
在基于内容的网页作弊中,作弊网页不仅在词汇数目、词汇频率等统计特征上与正常网页具有区别,而且在文本主题上也有与正常网页显著不同的特征。作弊页面通常是“主题堆积”的,即在内容中添加了大量与某些主题相关的关键词,以提升网页在这些主题上的查询相关度。这些关键词通常是语义相近的,且在频率分布上不具有自然语言中的词汇分布特点。TSSD方法根据此特点,提出了以下5个语义特征,在主题相关度、主题词汇分布规律等方面进行作弊网页检测。
3.2 主题与语义的特征
3.2.1 网页主题词汇分布倾斜度
定义网页主题词汇分布倾斜度PW(m)的计算公式为:
其中,TW(zi)为定义4中主题词汇分布偏斜性;PW(m)反映了网页主题关键词分布,取值越小说明主题中各个关键词出现频率越平均,不符合自然语言中少数词汇出现频率较高的特点,这样的网页有可能是作弊网页。本文基础了统计计算,绘制图形如图2所示。
图2 网页主题词汇分布倾斜度统计图
图2 中包含了一个柱形图和一个折线图,柱形图描述了网页在某个方面的分布,水平轴描述了网页在该方面的取值范围。左垂直轴适用于柱形图,反映了区间上网页数目比例,右垂直轴适用于折线图,反映了区间上作弊网页的比例,即作弊可能性。本节其他图的描述方式也是如此。
从图2中可以看出,当网页的PW(m)取值较低时,网页具有较高的作弊可能性。
3.2.2 网页主题明确度
定义网页主题明确度PT(m)的计算公式为:
其中,T(zi)为定义2中主题语义明确度;PT(m)反映了网页各个主题明确度的平均值,部分作弊网页中过分堆积特定主题相关的关键词,导致其PT(m)取值明显高于正常网页。对实验数据进行统计绘制,图3为网页主题明确度统计图。
图3 网页主题明确度统计图
3.2.3 网页主题间相关度
定义网页主题间相关度PTS(m)的计算公式为:
其中,TS(zi,zj)为定义3中的主题间语义相关度。PTS(m)反映了网页各个主题之间语义相关度的平均水平,作弊网页中由于主题堆积导致其主题间语义相关度取值过高。对此针对实验数据绘制了统计图如图4所示。
图4 网页主题间相关度统计图
图4 显示,作弊网页取值与正常网页具有较大的不同。取值高于0.001后,网页作弊的可能性随着取值的变大而不断增加。
3.2.4 网页主题综合明确度
定义网页主题综合明确度PTA(m)的计算公式为:
其中,δzi表示主题zi在网页m中的权重。PIA(m)考虑到各个主题在网页中的权重,对T(zi)进行了加权求和,反映网页整体的主题明确度。作弊网页中的主题堆积现象导致网页整体主题明确度取值过高。如图5所示描绘了对实验数据的统计结果,可以看出作弊网页与正常网页的差异,随着取值的不断上升,网页作弊的可能性也不断提高。
图5 网页主题综合明确度统计图
3.2.5 网页主题词汇语义相关度PWS(m)
定义网页主题词汇语义相关度PWS(m)计算公式为:
其中,Sim(wi,wj)是词汇wi,wj的语义相似度。PWS(m)考察主题内词汇之间的语义相似度,取值过高可能是主题堆积与关键词堆积导致,这样的网页很有可能是作弊网页。图6为关键词语义相似度统计图。
图6 关键词语义相似度统计图
从图6中可以看到,大部分网页的网页关键词语义相似度的取值在0~4之间。当取值超过4时,网页作弊的可能性迅速上升,当取值超过6时,网页作弊可能性几乎达到100%。
TSSD方法以网页内容作为输入,每个网页看作一个单独的文档,对于不同长度的网页,文档规模也大小不一。部分网页含有的文本内容较少,只有几十甚至十几个词语,类似于tw eets。有研究显示,对这样的短文本进行建模时,由于词汇数目较少,缺少足够的词出现数目,无法推断词之间的相关性,导致主题建模结果受到影响[13]。针对这个缺陷,同时为了加强文中方法的检测效果,本文选取了文献[3-4]中部分基于内容的统计特征:平均单词长度,标题单词数目,Keywords元标签词汇数目,锚文本数目,可见内容比例,网页压缩率。
(1)平均单词长度。部分作弊网页采用热点词汇拼接的方式进行作弊,统计显示网页平均单词长度较高的网页具有高的作弊可能性。
(2)标题单词数目。标题是网页内容的概括,在信息检索中具有很高的权重。作弊网页常常在网页标题中添加大量检索关键词,以增加检索范围与权重,导致其标题单词数目远高于正常网页。
(3)Keywords元标签词汇数目。Keywords元标签关键词填充是一种常见的作弊手段,部分作弊网页在Keywords元标签中添加了大量关键词,导致其词汇数目明显高于正常网页。
(4)锚文本数目。搜索引擎中,锚文本可以同时提高所在网页与指向网页的排名。作弊网页之间通常相互链接,并大量使用锚文本来增加彼此的权重。因此,作弊网页中通常具有更多的锚文本。
(5)可见内容比例。一些HTML标签并不会被浏览器翻译,例如网页头部meta标签,图片标签中alt属性等。然而这些标签通常被作弊网页利用,作为关键词堆积的隐藏目标。这里的可见内容比例定义为网页中无标记文本的长度除以网页总长度,以比特为单位。正常网页注重网页的布局与文本的装饰,文本标记较多,可见内容比例较低;而作弊网页注重关键词的堆积,文本标记相对较少,导致其可见内容比例较高。
(6)网页压缩率。一些搜索引擎给予网页中多次出现的关键词较高的权重,因此部分作弊网页添加了大量的重复关键词与重复内容,造成网页内容的冗余。对此可以利用压缩率来测试网页的冗余,其中压缩率为网页压缩后的大小除以网页压缩之前的大小。具有较高重复内容的作弊网页,其压缩率远远小于正常网页。文中采用GZIP算法来进行网页压缩。
3.3 特性提取
TSSD方法以网页文件作为输入,每个网页对应一个单独的文件,文件内容即网页源码。本文中特征提取的步骤如下:
(1)网页预处理:对每一个网页m,进行预处理,得到网页正文内容。例如,去掉htm l标签、脚本与布局等。
(2)生成词集文档:使用Lucene提取正文中的词汇,并去掉停用词与无用的标记与符号,生成词汇集合W(m)。
(3)LDA主题建模:以W(m)作为输入进行主题建模,得到m的主题模型,包括文档-主题矩阵、主题-词语矩阵以及词汇表等。
(4)语义分析与特征提取:对构建好的模型进行计算,得到语义特征集以及统计特征集,最终将m表示为语义特征和统计特征组成的向量。
3.4 分类学习
TSSD方法将网页用语义特征和统计特征组成的特征向量来表示,然后使用W eka中的机器学习算法进行分类学习,如决策树,贝叶斯方法等。图7为使用C4.5算法获得的决策树的一部分。
图7 决策树(部分)
4.1 数据集
实验中使用了2个公共数据集:WebbSpamCorpus与WEBSPAM-UK2007。其中,WebbSpamCorpus包含了超过350 000个作弊网页,是已知最大的作弊网页数据集。WEBSPAM-UK 2007包含了105 896 555个网页,专门用以进行作弊网页检测研究。
实验将以上2个数据集混合,进行随机选取,去掉其中的跳转页面与空白页等无效页面,最后得到一个包含18 724个正常网页与2 560个作弊网页的数据集,其规模与作弊网页比例近似于文献[3]中使用的数据。
实验中使用开源工具JGibbLDA作为主题模型推断的实现工具,并使用开源机器学习工具W eka进行作弊网页的分类测试。使用精确率(precision)、召回率(recall)与F1测度(F-measure)作为分类结果的评价标准。
4.2 结果分析
为测试方法的检测效果,本文进行了多组实验:首先对LDA中K与twords的不同取值进行了对比测试,然后测试了机器学习中不同分类器的分类效果,最后与文献[3]的统计特征进行了对比测试。
4.2.1 K与twords对结果的影响
在LDA方法中,主题数K与主题中关键词数twords的取值对建模结果影响较大。对此,实验中对实验数据构建了多组主题模型,分别取值K,twords=4,5,6,7,8,9,10,并采用w eka中C4.5分类器进行分类测试。最后结果如图8所示。
图8 不同参数的结果对比
从图8中可以看到,随着K与twords取值的上升,Spam类的Precision、Recall与F-measure值都在不断上升。当取值为10时,作弊页面的查全率最高,同时获得了较高的精确率与F-measure值。
4.2.2 比较不同分类器对分类结果的影响
实验中对Weka中不同分类器在实验中的检测效果进行了对比分析。选取K=10,twords=10,并使用了C4.5、Random Forest、Random Tree、NaiveBayes、REPTree分类器进行了分类对比。结果如图9所示。可以看出,使用RandomForest分类器可以获得最好的分类效果。为了增强检测效果,实验随后使用Boosting与Bagging方法来提高Random Forest分类器的分类效果。结果如表1所示。
图9 不同分类算法的结果
表1 AdaBoost与Bagging分类效果 %
结果显示,使用Boosting与Bagging方法均可以提高Random Forest分类器的分类效果,其中Boosting方法提升作弊网页的查全率与正常网页的精确率,而使用Bagging方法则提升可作弊网页的精确率与正常网页的查全率。
4.2.3 与传统检测方法的效果比较
为了比较基于主题的检测方法与其他检测方法的效果,实验中模拟了文献中Ntoulas提出的基于内容的检测方法,并使用本文提出的TSSD方法在同一实验数据上与其进行对比。方法选取Random Forest分类器,结果如表2所示。
表2 TSSD与N tou las方法比较 %
实验结果显示,TSSD方法可以获得更高的精确率、查全率与F-measure值,在各项指标上均优于Ntoulas的检测方法。由此可见,TSSD方法可以有效的对作弊网页进行识别,并且比起传统的基于统计特征的检测方法可以获得更好的检测效果。
针对传统的基于内容的作弊网页检测方法的检测只停留在浅层统计特征的缺陷,本文提出基于主题与语义的作弊网页检测方法TSSD,对网页内容进行主题建模与语义分析,提取了一系列深层的语义特征,提升了检测层面。实验结果显示,该方法可以获得较高的精确率、查全率与F1测度,具有良好的检测效果。
[1] Gyongyi Z,Garcia-Molina H.Web Spam Taxonomy[C]// Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web.Chiba,Japan:[s.n.],2005:576-587.
[2] Spirin N,Han J.Survey on Web Spam Detection:Principles and Algorithm s[J].ACM SIGKDD Explorations Newsletter,2012,13(2):50-64.
[3] Ntoulas A,Najork M,M anasse M,et al.Detecting Spam Web Pages Through Content Analysis[C]//Proceedings of the 15th International Conference on W orld W ide Web.New York,USA:ACM Press,2006:83-92.
[4] Prieto V M,álvarez M,Cacheda F.SAAD,a Content Based Web Spam Analyzer and Detector[J].Journal of System s and Software,2013,86(11):2906-2918.
[5] Gyöngyi Z,Garcia-Molina H,Pedersen J.Combating Web Spam with Trustrank[C]//Proceedings of the 30th International Conference on Very Large Data Bases.New York,USA:ACM Press,2004:576-587.
[6] Benczur A A,Csalogany K,Sarlos T,et al.SpamRank¯¯¯ Fully Automatic Link Spam Detection Work in Progress[C]//Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM Press,2005:57-64.
[7] Castillo C,Donato D,Gionis A,et al.Know Your Neighbors:Web Spam Detection Using the Web Topology[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2007:423-430.
[8] 陈小飞,王轶彤.一种基于链接结构的Spam网页过滤算法[C]//第27届中国数据库学术会议论文集.北京:中国计算机学会数据库专业委员会,2010.
[9] 魏小娟,李翠平,陈 红.Co-Training¯¯¯内容和链接的Web Spam检测方法[J].计算机科学与探索,2010,(10):899-908.
[10] Wang W,Zeng G,Tang D.Using Evidence Based Content Trust Model for Spam Detection[J].Expert System s with Applications,2010,37(8):5599-5606.
[11] Wu B,Davison B D.Cloaking and Redirection:A Preliminary Study[C]//Proceedings of the 2nd International Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM Press,2005:33-40.
[12] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[13] Hong Liangjie,Davison B D.Empirical Study of Topic Modeling in Twitter[C]//Proceedings of the 1st Workshop on Social Media Analytics.New York,USA:ACM Press,2010:80-88.
编辑 索书志
SPam Web Detection Method Based on ToPic and Semantic
YI Junkai,LIU Mufan,WAN Jing
(College of Inform ation Science and Technology,Beijing University of Chem ical Technology,Beijing 100029,China)
Web spam detection can be considered as a bi-classification problem.Currently,content-based spam web detection mainly uses statistic features,however,they are just at a junior level and have several limitations.The topic and semantic based spam Web detection method is presented which uses both semantic features and statistic features,expanding the spam detection to topic-level.The method conducts topic modeling,mappings the content to topic space,and computes and extracts the semantic features based on its topic distribution in topic space,and uses both semantic and statistic features to detect the spam.Experimental results show that the proposed method perform s better in term s of precision,recall and F1values.
classification;topic model;Latent Dirichlet A llocation(LDA);semantic feature;semantic sim ilarity
易军凯,刘慕凡,万 静.基于主题与语义的作弊网页检测方法[J].计算机工程,2015,41(9):311-316.
英文引用格式:Yi Junkai,Liu Mufan,Wan Jing.Spam Web Detection Method Based on Topic and Semantic[J]. Computer Engineering,2015,41(9):311-316.
1000-3428(2015)09-0311-06
A
TP309
10.3969/j.issn.1000-3428.2015.09.057
中央高校基本科研业务费专项基金资助项目(ZZ1311)。
易军凯(1972-),男,教授,主研方向:信息安全,人工智能,语义挖掘;刘慕凡,硕士研究生;万 静(通讯作者),讲师。
2014-07-10
2014-09-19 E-m ail:wanjing@mail.buct.cn