基于支持向量机的Web代理缓存内容分类

2017-02-14 10:18刘宇松
科技与创新 2016年21期
关键词:支持向量机

刘宇松

摘 要:Web代理缓存对提高万维网的性能起着关键性的作用。然而,在确定哪些Web对象在随后的网络访问中会被再一次访问非常困难,这仍然是现有Web代理缓存技术所面临的一个大问题。利用支持向量机对Web代理日志数据的学习,可以很好地解决Web代理缓存技术的相关问题,从而使代理缓存的利用率更高。

关键词:支持向量机;代理缓存;高维度空间;Web缓存技术

中图分类号:TP333 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.21.099

网络对我们的生活产生了巨大的影响。在许多领域,比如教育、娱乐、医学等,网络已经成为一个十分有用的工具。这些迹象表明,互联网用户的快速增长,导致互联网经常“拥堵”,最终,互联网用户受到了缓慢的响应时间的影响,尤其是在浏览特别流行的网站。最流行的基于软件的解决方案是Web缓存技术,Web缓存有3个层次,分别是客户端层、代理层和原始服务器层。代理服务器在用户与网站之间起着纽带作用,它可以缩短用户请求的响应时间,节省网络带宽。因此,为了实现更短的响应时间,一个有效的缓存应该建立在代理服务器上。

由于缓存空间的限制,需要一个智能的方式来有效管理Web缓存内容。传统的缓存策略是无效的,因为其只考虑一个因素,而忽略了其他对Web缓存效率有影响得因素。因此,现在有许多缓存策略提出,并获得了很好的效果。

支持向量机是一种监督式的学习方法,它有许多良好的品质,使其成为了最流行的算法之一,在许多分类应用中,比如文本分类、网页分类等的应用比其他算法更快、更准确。

本文提出了用支持向量机来预测稍后可重新访问的Web对象,将这些预测的Web对象存储在代理缓存空间上,以更有效地利用代理缓存空间。

1 支持向量机

支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等人于1995年首先提出的,其在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能推广应用到函数拟合等其他机器的学习中。

支持向量机的主要思想是使用一个高维度空间,在这个空间中找到一个错误率最小的超平面,进而用来对两个类进行二元划分。支持向量机是一个学习模型,需要通过学习来运行。在学习阶段,支持向量机学会发现几个代表学习数据的支持向量。因此,支持向量机根据学习模型对一个给定的未知的数据集进行分类。

然而,对于许多现实生活中的问题,想要找到一个超平面的数据进行分类很困难。对于处理非线性可分数据,在线性情况下仍然可使用相同的公式和方法,输入的数据只从其原始空间转换到另一个高维度空间。在这个空间里,一个线性决策边界可以分离出正面和负面样本,我们将这个空间称为特征空间。因此,支持向量机的基本思想是将输入空间中的数据通过一个非线性映射将数据映射到一个特征空间里。

综上所述,非线性决策边界通过转换将原始数据转换到一个更高维度的特征空间中。然而,这种转换却从来都没有明确的实施过。相反,支持向量机的核心函数在学习过程中不需要了解变换功能就可以计算所有的数据点。支持向量机有多个核心函数供用户选择,以解决不同的问题。不同的核心函数适用于不同的问题类型。

2 基于支持向量机的分类方法

本文提出一个基于支持向量机的对Web代理缓存内容进行分类的分类器方法框架,如图1所示。该方法包括数据收集、预处理和学习阶段。因此,Web缓存是可以通过经过学习的支持向量机分类器来管理的。

2.1 数据收集

Web代理日志文件可以提供用户在登录到服务器后所进行的一切操作信息。笔者认为,Web代理日志文件是完整的知识体系,是可以作为学习数据来使用的,可有效预测下一个Web对象。

2.2 数据预处理

在支持向量机学习阶段之前,需要对数据进行预处理,使数据可被支持向量机学习。数据预处理包括数据跟踪准备和数据集准备两方面。

由于在日志文件中有一些无效的条目和不相关的条目,在数据跟踪准备时需要删除这些条目。数据跟踪准备分为以下3步:①数据分析。明确日志文件中连续记录之间的边界以及每条记录中的不同字段。②数据过滤。了解不相关的输入,比如非缓存请求、错误的HTTP状态码输入等,只考虑正确的输入。③数据定型。消除不必要的字段,将数据确定为最终适合支持向量机学习的格式。

2.3 学习阶段

支持向量机已被广泛应用于解决各种分类问题中。在核心函数学习的帮助下,支持向量机已经应用到了许多领域中,并取得了成功。

3 结束语

Web缓存是提高Web系统可扩展性的有效解决方案之一。本文提出了基于支持向量机的预测Web对象的智能方案,用支持向量机预测Web对象随后是否可以重新访问。因此,支持向量机可以有效地优化代理缓存的使用,具有良好的性能。

参考文献

[1]郎宇宁,蔺娟如.基于支持向量机的多分类方法研究[J].中国西部科技,2010(17).

[2]刘成忠.两种不确定支持向量机分类性能的对比研究[J].计算机技术与发展,2011(11).

[3]张松兰.支持向量机的算法及应用综述[J].江苏理工学院学报,2016(02).

[4]张超群.代理缓存关键技术的研究[J].计算机工程与科学,2007(02).

〔编辑:张思楠〕

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究