一种基于K-均值聚类算法的站点结构优化研究
随着互联网科技的进步,网站与互联网资源已经成为人们生活中不可或缺的一部分,据统计2014年全球互联网网站已破10亿,网民数量逼近30亿,与此同时这个数量仍在不断增长。在开启海量信息分享时代的同时,如何使人们更加高速有效地利用网络资源已成为各大互联网网站关注的焦点之一。要在同类型网站中脱颖而已,网站的设计者往往根据不同的用户浏览模式和使用习惯,设计或优化出适合不同用户的网站,提高网站的访问量和访问效率。因此,本文在此基础上提出了一种K-均值聚类算法,对网站用户Web日志数据进行提取聚类,分析聚类后用户簇所访问网页的特征以实现后期对网站站点结构的优化目的。
Web网站存在的问题
当下,网络信息量的迅速增长和网站结构的日益复杂与不断变化,在给用户带来海量信息的同时,也存在一些亟待解决的问题。
信息的爆炸性增长提高了用户浏览和查找相关信息成本。用户在较短的时间内难以准确定位所需的信息。
同时对于网站经营者而言如何提高用户访问量和增加用户成为面临的主要问题。通过优化网站以提高网站用户的访问满意度。
因此,可以通过调整网站站点结构以提高网站Web服务的效率,方便用户在有限的时间内从大量的数据与信息中快速的访问与查找自己所需的信息,从而降低用户的浏览成本。
算法思想
K-均值聚类算法广泛的应用于Web日志挖掘,对网站用户的访问特征分析归类。
该算法主要思想:随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心,然后对剩余的每个对象根据其与各个簇中心的距离(这里采用欧式距离),将它赋给最近的簇;重新计算每个簇的平均值,不断重复这个过程,直到聚类中心不会再发生变化。聚类后的结果是使簇内具有较高的相似度,而簇间的相似度较低。
其中,E是簇内所有对象的平均误差的总和,x是空间中的点,表示给定的数据对象,mi是第i个簇Ci的均值。
算法描述
算法改进
在对网站站点研究的过程中同时包含访问用户和网站页面本身两个对象,因此,在本文的K-均值聚类算法中定义每个数据对象包含两个特征值。
建立用户与页面的相关矩阵
图1 矩阵分布
图2 程序聚类结果
图3 首次聚类
图4 二次聚类
图5 三次聚类
图6 最终聚类
其中:T(Pj)为用户的访问时长。为浏览页面的有效时间,ti为相应访问时间,si为访问当前页面Pj中的资源量,为页面Pj中的信息量。
f(Pj)为页面的点击率,其值的大小与偏好值成正相关。c为访问页面Pj的次数,而C为在同一时间段内访问所有页面的次数和。
其中为该页面加载时用户的满意时间值,R为加载速度的可接受值。
表1 相关矩阵表
综上建立用于测试的数据矩阵(即用户与被访问页面的相关矩阵)如矩阵表1所示。每一纵项表示一段时间内的用户集;每一横项表示这段时间内被访问的页面集。
基于K-均值算法的用户聚类
利用上述的K-均值聚类算法以矩阵表1为例实现用户聚类,第一维特征值数据值即用户页面的偏好程度,将具有相似浏览模式的用户聚类成一簇,通过聚类发现该簇内的用户的访问兴趣和爱好。例如矩阵表中的24名用户分布如图1。
矩阵中24名用户聚类的结果如图2。
聚类过程展示如图3-图6所示。
由上述聚类结果可见所有测试用户被聚类为红色区域和蓝色区域两大类,根据聚类算法的特点保证各簇内具有较高的相似度,而两个簇间的相似度较低。
优化方向
由用户聚类结果可区分出给网站的常用用户和新用户,以及该类用户如红色区域用户具有相似的访问爱好,因此,可根据该类用户爱好的不同对网站结构重新进行布局,已达到提高用户体验的效果。于此同时对每一类用户经常访问的网页页面属性进行分析:
当>0.8,高效页面:保持
当>=0.4,一般页面:可以使用
当<0.4,低效页面:需调整
如此类用户经常访问的页面的属性值较低但用户数量有较多时就要对该网站的性能进行优化,如设置专属服务、提升硬件配置等作为下一研究课题,以提高用户访问满意度。
本文提出了一种基于K-均值聚类算法的网站站点结构优化方法,通过建立用户与页面的相关属性矩阵,利用K-均值聚类算法完成对用户的聚类,根据聚类结果和页面属性值调整整个网站站点内容和结构,达到网站优化的目的。本研究还存在一些未解决的问题需要进一步验证,希望能在此方面继续研究工作。
10.3969/j.issn.1001- 8972.2016.20.024