基于Alexa的网站特点及性能分析

2018-09-10 12:25李大为王京春赵兵兵
计算机与网络 2018年18期
关键词:数据分析

李大为 王京春 赵兵兵

摘要:调研了目前网络流量计量的发展状况,列举了常用的流量指标和应用特点,分析了Alexa网站排名的机制和提供的流量数据,并使用实际数据验证了Alexa的排名。提出了数据的估算方式来分析中国地区的排名情况,对Alexa中国排名75~125名的流量指标数据进行归纳处理,提出排名处于该区间的网站的特点,给出提升排名在数据指标上应达到的目标和改进建议,为新闻、门户网站建设及网站评价提供参考,为网站提升Alexa排名提出建议。

关键词:网站排名;流量指标;Alexa;数据分析

中图分类号:TP391.4文献标志码:A文章编号:1008-1739(2018)18-64-3

Analysis on Characteristics and Performance of Website Based on Alexa

LI Dawei, WANG Jingchun, ZHAO Bingbing

(China Science and Technology Museum, Beijing 100012, China)

0引言

随着互联网的不断发展,各式各样的网站层出不穷。网站作为一个展示信息的渠道和用户交互的平台,已经成为当今最重要的媒体形式之一。作为媒体的网站,其目的是希望信息本身得到有效的传播、扩散及反馈,或者是希望借助用户浏览信息而获得大量的访问,从而推动其他业务的发展。而无论哪一种目的,其实现同样都建立在用户对网站的访问这一基础之上,因此作为网站的发布者,一个重要的关注点就是网站的外来访问量,根据各页面的访问情况来改善网页的内容和质量,并按照用户的行为特点调整网站的结构[1-2]。

和传统媒体有所区别的是巨大的网站数量以及实时的更新速度使得网站提供的信息规模和涉及范围十分庞杂。另一方面,网络媒体又具有传统媒体所不具有的灵活性,网站可以根据用户的个人信息和浏览历史呈现个性化的页面,同时也提供记录用户访问行为的能力。这些因素的综合影响,使得网站的流量分析较之传统媒体,在数据上有着规模、精度和时效上的优势。因此,网站是否覆盖到了目标用户,以及信息是否被有效的访问,这些问题的解答在网站流量分析中拥有更加坚实的数据基础。

1网站流量分析及排名

网站流量泛指网站的访问量,可以使用多种指标来描述[3]。网站流量分析是对网站访客行为的统计学研究,包含选取指标评价网站的流量和获取有效指标的数据。

1.1流量指标

为了评价网站的流量状况、活跃度和影响力,一系列的流量指标被提出来[4-5]。①页面浏览量(Page View,PV):就是服务器收到的页面加载请求数,通常每打开一次网页就会被计入一次PV,同一个用户在一定时间内(一天)对同一个页面的重复访问可以仅计入一次PV。PV反映了网页被浏览的频次,从而体现了网站的活跃程度,但對于存在大量图片页面的情况会更有利,例如浏览组图时可能每张图片都是单独的页面。另外不同的时间可能造成访客群体分布不同,进而使PV产生较大的波动。

②独立访客量(Unique Visitor,UV):是网站以IP地址或其他唯一标识的网络ID进行区分的访问者数。同一访问者对所有网站的访问仅计入一次UV。UV是衡量一个网站用户数量的重要指标,反映了网站的影响力,但对于浏览行为频繁和极少的用户并不进行区分考虑[6]。

1.2 Alexa排名机制

Alexa公布的排名计算方法依赖于UV(按照IP地址区分)和PV。Alexa会使用3个月的数据计算这段时间的排名。UV按照使用Alexa工具栏的用户总数正规化,计算PV时剔除同一用户在同一天内对同一个页面的重复访问部分。正规化的UV和PV计算几何平均值,依据该值进行排名[7]。

几何平均值意味着排名先后取决于2个网站正规化的UV和PV的相对比值,多1倍用户访问和多1倍页面的浏览对于排名的影响是相同的。实际上Alexa排名的难点在于数据的获取而非排名算法,正规化的UV和PV均由Alexa工具条用户群体中相应数据估算,即认为在所有互联网用户中,存在着相同比例的用户访问该网站,并且网站间PV的倍数差距较之真实情况没有明显区别。

Alexa通过2种方式获取互联网网站的流量数据:①Alexa工具条:收集用户端浏览器的访问数据,它在用户访问每个Web页面时都向Alexa后台服务(data.alexa.com)发回一串代码,代码数据中包含十几个核心信息参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率及Alexa工具条版本号等。②Alexa网络嗅探程序:收集网络服务器的流量数据,Alexa通过与网站和DNS服务方合作,部署分布式的嗅探程序主动监测分析Web和DNS服务器的流量信息,从而获取网站被访的统计数据。

2 Alexa实际数据分析

2.1数据选取

主要分析Alexa中国排名100名左右的网站,分析数据均取自Alexa中国排名75~125名,共计51个网站,网站及其排名如表1所示。

从Alexa上可以获取到的网站数据包括全球排名、中国排名、美国UV、Visit、PV、美国访客平均访问数、访问平均页面浏览数、访客平均页面浏览数、各地区访客占比和排名、蹦失率、访客日均页面浏览数、访客日均浏览时间、搜索引擎流量数据、链入链出数据及访客分布等。

虽然Alexa公布了网站的全球排名和各地区排名,但能够取得UV和PV数据的仅限美国等几个地区,中国并不在列。对于上述网站,除了其中9个以外,都在美国有一定的访问量,可以获取到在美国区域排名以及UV和PV数据。通过美国的数据以及各地区访客占比数据,可以对这些剩余共计42个网站中国区域的UV和PV进行粗略估算。

为了估计中国区域的UV,假定各地区访客占比数据保持稳定,可以直接通过美国和中国的访客占比以及美国的UV,计算这42个网站在中国区域的UV。

在估计中国区域的PV时,由于这42个网站中的38个网站的访客几乎全部来自中国,可以认为访客日均页面浏览数和中国区域内的数据相同,另外假定该数据保持稳定,可以将估算的中国区域的UV和访客日均页面浏览数相乘再乘上30,作为过去一个月的PV估计值。按照Alexa说明的网站排名机制,名次与UV和PV的乘积应当呈现相关关系,UV和PV的乘积越大,排名越靠前[7]。

2.2 Alexa美国排名情况

在美国区域访问数据的网站中,网站的Alexa美国排名范围在3~35 967名,将其与美国区域的UV和PV乘积进行比较。考虑到名次跨度较大,访问量差距明显,使用幂函数进行拟合,相关系数达到0.939 2,可以认为相关性显著。

UV和PV的乘积并没有严格按照网站排名递减,原因可能来自排名计算使用的是最近3个月的数据,而UV和PV值来自于最近1个月的数据,部分网站在这段时间内流量有所变化,导致分布有所波动。

2.3 Alexa中国排名情况

38个有美国区域访问数据且中国访客占绝大多数的网站如图1所示,估算的中国UV与PV乘积同中国排名的关系。图中横坐标为网站的Alexa中国排名,范围在75~120名,纵坐标为中国区域的UV和PV乘积。

由于中国区域的UV和PV采取了大量假设和估计,数据的波动较大,而网站的中国排名又较接近,因此这些波动可能导致某些网站之间的排名关系和UV与PV乘积关系不符。但使用周期为5的移动平均线已经可以看出明显的相关趋势,基本可以说明Alexa排名确实是按照其宣称的算法计算的。

2.4 Alexa中国排名网站流量分析

中国区域UV特征,如图2所示。显示了Alexa中国排名75~125名的网站估算的1个月内的UV指标数据。可以看到,绝大部分网站都达到了1E+7量级,即百万量级的UV。

中国区域PV特征,如图3所示。显示了Alexa中國排名75~125名的网站估算的1个月内的PV指标数据。可以看到,所有网站都达到了1E+9量级,即亿量级的PV,相当一部分网站达到或接近十亿量级的PV。

与百度的关联,如图4所示。显示了Alexa中国排名75~125名的网站最近的百度反链、收录、索引的数量。图中标出了各项指标的中值,反链中值1 710 000,收录中值2 725 000,索引中值26 098 111.5。百度作为国内份额最大的搜索引擎,对于流量的引导作用非常强,以上3项值基本反映了这一排名区间的网站和百度的联系程度。

3结束语

通过以上分析,可以发现Alexa中文排名75~125名的网站在某些重要的流量指标上的特征。这一区间的网站的Alexa流量数据通常包括百万量级的月累计UV、亿量级甚至接近十亿量级的月累计PV、访客日均页面浏览数及访客日均浏览时间。除此之外,考虑到搜索引擎的流量情况,如果能够达到逾百万的百度反链和收录条目,并拥有逾千万的索引,对于网站获得大量的入口流量进而达到一定的Alexa排名也有很大的帮助。

参考文献

[1]叶灵.网站网络计量学实证研究———以35所高校网站为例[J].中国集体经济,2015(7):51-52.

[2]程慧平.链接分析指标在大学网站排名评价中的有效性分析[J].信息资源管理学报,2012,2(3):46-51.

[3]林山.利用关键词提升网站排名的方法[J].计算机与网络, 2014,40(23):45.

[4]张平.如何利用关键词提升网站排名[J].计算机与网络, 2015,41(24):44-45.

[5]铁生.网站排名不稳定原因及解决办法[J].计算机与网络, 2014,40(14):44.

[6]马达.网站数据分析中的误区探讨[J].硅谷,2013,6(11):165.

[7]冯涛.基于SEO技术提高网站访问量的策略研究[J].网络与信息,2010,24(12):40.

猜你喜欢
数据分析
电子物证检验的数据分析与信息应用研究
基于matlab曲线拟合的数据预测分析
分众媒体趋势下场景营销的商业前景
佛山某给水管线控制测量探讨
SPSS在环境地球化学中的应用
大数据时代高校数据管理的思考
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议