文/李锴淞
东北财经大学量化评估体验,无线运维不再复杂
文/李锴淞
东北财经大学校园网作为信息化校园的基础服务设施,在2015年主要完成了校内部分区域(主要是学生宿舍区)的无线校园网三期覆盖,目前共计部署无线AP信息点1300多个,覆盖楼宇30余座,覆盖房间数量6770个,涉及教工约2000人,涉及学生约20000人。无线校园网使用人数峰值突破9000人,峰值下行流量超过1Gbps。当无线网迅猛发展的同时,运维人员面临的是巨大的运维压力,无线运维不同于传统网络运维,尤其是学校自建无线网,在人员保障、技术实力等方面均存在一定程度缺陷。
1.网络故障难以重现。很多时候师生反映无线网问题,需要至现场反复确认,很多问题由于无法重现当时情景,导致无法及时得到处理,从而影响用户体验和服务效率;
2.难做的网优参数。无线网的优化相对来说复杂,设计许多层面的知识,同时诸如功率、信道规划,效果验证难度大,其他优化参数更是专业而复杂,对于一般高校运维人员来说上手比较繁琐;
3.难写的报告。每到年底最头疼的一件事就是年终的网络简报,之所以头疼其实还是网络体验数据难以收集和展现,因为很多时候,单凭文字描述已经很难达到预期效果,如何量化网络服务水平,将在未来直接制约高校网络信息部门的工作成果评价。
而这三大类烦恼中,网络优化又是一切的基础,为什么这么说呢?因为之前从网优层次上来说大体分为:网络规划、网络优化及均衡,这三个层次分别对应无线网前期规划设计阶段,无线网使用阶段的接入网优、漫游网优、干扰网优,流量均衡、负载均衡等。其实这些优化层面本身划分并没有问题,但是取得的效果却不是很让人满意。举个例子:规划阶段,传统方法将信道按照物理位置规划后一个一个配置进去,而功率一般就是通过多踩点测试,通过覆盖区域信号强度进行调整;而网优阶段诸如:远端关联、漫游粘滞等对用户体验影响较大的问题,都是通过简单粗暴的参数阈值值一类方法进行操作,实际效果不好。而落到最根本的原因就是无线网缺乏量化的数据评价,也就是说一切的优化操作应该基于广泛全面的数据支撑,而不是凭感觉、凭经验。这才是一直以来无线网用户体验难有提升空间的原因。
WIS智能运维管理系统,其实笔者更愿意称其为无线网络质量评价系统。依靠系统形成无线校园网质量评价体系,即通过建立一套完整的由各类指标组成的数据、图标等组合来对无线校园网的整体运行状况进行评价。评价基于无线校园网质量评价体系广泛收集无线数据,依托于数据产生评价指标;优化基于评价指标,针对性地对无线校园网进行优化调整,增强用户体验。这个理念其实从东北财经大学一期无线网建设的时候就有过,因为网络建设只是开始,最大的工作,最能体现价值的部分是网络运维。WIS可以称为智能运维,也可以称为质量评价系统或是称为无线网络大数据分析平台,这说明基于WIS实际大有可为,不仅仅是网络运维,其实它能够在学校的信息化进程中发挥更大的作用。
WIS的智能运维特性体现在它是一个周期闭环的运维体系,从用户终端、无线设备的24小时网络体验数据跟踪、评估区域体验、用户体验、问题不用重现都能诊断分析问题,这在以前的运维过程中是无法想象的;之后通过机器学习算法,感知各项指标的变化,为用户提供更加聪明的网络服务;通过数据收集、自动分析,对各项指标进行综合比较,列出网络风险、实现智能网优、优化效果自检等工作,将运维人员从无线运维的困境中解脱出来。下面我们来看WIS的几个基本功能。
图1 东北财经大学无线网覆盖情况
这里是东北财经大学WIS系统的一些截图,根据学校自身情况,规划设计区域,从覆盖效果上进行识别,同时针对特定时段特定设备上的各项性能指标进行全程追踪,从而发现覆盖效果不佳等问题。基于用户上线速度、接入稳定性、正常下线率、上线成功率、漫游成功率五个重要参数,精准评估用户上网体验,量化用户接入效果。
图2 用户在线体验效果
图3 STA终端体验水平
图4 终端体验差原因分析
如图2根据用户吞吐、信号强度、接入速率等诸多因素,精准评估网内用户体验,以图中2016年7月5日数据为例,全网用户体验指标平均高于80分。如图3实现单一终端全周期体验水平追踪,精确呈现各项数据指标。如图4同时基于体验量化数据形成网络体验变差原因分布图,以7月5日全网数据为例,根据各项指标的分布构成以及相互的关联关系,可以直观发现造成网内用户体验差的主要原因:时延大、丢包率较高,之后沿着主要原因向下探索发现该类故障出现的具体区域及具体原因,从而针对性地解决无线体验问题。
完整收集引起用户体验差的原因,从而实现一键网络优化,同时提供网络优化建议及优化前后效果对比。
具体优化手段包括:RRM2.0自动规划全网信道和功率,无需人工干预;智能接入,识别远端关联终端并且后续优化;智能漫游,识别和解决漫游粘滞等问题;接入体验,关联认证体验度量和可靠性提升;应用加速,解决游戏跳ping,视频卡顿等问题优化;高度保密会议,一键切入“高密”会议模式,解决“高密”区域上网问题。
下面就几个问题简单说一下:远端关联解决方案,其方法是通过全网的终端探测行为,全天候分析终端是否发生远端关联情况,并分析出COV过高或者过低的射频信号,自动持续调整;漫游粘滞解决方案,通过WIS平台、分析终端各种接入行为、智能识别终端进入粘滞状态后,通过引导终端漫游到最佳AP以达到体验最佳效果。除此之外引起网络体验不同还取决于终端本身,终端行为会因为厂商、支持标准的能力等方面有所不同。终端和无线强相关的特征问题都在陆续识别中。正是通过全网的多维度数据收集及可视化呈现准确的网络质量水平。
下面以东北财经大学的一个具体智能分析实例来说明。图5是东北财经大学梓楠楼(主办公楼)的实际数据,可直观看到全天用户上网数量,上下行流量情况等数据。
以梓楠楼7月4日数据为例,可看到在线最高终端数量超过300,最大下行流量超过20Mbps,最大上行流量不足5Mbps。同样以梓楠楼7月4日数据为例(图6),可以看到全天用户体验度量情况,优质用户占比约30%,良好用户占比约50%,质量较差用户占比约20%,整体用户体验评分高于80分。同时影响用户体验的主要因素为丢包率高、RSSI值低、时延大等问题(图7),针对具体问题制定优化解决方案。
图5 梓楠楼用户流量关系趋势
图6 梓楠楼终端体验覆盖
图7 梓楠楼终端体验差原因分析
在图8,我们可以看到全网各区域分时的综合评分情况,可以看到上午10点中,梓楠楼区域评分出现一定程度的下降,区域变成橙色,点击区域进行数据向下探索,可以看到分AP接入点的分时评分表,可以看到某台AP在10点钟评分出现77分,继续向下探索可看到影响其评分的主要因素是存在大量用户的关联失败事件,继续向下探索可以看到具体是哪一台AP,发生了何种关联失败事件,可以看到引起关联失败的主要原因是AP终端数量已满,针对这种情况,我们就能够通过增加AP缓解用户上网压力了。
图8 梓楠楼无线体验深度分析
另外,WIS是一个智能服务体系,是一个全生命周期的服务体系,从规划设计阶段的WIS云端,到实施部署阶段的WIS APP,到交付验收阶段的WIS客户端,再到后续运维的WIS大数据分析平台。正是这样完整的服务体系,让无线网建设、运维不再是一件难事,让无线网体验终于得到量化评估,终于让我们的报告不再苍白,未来依托WIS我们仍然大有可为。
(为东北财经大学网络信息管理中心)