家宽感知评价的数据特征处理方法

2020-06-04 10:01常铁一
科学导报·学术 2020年20期
关键词:质量分析

摘  要:大数据下,如何基于机器学习开展开用户评价,是各大网络运行商研究的重点。当前,家庭宽带网络用户日益增多,对数据预处理的工作量也日益增加,当前普遍存在着一种“轻数据、重算法”的问题,为解决这一问题,本文在明晰数据处理重要性的基础上,从数据质量、数据特征及数据清洗及收敛等视角对特征数据采集进行分析,因此来验证结果,这对于提升家宽感知评价具有重要的参考价值。

关键词:家庭宽带;数据特征;处理分析;质量分析

引言

目前,人们日常生活几乎离不开互联网。据统计,2019年底中国移动、电信、联通三家企业办理的家宽用户超过4.49亿。同时,互联网又加强了对接入宽带用户的服务,赢得了用户较高的评价,这些数据能让社会各界对互联网和运营商更加重视。

一方面,随着模型算法的逐渐完善,大数据挖掘主题也是不断的发展,进而给数据预处理和抽取选择等工作带来更多的挑战。由于主题和商家不同导致数据处理方法达不到统一标准,因此会出现轻数据、重算法等问题。为保障后期的挖掘效果,在算法上要必须敢于创新,且保证数据的质量。

另一方面,模型算法和大数据处理技术自身不断地发展以及其它广泛的应用和经验,都提升了运营商数据的挖掘能力。机器学习和人工智能是当下的主流,市场营销、企业管理中都存在运营商的应用。

1 数据处理重要性

1.1 数据预先处理意义

业内普遍流传一种说法:机器学习的上限取决于特征和数据,而算法和模型只是接近上限。那么问题来了,什么才是特征工程呢?其实特征工程就是一项基本的工程活动,只是它尽可能的体现了模型使用及算法,与原始数据相比更能突出它的特征。家宽感知评价工作中最主要的是数据预处理,选择精确高效的特征数据处理,是后期机器学习的前提,可以更好的解决数据维度繁琐的问题。

1.2 维护支撑工作重心转变

现代通信技术飞速发展,通信网的工作重心也发生转变,由原来的以网络为中心转变为以客户感知和业务质量为中心。在这种情况下,必须及时发现并解决客户及业务出现的问题,并且采集各种类型的数据进行预处理,为挖掘数据挑选适当的特征进行分析。现在为了提升家宽的服务,要仔细领会家宽用户的所有评价,找出影响用户体验的一些不足,在此基础上展开优化设计。

1.3 CRISP-DM过程介绍

CRISP-DM是跨行业数据标准的简称。它指的是行业标准的过程,刚开始由数据挖掘相关行业和欧洲委员会总结得出。跨行业数据标准模型注重的是挖掘数据的整个过程,而不能像以前一样只看重数据分析、整理、显示及模型构建,这有利于后期把模型的延伸和模型评价归纳到数据挖掘的整个过程中。跨行业数据标准清晰把数据挖掘项目的步骤和方法从实践中体现出来,它在家宽用户感知评价过程中也有所体现。

2 特征数据采集

目前,能解决数据的储存及获取问题的便是特征数据获取。随着现代网络技术的不断发展,给特征数据带来更多的选择方案,就好比这篇文章提及的对家宽感知评价的数据特征的处理。

特征数据刚开始的选择是因为需要一些可用性的评估数据来达到家宽感知评价的目标。每次要获取特征数据的范围前都需要进行评估特征的实用性,原因是要提前了解评估的覆盖率、获取的难易程度及精确度。

现在影响用户感知评价的因素不仅是电视及用户上网访问的质量,还包括用户兴趣、网络质量、家庭网速等因素。所以,在收集用户感知评价时,尽量多选择一些变量,以防有价值的因素被忽略。另外,可以运用机器算法清除无关或对于的东西,保证特征数据的价值。

考虑到用户感知评价和特征数据获取难度等多种因素的影响,本文罗列五十多个特征数据的指标,其中包括家宽用户的服务质量、基础信息、行为偏好、家庭网络质量、业务质量、承载网络质量等等。

关于以上刚开始选择的特征数据指标中,用户上网延时、链路流量、光衰等可以获取一个季度的特征数据。

3 数据特征处理分析

由于采集的特征数据存在缺失值、数据冗余、定性及格式不一致等问题,因此需要对其预处理及清洗。为避免后期在数据挖掘时数据不平衡及样本不正常,必须进行的一步操作就是数据特征处理,同时数据的变换可以提升关于机器算法的效率和能力。數据探索分析是数据预处理的前提,同时也是数据挖掘结论分析的基础,在挖掘数据过程中必不可少。检测初始数据是否合理和不能进行分析的数据是数据探索分析的主要任务。数据探索分析过程主要围绕数据特征分析和数据质量分析两部分。

3.1 数据质量分析

数据质量分析包括异常值分析、缺失性特征分布分析、缺失值分析和业务约束检核四个方面。

缺失值分析是指对初始数值缺失的识别,方便区分随机缺失情况、完全随机缺失情况、图形展示缺失数据情况、非随机缺失情况。

异常值分析是为了避免样本和数据不匹配的特征,严格把好样本和数据匹配这关,为保证后期不会影响建模的结果。用三西格玛原则筛选异常值,保证筛选分析的各个特征值能符合正态分布。同时对于不符合正态分布特征的异常值采用箱型图分析。

业务约束检核是按照平时的业务经验,对每个变量之间的相互关系进行分析,找出相互矛盾的数据和逻辑上不合理的数据。

缺失值特征分布分析主要针对指标值分析、缺失值占比和单个类别占比等。

3.2 数据特征分析

数据特征分析是指在数据质量保证的前提下,通过计算一些特征量及绘制图表进行特征分析。分析内容包括以下几点;

特征统计量分析是对离中趋势度量和集中趋势度量进行分析。离中趋势度量一般以四分位数间距、极差、变异系数、标准差、为主;集中趋势度量一般以中位数、众数、平均值为主。

单个类别的分析需要对各个类型的变量占比分布进行分析,主要分析对象有带宽、光猫型号、手机状态、接入类型、建设单位、业务场景等等。

特征相关性分析要计算各个指标的相关系数,就得采用Pearson和Spearman这两种统计方法,并且还要绘制散点图进行分析。而一些变量不服从正态分布、连续变量和分类变量要进行单独的分组并计算相关性。

3.3 特征清洗与收敛

在特征清洗之前,先采用过滤法及不同变量的强度对指标进行初选,以防在清洗过程中无效的工作。

1. 异常值及缺失值处理

在定距型数值填充过程中,按照数据探索得出的结论,固定的值、样本中值、平均值可以对定距型数值进行数据填充。

对于非定距型数值,可以利用特征数据中出现频率最高的值对非定距型数值进行填充并弥补缺失值。

关于异常值的处理,可采用数值填充的方式或直接删除的方式来对数值进行拟合修正。它主要运用在距离型模型、逻辑回归等对异常数值比较敏感的算法之中。

2. 變量衍生

什么是变量衍生?变量衍生就是因原始变量的变化而改变的变量,比如波动变量,均值变量,占比变量,趋势变量等。如果要确定数据源的映射关系、确定数据的选择、确定衍生数据逻辑转变和数据的基础变量,就必须借助数据源的实际状况及感知评价的分析。对于初始数据的时长、下段终端字段、次数和延时,计算方法是目前的观察期减去上一次观察期的值或本月数值去除前三个月的平均值。经常断网次数变量、投诉次数变量、光线路终端链路越限变量。经过衍生变量后,增加了17个新变量,最终累计获得72个变量。

3. 数据变换

什么是数据变换?在对数据进行统计分析时,要求数据必须满足一定的条件。就像归一化处理、连续值离散化和特性编码处理等过程都必须经过用户感知评价的特征数据变换。

连续值离散化是系统利用特殊的变换方法把连续属性转变为分类属性,目的是增强它的预测能力。有分类属性的数据要进行分类算法且必须进行连续值离散化。

特性编码处理是通过文字的方式对非数值进行描述的处理,首先得进行整数编码,不可直接使用。比如,是否卸载特定软件属性的‘是编码为‘0,‘否编码为‘1。

归一化处理是为了清除取值范围及指标量纲所衍生的影响,把特征数值按照一定的比例缩放,使它落入指定区域。由此得出,归一化处理主要针对应于逻辑回归等算法,可有效提升树形算法的运行效率。

4. 特征筛选

什么是特征筛选?特征筛选就是能剔除无关变量而选择能使预测变量更精确的过程。由于前期整理的特征数据比较繁杂,为更好的选择与目标变量相关性最大且感染性最弱的变量。但是模型算法的不同会导致与特征数量的匹配度不符,所以在没有特征算法以前,就需要特征筛选的必要环节。

只保留缺失值或单一值占比在20%以下的特征,剩余特征差不多有61个。利用特征筛选的相关性判辨除去特征的共线性,当相关系数超过0.8的两个变量,可以凭借自己的业务经验去除一个,即剩余特征49个。最后按照随机学习模型和特征排序主成分法对特征的重要程度排序,筛选32个特征。

4 结果分析

数据特征通过以上经过标准化过程的处理,几乎解决了样本数据中的归一化、缺失值、离散化、特征维数控制、异常噪等问题。一方面,通过样本平衡、特征筛选等进一步处理,很大程度上提升了目标分类和模型训练效率的准确性;另一方面,给后期的模型算法提供了更广泛的选择空间。通过利用随机森林、XGBoost算法和逻辑回归三种模型,与特征数据规范前相比,这几种模型的效果明显提升。

结束语

随着家宽业务的不断发展,用户感知评价也逐渐成为家宽运营的关键。同时网络中还存在一些评估运维等问题,不能直接反映出用户的满意程度。为解决此类问题,家宽运营商还引入了投诉反馈、业务体验、服务质量等多项业务。目前对家宽感知评价数据的挖掘过程中,还存在轻数据、重算法等问题。鉴于此,特征处理的关键方法和标准流程是本文提出感知数据的指标,给后期数据效果提供支撑。同时,应该优化数据处理的规范性与模型适配性,通过更多实践应用来丰富理论,增强方法的可实践性。

参考文献

[1]  张子樵,廖振松,徐雯,邹淑武.一种家庭宽带投诉精细化分析系统[J].信息通信,2017(03):230+233.

[2]  孙静博,高宸,李勇.面向大数据的电信宽带接入点行为特征[J].太赫兹科学与电子信息学报,2017,15(06):928-932.

[3]  程洁. 石河子移动公司家庭宽带业务流程再造研究[D].石河子大学,2017.

[4]  黄俊杰.中国移动城市家庭宽带发展评估策略分析[J].中国新通信,2017,19(10):45-46.

[5]  熊鹰.达州移动构建宽带用户体验指标体系 打造精品家庭宽带网络[J].通信世界,2017(03):51.

[6]  刘光彬. MY移动家庭宽带用户满意度调查与提升策略[D].电子科技大学,2019.

[7]  吴春琼.面向大规模数据的特征趋势推理算法[J].吉林大学学报(理学版),2020,58(02):364-370.

作者简介:常铁一,男,1990.10.14,陕西绥德,本科,研究方向:家庭宽带。

猜你喜欢
质量分析
建立班级质量分析 推进班级有效管理
抽样检验质量分析对提升产品质量的作用研究
药品质量分析在其评价抽验中的作用探讨
产融结合型企业利润结构质量分析体系的构建
浅谈电子元器件的质量分析与控制
论影响会计核算方法选择的因素
质量问题在建筑电气工程管理中的分析和处理策略