移动通信用户交际圈研究

2019-11-12 12:01张治高
电脑知识与技术 2019年25期
关键词:多元线性回归预测模型

张治高

摘要:电信运营商拥有天量的通话详单和短信详单,用户的通话及短信同时也伴随着巨大的行为数据产生。过对电信运营商的移动通信用户的通话及短信清单,利用多元回归的预测模型,建立了稳定交往模型。利用最小二乘估计的方法,通过SPSS软件计算出模型的未知参数。计算出用户间稳定交往指数,为运营商提高存量用户的忠诚度,减少用户流失提供了数据依据。

关键词:多元线性回归; 预测模型;SPSS;交往圈

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2019)25-0305-03

1 引言

数据挖掘中使用的相关算法来自大量、不完整、随机、模糊中提取有用的数据、正确、全面、未知、用户感兴趣的知识等。建立数学模型,用来决策支持的模型,提供预测性决策支持的方法、过程、工具[1]。数据挖掘通常是指通过算法从大量数据中搜索隐藏在其中的信息的过程。随着互联网时代的到来和数据大爆发,数据挖掘技术普遍而且迫切地应用于各个领域,比如金融、电信、保险、互联网等行业。它通过运用整理、分析、总结、推理等方法对大量地数据进行处理,从而对实际问题进行指导和分析,获得相关预测结果以做出更有利的决策[2]。

在电信行业,用户之间的互通行为,一般称之为交往。这种交往关系不但可以发现用户的交往圈范围,还可以挖掘竞争对手,为用户维稳、策反营销提供信息支持。人们总是试图凭借一个或者若干个指标衡量两个用户之间的交往密切程度。那么,这个衡量交往密切程度的指标,我们统称之为交往指数。早期一般通过互通(语音、短信等)次数、时长来考察交往情况,效果不理想。原因是人与人之间的相互作用在一段时间内相对稳定,但总是在变化;此外,单个联系人的数量和长期的互操作性不足以表明这种交互是稳定的。因此,要想寻找用户的稳定交往群体,必须要从时间、交往次数、交往方式和交往时刻分布等多个角度来综合衡量交往的稳定性。

2 算法及相关软件介绍

2.1 多元回归的预测模型

回归分析是探索变量之间的相关性和依赖性的有效方法。总体回归模型[3]反映了变量间关系的总体趋势,线性总体回归模型形式简单、参数的估计与检验也相对容易,是最为常见的总体回归模型。

2.3 SPSS软件介绍

SPSS软件是目前较为流行的统计分析软件,在医学、经济、教育和通信等相关领域的应用有分厂显著成果,界面非常友好,能够非常全面的满足统计工作提出的各种个性化的需求。SPSS软件包含了统计学众多方面的基本内容,且拥有非常强的图标生成功能,有较为理想的交互界面,通过录入的相关数据,就能够快速得出相应的统计结果。

2.4 GBase数据库介绍

GBase 是南大通用数据技术有限公司研发的自主品牌的数据库,目前在国内具有较高的品牌知名度,符合国家自出创新战略要求,是国内第一事务处理性能的数据库。GBase 8a 已经广泛运用联通、移动、电信多个省的经营分析、大数据平台等关键业务系统[6]。

3 建模过程及结果分析

3.1 数据预处理

通过通话详单与短信详单作为数据基础进行分析,取近三个月的通话详单及短信详单。选取某市运营商移网用户短信和通话记录详单,此次数据分析以201809、201810、201811三个月的通话详单(BSS&CBSS话单)、短信详单(BSS&CBSS短信)为模型输入条件,共计27.8亿条。

通过通话详单与短信详单中有需要清理的干扰数据,sp服务号码,个人及企业广告推销号码等都需要剔除,否则将影响结果的正确性。

在GBase数据库中借助 SQL 语句对原数据集进行预处理,主要进行了以下步骤:

(1)服务和sp广告推销号码剔除:由于这些号码的开始位数以及长度有固定的特征,因此可以在GBase数据库中通过长度和key value的查询将其剔除;

(2)个人及企业广告推销号码过滤:这些号码的绝大多数的通话行为是主叫用户且产生的话务量异常巨大,与被叫用户的联系只是短期的。此类号码定义为广告推销号码,它们在形式上与普通客户号码没有区别,不能通过简单的数据库条件过滤获得,所以只能通过号码的通话特征进行甄别过滤。

3.2 稳定交往模型构建

(1)建模方法

用户之间的交往越复杂,随机性越强。在电信运营商可以获得的数据中,主要是能够反映用户亲密度的信息发生的联系数量、联系发生的时间间隔、联系发生的时间段以及联系发生的时间。

显然,拥有更多联系的用户之间存在更大的亲密关系。随着数量的增长,聯系的亲密度在增加。线性函数可以大致地刻画出数量对亲密度的影响程度。

分析交往圈的交往痕迹,淡化交往形式,以交往轨迹的均匀性确定交往圈的稳定性,重点获取过去三个月的稳定交往圈作为话务分析的重点交往圈。建立模型:

(2)计算月、旬、周、三天、日交往系数

用户的交往系数,也就是用户间联系的可能性,根据用户近三个月历史通话、短信详单,抽取3000W用户详单数据作为训练样本,取最后一天联系结果,通过SPSS软件,根据普通最小二乘法的参数估计方法,计算出模型中的系数,根据系数即各窗口的比重,将系数依据经验修正,得到交往系数为a=0.4、b=0.32、c=0.16、d=0.08、e=0.04。

3.3 计算稳定交往指数

利用SPSS软件,根据稳定交往模型计算稳定交往值。输出稳定交往圈清单,如表1。

3.4 结果分析

由实验结果得出用户间的稳定交往指数。为便于量化稳定交往指数,用户交往指数最高值为10。提高了算法的执行效率,为用户交往圈的快速建立有一定指导意义,尤其是对于10亿量级的数据。

基于用户间稳定交往指数的计算结果,将单个用户的稳定交往指数结果求和,计算得出单个用户交往圈的大小,值无上限,值越高代表用户交往圈越稳固广泛。用户的交互圈的价值与用户的ARPU值(每个用户平均贡献的电信服务收入的价值)正相关。

4 结论

基于多元线性回归分析原理,应用统计软件SPSS对电信运营商的通话及短信详单进行统计分析,建立数学模型,得出用户间稳定交往指数。结果表明,用户交互圈与ARPU值之间存在正相关关系。

综上所述,随着移动通信技术的发展,运营商扩展数据挖掘的应用,从数据挖掘入手,结合自身发展实际,利用数据挖掘技术进行科学的统计分析,为企业发展和决策提供科学的数据参考,促进企业自我发展目标的科学实现。

参考文献:

[1] 张晴,高广银,贾波.数据挖掘技术在超市营销系统中的应用[J].软件工程,2016,19(05):35-38.

[2] 张慧,徐勇.数据挖掘中SVM模型与贝叶斯模型的比较分析——基于电信客户的流失分析[J].平顶山学报,2016,31(2):68-73.

[3] 郭存芝,杜延军,李春吉.计量经济学—理论.方法.Eviews 应用[M].科学出版社,2008.

[4] 冷建飞,高旭,朱嘉平.多元线性回归统计预测模型的应用[J].统计与决策,2016(07):82-85.

[5] 邹乐强.最小二乘法原理及其简单应用[J].科技信息,2010(23):282-283.

[6] 王明斌,尹绍宏.浅析从Sybase移植到GBase 8a国产数据库方法[J].科技展望,2016,26(22):17.

【通联编辑:代影】

猜你喜欢
多元线性回归预测模型
基于神经网络的北京市房价预测研究