杭州市电信规划设计有限公司 | 唐黎标
基于呼叫详细记录的呼叫/计费分析和基于产品和销售的营销/效益分析是目前电信运营商发展的重点。
BOSS解决方案分为业务支持系统和操作支持系统。主要组成包括网络管理、系统管理、账单、信息载体内部联系的解决、计费以及客户服务。随着运营网络系统、综合业务系统、计费系统和办公自动化系统等相继投入使用,运营商积累了大量的历史数据。
但在很多情况下,这些海量数据在原有的作业系统中无法得到提炼,使之升华为有用的信息。原因主要有两方面:一是联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需要;二是管理者和决策者只能根据固定的、定时的报表系统获得有限的业务信息,无法适应当今电信领域激烈的市场竞争。
而数据挖掘,就是从海量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。也就是根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效技术过程。
数据挖掘技术在电信BOSS领域的应用大致分为几个方面,主要有:一是基于呼叫详细记录的呼叫/计费分析;二是基于产品和销售的营销/效益分析;三是基于网管业务管理和事务管理层的运行/维护分析。前两种与电信运营企业的业务运营和市场竞争密切相关,是目前主要运营商发展的重点。而针对网管和运行维护的分析对于提高设备的运行质量和服务质量起到非常关键的作用,是运营商内部下一步实施的重点。我们主要着重于前两个方面进行分析研究。
客户发展分析管理
客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户,从而达到了解客户的目的。针对不同的客户采取不同的促销活动以及提供更好和更有针对性的服务,分析的主要指标包括客户总量分析、新增客户分析、客户流失分析、客户行为分析、客户信用度分析、客户风险分析等等。以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费额度等。
业务收入分析
包括业务总量分析、业务增长和流失分析、收入总量及变化分析、缴费及欠费分析等。业务量的综合分析,是按照不同的地域、客户特征、消费层次、呼叫类型、漫游类型等角度对客户的业务量及其增量、新业务的使用量进行分析,以了解不同业务量的客户构成、业务量的变化与发展趋势。通过分析客户的缴费情况,能够清楚了解不同客户缴费的及时率、欠费情况等,所喜欢的缴费渠道等,从而推出有针对性的缴费政策,提高缴费及时率,减少话费流失。
营销管理分析
营销管理业务范围包括了解客户、电信市场、客户对产品的需求,以及提供如何建立并推销产品或服务给目标客户群等。通过对服务质量的分析,能够了解目前客户最关心的问题,通过将客户流失和服务质量结合起来分析,能够清楚客户为什么会流失以及什么因素会导致客户流失,从而有针对性地提高服务质量,采取相应措施,以减少客户流失量。
本文主要针对电信的BOSS解决方案进行研究,实际应用中的数据仓库是Oracle,现针对Oracle数据库进行阐述:
1.选择数据源
存放于运营商操作型数据库OLTP中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据以及各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据。如:客户档案信息,话费清单,优惠规则,其他运营商的经营报告等。
2.建立数据仓库或数据集市
按照分析主题进行重新组织,建立主题事物表(包含用于分析的测量值和连接维表的主键),包含有关维表(含维属性值和与事实表连接的代理键)的星型结构或多维数据库,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中,这是一个系统工程,是一个不断建立、发展、完善的过程,需要较长的时间。
3.利用数据仓库技术进行第一级数据挖掘
分类即区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对未分类的数据进行分类。而估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理的是连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。由于电信业务原因,没有估值,仅进行分类,可以从中产生数据分布图(散布图)。对于关系模型,利用DISCOVERER进行分类,钻取,数据过滤,分层次数据选取,建立相应的报表格式,为二级挖掘提供数据;对于多维数组模型表示的结构,发挥EXPRESS工具的便于针对矩阵运算的优势进行操作。
4.在数据仓库基础上,利用相关的统计分析理
论建立数学模型,进行第二级数据挖掘 。
第一,预测,即是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。主要利用时间序列分析,线性分析,回归分析,多元统计分析,灰色预测等方法进行。例如:业务收入预测,客户风险预测,业务实施情况预测等。
第二,关联规则和聚类,通过分析数据或记录间的关联程度,决定哪些事情将一起发生。将记录分组,把相似的记录在一个聚集(反映数据之间的关系)里。聚集和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。如相关业务密切程度分析等。
5.给出分析结论
利用决策树,神经元网络,灰色决策等方法进行决策分析。
6.代入实际数据,进行一致性验证
不断校验误差,修正模型,提高精确度,进行效果监控,优化分析结果,同时修改相应的决策行为。比如:一段时间某两项业务关联度高,然后出现异常,关联度降低,那么在转折点的分析将出现较大偏差,因此要进行连续的检验,以保证及时发现问题,修订策略。