贾利娟,张耀民
(陕西工商职业学院 陕西 西安 710119)
据IDC预测,未来5年全球数据量将达到35ZB,电信运营商是这些数据的传送者,处于数据交换的中心,具有天然的优势[1]。同时移动通信运营商积累了全网用户的基本信息、位置信息、上网信息等数据资源,而这些数据来源于通信网络系统以及传统的运营支撑系统[2],电信运营商的系统本质是为用户与用户、设备与设备、用户与设备之间提供通信信道,该系统每天承载着海量信息,是互联网大数据的源头[3]。并且Informa Telecoms&Media公司对全球移动通信运营商进行了抽样调查,结果显示48%的运营商已经开始实施大数据业务[4]。所以在大数据背景下移动运营商的业务已由语音业务向数据业务转型,即时通信、支付、多媒体内容等数据业务的产品被相继推出,而这些数据业务中最重要的产品类型要属阅读、音乐、视频、动漫等内容型的产品。如何利用好移动运营商特有的全网用户的大数据资源为内容性产品运营提供支撑是一个非常重要的并且急需解决的问题,因此基于运营商的大数据资源设计一个内容型产品的运营系统实现内容产品的营销、个性化推荐、产品指标的监控等功能就成为比较迫切的工作了。
运营商内容产品运营系统包括指标监控子系统、产品推荐子系统、内容个性化推荐子系统。指标监控子系统实现产品运营指标监控的功能,为产品经理与运营人员提供产品相关指标的运营报表。产品推荐子系统对现有的用户行为进行数据挖掘分析,通过分析得出现有用户的特征,然后通过特征去全网查询符合特定特征的目标用户,最后通过接触渠道面向用户进行产品营销,发展更多的用户。内容个性化推荐子系统,根据用户的偏好以及内容关联关系为用户推荐个性化的内容,促进用户的活跃度。与内容产品运营系统交互的外围系统包括:CRM(客户关系管理系统)、BI(商业智能系统)、门户网站、掌上营业厅客户端、短信网关、内容产品业务平台、内容产品客户端等。其中CRM、BI是整个内容产品运营系统的全网数据的来源,为系统提供全网用户的数据,包括实时数据和历史数据。门户网站、掌上营业厅客户端、短信网关是触及目标用户的渠道,内容产品业务平台、内容产品客户端的主要功能是给客户展示相关的内容。
大数据存储、大数据分析、大数据管理是一个大数据系统面临的三个问题[5],本系统的核心是数据分析处理,我们使用Hadoop技术在数据预处理阶段和数据挖掘阶段都需要对海量的数据进行存储与计算,通过MapReduce模型把任务分配到分布式的计算机集群中,这样既降低了成本又提供了可伸缩性, 在模型的下层使用“可插拔”的HDFS的分布式文件系统。对于产品推荐子系统、内容个性化推荐子系统因为在规则挖掘的过程中对于查询时常要求不高,使用Hadoop架构技术是可以解决系统的需求,如果对挖掘周期和规则识别周期都要求比较短的时候就要考虑使用Spark技术。Spark技术同样可以实现Hadoop的基于MapReduce模型的并行计算,并且任务运行中间产生的结果都保存在内存中,不需要读写HDFS,这样节省了时间提高了速度,所以Spark更适合用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
内容个性化推荐系统是内容产品平台的一部分,内容个性化推荐子系统包括的主要功能模块有:数据接入与预处理模块、偏好分析模块、双层关联规则数据挖掘模块、内容推荐模块、渠道管理模块。
数据接入模块的数据来自于BI系统的Gn口DPI解析数据以及来自于内容型产品平台的用户内容访问历史数据。DPI解析系统通过分光器从Gn口复制出一份数据,然后通过深度包解析获取用户与服务器交互的数据包中的有用信息[6]。DPI解析后得到用户DPI数据表字段包括:用户手机号码、访问内容名称、访问内容类型、次数、流量、活跃天数等。然后对数据进行解析,解析结果就是用户访问某个网站或者使用某个APP的行为数据,主要包括用户标识、访问目标名称、类型标签、访问次数、流量等字段。偏好分析模块是内容个性化推荐系统的核心,此系统是基于用户偏好分析为用户提供个性化内容,促进用户的活跃度。所谓用户的偏好就是指用户相对来说更喜欢哪个类型的内容。在DPI数据表中记录了用户上网访问内容行为的信息,我们基于DPI数据表从访问次数、访问流量、活跃天数三个维度计算用户的偏好分析。偏好分析中我们使用的数据是DPI解析系统通过分光器从Gn口复制出一份数据,除此以外通信网络中的数据在产品运营平台中也收集了用户对内容的访问日志,这些数据我们作为双层关联规则的数据挖掘输入,使用双层关联规则数据挖掘获取内容关联关系。
内容推荐模块是按照内容匹配规则对用户偏好和内容资源进行匹配,为每个具有偏好的用户匹配相应的内容资源。因为内容资源是一个动态变化的,所以匹配过程是一个事实调用的过程。在内容个性化推荐子系统中,系统的数据来自于CRM、BI、内容产品业务平台等系统,推荐的结果通过内容产品客户端、门户网站、短信网关、掌上营业厅客户端等渠道送达到用户。
产品推荐子系统包括的主要功能模块有:数据接入与预处理模块、目标特征与序列关联规则数据挖掘模块、产品推荐列表计算算法模块、规则管理模块、渠道管理模块。该系统充分使用了运营商积累的大数据资源,结合两步聚类特征分析与用户订购行为时序关联预测分析,对现有的用户进行数据挖掘分析,分析出现有用户的特征,然后通过特征去全网查询符合特征的目标用户,通过接触渠道面向用户进行产品营销,发展更多的用户。
数据接入与预处理模块从外围系统中接入数据并处理成数据挖掘程序与其他模块所需的格式。目标特征与序列关联数据挖掘模块使用两步聚类特征分析和序列关联规则数据挖掘算法得到产品存量用户的特征规则及序列关联规则,从而可以使用这些特征规则在全网中找到潜在用户,序列关联用户行为预测分析基于产品关联规则预测用户订购行为。产品推荐列表计算算法模块依据规则库中的特征规则及序列关联规则根据算法计算出推荐列表,它为每个用户计算出推荐列表。规则管理模块存储并管理由数据挖掘模块产生的规则。产品推荐子系统结合了产品角度的特征分析与用户角度的订购行为预测为用户推荐合适的产品,提高了产品运营效率以及产品推荐的效果。在此系统中CRM、BI、内容产品业务平台是推荐系统的数据来源,其中CRM系统中存放用户的基本信息,BI中收集了用户上网行为和位置数据,业务平台中收集了用户在内容型产品上使用的行为数据。掌上营业厅客户端、门户网站、短信网关是接触客户的渠道,推荐信息通过这些渠道、媒介接触到客户。当用户通过这些渠道访问的时候,在相应的渠道上就给客户展示产品的推荐信息。
指标监控子系统监控业务各项指标,主要包括常规指标监控模块、用户画像模块、用户选择模块。常规指标监控是对内容型产品的用户发展以及用户行为的各项常规指标进行监控。用户画像模块主要是对特定的用户群体进行画像分析,例如活跃用户、沉默用户等。用户选择模块根据用户画像特征在全网范围内圈定符合特征的用户、可以对这些用户进行相应的预测。常规指标监控子系统所监控的报表是由查询维度体系与指标体系两部分组成。查询维度体系是指进行查询时可以选择的条件字段,这里设计的查询维度字段包括时间(日、周、月、自定义)、操作系统、用户品牌等维度。指标体系主要包括用户发展与用户行为两个方面。用户发展指标包括总用户数、新增用户数等等。用户行为指标包括启动次数、启动时间、登录次数、登录时间、模块点击数、点击时间、使用时长等。用户画像功能主要是对特定的用户群体进行画像分析,典型的用户群体主要包括付费用户群、活跃用户群、沉默用户群、流失用户群等。从用户性别、年龄、身份证户籍地、ARPU、流量、订购自有业务数等几个方面对用户群体进行特征画像。用户群体基于业务平台的数据进行划分,而画像所选择的特征则是从BI和CRM系统获取的用户的基本信息、通信行为、业务订购等数据。用户选择模块通过特征维度的选择圈定用户群体,圈定用户所使用的特征维度体系与用户画像特征维度体系一致。通过选择特征维度的组合筛选出符合特征组合的用户明细,并对这些用户进行相应的预测。这里所选出的用户明细来自于全网用户。
本文依据电信运营商积累的全网用户的大数据资源,设计了一个运营商内容产品的运营系统。使用此系统为运行商的内容产品提供了更加全面精准的用户分析与监控、用户产品的推荐、内容个性化推荐,从而提升了内容性产品的运营效率。