褚希,周笑天,任广治,王中英
(1.山东省气象服务中心,山东 济南 250031;2.山东省气象信息中心,山东 济南 250031)
随着经济发展和社会进步,为满足人们日益增长的气象服务需求,山东省气象局于2004年4月成立了气象声讯服务中心,对外开展气象声讯服务工作,此时气象短信应运而生。气象短信为手机用户获取天气预报提供了一种更快捷简便的方式,用户可以随时随地获取及时、准确、专业、全面的气象信息。十年间,气象短信凭借其传播便捷、准确高效等服务优势,得到了通信运行商的大力支持,一度在各通信运行商增值业务品牌排名中名列前茅,同时也受到了广大手机用户的喜欢。目前山东省气象短信用户数由2004年初的100万增长到近500万。
但是,近年来随着3G网络和智能手机的发展,出现了诸多的天气通、墨迹天气等智能手机应用终端软件,人们可以随时随地获取各种气象信息。另外,再加上各种非正规渠道发布的气象信息充斥着市场,导致气象短信用户在近几年一直处于下滑状态[1]。据统计,山东省的气象短信用户的下滑率已高达5%,如何减少气象短信用户的流失已成为气象服务部门急需解决的问题。
为减少用户流失,气象部门除了要不断提高气象服务能力之外,还应对气象短信用户的相关情况进行分析和研究,探讨哪些用户是气象短信的重点需求用户很有必要。本文以数据挖掘的相关理论为基础,利用概念描述数据挖掘的相关知识,提出了一种基于特征化概念描述的气象短信重点用户数据挖掘方法,能够对气象短信用户进行发现,对重点用户的特征进行提取,发掘气象服务重点用户,从而为气象部门进行有的放矢的用户挽留、减少用户流失提供参考。
数据挖掘(Data Mining)是数据库知识发现(Knowledge Discovery in Databases)中的一个步骤。它是从大量的数据中提取或挖掘可能有用的信息和知识,是在数据库中发现有效的、新颖的、潜在有用的、可理解的模式的非平凡过程。通过数据挖掘,可以从数据库提取有趣的知识、规律或高层信息,并可以从不同角度观察或浏览数据,数据挖掘发现的知识可以用于决策、过程控制、信息管理、查询处理等。数据挖掘一般按照数据清理、数据集成、数据选择、数据变换、数据挖据、模式评估、知识表示等步骤进行。目前,数据挖掘已广泛地应用于制造业、零售业、保险业、电信业、市场营销、互联网等诸多领域[2-5]。
概念描述是对含有大量数据的数据集合进行概述性总结,并获得简明、准确的描述,通过综合、汇总、归纳和对比来分析事物的特征。概念描述数据挖掘是描述式数据挖掘中的一种,它能够以简单的、概要的方式描述数据,对给出数据进行简洁汇总并形成目标类数据的特征情况[6]。一般用t-weight 度量表示描述规则中对应概化关系的某个元组的典型性,对于某个概化元组qa而言,qa的t-weight 是来自初始工作关系被qa涵盖目标类元组的百分比,t-weight 在特征规则中表示的是条件成为目标类的充分条件。将目标类与对比类进行比较,其度量一般用d-weight 表示,qa的d-weight 是初始目标类工作关系中被qa覆盖的元组数与初始目标类和对比类工作关系中被qa覆盖的元组数的比,d-weight 表示的是条件成为目标类的必要条件。因此,利用t-weight 和d-weight 即可对应目标类的充分必要条件。
按照数据挖掘的步骤,给出基于特征化概念描述的气象短信重点用户挖掘方法的具体步骤如下:
(1)选取要进行挖掘的气象短信用户数据,确定数据结构。
(2)删除与挖掘任务无关的用户属性。
(3)概化处理有大量不同值的用户属性。
其中,步骤(1)为数据挖掘任务的描述,步骤(2)、(3)为数据挖掘的预处理,步骤(4)、(5)、(6)为数据挖掘,步骤(7)为数据挖掘的结果表示。
以气象短信用户的相关数据为例,随机抽取气象短信用户系统数据库中的3 000条信息,对上文提出的方法进行验证。为了更好地分析气象短信的用户相关特征,抽取的用户既包含当前在网定制气象短信业务的用户,也包含曾经定制过气象短信但目前已退订业务的用户。
定制气象短信的用户作为普通的手机用户,首先,用户的属性信息一般包含姓名、身份证号、电话号码;其次,用户在定制气象短信时会产生相应的属性信息,如定制时间、退订时间、定制来源、定制产品类型、费率、用户号码所在地、定制地区等信息。因此,气象短信服务用户的数据结构包含以下多种属性。相应的数据结构如表1所示:
表1 气象短信用户的数据结构
由表1可知,气象短信用户系统中共有20个属性,这些属性在系统中存在是为了对气象短信用户进行更好的管理。针对数据挖掘而言,有些属性跟挖掘任务并不相关,需要删除;有些属性的数据粒度太过细节,需要进行概化处理后再进行挖掘。
气象短信用户的数据结构中,姓名、出生日期、身份证号、家庭地址、电子邮箱、手机号码等属性都是针对个人信息而言的,数据粒度太过细节,每个属性均存在大量不同值,无法进行数据概化处理,而且这些属性对气象短信重点用户的特征化数据挖掘任务而言没有挖掘意义,因此将这些属性删除。另外,性别、年龄、民族、文化程度、职业、邮政编码、退订时间属性虽然可以进行属性的概化,但对气象短信重点用户的特征提取意义不大,为避免大数据量的挖掘运算,也将这些属性删除。
经过用户属性的删除步骤后,气象短信系统中需要概化的属性及其取值情况处理为以下几方面:
(1)在网时长
在网时长属性反映用户使用气象短信业务的时间长短,通过用户的定制起始时间和退订时间可得到其值,根据统计结果的情况,对该属性概化为4项,取值为:{1(小于0.5年)、2(0.5—1年)、3(1—2年)、 4(大于2年)}。
(2)定制起始时间
定制起始时间属性能反映不同时期用户定制气象短信的情况,并体现各阶段气象短信业务的发展状况,根据统计结果,对该属性概化为4项,取值为:{1(最近半年内)、2(最近1年内)、3(最近2年内)、4(2年前)}。
(3)定制地区
气象短信业务目前针对用户的定制地区只有某市区气象短信和某县区气象短信这2类,因此对该属性概化为2项,取值为:{1(市区)、2(县)}。
(4)号码归属地区
山东省共有济南、青岛、淄博、枣庄、东营、烟台、潍坊、济宁、泰安、威海、日照、莱芜、临沂、德州、聊城、滨州、菏泽17个地级市,县级单位140个。由于短信用户的定制情况与当地的经济发展水平、人口数量等密切相关,因此根据山东省地市的实际经济与发展状况,将其概化为3项,取值为:{1(副省级市)、2(沿海地区)、3(中西部地区)}。其中,副省级市为:济南、青岛;沿海城市为:烟台,威海,日照,东营,潍坊;中西部城市为:淄博、枣庄、济宁、泰安、莱芜、临沂、德州、聊城、滨州、菏泽。
(5)定制来源
气象短信系统中该属性共有3项取值:{1(客服电话)、2(网站)、3(上行短信)},该属性不需再概化。同样,费率和定制产品在气象短信系统中的取值较少也不需概化,直接使用其取值。
经过对属性的删除和概化,数据挖掘中的气象短信用户属性共有8个。用于数据挖掘的属性表如表2所示:
表2 用于数据挖掘的属性表
由此可知,气象短信重点用户特征为:通过客服电话定制的、费率为包月2元、定制某市区下午天气预报产品的用户。
下面对上述结果进行总结和分析。
首先,从气象短信重点用户特征提取的情况可知,如果一个用户为气象短信的重点用户,那么他可能是省内的沿海地区用户,在网时长为2年以上、在2年前定制了某市区的天气预报地区,也可能是通过客服电话定制包月2 元的下午天气预报。另一方面,如果一个用户在省内的中西部地区,在网时长为0.5—1年,而且最近2年内定制了某市区的包月2元的下午天气预报,那么他很可能就是气象短信的重点用户。
其次,从气象短信重点用户的统计样本数据来分析。气象短信重点用户的在网时长和定制起始时间占较大的选项均为2年前,说明在2年前气象短信的用户认可度高、定制率高;最近半年内的在网用户以及定制起始时间在半年内的用户占比均不到10%,说明近半年气象短信用户的发展较为缓慢。定制地区为市区的气象短信用户占70.63%,说明气象短信在城市用户中认可度较高,在县级以下地区的认可度较低,这与县级以下地区经济发展水平欠发达以及气象短信产品的基层宣传力度不足有关。费率为包月2元的业务更受用户欢迎,说明价格低廉是气象短信的一大优势。另外,定制来源中客服电话的占比最高,说明气象短信的发展还主要依赖通信运营商的定制渠道,气象部门自身拓展用户市场的能力还不足,应该进一步加强与通信运营商的合作,借助通信运营商的力量更好地开拓气象短信用户市场。
表3 气象短信重点用户目标类、对比类的t-权和d-权表
本文以数据挖掘的相关理论为基础,利用概念描述数据挖掘的相关知识,提出了一种基于特征化概念描述的气象短信重点用户数据挖掘方法。该方法能够对气象短信重点用户的特征进行提取,发掘气象服务重点用户特征。通过实例进一步验证,该方法具有较强的可操作性,能够为气象部门进行气象短信用户的市场分析、减少用户流失提供参考。
[1] 李建,张锋. 短网址技术在浙江省气象短信业务中的应用[J]. 计算机与网络, 2013(14): 72-75.
[2] 赵海青,李社宗,周幸福,等. 数据库中的知识发现及其在气象中的应用[J]. 河南气象, 2002(2): 35-36.
[3] Mehmed Kantardzic. 数据挖掘——概念、模型、方法和算法[M]. 北京: 清华大学出版社, 2003.
[4] Han J W, Kamber M. 数据挖掘概念与技术[M]. 北京: 机械工业出版社, 2001.
[5] 马廷淮,穆强,田伟,等. 气象数据挖掘研究[J]. 武汉理工大学学报, 2010,32(16): 110-114.
[6] 徐镇辉. 特征化概念描述的数据挖掘方法在学生评教中的应用[J]. 漳州职业技术学院学报, 2006,8(4): 21-23.★