中国民航信息网络股份有限公司 贾旭光
北京工商大学 黄婉秋
全社会信息化已经成为我国“十二五”计划的一个重要目标,各类信息系统记录了大量的交互所产生的数据,民航作为一个通过多种民航信息系统服务于大众的行业,在业务系统及数据仓库中积累了大量的数据,如何充分利用这些海量数据,服务于民航系统的经营与管理,对民航业来说,一直是一个重要的挑战。
社会中的人与人之间存在各种各样的关系,如家人关系、同事关系、亲属关系等,形成了各种各样的社会网络(Social Networks),如通信交往网络、合作网络等。然而,实际的社会网络隐含在现实的社会环境中,任何一个人、一个系统都不可能掌握真实全面的社会网络。幸运的是,当客户与信息系统频繁交互的同时,信息系统中不断积累的数据能够从某个侧面部分的反映出真实社会中的人与人之间的关系,使挖掘真实社会网络中的信息成为可能。这些信息对于企业数据的增值利用具有重要的意义。因此,近几年来,社会网络相关的理论与应用研究,成为社会学领域、统计物理学领域,特别是信息与计算机科学领域的研究热点。
社会网络作为复杂网络中的一种,是当前学术界正在研究的一个热门课题。社会网络分析作为一种量化的社会学分析方法,是在人类学、社会学、图论以及统计学基础上发展起来的交叉研究领域。它将社会个体映射为图的节点,个体之间的关系映射为图中的边。社会网络分析用于描述和测量社会个体之间的关系,以及通过这些关系而流动的各种有形或无形的东西,如信息、资源等。
在社团发现方法方面,研究者提出了多种算法,如基于分裂的算法(最著名的是GN算法[1])、基于优化模块化函数的方法(如CNM[2]和BGLL[3]算法)等。这些方法各有优缺点,有的准确率较高,有的速度较快。另外,由于节点可以属于多个社团,社团间的重叠也是常见的一种现象,例如一个人既可以属于一个家庭又可以有不同的朋友圈、同事圈等,因而进行重叠社团发现算法的研究也是非常必要的,主要的方法有:GA-NET+算法[4]、基于节点分裂的方法(如CONGO算法[5])等。
在传播学领域,社会网络上的传播规律以及影响力建模是大家关注的热门问题。基于不同背景之下的一些基本传播模型,如独立级联模型、森林火灾模型等被提出来。另外,网络中个体影响力的计算也是一个基本研究问题,Kempe等人提出了传播规模最大化问题的近似解法,用以在传播网络中搜索能够使传播规模最大化的节点集合。
随着社会网络理论界丰硕成果的产生,各种技术近年来已逐渐走入应用。如在互联网领域,各大企业都在基于Web2.0服务的基础上,通过社会网络的分析方法,进行客户行为的分析,以希望提供更能满足客户群体需要的服务,从而获取更大的效益。在通信行业,由于其在构建社会网络方面具有得天独厚的数据优势,国内外的众多企业均逐步启动了面向客户行为的精确营销分析。
在社会网络分析中运用的数据挖掘技术与传统的数据挖掘任务存在着比较明显的差异,传统的数据挖掘任务处理的对象是单独的数据实例,这些数据实例往往可以用一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。而在社会里,人与人不是简单的统计上独立的采样点,他们之间存在着联系和影响。忽视了这种联系会对这个诊断系统的性能带来很大的影响。为了解决这个问题,必须将数据实例之间的关系同时考虑进来,从而人们提出了社会网络的概念,试图用图结构来刻画这种社会结构。一个社会网络由很多节点和连接这些节点的一种或多种特定的链接所组成。节点往往表示了个人或团体,也即传统数据挖掘中的数据实例,链接则表示了他们之间存在的各种关系,如朋友关系、贸易关系等。与传统的数据挖掘只关注数据实例不同,社会网络分析对链接同样关注,从数据挖掘角度,社会网络分析又称为链接挖掘。通过对链接的挖掘,可以获得关于实例更丰富(如某个实例在整个网络中的重要性)、更准确(如预测某个实例所属的类别)的信息。与此同时,很多时候链接本身也是人们所关心的信息,如在某些情况下,并不是所有的链接都被观测到,因而人们对预测实例之间的链接是否存在感兴趣。
从客户与客户的关系、企业与客户的关系这两个角度出发,可以将大型信息系统分成两大类。第一类系统为客户提供交往平台,其核心关系是客户与客户之间的关系,产生的是网络型的用户行为数据,如通信企业为客户提供通话或短信交往平台,再如腾讯、人人网等为用户提供在线交往平台。在这一类平台中,实际保存着大量用户之间的交往数据,可以很方便地进行基于社会网络技术的数据分析与利用。第二类系统注重于企业与客户之间的关系,产生的是非网络型用户行为数据,例如交通运输行业中的铁路、民航信息系统等。在民航系统中,航空公司与旅客的关系是民航各类信息系统所关注的核心关系。这类系统中并不存在显式的客户之间的关系,因此在对数据的利用中,一般只能将客户看成不相关的、独立的、平等的个体来对待,研究的重点也局限于客户与企业或产品的关系,或者是未关注内在联系的客户群与企业或产品间的关系。
随着民航各类面向客户服务、提升客户体验的信息系统不断上线运行,旅客与民航系统中各种服务终端的交互频率越来越高。旅客在与服务终端的交互过程中,其行为就被记录于各信息系统中。虽然传统的民航信息系统一般将旅客看成孤立的个体,但在现实中,旅客经常具有集体性的行为模式,这些集体性的行为在各个民航信息系统中被记录为分散的存储于不同子系统中的业务数据。通过对这些分散的旅客行为数据的分析和挖掘,推测旅客间的关系,并通过不同时间的多种交互行为数据的融合,去不断修正这些关系,从而构建出旅客社会网络,用于提升民航服务质量、针对性营销活动等。
近年来,全流程服务理念在民航全行业得到逐步贯彻,民航信息化程度日益加深,各航空公司、代理商在市场上开展博弈,形成一种竞争和合作关系。在目前的民航信息系统中,保存着旅客、代理人、航空公司、航班等对象间的关系,并不存在旅客间的关系。然而,旅客之间真实存在的社会关系对于分析旅客的行为模式和市场价值具有重要的影响。基于用户行为的社会网络挖掘与分析技术在民航领域的应用,为先进技术和理念在民航领域的应用打下良好的基础。
市场份额竞争的核心是客户资源的竞争,因此,各大航空公司对旅客数据的分析具有极高的热情,都期望能够通过提供良好的服务、优质而有吸引力的产品获得更多的市场份额,提升公司的效益。基于社会网络挖掘与分析技术主要在于针对各航空公司的业务数据,构建大规模旅客关系网络,通过社团发现技术,发现旅客网络中存在的社团。通过各种指标集的设计与计算,对社团的各个侧面再进行定量或定性描述。通过社团内旅客个体的角色或地位分析,得到旅客与社团在其他侧面(如市场影响力)的关系。另外,通过对不断产生的新数据的增长式分析,可获得旅客相关的行为模式动态信息。航空公司可以根据旅客社团中的旅客个体角色、地位或属性,推出针对社团和社团内不同类型个体的营销和服务作品,竞争客户资源,提高服务目标的准确性(如将社团在关键人员作为重点营销与服务对象),从而提高服务质量,降低营销成本,提升国际竞争力。
通过基于社会网络挖掘与分析技术对旅客价值的分析,各航空公司可以更好地掌握旅客及旅客团体的行为模式,提供更有针对性的服务和营销产品,因而旅客可以从中获得更高质量的航空服务。
综上所述,社会网络相关技术的日趋完善使得其在众多领域得到了广阔的应用。当前的民航数据挖掘研究,大多是基于传统的数据挖掘方法,针对彼此不相关联的、单个的旅客数据所进行分析。而通过民航旅客社会网络的构建与挖掘,旅客作为真实的社会个体,其行为模式受到其所处的社会网络结构所影响,可以获得更准确、更有价值的旅客及旅客群体行为模式信息,基于该社会网络的统计、分析与挖掘可以减低服务成本、针对性营销活动等,以便于民航企业提高服务质量,为企业市场营销决策提供支持。
[1] Girvan M,Newman M E J.Community structure in social and biological networks[J].Proc of the National Academy of Sciences,2002,99(12).
[2] Clauset A,Newman M E J,Moore C.Finding community structure in very large networks[J].Physical Review E,2004,70(6).