刘畅
摘 要:目前,社会计算和面向网络化社会的研究在许多国家都被提升到了国家战略层次,成为了学术界的研究热点和前沿课题。社会信息网络(SIN)作为社会计算的重要研究内容也是我们应该关注的对象。内容包括数据精准感知型核协同SIN构建、多维协同感知型SIN演化分析、动态SIN建模和SIN上的突发检测进行了系统描述,不但可以为SIN研究提供理论支持,而且也可为涉及社会和谐发展的SIN上的突发检测应用提供新方法。
关键词:社会信息网络;精准感知;核协同;演化分析;建模
中图分类号:TP391,TP311 文献标识码:A
Abstract:At present,the research on social computing and network oriented society, which has been elevated to the national strategic level in many countries,has become the focus and advanced subject of academic.Social information network (SIN) should be paid more attention to,as the object of important research contents of social computing.SIN,including the data accurate perception of nuclear burst detection,collaborative SIN build multidimensional cooperative sensing type SIN evolution analysis, the burst detection of dynamic SIN modeling and SIN of the system description, can not only provide theoretical support for SIN research, but also provide a new method for relates to the harmonious development of society on the SIN burst detection application.
Keywords:social information network;accurate perception;kernel synergy;evolution analysis;modeling
1 引言(Introduction)
当今的网络信息类型繁杂、数量众多,应用也越来越广泛,但我们对社会信息网络的研究尚处于起步阶段,缺乏长期的理论化、系统化研究。针对这一问题,我们应该适当开展社会信息网络的构建、演化分析、建模、突发检测等方面的研究。一项科学研究的终极目标是对其研究对象进行开发和应用,以便其能更好地为人类服务。这方面的研究可以着眼点在于为政府相关部门和机构提供及时处理社会信息网络上的突发事件的方法并提供决策支持,从而缓解社会矛盾,保障社会的和谐、稳定、健康发展[1]。研究的落脚点可以放在社会信息网络的构建、演化分析、建模三个方面。在这三个落脚点中,构建研究将为可靠的检测结果提供准确、完备的数据保障,同时也为进行可靠的演化分析和建模研究提供数据保障,而演化分析研究和建模研究则为可靠的检测结果提供理论保障。
2 数据精准感知型核协同社会信息网络构建(Accurate data aware nuclear cooperative social information network construction)
社会信息网络演化信息和突发事件线索往往同时存在于多个数据源中,并且在多维空间中相互影响。全面提取跨数据源的网络信息,是网络具有准确性、可靠性的前提和基础。因此,多数据源协同互动感知机制研究是实现社会群体关系发掘与分析、突发事件态势预测与预警等过程中不可或缺的重要步骤。研究对多源异构社会信息网络网内的相关知识进行提取、协同统一,并在保证聚类平滑性这一前提下进行动态融合,对不完备链接进行填补,克服单源社会信息网络数据局限性,实现网络信息的精准感知。具体地说,社会信息网络构建研究将在以下三方面展开:
(1)基于核协同的多源异构社会信息网络极大相似子关系挖掘方法研究。在为具体应用设计核时,加入尽可能多的领域知识是极为重要的。社会信息网络知识同时存在于不同的数据源中,传统的基于图的核方法及较先进的随机游走核方法都存在着无法处理高阶数据这一限制。因此,我们拟基于节点信息的扩散行为,构建一个适用于多网协同关系提取的新核,发现进而融合极大相似子关系,消除单源网络信息片面性、不精准性这一限制。研究重点在于:①基于图节点上的信息扩散,构建多源异构网络信息协同扩散核,挖掘多数据源中的极大相似子关系;②控制扩散路径的长度,提高挖掘精度,实现网络数据精准感知。
(2)数据精准感知型社会信息网络不完备多社会关系填补方法研究。在社会信息网络中,许多节点之间的关系是未知的,从数据精准感知的角度来讲,有必要对未知的、不完备的社会关系进行补全。社会信息网络不完备社会关系填补,实际上是一种基于给定的图以及已知边来预测未知边的问题。进一步讲,它可以转化为传统的机器学习问题——矩阵补全(Matrix Completion)。最常见的矩阵补全方法是矩阵分解。矩阵分解在矩阵缺失值较少的情况下非常有效,其重构矩阵能保留原始矩阵大部分信息,然而真实的社会信息网络往往是一个稀疏矩阵,仅仅拟合少量值来分解大规模稀疏矩阵,容易引起“过拟合”问题,进而影响模型的泛化能力,对未知元素的预测能力减弱[2]。因此,我们需要另辟蹊径,寻求大型稀疏矩阵填补新方法。为了消除稀疏矩阵结构约束,实现对任意类型关系矩阵进行填补,我们研究的重点是利用多源网络知识的协同共享,发现相似知识间的潜在关联,构建潜在关系矩阵,提高大型稀疏矩阵填补的性能。
(3)动态核协同社会信息网络群体关系融合方法研究。基于核协同挖掘的极大相似子关系具有动态性及连续性,从聚类的角度来讲,处理动态数据目前主要有两种手段。一种忽略了数据随时间的变化,在随时间累积的整体数据上直接应用传统聚类方法。但是,在社会网络演变过程中,突发事件的产生使得每一网络快照上的聚类是明显的,因此整体聚类结果可能是毫无意义的。另一种则忽略了不同时刻数据之间的关联性而在每一个网络快照上单独应用传统聚类方法,这导致了不同时刻的聚类结果相差甚远。针对研究需要,我们的目标是设计具有普适性的在线式动态群体关系融合算法,以聚类结果精准为前提,实现时变条件下聚类结果仍然能够保持光滑性。
3 多维协同感知型社会信息网络演化分析(Analysison the evolution of cooperative awareness society multidimensional information network)
这部分的研究可以概括为演化特征分析、共栖属性提取、协同演化分析三个层面。具体地说:
(1)基于TimeLine的感知型社会信息网络演化特征研究。基于TimeLine的感知型社会信息网络演化特征研究的主要内容是对其时序特征进行分析。因为社会信息网络中存在着多变性、瞬时性、Churn特性,因而从已有社会感知数据中获取TimeLine的准确程度将直接影响时序特征的分析结果。抽取TimeLine的时序间隔过大、过小或过于平缓,都不能准确的反映出该时间区间所发生事件的明显特征[3]。如图1所示,TimeLine上有五个时序区间T1、T2、T3、T4、T5,其中T1与 T2、T2与T3之间存在着相对的变化特征,T1与T5之间属于绝对变化特征。因此,如何通过已有的社会感知数据,提取理想状态下的TimeLine,并通过演化分析算法,对TimeLine上的不同时序进行演化特征分析是本研究的研究重点之一。
(2)感知型社会信息网协同共栖属性提取。该研究将通过对感知型社会信息网协同共栖属性提取,对其演化属性进行分析。目前的研究,大多以静态或时序网络快照为主。因此在实现连续动态的演化环境中,需要重新定义协同演化度量指标。其中,共栖属性可以区分出社会信息网络中感知对象之间是共生关系,还是竞争关系等。设计个体和群体的共栖属性提取方法,总结属性变化规律,是分析社会信息网络协同演化关系的重要前提和基础。
(3)动态嵌套多向关联的协同演化关系分析。该研究将设计感知型社会信息网络的自适应表达式,提出协同演化关系分析方法,对多维协同演化关系进行分析。
社会信息包括了各种维度的信息,信息之间起着协同作用,构成了整个社会信息网络的运行过程。它的协同演化过程是一个跨界现象,不仅发生在一个层级中,还可能发生在其他较低或较高层级中,而且还会发生在层级之间;既包括内部微观对象的协同演化,也包括与外部环境的宏观协同演化,并且这些不同层次的演化是交互嵌套、难以区分的。微观行为主体的活动经常会产生宏观上的效果,宏观层的演化也会对微观层的演化产生影响[4]。层级间互动的演化,是多层级协同演化的重要特征。图2展示了一个社会信息网络中多维信息的协同。
这部分还将利用各个子网络的属性值,重点研究通过社会数据感知计算技术,对动态嵌套多向关联的协同演化关系进行分析,提出对社会信息网络中的单方主导演化关系、共同主导演化关系和无主导演化关系的协同演化关系分析方法。
4 动态社会信息网络建模(Dynamic social network information modeling)
建立动态的社会信息网络模型,首先需要确定描述网络模型的时间片特征值,即对时间轴进行足够细的分割,使得每一时间片上至多有一个节点变更其连接策略,而同时保证其他节点保持其原有连接状态不变。其次,需要设计网络模型的动态连接策略。连接策略的正确选择,决定着最终模型成功的与否。按照以上思路,模型建立部分的研究内容分为以下三个方面:
(1)以节点社会上下文(Social Context)为效用值,消除网络噪音。研究表明,人的行为活动具有重复性与周期性,这样就可以将人的多种行为特征表示为网络节点的不同社会属性,将节点的社会属性进行归纳就可以得到节点的社会上下文知识[5]。根据社会上下文,可以得到节点的信誉评价值。真实的社会信息网络中会存在一些由恶意节点引起的一定概率的误连接,因此在建模之前预处理网络数据可以降低由于个体行为的不确定性所带来的网络演化噪音。本部分内容研究应用社会上下文来评价节点的信誉度,并通过累计信誉记录得到节点的最终信誉值。由于恶意节点在社会信息网络中会恶意破坏社会信息网络中的正常连接,对网络研究的负面影响较大,所以可以根据节点的信誉评价值,孤立恶意节点并删减其连接。
(2)基于社会特征的时间片发现算法:Time section discover approach based on social information(TSI)。根据信息网络中节点的社会学特性,引入社会信息网络中节点的社会信息属性。因为当某个节点社会信息值发生一定变化时可能会引起社会信息网络结构的变化,所以时间片的划分应以节点社会信息属性的较大变化为划分依据,细化时间轴,使得每个时间片内只有一个节点的社会信息值发生变化,而其他节点按照惯性保持其社会信息属性值不变。经过这样处理之后,网络结构的变化过程就可以看成是一个马尔可夫过程。
(3)基于半随机游走策略的动态连接。社会信息网络中节点的连接过程可以看成是节点对社会信息进行追逐的过程。当网络中某些节点的社会信息值发生较大变化时,网络中的结构一般会发生相应的变化,其变化表现为网络中的某些节点会相应地连接到目前社会信息价值较大的节点上。这部分将研究在建模中应用随机游走策略,并设置连接阈值α。游走从网络的某一节点开始执行,当游走到目前社会信息值较大的节点时进行连接,之后继续游走到下一个目标节点,直到多次搜索并无更大社会信息值节点,完成一次随机游走。在每个时间片中模型要完成多次随机游走的动态重链。在随机游走的过程中由于应用了连接阈值α限定连接操作,所以此操作可以看作是半随机连接,连接阈值α的设定与网络中节点的社会信息价值有关,α的具体值应高于网络中节点的社会信息价值的平均值,并可设置α的浮动范围δ(δ是一个较小的值)。
由于社会信息网络研究的数据精准感知型核协同社会信息网络的网络结构是动态演化的结果,所以网络结构将随着网络中节点数量、节点的社会信息属性及节点社会上下文的变化而发生相应变化。上述三个方面的研究可以综合表述为动态半随机重连策略,应用这种策略建立的网络模型可以表现出网络由不稳定到相对稳定,再到不稳定的演变过程。
5 社会信息网络上突发检测方法(Social network information burst detection method)
由于社会信息网络同时具有信息网络的实时性和社会网络的交互性的特点,因此可以通过研究社会信息网络拓扑结构的演化行为,研究突发事件的检测与预警方法。主要研究问题如下:
(1)网络节点影响力分析方法。针对社会信息网络不同于传统网络的集聚特性,提出网络节点的影响力分析方法。首先,基于拓扑势理论对社会信息网络进行社区发现,并对网络中的节点进行分类;其次,针对不同类型节点的不同结构特征,分别对其进行影响力分析。
(2)网络节点的可信度评估方法。研究社会信息网络中节点的可信度,一方面采用云模型对社区内和社区间的节点进行全局信任评估,另一方面通过引入时间窗及构造时间函数实现对可信度的动态更新。
(3)突发检测方法与预警方法。由于突发事件具有的海量数据积聚、爆发的瞬时性及偶然性等特点,因此首先引入滑动窗口的思想对监测到的数据流进行分析,然后分析网络拓扑的演化行为,进而对网络上的突发事件进行检测和预警。
在这些需要解决的科学问题中,基于网络拓扑演化的突发事件检测与预警方法研究为社会信息网络研究目标实现的最后一环,而且带有更大的探索性和前瞻性,所以基于网络拓扑演化的突发事件检测与预警方法研究可是说是我们需要解决的关键科学问题。
6 结论(Conclusion)
社会信息网络是兼具社会网络和信息网络特征的新型网络,一方面其节点间表现出强交互特征,另一方面其拓扑结构呈现强时变特征。由于社会信息网络的数据具有多源性、异构性,拓扑结构具有多变性、瞬时性、Churn特性以及不同层级之间存在着交互嵌套演化等现象,因此社会信息网络是一个异常复杂的系统,社会网络和信息网络上的传统研究方法很难直接应用或迁移到社会信息网络上。目前来看,社会信息网络上的理论研究还比较匮乏,开发、应用等活动尚缺乏合适的实践方法和指导理论。真正建立一个面向数据精准感知的动态社会信息网络研究平台,还需要我们不断努力。
参考文献(References)
[1] 刘挺.社会计算[J].中国计算机学会通讯,2011,7(12):6-7.
[2] 毛文吉,等.社会计算的研究现状与未来[J].中国计算机学会通讯,2011,7(12):8-11.
[3] Chakareski J. Content preference estimation in online socialnetworks: message passing versus sparse reconstructionon Graphs[R].2011 IEEE International Conference onAcoustics,Speech,and Signal Processing, 2011:3760-3763.
[4] 吴斌,王柏,杨胜琦.基于事件的社会网络演化分析框架[J].软件学报,2011,22(7):1488-1502.
[5] 付志鹏,等.对等网络的抖动特性研究综述[J].计算机学报,2011,34(9):1563-1577.
作者简介:
刘 畅(1978-),女,本科,副教授.研究领域:程序设计教学,数据挖掘研究与应用.