大数据时代下网络群体智能研究方法

2015-11-26 01:09赵东杰杨海涛赵洪利李申龙
计算机与现代化 2015年2期
关键词:大众群体智能

王 华,赵东杰,杨海涛,赵洪利,李 智,李申龙

(1.军事医学科学院,北京 100850;2.中国航天员科研训练中心,北京 100094;3.装备学院,北京 101416)

0 引言

互联网在促进大众获取信息、拓展人际交往、鼓励社会参与、提供实际生活便利等方面发挥的积极作用越来越突出,可以说网络无处不在。互联网大规模发展,并与移动网和传感网等进一步互连互通,互联网已进入Web 2.0 时代,“大数据时代”已经来临,“大数据”正逐渐对各个领域产生重要影响。Web 2.0 将互联网和社会网进一步结合,注重大众用户的参与以及用户之间的交互作用,通过网络应用促进网络上人与人之间的广泛深度交互与协作,并在大众持续交互中涌现出一种群体智能。而对这种群体智能是什么、有什么特征、如何产生以及可对人类社会产生怎样的影响等问题,是人们在进入信息社会,了解这种群体智能时所关心的基本问题,如何有效研究这种群体智能,加深人类对它的认识理解,为人类更好地利用互联网和这种群体智能提供借鉴,是摆在人类面前亟需解决的问题。2011 年2 月,美国哈佛大学公布了当前及未来需要重点解决的十大社会科学问题,其中“人类如何增加自身群体智能”、“我们如何才能集合每个人所拥有的信息来作出最佳决定”和“怎样理解人类创造和表达知识的能力”这3 个问题位列其中。本文对大众广泛深度交互的互联网环境进行分析阐述,分析大众交互的互联网环境下的群体智能(以下称为网络群体智能,Web Collective Intelligence)特性,提出网络群体智能研究方法,对网络群体智能进行有益探索,可深化对网络群体智能和以上3 个社会科学问题的认识。

1 大数据时代下的网络群体智能

1.1 大数据时代下大众深度交互的互联网环境

以Web 2.0 为代表的互联网产生了大量新的应用模式,极大地改变了互联网的秩序形态和大众在网络上的行为方式,促进了大众基于网络交互的信息传播、知识共享和智能提升,网络结构及信息资源分布在大众交互下不断演化。互联网激发了大众信息服务需求,形成了无处不在的在线搜索、实时交互、即时通讯和协作,催生了一系列新的网络文化和行为,典型的Web 2.0 应用有:维基、博客、微博、社交和电子商务等(本文称其为“在线复杂信息系统”)。以Web 2.0 为代表的互联网应用,把人作为重要因素接入网络,是基于用户创造内容和利用大众智能的,互联网正在逐渐建立起一个人与人可以充分沟通的公用计算环境,把人参与交互下的智能融入网络。用户需求行为实际上是在真实物理网络的大量用户对网络信息资源进行操作的随机过程;信息网络呈现出的无标度拓扑是人类用户需求行为参与网络发展与演化的必然结果[1]。互联网逐渐形成了网络化软件层、用户层、虚拟实体资源层、网页层、自治域层和路由器层等不同层面[2]。

图1 互联网结构层次及特性映射示意图

可将互联网分为图1 所示的4 个层次[2]。图1中4 个层次分别映射为网络的用户体验、用户行为、信息组织和信息安全4 种特性,这4 种特性相互关联影响,在相互作用迭代过程中,为用户提供安全可靠网络支撑环境,确保各种信息高效稳定可靠传输,使网络服务质量和智能水平不断提升。其中用户行为介于信息组织和用户体验之间,对于提升网络服务智能水平具有关键作用。

用户行为对互联网动力学特性影响越来越大,互联网演进的主要驱动力是用户行为,用户不断变化的需求行为促使互联网演进变化,出现了很多不同的网络应用。用户行为对网络服务影响也越来越大,造成网络服务质量差异化,网络服务呈现出不同的智能化水平,且智能化水平不断提高;同时互联网演进也在影响着用户行为变化。在互联网演进过程中,用户需求行为经历着从信息需求到知识需求再到智能需求的变化。当前互联网正处在“知识需求”演进阶段,未来演进方向是“智能需求”阶段,网络数据也开始成几何倍数增加,我们正进入大数据时代(Age of Big Data)。在互联网计算环境及云计算模式下,通过用户间的在线交互(回复、跟贴、加为好友等),用户与用户间形成一定的影响关系,并会逐步形成在线社交网络中的影响力,这些频繁交互、增量交互、主动交互、广泛交互、多样交互、持久交互等多种显性或隐性的交互形态,体现出各种群体行为,形成规模可大可小、主题可粗可细、门槛有高有低、划分无穷无尽、演化有消有涨的虚拟社区。

1.2 网络群体智能及其特性

中国有句古话:“三个臭皮匠,顶个诸葛亮”,又有“众人拾柴火焰高”、“人多力量大”的说法,这些其实都是群体智能在人类社会的原生态版本。传统的群体智能广泛出现在智能体的集合中,如蜂群、蚁群、鸟群和人类社会等[3-6]。这些群体基于自身经验的简单法则发挥“1 +1 >2”的功效,为人类提供了解决复杂问题的策略。

Web 社会网络的兴起被O’Reilly 称为一个“拥抱群体智能的时代”[7],在Web 2.0 社会性应用中,人类交互能够更清晰、更便捷地突破时空的阻碍在更大的规模上进行,大众通过互联网的持续交互形成了群体行为,会涌现出多种结构模式,表现出多层次水平的群体智能,在此称为网络群体智能。网络群体智能是指在大众广泛深度交互的互联网环境下大规模个体为了特定目标基于在线协作信息系统进行在线协作、问题求解,从宏观上涌现出群体完成特定任务或解决复杂问题的能力。大众交互的互联网环境下,个体通过改变环境的方式与环境交互,个体对环境的改变促使了其他个体做出各种不同的改变,变化驱动变化,并引发宏观上新现象的产生,这种由于大量的微观交互导致的宏观系统形态的跃迁现象在复杂性科学中称为“涌现”。在大量用户通过社会评注达成共识的过程中,互联网上会逐渐形成不同群体结构,涌现出网络群体智能;这个过程形成了大量用户操作数据,可作为研究网络群体智能的高价值数据资源,其能够根据大众实际参与和贡献的内容进行定量分析和挖掘。

社会评注突出以用户为主,通过把具有相同兴趣和爱好的人汇集在一起,从而产生源于用户贡献的网络效应,其本质是利用网络群体智能,是网络群体智能涌现及应用的典型实例。社会评注中的维基、评阅、评论和标签等类型均可认为是网络群体智能的载体。例如,在协同标签过程中,用户给资源指定标签,并且和其他用户共享,整个标签系统会从大众参与过程中涌现出一定的信息组织结构来,甚至形成分众分类(Folksonomy)[8];Luis von A.还提出了一种human computing 的理念[9],其通过游戏收集众多用户提交的结果,然后综合分析加以利用,比如收集用户对图片的标签并产生图片整体组织结构,也是一种利用网络群体智能的典型案例;维基对数字资源对象直接给出补充、修正或删减等,与标签、评阅和评论等形态相比,是用户介入数字资源对象的最深层次,自然地形成了大众参与的对等生产模式(Peer Production)[10],是网络群体智能较为复杂、较为高级的表现形式;其利用网络大众的参与来完成多媒体识别、标识与分类等图灵机逻辑运算难以完成的任务。

网络群体智能与图灵机智能、传统群体智能相比均存在差异,如表1 所示。图灵机智能具有数值计算、信息存储、信息检索和逻辑推理等方面的优势;网络群体智能是对大众智能的反复交互、提升、抽象和利用,可能动地感知与反馈现实世界中的各种模式,可利用人的常识,具有形象思维、联想感悟等不确定性认知和柔性聚合优势,具有层次性、涌现性和不确定性等特性;可将两者有机结合,优势互补,增强人类完成特定任务或解决复杂问题能力。传统群体智能侧重对自然环境下动物群体智能的研究,而网络群体智能侧重对大众广泛深度交互的互联网环境下大众群体智能的研究,两者之间具有不同特性;网络群体智能具有“网络数据驱动,交互形式复杂,网络效应强大,知识生产为主,不确定性认知”等特性,如表2所示。

表1 网络群体智能与图灵机智能比较

表2 网络群体智能与传统群体智能比较

2 网络群体智能研究方法

网络群体智能研究是信息科学与社会科学的多学科交叉研究,具有现实性、前瞻性和挑战性。尽管群体智能研究已取得较多成果,但这些成果大多集中在以蚂蚁、蜜蜂和鱼鸟等为代表的社会性昆虫的群体智能研究,对网络群体智能研究较少,且研究相对比较零散,缺乏有效的研究理论方法和对网络群体智能整体认识,对网络群体智能进行深入研究的成果不多,理论仍严重落后于实践,需要借鉴已有成果对其展开深入研究。基于网络群体智能特性的分析,提出网络群体智能研究方法,包括研究方法论、研究层次和研究框架等方面内容。

2.1 网络群体智能研究方法论

复杂性科学是系统科学发展的新阶段,其方法论具有非线性、不确定性、自组织性、涌现性等特征。就科学思维层面来看,复杂性科学的融贯论要求把整体论和还原论结合起来,在整体的观照下分析,在分析的基础上综合,在分析和综合的矛盾运动中实现从整体上认识和解决复杂性问题。就哲学层面来说,复杂性科学的融贯论要求把还原方法和整体方法相结合,微观分析和宏观综合相结合,定性判断和定量描述相结合,认识理解和实践行动相结合,科学推理和哲学思辨相结合。黄欣荣认为融贯论的精髓是:既包括客观的过去和现在,也包括未来;既重视分析,也重视综合;在研究具体系统时,既注意部分也注意整体;从内外上下、横纵前后认识和解决问题[11]。在复杂性科学研究中应坚持整体着眼和细处分析相结合的原则。融贯论是在整体观的指导下,把向下和向上的2 条路径结合融贯起来,形成还原论和整体论有机结合的方法论,这是复杂性科学的新方法论。网络群体智能研究具有不同于传统群体智能研究的复杂性和特殊性;基于对网络群体智能特性分析,对网络群体智能研究应以复杂性科学方法论为指导,坚持融贯论,突出网络群体智能特色研究,采用系统分析、建模分析和仿真分析相结合技术途径对网络群体智能涌现问题进行多尺度多层次研究。

2.2 网络群体智能研究层次及研究框架

以网络群体智能研究方法论为指导,将网络群体智能研究分为以下5 个层次,从多个层次视角认识网络群体智能研究,以便于研究有效开展深入。

1)对象基础层:该层是开展研究的基础,包括网络群体智能的研究对象确定及研究载体选择。根据网络群体智能概念及其研究的科学问题,确定网络群体智能研究对象,包括群体中的参与个体、群体协作交互环境等;选择合适的研究载体,包括群体协作交互平台、群体协作交互留下的“足迹”——网络数据等。

2)理论方法层:科学有效研究理论方法是开展网络群体智能研究的关键,根据对科学问题的深入分析、研究对象及研究载体的特点,确定研究方法论,建立科学有效的研究理论方法框架。可对已有研究成果进行总结升华,对相关学科成果去粗取精,将其理论及方法加以借鉴,以此为基础建立网络群体智能研究理论方法框架,对研究具有指导性作用。

3)模型算法层:以研究理论方法框架为指导,对网络群体智能进行微观、中观和宏观地建模,包括群体中参与个体属性、个体间交互和群体结构表征等模型算法构建,以实现对群体结构的描述和可视化、网络群体智能的模拟。

4)分析解释层:以研究理论方法框架为指导,从对象基础层获取数据信息,并利用模型算法层建立的模型算法,对群体结构及动力学进行多粒度分析解释,探究网络群体智能涌现规律,获得可应用的结果知识,为网络群体智能应用提供基础。

5)应用评价层:探究研究成果在知识管理创造、群体协作决策、组织绩效管理和复杂信息系统设计优化等领域的应用,并对应用情况进行评价分析,以便改进网络群体智能研究理论方法,完善能够吸纳大众认知能力的平台与机制,提高信息服务质量和人类解决复杂问题能力。

基于上述分析,在大众交互的互联网环境下,网络群体智能研究可以社会评注为主要研究载体,以复杂性科学[11]、网络化数据挖掘[12]和不确定性人工智能[13]为支撑理论方法,突出网络群体智能特色和多学科交叉融合研究,探究了网络群体智能产生机理,以回答相关基本问题,为人类更好地利用互联网和网络群体智能提供有效借鉴。网络群体智能研究框架如图2 所示,其具体分为以下研究步骤。

图2 网络群体智能研究框架示意图

1)根据网络群体智能科学问题确定研究对象及研究载体,选择获取合适的网络数据。

2)根据研究对象及研究载体,确立研究方法论,提出研究理论方法框架,该框架的建立是以复杂性科学方法论为指导,以复杂性科学、网络化数据挖掘和不确定性人工智能理论方法为支撑,以复杂系统建模仿真、社会科学和人文科学相关理论方法为辅助。

3)以研究框架为指导,采用宏观与微观相结合、定性与定量、静态与动态相结合方法,主要从群体结构的多粒度分析和群体动力学多主体建模与仿真这2 个相互呼应的方面展开研究,刻画揭示群体中个体属性、个体间交互特性和网络群体智能涌现过程,探究网络群体智能涌现机理。其中群体结构的多粒度分析方面主要是基于网络化数据挖掘和不确定性人工智能理论方法实现对群体结构的多粒度分析,包括群体结构基本特性、群体结构中心性和群体结构模式特性分析等多个层次粒度。基于结构的视角探究群体结构与群体智能涌现的关系;群体动力学多主体建模与仿真方面主要是基于复杂性科学理论和复杂系统建模仿真方法实现对群体动力学的建模仿真,基于动力学的视角探究群体动力学与群体智能涌现的关系;上述2 个方面研究也体现了数据实证研究与建模仿真研究互为补充,相互促进的思想。

4)基于群体结构的多粒度分析和群体动力学的多主体建模与仿真这2 方面分析仿真结果,综合归纳网络群体智能涌现机理,利用综合集成方法分析网络群体智能涌现要素,包括群体多样性、群体中个体参与性、群体中个体角色配置、群体组织结构和群体协作交互环境等,创造利于网络群体智能涌现的环境条件。

5)将研究结果应用于具体实例,并对应用情况进行评价分析,以便改进网络群体智能研究理论方法,完善能够吸纳大众认知能力的平台与机制,提高信息服务质量和人类解决复杂问题的能力。

2.3 网络群体智能研究方法应用实例

利用上述方法以维基百科词条作为研究载体进行应用实例说明,以词条“Turing Machine”从开始创建时刻起的600 个历史版本数据作为数据集,以网络化数据挖掘思想方法为指导,利用文本分析方法从句子的粒度上分析相邻版本的文本差异,根据文本差异,确定句子作者间的编辑交互关系,以句子的作者(以下称为编辑者)为节点,将编辑者间编辑关系(修改、删除和添加等)为连边,对群体协作编辑交互进行网络化表示,构建词条“Turing Machine”的群体协作编辑交互网络;其是词条群体协作编辑过程的具体刻画,考虑了不同时间(编辑行为随着时间逐渐累积)、不同编辑者、编辑者对应的编辑内容和编辑者之间的关系;从网络中心性和模式2 个不同的视角粒度对群体结构进行多粒度分析,如图3 所示,图3(a)为网络节点拓扑势影响力分布示意图(节点的拓扑势值越大,节点越大,影响力也越大),图3(b)为网络社团划分结构示意图,分析可知网络具有小世界特性,这利于个体优秀知识或行为在群体中迅速传播,达成共识。

图3 不同视角粒度的“Turing Machine”词条群体协作编辑交互网络结构示意图

拓扑势中心性能够综合从节点主体属性和节点局域影响性等方面刻画个体在群体地位作用;由图3分析可知,随着群体编辑协作发展和编辑群体规模增大,编辑者间交互增多,交流争论增多,个体间相互影响加强,高影响力个体逐渐增多,但数量有限;原有局部区域不断壮大,同时新的局部区域不断加入,不同的局部区域相互连接形成更大的区域群,网络结构中心出现了部分的分化和小局域范围内的集中,宏观上呈现出比较明显的局部网络中心趋势,而且拓扑势值更大的节点对其周围节点的影响也越来越大,逐步形成以“中心”节点为核的一些抱团区域,逐渐出现了影响力很大的“意见领袖”,其自身知识、观点能较快地向周围节点扩散,可促进群体较快达成共识。

同时协作编辑交互网络结构模式也随之变化,逐渐由以“线型结构、环型结构和格型结构”模式为主体,演化为以“星型结构”为主体,群体凝聚力逐渐增大。如图3(b)所示,社团在规模和结构上也呈现出差异性,在网络中存在一些较独立的线型、环形结构,它们分属于不同的小社团;而格型结构嵌套到星型结构之中,在星型结构所属的大社团中。即协作编辑交互网络结构是以星型结构模式为主体,线型、环形和格型结构模式为补充的“大中心,小外围”式网络结构;“大中心”即指以包含多数节点的大社团为中心,大社团又是由以少数影响力很大的节点为中心,(这些节点间往往也是相互连接的),多数影响力较小的节点为外围而构成的,即大社团是“小中心,大外围”式的结构,形成了由多个小类星型结构互联模式;“小外围”即指以包含少数节点的小社团(小社团一般为线型、环型结构)为补充,围绕在大社团外围。协作编辑交互网络结构是其组成的混合结构,具有层次性,这种结构稳定性较强,也利于群体协作有效达成共识、群体中知识传播共享和群体智能涌现。

上述研究方法已在相关研究中得到了应用和验证[14-22],表明了该研究方法的合理性和有效性。

3 结束语

本文对大数据时代下大众广泛深度交互的互联网环境进行了分析阐述,提出并释义了网络群体智能,分析总结了其特性,提出了网络群体智能研究方法,深化了对在线复杂信息系统和网络群体智能的认识理解,丰富了网络群体智能研究的基础理论方法,拓展了群体智能、云计算和社会计算研究,具有一定的理论和现实意义。随着互联网的飞速发展和人们观念的与时俱进,网络群体智能研究和应用前景一定会越来越好。

[1]马卫东,李幼平,马建国,等.面向Web 网页的区域用户行为实证研究[J].计算机学报,2008,31(6):960-967.

[2]Zhao Dongjie,Jiang Jian,Zhang Haisu,et al.Research on internet evolution mode based on user behavior[C]//2010 Asia-Pacific Youth Conference on Communication Technology.2010:835-839.

[3]Bonabeau E,Dorigo M,Theraulaz G.Swarm Intelligence:From Natural to Artificial Systems[M].New York:Oxford University Press,1999.

[4]Kennedy J,Eberhart R C,Shi Y H.Swarm Intelligence[M].San Francisco:Morgan Kaufmann Publishers,2001.

[5]Asch S.Social Psychology[M].New York:Prentice Hall,1952:486.

[6]Harcourt Brace.Social Behavior:Its Elementary Forms[M].New York:Ggorg C Homans Revied,1964:428-455.

[7]Tim O’Reilly.What Is Web 2.0?[EB/OL].http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html,2005-09-30.

[8]Pink D H.Folksonomy[N].New York Times,2005-12-11.

[9]Luis von Ahn.Human Computation[D].Carnegie Mellon University,2005.

[10]Don Tapscott,Anthony Williams.Wikinomics:How Mass Collaboration Changes Everything[M].Richmond:Portfolio Books,2006.

[11]黄欣荣.复杂性科学的方法论研究[M].重庆:重庆大学出版社,2006.

[12]Li Deyi,Chen Guisheng,Cao Baohua.Complex networks and networked data mining[M]// Advanced Data Mining and Applications,Lecture Notes in Computer Science.Springer,2005,3584:10-12.

[13]李德毅,杜鹚.不确定性人工智能[M].北京:国防工业出版社,2005.

[14]江健,淦文燕,赵东杰,等.基于拓扑势的社会通信网局域中心性分析[J].系统工程学报,2010,25(6):861-866.

[15]赵东杰,郝黎,李德毅,等.维基百科词条编辑特性研究[J].计算机科学,2011,38(10A):153-156.

[16]赵东杰,何宇,杨海涛,等.基于演化涌现的复杂信息网络设计优化[J].科技导报,2011(36):23-27.

[17]赵东杰,王华,李德毅,等.基于拓扑势熵的维基百科词条编辑演化研究[J].科技导报,2012(4):71-74.

[18]赵东杰,王华,李德毅,等.基于CAS 理论的群体协作维基词条编辑建模仿真[J].上海理工大学学报,2012,34(5):441-446.

[19]Zhao Dongjie,Zhang Haisu,Han Yanni,et al.An approach to study collective intelligence based on networked data mining[C]// 2010 the 3rd International Conference on Computational Intelligence and Industrial Application.2010:239-243.

[20]Jiang Jian,Zhang Haisu,Zhao Dongjie,et al.A networked approach for user valuation in telecommunication networks[C]// 2010 International Conference on Internet Technology and Applications.2010.

[21]Zhao Dongjie,Yang Haitao,Jiang Jian,et al.A research for the centrality of article edit collective in Wikipedia[C]// 2011 International Conference of Information Technology,Computer Engineering and Management Sciences.2011:363-366.

[22]Zhao Dongjie,Jiang Jian,Li Deyi,et al.Research on social communication network evolution based on topology potential distribution[C]//The Fourth International Conference on Machine Vision,2011.

猜你喜欢
大众群体智能
一汽-大众ID.6CROZZ
上汽大众ID.3
通过自然感染获得群体免疫有多可怕
大众ID.4
上汽大众
“群体失语”需要警惕——“为官不言”也是腐败
智能前沿
智能前沿
智能前沿
智能前沿