杨 凯,张连怡,梅 铮,张 晗
(北京仿真中心 航天系统仿真重点实验室,北京 100854)
随着建模与仿真技术在多学科中的不断应用,仿真平台越来越数字化、网络化、智能化、集成化、虚拟化、协同化。建模与仿真技术一直随着信息技术的发展而不断变化,从最初的集中式仿真,逐渐发展成分布式仿真、并行仿真、基于Web 的仿真、云仿真、高效能仿真[1-2]等不同的仿真模式。高效能仿真是指融合了新兴计算机科学技术(如云计算、物联网、大数据、服务计算、边缘计算等)、现代建模与仿真技术、高性能计算系统技术等,借助智能化高效能计算机,以优化“系统建模、仿真运行、结果分析/处理”等整体性能为目标的仿真系统。
平行应急管理系统(PeMS)[3]是人工社会、计算实验、平行执行有机结合的社会计算平行实验[4]综合解决方案在突发危机事件应急管理领域的具体应用,是基于人工社会仿真方法进行突发危机事件应急管理的一种尝试。平行应急管理系统的核心是突发危机事件、承灾载体和应急管理,围绕突发事件,对应急管理过程实施一体化、实时化、智能化仿真。该应急管理仿真系统借助计算机实验过程对应急管理策略进行分析评估,给出平行执行实施应急管理方案,是一种解决“预测-应对”型非常规突发危机事件应急管理问题的重要途径。这种基于人工社会的应急管理建模与仿真系统具有大规模、多领域、多样、异质、不完备、复杂时空演化等特点,给“预测-应对”型应急管理带来了极大挑战。本文就面向平行应急管理的高效能仿真方法展开论述。
平行应急管理是指通过可控制可观测的仿真实验实现突发事件情景在人工社会系统中的涌现,进一步认识突发事件的产生、发展、转化和衰亡的演化特征与规律,对应急管理策略的有效性进行验证并探索更加优化的管理策略,最后将优化的应急管理策略运用到真实社会中,对真实社会进行科学有效的控制。平行应急管理仿真方法解决实际社会系统中不可准确预测、难以拆分还原、无法重复实验等复杂性问题。目前,平行应急管理仿真都是基于可计算组织理论的建模仿真方法,具体分为基于系统动力学的人工社会学仿真[5]、基于Agent的人工社会学仿真[6-8]、基于社会网络分析(SNA)的人工社会学仿真方法3类。系统动力学主要从宏观系统角度对人工社会演化过程进行仿真,Agent模型是通过微观行为和微观过程仿真涌现的宏观行为,SNA 方法则对人工社会关系网络进行研究。基于多Agent构建复杂人工社会系统,并执行计算实验是当前比较理想的方法。1991年,兰德公司[9]提出了人工社会的思想,用于研究信息技术对人工社会的影响。随着多Agent建模与仿真技术的发展,用于人工社会和人工社会研究的各种建模与仿真平台得以设计和开发,如Repast[10],Start Logo[11],Swarm[12]等平台。
本文就面向平行应急管理的高效能仿真方法进行了研究。针对人工社会应急管理仿真规模庞大的特点,借助高效能仿真平台的云仿真并行仿真调度方法实现超实时平行大规模仿真;针对人工社会Agent模型的异质、动态的模型特点,通过开展自适应模型参数学习方法实现演化模型建模;针对人工社会应急管理评估需求不断调整的特点,通过采用自组织增量学习[13]等方法进行仿真模型在线评估。因此,借助高效能仿真平台的先进建模仿真手段对人工社会平行应急管理进行研究,提升现有平行应急管理仿真能力是一个重要的研究问题。
本文提出了面向平行应急管理高效能建模仿真方法,研究基于半监督机器学习的应急管理仿真建模、基于知识的人工社会初始情景构建、基于增量学习的仿真模型在线评估等方法。运用高效能仿真云中的并行作业调度进行大规模仿真执行,机器学习模型训练等。
基于“预测-应对”应急管理仿真的特点,初步形成了应急管理仿真建模的方法论,依托突发危机事件情景构建方法,建立应急管理模型体系,采用应急领域模型工程的技术,开发模型体系中的模型。基于Agent 模型的个体交互特点,建立基于个体Agent模型用于行为模式描述,建立交互模型,以个体作为结点,交互关系作为边来构建复杂网络交互模式,并对人工社会群体行为进行模拟推演。在优化自适应Agent模型的参数时,采用基于半监督主动学习的模型参数学习方法。在有限数量有标记的模拟仿真样本和大量无标记样本的基础上,使用小样本学习,具有很强的泛化能力,不会过分依赖样本的质量和数量,实现复杂自适应Agent模型的参数学习。
参考情景分析与应急管理等领域的研究成果,从语义层次抽象出概念,利用网络本体语言(OWL)描述语义化模型本体并构建描述逻辑(DL)分析各本体语义联系,同时对人工社会初始情景进行了研究。明确了人工社会初始情景的概念,结合突发事件应对法对突发事件的分类,设计了初始情景描述框架,用于规范初始情景的描述。初始情景由初始社会、活动规则、事件和应对措施四个要素组成。其中,初始社会描述人工社会初始构建时的状态和建立人工社会分类图谱;活动规则对人工社会关系网络与演化规则进行抽象描述,具体人工社会规则包括道德规则、法律规则等;事件分为源事件和衍生事件,包括教育、医疗、购物等;应对措施是针对应急突发事件所采取应对措施的集合。
为解决复杂仿真模型协同推演实时评估困难、过程时效性低的问题,拟开展复杂仿真模型在线评估方法研究。基于增量学习算法建立需求特征与实时过程数据的动态映射关系,进而建立起一套全新的基于“多维特征映射、在线演化评估”的方法,实现复杂人工社会仿真模型协同仿真过程的在线评估。将模型仿真数据及其动态演化模式融合,设计基于自组织增量学习神经网络,对历史数据和参考数据进行在线增量聚类,划分标注可信数据集和不可信范围。一方面对模型数据进行在线比对,另一方面利用已评估数据实时更新网络,实现模型在线评估,并实时关联模型评估因素,从而形成一个包含仿真数据采集、模型特征关联二阶认知图自动构建、模型演化规律一致性的动态分析、模型在线评估的智能化评估方法。
在高效能仿真云中,针对作业运行时间不能估计且没有进程迁移支持、作业运行时间不能估计但有进程迁移支持、作业运行时间可以估计但没有进程迁移支持、作业运行时间可以估计且有进程迁移支持这4种现实情况,分别设计了4种作业调度算法。对于仿真作业调度采用自适应尝试运行方法,尝试将一些根据现有调度算法不能部署到处理器上运行的作业提前部署到处理器上执行,一旦这种抢占运行违背调度公平性,则停止一些抢占作业并将它们重新放回到等待队列中。这种调度算法是对现有广泛使用算法的增强改进,在易实现性、轻便性等方面有着和现有算法一样的优势,且能提供远优于现有算法的调度性能。
将面向平行应急管理的高效能仿真方法用于社会公共安全风险防控领域,对社会媒体网络用户实时舆论监控等建模仿真分析,以检测异常网络用户行为。社会媒体可加强网民间的组织和动员能力,同时影响社会运动和群体行为的形态。网络用户群体组织的发展首先是从个体发展而来,然后发展到群体。在发生、发展的过程中,受到多种因素影响,在这些因素背后又有其特定的关系支撑着其群体的发展壮大,转化衰变。大多数活动的根源是多种因素的综合体,这一论述虽然不能涵盖网络组织产生的所有原因,但在一定程度上有助于认识该组织的根源。由于该产物受各种因素交互影响,故应深入分析这些因素,构建网络组织及其外部环境模型,对其形成、转化及衰变模型进行模拟推演,分析时空维度下网民行为内在关联,进行自动化异常行为模式检测。
基于Agent的网络群体组织模型如图1所示。在对网络群体组织关联关系研究中,将对外部影响因素进行分析。网络群体组织是一个开放的复杂系统,组织为了求得生存、发展和实现其目标,不断地与外界环境进行物质、信息、能量和资源交换。该部分采用指数随机图模型的社会网络分析法研究内外部的综合影响,如图1(a)所示。在此网络中,组织与外界环境的能量交换表现为:组织、后勤、信息、信念、技能、话题/任务/目标,这六要素构成了一个复杂的自适应系统。从单一的影响因素出发,全面分析影响网络组织发生、发展的具体因素,然后综合这些影响因素,从系统学的角度去认识其影响因素和问题,研究层次分析和影响图等方法,进一步分析网络组织影响因素关系,构建演化的关键要素及关系模型,为仿真演化模型研究建立基础。
在对网络群体组织Agent模型建模的分析研究中,通过采用异构多Agent模型建模方法,如图1(b)所示。该方法能对网络群体组织的复杂行为进行刻画。通过对内外部因素的研究,给出了网络群体组织Agent模型。模型的六要素为:内部特征、环境实体、环境特征、学习算法、动作及通信信息。结合网络群体组织演化规则,得到网络群体组织Agent演化模型。群体组织模型的参数学习问题也是复杂自适应网络群体Agent模型研究的重要方向。在模型参数生成方面,采用半监督机器学习和主动学习方法,将目前已有的模拟仿真结果样本作为标记数据,结合真实世界样本空间作为无标记数据,为现有的仿真模型训练出具有实际意义的模型参数,并对网络群体Agent 模型进行模拟仿真。
图1 基于Agent的网络群体组织模型Fig.1 Agent-based network group organization model
为解决没有对智能行为提供直接描述方法的问题,将模型形式化建模思想引入到智能体中,研究一种能对智能性和协作性进行描述的离散事件系统规范。在形式化描述规范的基础上,给定Agent原子模型与耦合模型的形式化描述,通过智能体模型间的相互协作,可动态修改知识库中的信息,提高了模型独立处理事务的能力,同时也更贴近实际,增强了自治性;为实现Agent在分布式交互仿真能力方面的扩充,研究协同仿真建模方法,并分析了通信机制,分别建立了Agent的知识更新与属性更新,以及Agent的模型耦合与实例交互间的映射,对模型进行模拟推演。在模拟推演过程中,进行仿真数据提取,如图2所示。
针对模型时域和空间域两个方面展开分类分析,并设计数据动态采集策略。从时域方面将模型演化模式分为收敛模式、循环模式、混沌模式等,通过时间窗均匀滚动和尺度变换分别采集模型演化数据和仿真参考数据,并采用动态时间规整和感知点检测的方法对上述数据进行筛选。通过多点逐步检测定位时域数据中的峰值和谷值点,一方面考察各关键点间数据波动趋势,另一方面考察以多个关键点为一组的时域数据波动规律,按照上述演化模式对其进行分类采集。用空间域方法研究仿真数据分布概率,并从对象、模型轨迹参数、模型协同参数划分空间模块,以及不同空间模块所需采集数据量,采用序列模式挖掘等方法对其演化模式进行挖掘。基于增量学习方法的异常行为检测流程为:利用自组织增量学习网络将对历史仿真行为数据进行模式聚类,并将当前仿真行为模式与聚类模式进行匹配和对比,得出异常行为检测结果。首先将模型对应的历史行为模式数据经自适应降维和特征提取等方法提取关键点压缩,然后通过动态聚类的方式生成多个历史行为模式团簇。新的仿真行为模式能以增量动态训练的方式逐条加入并改变团簇结构,形成行为模式模型的一个参考类库。当获取到所需场景下仿真行为模式样本时,可对其进行在线压缩,并针对压缩后的样本寻找最近团簇,形成新的行为模式。如果当前行为模式无法加入任何行为团簇时,对行为模式进行实时对比分析,实现异常行为检测。
在模型训练过程中,采用高效能仿真平台机器学习模型分布式训练。分布式模型训练分为数据分布、模型分布和混合分布,高效能仿真平台分布式训练采用数据分布方法。对于数据分布式来说,每一个计算节点都有一个完整模型的副本,在各个机器上处理数据集的不同部分。数据分布并行训练方法需要组合各个工作节点的结果,并且在节点之间更新模型参数,如图3所示。图3(a)是一种最简单的方法,随机配置网络模型参数,将参数发布到各个计算节点,在每个节点,用数据集的一部分进行训练,将各个工作节点参数的均值作为全局参数,该模型训练法称为参数平均法。参数平均法的结果在数学上等同于用单个机器进行训练,但是网络通信和同步的开销非常巨大,使得额外计算节点带来效益收益低。有一种与参数平均类似的方法,称为“基于更新”的同步数据并行化,如图3(b)所示。两者的区别在于同步数据并行化只传递更新信息(即梯度和冲量等)。当进一步放宽同步更新条件后,得到“基于更新”的异步数据并行化,如图3(c)所示。一旦计算得到新的更新信息就立即将其应用于参数更新,提高并行分布模型训练效率。
图2 基于Agent的网络群体仿真模型评估Fig.2 Agent-based network population simulation model evaluation
图3 高效能仿真平台分布式机器学习模型训练Fig.3 High-performance simulation platform distributed machine learning model training
本文对面向平行应急管理的高效能仿真方法进行了研究,重点介绍了面向人工社会的应急管理仿真建模、初始情景构建、仿真在线评估、云仿真并行作业调度等方法。以社会公共安全风险防控领域的社会媒体网络用户异常行为检测为应用背景,基于模拟推演研究了网络组织行为模式,基于增量学习方法进行异常行为自动化检测。面向平行应急管理高效能方法需要进一步解决的问题和研究的内容包括:1)当前高效能仿真平台不同领域仿真系统彼此独立,应考虑后续成果的延续性;2)当前不同领域仿真资源缺乏统一管理,应提高不同领域仿真资源的多元融合性;3)后续应研究支撑不同领域仿真用户的需求,提升高效能仿真平台对用户的友好性。