理论驱动的弹性结构体系图神经网络计算模型

2024-02-25 01:27宋凌寒樊健生

工程力学 2024年2期

宋凌寒，王琛，樊健生,2

(1.清华大学土木工程系，北京 100084；2.清华大学土木工程安全与耐久教育部重点实验室，北京 100084)

随着数字孪生等信息化、智能化转型理念[1-2]的推广，以机器学习、深度学习为代表的新一代人工智能技术[3-4]凭借卓越的拟合能力与计算效率，正吸引越来越多学者将其应用于土木工程结构计算方向，以期超越传统计算模型的性能表现，追求实现工程结构在数字世界的高效仿真。

目前结构智能计算领域的研究已覆盖工程结构各个层次，例如：在材料层次，CHOU 等[5]根据试验和模拟数据，采用多种机器学习方法预测了混凝土材料强度；FREITAG 等[6]运用循环神经网络模型(RNN)作为有限元方法的补充，计算了工程材料在带随机扰动输入下的时变效应；王琛和樊健生[7]进一步提出了适用于具有历史依赖效应的力学响应预测通用深度学习模型，首次将Transformer 架构及注意力机制[8]应用于结构计算分析领域。在构件层次，FENG 等[9]采用集成学习方法预测钢筋混凝土柱的塑性铰长度；ABAMBRES和LANTSOGHT[10]运用深度神经网络(Deep neural network, DNN)模型，根据287 组试验数据估算集中荷载下混凝土单向板的抗剪承载力；韩小雷等[11]提出了深度学习辅助的钢筋混凝土梁集中塑性铰模型，智能预测人工本构模型骨架线的关键特征点，进而实现滞回曲线的模拟；张翀等[12]则针对结构的数据特征工程提出了一种特征处理无量纲化算法，准确预测了钢筋混凝土柱双向压弯的屈服承载力。在体系层次，程诗焱等[13]提出了基于BP 神经网络的地震易损性曲面分析方法，可预测地震动输入下RC 框架结构的损伤指标；许泽坤和陈隽[14]基于长短期记忆(LSTM)提出了计算非线性结构地震响应的网络架构；TORKY 和OHNO[15]运用混合深度学习技术分析了结构体系在多波段输入地震波下的非线性响应；郑秋怡等[16]将LSTM运用于大跨桥梁的温度-位移预测模型。

类似的研究已在许多结构计算场景取得了宝贵的研究成果。然而，考虑到结构体系分析是工程中的重中之重，目前结构智能计算在体系层次的研究与应用仍存在以下局限性：1) 数字化表征手段缺失，上述结构智能计算方法只能应用于特定的可进行自由度凝聚的结构体系，例如固定截面配置的常规混凝土框架等，事实上，结构体系层次由于繁复的拓扑连接关系与组成构件布置，其特征复杂度相较于材料与构件层次呈指数上升，目前线性的数据组织方式无法完整描述结构体系的完整特征；2) 面临严重的数据匮乏问题，上述智能计算模型采用的均为数据驱动模式，依赖大量的数据训练和参数调整，而体系层次试验数据少，数据生成成本高，存在严重的数据匮乏和参数不完备问题，导致以大数据为驱动逻辑的经典智能模型适用性差；3) 计算结果理论正确性难以保证，基于数据驱动的智能模型其推理过程是一个黑匣子，忽视了结构工程鲜明的力学意义，研究者与工程人员难以根据部分测试结果判断模型的正确性，这对于以安全性为首要目标的工程应用而言是无法接受的。

为解决上述问题并填补相关研究空白，本文将以弹性结构体系为初步研究对象，创新提出理论驱动的图神经网络计算模型StructGNN-E(Structural analysis based on graph neural networkelastic)，以适用于任意杆系结构体系的弹性内力分析。本文研究内容组织如下：第1 节理论分析了DNN 等常规神经网络结构在体系层次的不适用性，提出了基于非欧数据结构的结构体系数字化表征方法；第2 节详细介绍了StructGNN-E 模型的基本原理，并对其中采用的图神经网络架构和理论驱动范式进行了阐释；第3 节开展了一系列数值试验，以检验模型在不同结构体系规模下的计算精度与计算效率；第4 节通过对比算例讨论了体系层次场景下常规神经网络结构和纯粹数据驱动模式的局限性，进一步阐释StructGNN-E 的有效性与合理性。

1 结构体系数字化表征方法

结构计算分析的机理可抽象为在已知结构属性S=(C1,C2,···,Cm)和外界输入作用I=(Xt0,Xt1,···,Xtn)下，预测满足物理定律的结构响应O=(Yt0,Yt1,···,Ytn)。在结构体系层次，结构自身属性Ci包括空间拓扑关系、截面属性、材料性质等，Xti/Yti表示研究关注的输入/输出指标，如荷载、位移等，其中下标t表示关注的时刻。结构智能计算的目标即是利用人工智能技术建立已知条件(S,I)与响应O之间的映射关系。

目前，在体系层次的结构智能计算研究往往只关注外界输入I，却鲜有考虑甚至是忽略了结构自身属性S，导致模型的通用性和泛化能力不足。结合经典结构数值研究与工程设计经验，结构体系层次的完整特征属性可以归纳为两方面：1) 拓扑连接关系，结构体系包含大量结构构件，其位置信息以及相互之间的连接关系构成了结构体系最直观的特征信息，同时也是外界输入作用I的物理载体；2) 组成构件属性，梁、柱等结构构件作为结构体系的基本组成部分，其自身属性，例如截面尺寸、材料性质等，会显著影响结构体系内部的传力机制以及整体的力学响应。与常规的线性数据结构(例如文本序列、图片像素等)相比，结构体系的特征数据具有如下特点：1) 非序列性，即结构体系各构成要素之间难以定义固定的前后关联顺序，不存在具有物理意义的起始点与终点，因此无法应用RNN 等序列模型；2) 非平移不变性，结构体系由于受到建筑功能、构件布置等因素影响，在不同的空间位置很难维持固定的邻域结构，因此，既无法确定输入特征维度，也无法类似网格数据(例如图像等)定义卷积核，导致DNN 与CNN 模型失效。综上所述，现有研究所采用的DNN、CNN、RNN 等常规深度学习网络结构均不适用于处理结构体系问题。

为完整刻画结构体系层次的数据特征，本文引入非欧几里得数据结构——图数据来实现对任意结构体系的数字化表征。具体而言，我们将采用无向图进行结构体系描述：

式中：V为节点；E为节点之间的边，对应到结构体系中，可用节点与边分别表示结构节点位置与相连构件。例如：框架体系中V表征梁柱节点，E表征梁、柱等构件；剪力墙体系中可用V表征边框节点，E表征内嵌钢板特征等。拓扑关联矩阵(topological adjacency matrix)A表征节点间的连接关系，其元素Ai,j取0 时表示节点i与j之间没有构件连接，取有效值时可表征连接构件的截面、刚度等属性，研究者可以根据需要灵活调整各元素的表达形式。以图1 的平面框架结构为例，其拓扑关联矩阵可表示为：

图1 某平面框架结构示意图Fig.1 Illustration of a planar frame structure

式中：对角元素Ai,i表示节点i的边界条件；上三角元素Ai,j表示节点i、j间连接构件的抗弯刚度；下三角元素Aj,i则表示轴向刚度，从而充分利用无向图关联矩阵的对称性节省存储空间。

此外，节点V还可囊括前文所述的Xti/Yti等输入/输出指标，从而用无向图G充分表征研究的结构体系，并将结构计算抽象为G在不同状态间的转换问题。为了适配非线性的图数据结构表征方法，本文将引入图神经网络(Graph neural network,GNN)[17-18]以代替常规深度学习模型，通过信息传递(Message passing)机制实现结构体系内力计算，契合结构体系的非序列性与非平移不变性。

2 StructGNN-E 模型

考虑到大部分工程结构在设计阶段均采用弹性设计方案，同时弹性情形也是体系非线性智能计算研究的基础，能够为其提供关键技术方案。因此，本文将以弹性结构体系作为研究对象。

基于结构体系的图数据结构表示，本节引入同构图神经网络(Graph isomorphism network, GIN)架构[19]建立了适用于弹性结构体系内力分析的深度学习模型StructGNN-E(Structural Analysis based on Graph Neural Network - Elastic)。模型的整体结构如图2 所示：首先将已知的结构体系信息预处理后转化为图结构数据，输入GIN 模型，其中每一层都考虑周边相连节点的信息传递，可以由拓扑关联矩阵计算，即模拟受力结构的内力分配，并采用MLP 作为聚合函数，ReLU[20]作为激活函数；输出的位移、内力等数据信息用于计算是否满足物理约束(三大基本方程)，作为损失函数回传梯度到网络中间层，根据梯度下降算法优化网络参数，再进行下一轮循环迭代。

图2 StructGNN-E 模型结构示意图Fig.2 Architecture of StructGNN-E model

以下将详细说明模型的组成结构和主要算法。

2.1 图神经网络(GNN)

图神经网络是最常用于处理图结构数据的深度学习模型，其基本思路是邻域聚合策略(neighborhood aggregation strategy)，即对每个节点聚合其邻节点的特征信息，往复迭代实现对整个图结构信息的充分表达。一般的GNN 包含两个重要组成部分[18]：1) 聚合函数(用AGG(·)表达)：决定邻域信息的聚合方式；2) 信息传递函数(用COM(·)表达)：决定信息传递如何至下一层。一般的，图神经网络包含若干层，即每个节点可以延伸的层数，第k层可写作：

图3 2 层GNN 模型示意图Fig.3 Architecture of GNN model with 2 hops

StructGNN-E 模型所采用的GIN 网络是XU等[19]在一般GNN 基础上提出的同构图神经网络，被证明具有较强的表达能力，其中AGG(·)对节点信息进行直接求和，COM(·)则选取多层感知机(Multi-layer perceptron，MLP)，即：

具体而言，本模型中的GIN 网络第k层可写作：

式中，Av,u为拓扑关联矩阵A的对应元素。由于一般框架结构的拓扑性质，实践中取k=2～5 可保证节点充分获取周边的信息，同时避免过度平滑问题(Over-smoothing)[21]。GIN 网络的各个节点输入参数包括节点坐标(初始位移)和荷载条件，输出参数包括实际位移、构件内力和支座反力，通过邻域聚合策略，各节点综合周围节点的信息，近似于“模拟”内力的分配和传递，适应一般框架的结构特点，并可根据研究者的需要调整。

2.2 理论驱动模式

如引言所述，传统的深度学习方法需要试验或有限元生成数据以训练网络参数，即有监督的学习过程[1]。然而，在体系层次，结构体系试验数据量极为匮乏，而通过精细有限元模型等传统计算方法生成数据所需时间开销大，且不可能覆盖各种构件布置与截面属性。同时，常规数据驱动的人工智能模型，其推理过程不具有可解释性，忽视了结构工程的力学背景，导致研究者与工程人员无法判别计算结果的正确性。为此，StructGNN-E模型将提出基于三大力学方程的理论驱动模式，摆脱对于标签训练数据的依赖，并保证深度学习模型推理结果的理论正确性。

具体而言，根据弹性结构力学，宏观平衡方程、变形协调方程以及弹性本构方程这三大力学方程具有理论完备性，即在弹性情形下，结构体系各处若同时满足三大方程，则其内力分布是正确且唯一的。得益于图数据结构表征方法，在各个节点处，可以同时维护协调的平动自由度与可分离的转动自由度(即可视构件连接方式为铰接或刚接等情形进行调控)，因此自然满足变形协调方程。构件的弹性本构关系则可借助式(2)的拓扑关联矩阵或边属性特征进行存储。因此，在模型求解过程中，仅需关注宏观平衡方程，并可依此构造优化目标：

式中：Fin为模型计算的节点内力；Fex为外部输入的荷载；||·||2为L2 范数(MSE Loss)。

区别于训练—测试—泛化应用的常规数据驱动智能模型范式，在理论驱动模式下，模型的训练过程即对应求解过程，模型收敛则代表着求解完成，并由前述三大方程的理论完备性保证计算结果的正确性。

梳理上述流程可以发现，理论驱动模式无需标签数据，从根本上缓解了体系层次数据严重匮乏的问题，且对待模拟的结构体系没有任何限制，具有极强的通用性。同时，其求解信息完全依赖于底层图数据表示的拓扑信息传递，充分发挥了非线性数据结构的优势，从力学意义上可直观理解为通过深度学习技术进行自动识别体系内部的传力路径，实现体系内力分析。

3 数值试验

为了快速检验StructGNN-E 模型的计算效果，本节采用多层平面框架结构开展数值试验。

3.1 方法简介

根据框架结构的特点，设计了可根据研究需要随机生成平面框架结构的子程序，可人为设置层数、跨数、截面等参数，生成框架数据，并转化为StructGNN-E 模型可操作的拓扑关联矩阵，提供给模型进行训练求解。例如，生成某14 层5 跨带支撑办公楼框架结构，各构件均采用焊接Q355B 工字钢板材，弹性模量均取200 GPa，如图4所示；外界荷载同样可根据需要随机生成，并施加在任意位置。试验中框架节点数N可直观反映结构的规模，也表征了模型的网络规模。以下将在节点数N=10、100、1000 的不同问题规模下，检验StructGNN-E 模型的有效性与性能表现。

图4 典型试验框架示意图 /mmFig.4 Illustration of a typical frame model

为更清晰地阐述算法流程，以图1 所示的框架结构为例进行说明：

1) 输入结构基本信息，提取节点坐标(xv,yv)和拓扑关联矩阵A(式(2))；对于节点规模较小的情形，将坐标与节点荷载Fex直接拼接作为输入：

设定输出为节点位移增量(平面框架情形)：

2) 构建网络结构，通过输入线性变换层Linear1得到GIN 的节点输入(即式(7)的初始输入)：

通过GIN 进行邻域聚合，并选用ReLU 函数激活，2-hop 情形下简化为：

再通过输出线性变换层Linear2得到最终输出：

3) 计算损失，主要通过式(8)确定的节点平衡方程控制输出的准确性，其中节点荷载Fex由输入决定，节点内力Fin=(Fx,Fy,M)则根据模型输出的位移增量计算。

4) 通过Pytorch 平台的自动计算梯度技术回传损失，优化网络结构参数，再迭代2)～ 4)过程直至结果满足要求。

3.2 模型参数

试验中根据不同规模的结构，分别建立对应规模的StructGNN-E 模型，图神经网络部分包括1 层输入变换线性层、2 层(2-hops)GIN 和1 层输出变换线性层，基本模型参数如表1 所示，可见参数总量P与问题规模N大致满足P∝N0.58。

表1 模型参数选取Table 1 Setup of model parameters

模型的优化器采用Adam 算法[22]，参数默认值β1=0.9 ， β2=0.999，∊=10-8，初始学习率为0.01，并根据迭代周期(epoch)递减；损失函数考虑到计算效率和结果平滑度，采用MSE 损失函数。由于计算无需训练数据，不考虑批次(batch)划分，对每个模型随机生成100 种荷载输入工况进行计算，每种工况下当epoch 数达到10 000 或计算损失低于1%时停止迭代。

模型基于Pytorch 平台实现，考虑到后续将与SAP2000 等传统有限元计算软件进行对比，仅使用i7-8700 CPU 进行训练求解。

3.3 模型验证

针对不同规模的框架在随机外荷载输入的情况下，模型的计算准确性稳定在99%左右，图5展示了不同规模问题下最优模型平均的计算精度和迭代周期的关系，可见随结构规模增大，虽然收敛速度有所降低，但均能达到高精度指标。

图5 不同规模的平均收敛情况Fig.5 Average convergence curves for different scales

对同一节点规模的结构，试验了模型隐藏层参数取值对计算收敛能力的影响，如图6～图8 所示。可见，一定范围内，模型参数量越大，最终准确度越高，且收敛到同一精度所需的迭代次数降低。

图6 N=10 时不同参数规模的收敛情况Fig.6 Average convergence curves with different models(N=10)

图7 N =100 时不同参数规模的收敛情况Fig.7 Average convergence curves with different models(N=100)

图8 N =1000 时不同参数规模的收敛情况Fig.8 Average convergence curves with different models(N=1000)

选取N=100 的计算结果与SAP2000 软件v20.0版本建模进行对比，绘制弯矩分布图和虚功(内力乘以变形)值分布图，如图9、图10 所示。由图可见，模型的计算精度与有限元软件基本没有差异，达到结构分析的需求。

图9 弯矩分布图对比Fig.9 Comparison of moment diagrams

图10 虚功分布图对比Fig.10 Comparison of virtual work diagram

试验中针对不同规模问题，每组随机生成20 个结构，记录了模型的平均计算时间(单位：s，同一台设备上以精度达到99%为准)，并与结构工程计算常用的SAP2000 有限元软件[23]进行对比，如表2 所示，可见在小规模问题上，StructGNN-E模型的计算效率与之相差不大，略低于SAP2000软件；但随着规模增大，SAP2000 软件的计算开销迅速增加，而StructGNN-E 模型则增速低于前者，当问题规模达到10 000 节点时，StructGNN-E 的平均计算效率超过SAP2000 软件36%。因此，深度学习模型在实际复杂工程中具有可观的应用价值。

表2 模型收敛时间对比Table 2 Comparison of convergence time

综上所述，本数值试验验证了StructGNN-E模型的有效性，证明其能够高精度求解任意规模的杆系结构弹性内力分析问题，且计算时间开销随问题规模上升缓于传统计算方法，从而可在实际工程应用中的大规模结构分析场景下实现计算效率的大幅提升。

4 模型讨论

4.1 DNN 与GNN

与已有体系层面的研究方法不同，StructGNN-E模型没有采用最常见的深度神经网络模型(DNN)，而是采用了更符合结构拓扑性质的图神经网络(GNN)。从数据角度而言，DNN 适合处理类似文本、向量的一维数据(CNN 则针对二维以上的欧式定义数据)，需要将结构体系输入转化为向量或矩阵，例如将所有框架节点按顺序排列，如图11所示，但这种传统方法的弊端在于丢失了结构的拓扑信息，数据经过DNN 的映射难以得到符合力学原理的计算结果。其本质可能在于，DNN 的隐藏层建立了所有节点之间的联系，相当于拓扑关联矩阵的所有项均非零，而实际情况下结构中的很多节点主要受临近节点影响，拓扑关联矩阵的非零项主要集中于对角线附近。

图11 DNN 与GNN 模式对比Fig.11 Comparison of DNN and GNN frameworks

此外，将结构信息直接整合为一维数据，大规模结构问题中往往出现维度爆炸，导致神经网络臃肿而降低计算效率和收敛能力。为验证论述，将StructGNN-E 模型中的GNN 模块替代成参数量相近的DNN 模块进行对比试验，收敛曲线如图12 所示，可见相近参数量的训练情况下，同一规模问题中DNN 模型无法收敛到可接受精度，因此，可证明DNN 不适用于结构体系层次的内力分析。

图12 DNN 与GNN 收敛曲线对比Fig.12 Comparison of convergence curves of DNN and GNN

4.2 数据驱动与理论驱动

为了进一步论证理论驱动方案在体系层次的合理性，采用SAP2000 软件生成2 组共1000 条带标记数据训练模型，其中：第一组，500 条数据为问题规模N=10 的不同结构体系，输入为每个结构体系的信息和一种随机荷载工况，输出为SAP2000软件计算得到的对应节点位移D；第二组，500 条数据的问题规模N=100，输入信息与第一组相仿。纯数据驱动模式下，对每组数据按照3∶1∶1的比例划分训练集、验证集和测试集；理论驱动模式下，将数据的标记结果D舍去，直接计算各个问题的结果进行对比。

表3 给出了纯数据驱动模型学习结果与StructGNN-E 模型的对比(模型参数基本相同)，结果表明，纯粹数据驱动模型虽然在训练集上实现了收敛，但不具有泛化性，无法应用于训练集以外的具有不同拓扑连接方式的结构体系，因此计算结果完全依赖于训练集的优劣；而理论驱动模式则不同于传统的训练-测试模式，模型训练的本身即问题求解，因此可以避免搜集和标记大量数据的过程[24]，直接针对待研究结构进行计算。

表3 纯数据驱动模式与理论驱动模式对比Table 3 Comparison of data-driven mode and physicsinformed mode

综上所述，在结构体系层次，经典的DNN 等智能模型以及纯数据驱动模式均不具有适用性，而理论驱动的StructGNN-E 可以突破常规智能技术的局限，捕捉并处理结构体系的拓扑连接信息，无需依赖底层数据分布，实现对任意杆系结构体系的弹性内力分析。进一步针对非线性弹塑性问题，可以考虑结合数据驱动和理论驱动的优点构建混合驱动模式。

5 结论

本文分析了体系层面结构智能计算问题的特性，基于图神经网络提出了一个适用于常见杆系结构体系的弹性计算模型StructGNN-E。模型可以充分表征体系中构件的拓扑关系，并借鉴理论驱动神经网络的思想，利用平衡条件、本构关系等物理方程构造参数迭代的损失函数，从而优化求解空间，通过不依赖于数据训练的理论驱动架构求解弹性范围的内力分析问题。主要研究结论有：

(1) 结构体系层次需要同时考虑拓扑连接关系与组成构件属性，具有非序列性与非平移不变性，无法采用DNN、CNN、RNN 等常规深度学习模型进行表征与处理。

(2) 引入了非欧的图数据结构以刻画结构体系信息，建立了结构体系拓扑关系与构件布置到图数据结构元素的映射关系，实现了对任意杆系结构体系的高保真数字化。

(3) 基于图神经网络建立了智能计算模型StructGNN-E，并提出了适用于结构体系层次的理论驱动模式，实现了无外部标签数据情形下的体系内力分析，克服了体系层次数据严重匮乏的问题，并保证了计算结果的理论正确性。

(4) 数值试验证明，StructGNN-E 能够高精度求解杆系结构体系的内力分布，并能够在实际大规模问题计算中表现出卓越的计算效率，相较于传统计算模型提升可达36%。

(5) 通过对比试验说明了DNN、CNN、RNN等常规深度学习模型以及数据驱动模式运用到体系层次的局限性，深化证明了StructGNN-E 模型的合理性与有效性。