多主体视角下的科技监督系统演化博弈机制研究

2022-12-31 08:44:06廖苏亮吴国栋段依竺

科技创业月刊 2022年11期

廖苏亮，吴国栋，段依竺，张衡

(广东省技术经济研究发展中心，广东广州510070)

0 引言

近年来，我国科研诚信建设在工作机制、制度规范、教育引导、监督惩戒等方面取得了显著成效，但“基因编辑婴儿”[1]“汉芯事件”[2]“《肿瘤生物学》集中撤稿”[3]“明星博士学术造假”[4]等科研不端事件仍有发生，严重破坏科技创新的基石，造成了严重而恶劣的社会负面影响，科研活动监督引发社会各界高度关注。科研不端行为反映出科研活动监督的不可替代性，若缺乏有效的监督机制约束，科研活动将可能出现资金挪用、成果虚报、夸大、造假等科研不端问题[5]，不仅严重破坏科技计划实施效果，污染风清气正的科研风气，也给权力寻租和利益输送提供空间[6]，严重损害政府形象，降低政府民众公信力。

随着我国科技创新工作迈入新发展阶段，在党中央对科技管理体制“放管服”[7]“减负”[8]的改革要求下，科技监督的内涵逐渐向提升科技工作公开、公平、公正的透明度和管理效率，营造风清气正的科研环境转变，科技监督体系演变成由政府、项目管理者、项目执行者、社会监督等多个利益相关主体组成的复杂体系。因此深入研究科技监督体系内在运行机制，厘清各利益相关方之间的关系，促进各参与主体利益协同，对营造风清气正的科研环境、提高科技创新治理水平质量、推进我国科技创新治理体系和治理能力现代化具有重要意义。

1 文献综述

国内部分学者总结了我国科技监督系统运行现状，提出国家或地方科技监督与评估体系的建设与完善建议。刘冬等[9]分析了我国科技监督评估的现状、内涵和作用，指出监督体系中存在的问题并给出对应解决对策；吴艳等[10]研究了项目管理专业机构在国家科技计划项目监督评估中的作用与定位，提出建立决策、执行、监督三位一体、互相协调又相互制约的管理模式；张娟[11]基于广东省科技监督和评估管理的现状，提出构建内部控制与外部监督的管理体系、完善监督信息化平台建设提升信息化水平等对策；孙继辉等[12]在梳理国内外科技监督评估体系文献的基础上，构建了一套适用于大连市的科技监督评估体系；戴红玲[13]分析了科技项目执行过程中可能存在的经费使用问题，并从经费审计的角度提出科研经费监督的有关策略。

部分学者尝试构建科技监督系统的理论模型，研究科技管理系统运行的内在机制。贾志涛等[14]基于演化博弈理论构建财政科技经费的监督者与使用者的行为策略模型，并研究第三方监督对科技经费使用者和监督者的策略选择影响机理；刘桂兰等[15]运用寻租和博弈论理论，研究我国科技管理系统的内在运行机制以及各主体间的博弈，提出我国科技监督体系存在的不足以及完善方法；盖宏伟等[16]针对我国当前科技监督主体较单一、结构性较弱等问题，基于系统论和协同理论提出多元主体联盟协同监督的运行模式；刘冬等[17]将科技项目看成是多重委托管理关系，以委托视角对科技项目管理和监督开展研究，提出科技项目管理监督评估对策；张同建等[18]基于结构方程模型研究科技项目实施中机会主义行为治理的微观机理，从管理微观层面提出机会主义行为治理和监督策略。

此外，还有学者研究了美国、欧洲、日本等科技发达国家的科技监督体系建设情况，探讨国外经验对我国科技监督体制机制建设的借鉴作用。王纬超[19]通过分析瑞典科技创新体系科技监督评估的特点和优势，针对我国高校科研管理情况提出政策建议；俞向群[20]以英美等科技先进国家为研究对象，研究各国政治、财政与科技体制对其科技经费监督制度的影响，总结发达国家在科技项目经费监督制度建设方面的经验；王静[21]总结了英国近年来在国家科技计划、科技政策、机构监督评估等方面出台的制度和措施，以及科研诚信建设、科研不端行为处置，提出对我国科技监督评估的建议；黄建安[22]从科技发展规划的监督层面，研究了美国、日本、德国等科技发达国家科技发展规划实施的监督检查机制，提出加强我国监督机制建设的相关建议。

上述研究从政策分析、案例剖析和数理模型分析等多个角度为我国科技监督提供了决策建议和方法。随着国家对科技管理体制改革的不断深入，政府部门不直接管理项目，而是由专业机构履行项目管理职责。从博弈理论角度看，现阶段的科技监督系统已经演变成政府、项目管理方、项目执行者等多个利益相关方之间的动态博弈系统，系统中各博弈主体不断通过外界反馈来调整自身策略，经历反复博弈后最终形成稳定的演化均衡策略[23]。因此有必要针对当前科技监督系统，建立符合客观实际的演化博弈模型，探索各博弈主体的动态演化过程及不确定性因素对演化策略的影响。

2 演化博弈模型构建

本文依据演化博弈理论，将当前治理框架下的科技项目管理体系简化为政府、项目管理者、项目执行者3个主体组成的动态博弈系统。政府为科技创新治理体系的顶层设计者和政策制定者，其监督策略集为(积极监督，消极监督)，积极监督指政府对科技计划项目主动跟踪、监测和管理，并根据项目实施情况对管理者和执行者采取必要的奖惩措施；消极监督指政府处于被动监督状态。项目管理者的策略集为(主动监督、被动管理)，主动管理是指项目管理方主动跟进项目进展，了解项目需求，在发现项目执行者不自律时主动采取监督措施；被动管理是指项目管理者仅根据政府监督要求，被动对项目开展跟踪监督。项目执行方策略集为(自律，不自律)，自律指项目执行方主动组织技术攻关，推进项目进展；不自律是指执行方不主动不作为，敷衍了事。由于演化博弈通常基于非完全理性决策，因信息不对称及非完全理性决策的存在，各方常常在职责分工、理性思考、识别判断、分析推理以及准确行为等多方面存在异质性和局限性。因此博弈过程所得出的结果并非是一次性选择，而是博弈各方根据自身条件、外部环境、对方策略不断进行动态调整的过程，对此本文作出假设如下：

假设1：政府(Government)选择“积极监督”时，其在积极监督过程中的时间和物质成本为Cg1(Cg1> 0)，获得收益Eg1(Eg1> 0)，主要包括积极监督所带来的社会声誉激励效应和上级政府部门的肯定等；当政府选择“消极监督”时，其付出的时间和物质成本为Cg2(Cg2> 0)，选择“积极监督”所需投入的人力、物力、财力成本为显然高于“消极监督”成本，因此Cg1>Cg2。若科技项目执行过程中发生违背科研诚信、科研伦理甚至触碰法律的行为，政府部门将会因监管不到位受到上级部门问责惩罚损失为Lg1(Lg1> 0)。若政府因“消极监督”且项目发生较大风险，将对社会造成一定的负面影响，产生包括政府公信力降低等声誉损失、信誉损失等治理损失Lg2(Lg2> 0)。

假设2：项目管理者(Manager)选择“积极监督”时，需要投入相应量的人力、物力和财力来跟踪督促推动项目执行，为此付出的成本为Cm1(Cm1> 0)，“积极监督”获得上级部门肯定以及其他声誉收益，为Em1(Em1> 0)，同时获得政府对其的补贴与奖励为Em2(Em2> 0)。当项目管理者选择“被动监督”时，投入的成本为Cm2(Cm2>0)，但不履职尽责可能受到上级部门处罚Lm1(Lm1>0)，单位声誉受损Lm2(Lm2> 0)。显然，积极监督的成本Cm1大于消极监督的成本Cm2，即Cm1>Cm2。

假设3：项目执行者(Executor)选择“积极监督”时(执行者建立内部监督制度，或聘请第三方监督)，需花费额外的人力和时间，成本为Ce1，但通过有效的监督手段，一方面积极推动项目执行，主动防范化解风险，另一方面获取政府和管理者的信任，收获行业声誉和社会声誉，收益为Ee1(Ee1> 0)，此外还有机会可能得到政府财政其他资金支持，收益为Ee2(Ee2> 0)。若项目执行者选择“消极监督”成本为Ce1，但若项目执行发生高风险性问题，一方面项目执行者的声誉将会有极大负面影响Le1，另一方面项目执行者可能面临来自政府的惩罚，损失为Le2，同时受到管理者的惩罚，损失为Le3。因“积极监督”需要花费额外的人力物力，因此积极监督的成本Ce1大于消极监督的成本Ce2，即Ce1>Ce2。

假设4：若因政府“消极监督”或项目管理者“消极监督”造成的监督缺位，最终可能导致项目执行者选择“不自律”策略，此时发生重大风险的概率会大大增加，三方均可能因此承担损失重大治理损失。政府面临重大治理损失和声望损失为Lg3，管理者面临来声望损失为Lm3，执行者面临来自政府问责和声望损失为Le5。

综上，获得假设1-4中提及的参数和解释如表1所示。

表1 演化博弈模型参数设置

基于以上演化博弈各方的基本假定，可构建当前科技治理体系下的科技监督三方演化博弈的支付矩阵如表2所示。

表2 三方演化博弈的收益矩阵

3 演化博弈模型分析

演化博弈的数学模型选择较多，如复制动态方程、最优反应动态方程等，其中复制动态方程的微分方程(组)因具有较好数学解析性而得到广泛使用[24]，本文中应用该演化机制微分方程来构建科技监督演化博弈模型。

首先假设政府选择“积极监督”策略的概率为x，项目管理者选择“积极监督”策略的概率为y，项目执行者选择“积极监督”策略的概率为z，x,y,z∈[0,1]。根据表2中政府、项目管理者、项目执行者三方演化博弈收益矩阵，得到政府策略选择分别为“积极监督”“消极监督”时，期望收益Ug1和Ug2，以及平均期望Ug分别为：

Ug1=yz(Eg1+Eg2-Cg1-Ee2-Em2)+y(1-z)(Eg1-Cg1-Em2)+(1-y)z(Eg1+Eg2-Cg1-Ee2)+(1-y)(1-z)(Eg1-Cg1);

(1)

Ug2=yz(Eg2-Lg1-Cg2)+y(1-z)(-Cg2-Lg1-Lg2)+(1-y)z(Eg2-Lg1-Cg2)+(1-y)(1-z)(-Cg2-Le5);

(2)

Ug=x*Ug1+(1-x)×Ug2;

(3)

项目管理者采取“积极监督”和“消极监督”时的期望收益Um1和Um2，以及项目管理者的平均期望收益Um为：

Um1=xz(Em1+Em2-Cm1)+x(1-z)(Em1+Em2-Cm1-Lm1)+(1-x)z(Em1-Cm1)+(1-x)(1-z)(-Cm1-Lm1);

(4)

Um2=xz(-Cm2-Lm2)+x(1-z)(-Cm2-Lm1-Lm2)+(1-x)z(-Cm2)+(1-x)(1-z)(-Cm2-Lm3);

(5)

Um=y×Um1+(1-y)×Um2;

(6)

项目执行者采取“自律”和“不自律”时的期望收益Ue1和Ue2，以及项目执行者平均期望收益Ue分别为：

Ue1=xy(Ee1+Ee2-Ce1)+x(1-y)(Ee1+Ee2-Ce1)+(1-x)y(Ee1-Ce1)+(1-x)(1-y)(Ee1-Ce1);

(7)

Ue2=xy(Ee3-Ce2-Le1-Le2-Le3-Le4)+x(1-y)(Ee3-Ce2-Le1-Le2-Le4)+(1-x)y(Ee3-Ce2-Le1-Le3-Le4)+(1-x)(1-y)

(Ee3-Ce2-Le5);

(8)

Ue=z*Ue1+(1-z)×Ue2;

(9)

根据式(1)～(9)构建政府、项目管理者、项目执行者博弈三方的复制动态方程组K：

(10)

根据式(10)构建复制动态方程组，用于表示科技监督系统中政府、管理者、执行者三者之间的策略调整速度和演化方向。由于博弈主体各自策略选择的概率x,y,z均与时间t有关，且x(t),y(t),z(t)∈[0,1]，所以方程组K的值域为[0,1]×[0,1]×[0,1]。

(11)

根据演化博弈理论，在非对称博弈中，若演化博弈均衡E是演化稳定均衡，则E一定是严格纳什均衡，而严格纳什均衡又是纯策略均衡，即在非对称博弈中混合策略均衡一定不是演化稳定均衡。当K=(0,0,0)时，即当系统的策略调整速度为零时，得到政府、项目管理者、项目执行者三方的演化局部均衡点。其中E1(0,0,0)，E2(0,0,1)，E3(0,1,0)，E4(0,1,1)，E5(1,0,0)，E6(1,0,1)，E7(1,1,0)，E8(1,1,1)为系统的8个平衡点，也是该演化系统的纯策略纳什均衡解。由这8个平衡点所构成的区域Ω={(x,y,z)|0

由式(10) (11)构成的微分方程组可得该系统的Jacobian矩阵J为：

(12)

以上为利用演化博弈理论分析得出的科技监督系统在满足基本假设条件下的计算模型。但通过复制动态方程求出的平衡点不一定是系统的演化稳定策略(ESS)，参考Friedman[25]的理论，演化稳定策略可根据李雅普诺夫(Lyapunov)第一法则判断: 若雅克比(Jacobian)矩阵的所有特征值均为负，则均衡点为渐进演化稳定策略(ESS) ; 若Jacobian矩阵的特征值至少有1个为正，则均衡点为不稳定点; 若Jacobian矩阵除为零的特征值外，其余特征值均为负，则均衡点处于临界状态，稳定性不确定[26]。因此，在不同的初始值条件下，系统会有不同的演化稳定策略，即系统的演化均衡策略对系统初始状态具有依赖性[27]。根据上文分析，科技监督系统中，政府、管理者和执行者三方的均衡策略组合有8种，分别为(0,0,0)、(0,0,1)、(0,1,0)、(0,1,1)、(1,0,0)、(1,0,1)、(1,1,0)、(1,1,1)。

以点E1(0,0,0)为例进行分析，得到点E1的纯策略纳什均衡点的渐近稳定性如式(13)。

该矩阵的特征多项式如式(14)。

由式(13)和(14)可得到E1(0,0,0)的特征值(λ1,λ2,λ3)为(Eg1+Cg2-Cg1+Le5,Cm1+Cm2-Lm1+Lm3,Ee1-Ee3-Ce1+Ce2+Le5)。同理可得到其他均衡策略点的特征值。

为进一步确定各参数条件来确定各个均衡点的稳定性，确定演化博弈模型达到稳定状态的均衡点，使得模型的构建更加符合客观实际，且能更加精准地反映系统演化趋势，本研究邀请多名相关领域专家，采取德尔菲(Delphi)咨询法(至少2～3轮)与发放问卷相结合的方式(问卷信度系数Cronbach' s Alpha应大于0.7)获得相关变量初值。通过专家反馈意见的统计与优化，设置演化博弈参数赋值初值为：Eg1=11、Eg2=8、Em1=8、Em2=6、Ee1=9、Ee2=5、Ee3=16、Cg1=3、Cg2=1、Cm1=4、Cm2=1、Ce1=4、Ce2=1、Lg1=6、Lg2=5、Lm1=4、Lm2=3、Le1=3、Le2=5、Le3=1、Le4=3、Lg3=15、Lm3=10、Le5=9。

根据构建的Jacobian矩阵和参数初值，依据Lyapunov第一法则得到博弈三方的均衡策略组合的稳定性如表3所示。

表3 均衡点的稳定性判断与分析

科技监督的根本目标为保障科技计划的产出绩效，防范和化解重大风险。为保障目标实现，现实中科技创新监督工作的理想格局为政府“积极监督”、管理者“积极监督”、执行者“自律”的策略组合，恰为本研究中三方博弈系统的稳定点(x=1,y=1,z=1)，本研究从多方演化博弈角度印证了多方监督的重要性与必要性。

在演化博弈系统中，由于各方常根据自身与其他博弈方的策略来进行自身策略调整，且参与博弈的各方可能存在一定的信息和反馈迟滞，各方策略的选择概率将动态调整。例如，项目执行者通常根据政府和管理者的监督力度来调整对项目的实际投入，即政府和管理者“积极监督”时，项目执行者较大概率会采取“自律”策略；若项目实施因项目执行者的“不自律”而遇到重大风险问题，政府和项目管理者将加大监督极度，其“积极监督”策略选择的概率将上升。为表征研究政府、项目管理者、项目执行者三方在博弈过程中的策略选择情况和最终演化稳定状态，本研究采用MATLAB对科技监督系统动态演化博弈开展建模和数值模拟，以进一步分析系统的均衡稳定性，探讨各类不确定性因素对系统演化过程的影响。

4 演化博弈仿真计算

4.1 政府策略分析

首先探讨政府策略的总体演化趋势，分别设定政策“积极监督”的策略概率x分别为0.1、0.3、0.6和0.8，设定管理者“积极监督”的策略概率y在[0,1]区间以0.4的步长变化，执行者“自律”的策略概率z在[0,1]区间以0.4的步长变化，得到政府策略x在不同初值、不同策略组合下随时间演化趋势如图1所示。从仿真结果可知，政府策略政府始终稳定于“完全监督”，即x=1的状态，且初始策略越高，到达稳定点的演化时间越短。这主要是因为在当前科技创新治理体系下，政府是科技监督的首要权责主体，“积极监督”始终是政府的最佳策略选择。值得注意的是，在政府“积极监督”策略x初值较小时，演化的时间较长，如图1(A)中当x=0.1时，需要超过1个月的演化时间方能到达系统稳定点，在此过程中发生各种不确定性因素的可能性也会增加，因此政府在博弈初始就应该采取有关监督措施尽可能提高x初值以保障监督效果。

为进一步研究政府策略受其他博弈方策略影响情况。首先研究政府策略受管理者策略影响情况，设定政府“积极监督”策略x=0.2，项目执行者“自律”策略z=0.2，项目管理者“积极监督”的策略概率y在[0,1]区间以0.2的步长变化，获得政府策略x随管理者策略y的演化趋势如图2(A)所示。结果表明当y由0→1逐渐增大时，政府策略到达完全“积极监督”(x=1)的时间逐渐变长，主要原因是项目管理者履行部分监督职责，分担政府监督压力，使政府监督响应时间适当增长，也就是说政府策略随着管理者积极监督策略提高而放松。

同理研究政府策略受执行者策略影响情况，设定政府“积极监督”策略x=0.2，项目管理者“积极监督”策略y=0.2，项目执行者“自律”的策略概率z在[0,1]区间以0.2的步长变化，获得政府策略x随执行者策略z的演化趋势如图2(B)所示。可以看出，当z由0→1逐渐增大时，政府策略到达完全“积极监督”(x=1)的时间逐渐变长，即执行者的“自律”缓解了政府的监督压力。对比图2(A)和图2(B)可看出，政府策略趋势同时受管理者和执行者的策略影响，且受执行者策略影响更明显。

(A)x初值0.1；(B) x初值0.3；(C) x初值0.6；(D) x初值0.8图1 不同条件下政府策略(x)演化

(A)政府策略(x)随管理者策略(y)演化; (B) 政府策略(x)随执行者策略(z)演化图2 政府策略(x)随管理者(y)和执行者(z)策略演化

4.2 管理者策略分析

设定管理者“积极监督”策略初值y分别为0.1、0.3、0.6和0.8，政府“积极监督”策略概率x在[0,1]区间以0.4步长变化，执行者“自律”的策略概率z在[0,1]区间以0.4步长变化，获得管理者策略随时间演化趋势如图3所示。

(A)y初值0.1；(B)y初值0.3；(C)y初值0.6；(D)y初值0.8图3 不同条件下项目管理者策略(y)演变

仿真结果表明，在不同政府、执行者、管理者策略组合下，经过一段时间演化后项目管理者策略最终稳定于“积极监督”(y=1)状态，主要原因为在管理者策略选择中，“积极监督”比“消极监督”的收益高，在三方演化博弈系统中，“积极监督”是项目管理者的最优策略，但在政府完全“消极监督”(x=0)的条件下，管理者策略y需较长时间来达到稳定状态，客观分析主要是因为政府完全“消极监督”(x=0)时，管理者的监督权限有限，其策略需较长时间方能达到稳定状态。

为进一步研究管理者策略受其他博弈方策略影响情况，设定项目管理“积极是监督”策略z=0.2，执行者“自律”策略x=0.2，政府“积极监督”的策略概率x在[0,1]区间以0.2的步长变化，获得管理者策略y随管理者策略x的演化趋势如图4(A)所示；从计算结果可以看出，当x由0→1逐渐增大时，管理者策略到达完全“积极监督”(y=1)的时间逐渐缩短。客观上分析主要因为当政府监督越严格，执行者越自觉时，项目管理者既能得到丰厚的社会声誉收益，还能获得可观的政府补贴，获得综合收益期望越高，越有动力开展主动监督。

同理设定政府“积极监督”策略x=0.2，项目执行者“自律”的策略概率z在[0,1]区间以0.2的步长变化，获得管理者策略y(初值为0.2)随执行者策略z的演化趋势如图4(B)所示。可以看出，当z由0→1逐渐增大时管理者策略趋势变化几乎相同，也就是说管理者策略受执行者策略影响较小。其主要原因是在当前国家科技治理体系下，项目管理者通常为政府部门的下属单位，若不履行监督职责将面临政府责罚和社会声望损失。由此可见，博弈主体的策略选择与其职能定位密切相关。

(A)管理者策略(y)随政府策略(x)的演化;(B)管理者策略(y)随执行者策略(z)的演化图4 管理者策略(y)随政府(x)和执行者(z)策略演化

4.3 执行者策略分析

首先探讨项目执行者博弈策略选择的总体趋势，首先分别设定项目执行者“自律”策略y为0.1、0.3、0.6和0.8，设定项目执行者“自律”的策略概率z在[0,1]区间以0.1步长变化，项目管理者y在[0,1]区间以0.2步长变化，获得到项目执行者策略变化如图5所示。

仿真计算结果表明，在政府策略为完全“消极监督”(即x=0)时，项目执行者的策略将随时间演化稳定于完全“不自律”状态(即z=0)，即在政府“监督缺位”情况下，项目执行者最优策略始终为“不自律”，而项目管理者策略变化仅能影响演化时间而无法改变其演化趋势。这表明仅靠项目管理者的监督将引起系统“监督失灵”，究其原因一方面是项目执行者“自律”成本较高，需投入大量的人力物力保障项目实施；另一方面，现实中执行者有一定几率在“不自律”情况下仍能通过项目验收，存在一定的侥幸心理。在“监督缺位”和“监督失灵”的双重条件下，执行者“不自律”将使重大风险性事件发生的概率大大增加，从对“基因编辑婴儿事件”的调查结果可以看出，正是由于“监督缺位”和“监督失灵”同时存在，才导致此类恶性事件的发生率大大增加。

若设定政府的积极监督策略x发生略微调整，从图6(A)中x=0突变致图6(B)x=0.01时，项目执行者的策略随即发生改变，呈现先降低后上升并最终稳定于图6(B)中的完全“自律”(即z=0)状态，这主要是因为当政府开始主动监督时，执行者通常选择“自律”以获得较高政府的其他补助和社会声望，通过一段较长时间的博弈演化，执行者最后选择对自己有利的“自律”。

(A)z初值0.1； (B) z初值0.3；(C) z初值0.6；(D) z初值0.8图5 不同条件下项目执行者策略(z)演化

图6 当政府策略(x)从0突变至0.01时项目执行者策略(z)的演化

为进一步研究执行者策略受其他博弈主体策略影响情况，设定执行者“自律”策略z=0.2，项目管理者“积极监督”策略y=0.2，政府“积极监督”的策略概率x在[0,1]区间以0.2的步长变化，获得执行者策略z随政府策略x的演化趋势如图7(A)所示。从计算结果可以看出，当x由0→1逐渐增大时，管理者策略到达完全“积极监督”(z=1)的时间逐渐缩短。客观上分析，主要因为当政府监督越严格时，执行者不自律将受到责罚。同理研究项目执行者策略随项目管理者策略影响情况，设定执行者“自律”策略z=0.2，政府“积极监督”策略x=0.2，项目管理者“积极监督”的策略概率y在[0,1]区间以0.2的步长变化，获得执行者策略z随管理者策略y的演化趋势如图7(B)所示。可以看出当y由0→1逐渐增大时执行者策略趋势变化几乎相同，仅达稳定状态的演化时间随着管理者策略y的增加而稍缩短，表明执行者策略受管理者策略影响较小，这主要是因为在当前科技管理体系下，以项目管理专业机构为代表的管理者缺乏对“不自律”行为的惩罚权利，如项目终止、资金收回、限制课题申报等，现有的奖惩权限和手段不足以对项目执行者造成收益影响，因此执行者策略并不随管理者的策略调整。当政府监督力度不够时，项目管理者的“积极监督”可以使得执行者到达稳定“自律”状态的演化时间缩短，但因此管理者可作为政府监督职能的补充，但不能取代政府的监督作用。

(A)执行者策略(z)受政府策略(x)影响; (B)执行者策略(z)受管理者策略(y)影响图7 执行者策略(z)随政府策略(x)和管理者策略(y)的演化

5 结论

本文基于有限理性观点，针对现行科技监督体系构建了政府、项目管理者、项目执行者三方演化博弈模型，借助计算机仿真展现了三方演化博弈过程，为进一步研究科技监督及相关策略提供新思路。结果表明：

(1)政府的监督作用不可替代，应积极履行监督职责。在政府“积极监督”的策略下，项目管理者最优策略为“积极监督”，项目执行者最优策略为“自律”。同时，在政府缺乏监督的情况下，仅靠项目管理者易引起“监督失灵”。

(2)项目管理者总是倾向于“积极监督”。在管理者的策略选择中，“积极监督”比“消极监督”收益高，即在三方演化博弈系统中，“积极监督”均是项目管理者的最优策略。当前国家科技治理体系下，项目管理者通常为政府部门的下属事业单位，若不履行监督职责，将面临政府的处罚和社会声望损失，因此，策略的选择与其职能定位有关。当政府监督力度不够时，项目管理者可作为政府监督职能的补充，但不能取代政府监督作用，政府依然是当前科技创新治理体系下的监督主体。

(3)项目执行者随着政府监督策略做出调整，而受管理者策略影响较小。当政府主动监督时，执行者通常选择“自律”以获得政府的其他补助和社会声望；但当政府不监督时，执行者通常选择对自己有利的“不自律”。管理者履行日常管理的职责，但缺乏对“不自律”执行者的惩罚权利(项目终止、资金收回等)，管理者策略调整不是执行者策略选择的主要因素。

(4)在政府“监督缺位”的条件下，项目执行者的最优策略为“不自律”，原因主要项目执行者“自律”成本较高，须投入大量的人力物力推进项目。另一方面，在实际情况中，执行者有较大几率在“不自律”情况下通过项目验收，存在一定的侥幸心理。在“监督缺位”的条件下，发生科研不端、违背科研伦理等重大风险的概率将大大提升，对博弈三方均造成重大损失，特别是政府的声望与治理损失。因此，为防范重大风险，政府和管理者均应履行监督职责。

需特别说明的是，本研究基于一定非理性决策的假设前提，随着科技体制机制改革的不断深入，科技创新治理体系的不断完善，现实情况将更加错综复杂。例如随着新博弈主体的增加，博弈策略选择和影响也会大大不同，本研究中建立的动态博弈模型须根据现实情境进一步优化，以更好地展现现实科技监督系统运作中的博弈行为。