计算机建模协助公共政策的制定、执行与评估

2019-12-11 14:38
江西社会科学 2019年1期
关键词:相关者建模政策

贾 晗/译

越来越多的计算机模型被协助用于公共政策的制定、执行与评估。研究表明,计算机模型之所以能够在政策制定过程中发挥重要作用,是因为它允许政策制定者在虚拟世界中先行先试,这与随机对照试验(RCT)和政策试点相比无疑具有更大优势。在政策建模实践中提炼出的一般性经验包括:设计和使用模型的最大好处在于它提供了对政策的解读而不仅仅在于它所生成的数字;模型是在一定的抽象条件下设计的;尽管有时会缺乏用于校验的相关数据,但建模仍然是有价值的;建模的协作性要求使得模型被用于满足建模涉及的利益相关者目的的可能性增大;需要注意建模者与利益相关者之间的有效沟通;需要仔细考量公共政策建模涉及的道德问题。作为公共政策制定过程的一个组成部分,政策建模的重要性日益凸显,但如想将其潜能充分释放,则需要将计算机建模与政策制定的内在文化相融合。

一、导 论

近30年来,计算机模型一直被用于协助公共政策的制定、执行以及评估,但它的潜能仍有待充分发掘。[1][2][3]本文选取了在公共政策制定过程中应用计算机模型的部分样本:(1)考察了政策制定过程中计算机模型所起的作用;(2)探讨了作为试验类型之一的政策制定与模型试验之间的关系;(3)指出影响模型发挥效用的关键因素。此外,本文还强调了模型本身及其在未来应用中将会遇到的挑战和机遇。

笔者有理由相信计算机模型将会被越来越广泛地应用于政府、商业、社会以及学界中[4],现有许多针对不同领域应用计算机模型的指南,如英国政府的“报告编制指南”[5],但是这些指南通常面向从业者及公众,已经被高度程式化或经技术化处理,即通常将失败的部分进行了删略并很少就如何在公共政策领域更好地应用模型进行更深层次的反思。在这里,笔者旨在填补这些正式指南所遗留下的空白,选取一系列示例,利用可视化的方式探索问题,承认失败并从中汲取经验教训,以期引起建模者的反思。虽然“公共政策计算机模型”是一个完整且准确的术语,也有很多人使用“计算机政策模型”这个提法,但简便起见,笔者将在下文中使用“政策模型”指代。

基于经验,笔者给出的主要建议即在政策建模时必须要对模型所要应用的背景环境有充分的认知,并且要充分考虑到模型是否契合设计的初衷以及能否从中得出某种结论。此外,如果不与模型输出用户(即决策者)进行强有力且反复多次的博弈,那政策建模几乎就价值不大或没有价值了。建模者必须以一种深入的、有意义的、合乎道德的且反复多次的方式与用户进行博弈。

二、建模在政策制定中的作用

政策制定的标准呈现周期性变化,尽管此观点并不完全可信,例如Lindblom在1959年和1979年作出的重要论述。[6]政策问题可能与危机产生、媒体宣传活动或对政治事件的回应相伴生并暴露出来。这是议程设置阶段,接下来便是政策形成、募集支持、政策执行、政策监控以及评估政策是否有效,最后是政策的维持或终止。随后再次因新的诉求或环境变化而导致对新政策的需求,周而复始。虽然政策生命周期具有将政策发展进行清晰且直接的概念化的优点,但其仍因不切实际或将情况过度简单化而受到诟病。有学者认为政策发展应该是高度复杂的,并取决于多种压力及信源[7][8],甚至是自组织化的[9][10]。

然而,政策生命周期这一概念仍然有助于明确政策设计与执行的诸多组成部分。政策模型至少在两个领域内发挥着明确且重要的作用:即在政策的设计评价与政策评估两方面。政策评价[11],有时也称其为事前评估,包括评估实现政策目标的政策备选方案的相对优点,评估结果将作为决定政策设计的关键。政策评估要么采用总结性方法,检查政策是否确实达到其预期目标(即事后评估),或采用程式化方法考察政策于何处、为了谁以及如何发挥作用。[12]在此种程式化视角下的关键目标是学会如何把握政策的未来迭代以及其他类似特征。

(一)建模支持政策设计与评价

运用政策模型进行事前评估可用于探索政策备选方案,以帮助人们明确并详细了解政策设计的具体细节。[11]例如,最大的好处就是可通过干预或多重政策机制之间可能的协同或冲突作用对政策加以明确。政策模型还可用于评价其他政策备选方案,以确定在这些政策备选方案中哪一项能够产生最佳或最稳健的结果。在这种模式下,政策模型的本质其实是通过改变模型中的相关参数或规则再观察其结果加以验证干预系统的其他备选政策及假设。这是很有价值的,因为它节省了在现实政策领域中进行试验或试点的时间与成本。

我们通常的假设是人们建造计算机模型是为了预测。然而从某种意义上来说,预测某项措施在政策领域未来的价值通常是不现实的。社会与经济现象错综复杂(就技术层面而言,详见Sawyer[13]),这就意味着事物的发展具有随机性,这是受既往历史(即路径依赖)及正负反馈循环影响的综合结果。就像天气难以预测一样,不论模型有多精细,社会的未来发展在许多细节上仍然是不可知或不可预知的。其次,模型是对现实必要的抽象,由于它不可能与社会现实相脱离或不受其影响,因此可能会有在建模之中未考虑到但却影响结果的意料之外的因素存在。

基于以上原因,“点预测”即预测未来某一特定时间节点的具体数值几乎是不可能的,更大概率做到的是预测某个事件是否会发生,或者是针对数值变化的类型或方向作定性描述。同时,了解可能产生的预测外结果的类型以及产生这些结果的本质也有助于政策设计,这样当预测之外的结果出现时就可以对其作出有效回应,这一点特别适用于在环境不确定的条件下使用模型,探索一系列在可能的、差异的、潜在的未来环境下可能发生的事件,而不需要对这些事件最终是否发生作出任何承诺。更有价值的发现是模型表明在假设条件下某些结果是无法实现的,一个例证即使用一整套系统能源模型来设计达成欧盟设定的2050年碳减排目标方案。[14]

与使用模型进行预测或生成场景不同,人们还可以使用模型对某些领域的工作过程进一步程式化和明确化。如果认真对待此事,那么模型作为一种培训或交流工具将会很有价值,因为它展示了政策领域中的工作机制以及它们如何相互作用。

(二)建模支持政策评估

要想对政策进行事后评估,就需要对比政策执行前后情况(“反事实”)。要想做到这一点,就需要在现实情况下得到的数据(通过政策评估)及政策未执行(所谓的“一切照常”)情况下得到的数据。欲得到后者,可以使用随机对照试验(RCT)或准实验[12],但这通常既困难又昂贵,有时甚至会因为设置对照组的受限而使数据获取几无可能。

政策模型提供了一系列可能性。其一即开发出了一种可以模拟政策有无执行的计算机模型,并使用定量研究方法将两种模型条件下得到的数据结果作比较分析并与真实情况(政策执行后)作对比。这样就避免了需建立一个与现实情况完全相反的真实场景的问题。此外,政策模型可以用来代替实验。

另一种可能性即使用定性的系统映射方法研究(如模糊认知图[15]),以构建具有不同结构与假设的定性模型(以展示有无干预下的情况),并再次考察模型分析得出的不同结果。

最后,事后评估的另一用途即使用模型来完善和测试政策如何对关注的结果产生影响这一理论,即支持使用常见的基于理论研究方法,如变革理论[16]和逻辑映射[17]。

对模型和模型结果的考量是可以量化的(即通过多样性模拟、敏感性分析及假设检验),但也可以与利益相关者以定性和参与式的方式进行,由利益相关者参与实际分析(而不仅仅向其展示结果),选择由建模目的与利益相关者诉求共同驱动做出。在事前和事后评估中,政策模型可视为一种强大的工具,即作为一种可用来吸引和告知利益相关者及公众有关政策及其影响的途径。[18]这可以通过在模型设计的过程、决策以及验证中吸纳利益相关者得以实现;或者也可在这一过程的后期,通过与利益相关者就模型结果进行讨论,和/或使用“现场”模型去探索假设、场景与结果之间的关联。[19]

(三)使用模型的困难

尽管原则上政策模型具有确定作用和潜在优势,但实践表明要想实现这些预期结果很困难。[20][21]政策过程本身具有的某些特性决定了其要与建模共同发挥最大效用尚存在一定困难。

1.对接受度及透明度的要求:决策者可能会依赖更传统、更容易被广泛接受的证据形式,特别是在相关决策风险很高的情况下。模型看起来可能更像是只有专家才能理解或驾驭的黑箱,它的结果高度依赖于假设,而假设通常又很难加以验证。此外,由于政府的分析和研究人员通常没有多少自主权,这就导致虽然他们也可能看到了政策模型的价值所在,但也很难将这一信息有效传递给决策者。

2.变化及不确定性:政策执行的环境存在着高度的不确定性,当信任、决策或其他因素发生改变时,会破坏模型最终的开发。

3.时间短:几乎每次允许作出决策的时间都很短,而且需求也难以预测。这就意味着给建模人员提供及时的支持很困难。

4.采购流程:一些部门通常缺乏能力与足够灵活的流程来采购复杂的模型。

5.决策的政治性与实用性现实:个人价值观与政治价值观拥有巨大的影响力。即使是在面对与他们观点相抵触的经验性证据(建模就更不用说)或面对政治上几乎不可能的政策时也如此。

6.利益相关者:在政策制定过程中会有各色利益相关者参与其中或施加影响。我们不可能将所有这些因素都纳入政策建模过程的考虑范围之内,而且决策者也可能对这些因素太过紧密地参与其中持审慎态度。

以上特征对于实证研究或其他类型的研究分析可能也适用,我们并不是说这些特征本身是负面的;它们反而可能是政策制定过程中重要且合理的部分。作为建模者需要谨记的是,模型仅能且仅应为政策过程提供尽可能多的信息,而不应越俎代庖,成为决定政策是否应该执行的最终决策。

三、政策试验和政策模型

尽管人们对政策模型的角色及用途已有了一定程度的了解,但依笔者之见仍应在更多的领域应用建模。从目前来看,由于尚缺乏对政策模型的熟悉与信心,它的应用被限制了。潜在用户可能会质疑在其领域中应用政策建模是否具备足够的科学性与成熟的条件,以及是否真的可以安全有效地用于指导现实世界的政策。

(一)政策试点

一种观点认为政策的实际执行本身就是一种试验干预,因此其具有与政策模型干预相同的特性。Boeschen等人[22]的观点认为我们本身就生活在“社会试验”中,执行政策不过就是在进行“现实世界的试验”。现实世界试验“或多或少是合法的、系统指导的或随意地利用社会实践来开始一些新的东西”[23](P344)。它们的结果立即反映出“设计过程的成败”[23](P347)。

进行现实世界试验是解决政策设计难题的方式之一。它虽不能检查其他可选解决方案或备选方案,但可喜之处是能够进行实时监控并给予响应。将政策执行作为一项现实世界试验是远远不够理想的,并且也摒弃了实验室可逆性的原则。在实验室进行实验,因其实验系统与环境相隔离,所以可观察到单个参数的影响。

政策试点可以在现实世界与实验室实验的鸿沟之间架起一座桥梁。将政策试点[24][25][26]作为一种社会试验是非常普遍的。在政策试点中,可以在反事实的有限条件下评估政策的变化,之后再进行一般意义上的政策推广。通过这种方式(小范围的)可以尝试或评估不同的解决方案,并将获得的经验再反馈到政策设计过程中去。

政策试点的最主要方式即随机对照试验(RCT)[24][27],因其在医学研究领域的应用而广为人知,通过对仔细挑选的处置组与在监控下未进行处置的对照组进行比对而得出结论,因此,随机对照试验可以在理想的实验室实验与现实世界试验之间实现一种折中。然而,关于随机对照试验是否能够重现经严格测试的、反事实的实验室条件尚存在争议。[25](P19)争议的焦点在于原则上其他各条件均一致的社会试验是不可能的(即在社会系统中,不可能存在两个其他条件都一致而只有一个可控参数不同的试验);复杂的环境系统干预对于充分理解社会系统是必不可少的,但若要在随机对照试验中去重现却是不可能的;同时,这种随机分配在许多领域也都是不可能实现的,以至于无法建立一个“中立的”反事实;此外,如果给予了某些试点一些确定的利益,而对照组却未享受到同等待遇,这可能就会是一种冒险的政治战略甚至是不道德的。特别是如果该政策将试验对象置于不利境地,那情况就更糟糕了。[25](P17)

尽管试点可较好地用于收集单个案例证据,但它或许并不能成为适用于所有其他情况下案例的放之四海而皆准的模式。此外,它不能对政策为何/如何起作用/不起作用作出更详细的说明,或将“什么起作用”这一问题分解为“在何处、为了谁、以什么代价、在什么条件下”起作用。与此同时,还有很多实际问题需要考虑,比如时间、人力资本和预算等。人们通常认为,一个好的政策试点成本高、耗时长、“繁文缛节”并需要训练有素的管理人员。[25](P5)“人们对当前及过去曾进行的政策试点及评估方式感到悲观和失望(设计不良的研究;不堪一击的方法论;缺乏耐心的政治领导;时限压力和不切实际的最后期限)。”[28](P11)

因此,政策试点不能满足具有参数变化要求的实验室实验和Krohn提出的包含复杂环境系统实时干预的现实世界试验之间的折中要求。这正是计算机政策建模的切入点。

(二)关于政策试验的政策模型

与政策试点不同,计算机政策模型能够处理在其他条件均不变的情况(ceteris paribus)。通过使用政策模型,我们只需在模型中尝试着变化参数就可以探索其他替代性解决方案,并使用特定于上下文信息的模型以及短期、中期和长期视阈进行试验。此外,政策模型的建立和运行都是符合道德并政治中立的,尽管在其结果的实际使用中可能并不如此。

不同于现实世界和政策试点,政策模型允许用户探视未来。与现实世界试验一样,模型试验能够通过利益相关者进行递归学习。利益相关者可与模型进行交互,学习如何在复杂情况下通过采取行动来获得系统能力和实践技能。模型不仅可以模拟所设想的现实世界试验,而且可以通过广泛的参数变化来测试多个可能的现实世界试验场景。但这并不意味着有可能就复杂社会系统的未来状态作出精准预测(见上文关于预测的讨论)。

考虑到极端情况下不受任何干预(如实验室实验)和充分干预(如现实世界试验)到复杂环境系统的持续性干预,政策模型试验确实处于折中区间。笔者认为,如果伴随政策变化的成本或风险很高,而且环境复杂,那么进行政策建模就不仅仅是基于共识的,更是出于道德的。

四、政策模型示例

笔者将根据自身实际经验来举例说明政策模型的使用,这些示例涵盖了多种模型类型和应用环境。本着失败与成功同样宝贵的实验精神,我们不仅强调最终结果,还会强调建模过程中遇到的一些实际问题和挑战。在下一章中,我们将从这些示例中提取一些一般性的经验教训。

(一)TELL-ME模型

欧洲资助的TELL-ME项目侧重于与流感流行相关的健康传播问题。它可以输出一个基于代理的模型,这个模型旨在帮助健康传播工作者了解在不同流感疫情下不同健康传播方案的潜在影响。

该模型的基本结构由其目的决定:通过比较不同健康传播方案对个体保护性行为的潜在影响,从而比较对流感疫情扩散的影响。这需要两个相关的模型:一个是行为模型,它模拟人们对健康传播的反应方式,如人们决定是否接种疫苗或采取其他保护性行为;另外一个模型是模拟流感传播的流行病模型。建模的关键点是:(1)消息,健康传播的载体;(2)个体,每个个体会接收到健康传播消息并决定是否采取保护性行为;(3)地区,不同地区面对着不同的流行病状况。健康传播对流行病的影响首先是影响个体的态度和行为,进而影响流行病传播和发病率。而流行病的发病率会影响人们感知到的风险强弱,从而影响个体行为并建立起反馈关系。[29]在Barbrook-Johnson等人的文章[3]中可以找到对模型的更全面的描述和对其用途的讨论。Badham等人[29]提出一种基于TELL-ME的模型校准方法。

基于利益相关者研讨会的结果和模型本身的结果,建模团队认为TELL-ME模型可被应用于以下情况:(1)作为教学工具;(2)检测理论;(3)通知数据收集。[3]

(二)HOPES模型

实践理论为计划行为理论和理性行动理论提供了一种替代思路,以探索能源使用、气候变化、粮食生产、水资源短缺等可持续性发展问题。这一理论的中心论点是如果我们的目标是改变高能源消耗和密集排放型的生活方式,那么人们具有一定自动化程度的日常活动(又称实践,如烹饪、饮食、旅游等)就应该成为研究和干预的重点。

能源使用场景中的家庭和实践(HOPES)是一个基于代理的模型[30],它能构建实践理论中的关键特征,并使用该模型探索家庭能源使用的动态情况。HOPES模型构建的一个关键理论特征即实践的表现形式,它是适当的意义(心理活动如理解、感知和渴望[31])、材料(物体、身体和心灵)和技能(能力)的结合体。例如,洗衣服这一实践可以表现为通过使用洗衣机(材料)并且知道如何操作洗衣机(技能)来实现对干净衣服的渴望(意义);进而,实践活动的实施导致了能源的消耗。

HOPES中有两种代理类型:家庭和实践。各个元素(意义,材料和技能)是模型中的实体。模型的概念是家庭依据其独有的社会技术环境选择不同的元素来执行实践活动。一些实践导致能源消耗,而另一些实践则没有,例如使用加热器来保暖会导致能源消耗,而使用跳绳或毯子则不会产生能源消耗。此外,跨空间和时间的重复实践会使得关键元素进化(例如,一些元素比其他元素更常被使用),这随后也会影响实践的未来表现,从而影响能源消耗。一个基于从60个英国家庭收集的经验数据开发的基于规则的系统纳入了HOPES模型,它能使家庭选择执行实践的要素。基于规则的系统能够以结构化的方式组织从经验中收集的复杂上下文信息和社会技术见解,以在面对不完整和/或冲突的决策时选择最合适的行为。HOPES还包括可以计算实践活动所带来的能源消耗的子模型,例如一座房屋的温控模块可以通过考虑室外温度、加热器的类型和尺寸以及室内温度设定点来估算每个家庭的取暖实践活动的能源消耗。

该模型用于测试不同的政策和情景,以探索不同实践行为对能源消耗的影响。总的来说,这里的建模动机是,通过深入了解不同情景下不可持续的能源消耗情况,来提出更多的消耗可持续能源的替代实践。

(三)SWAP模型

SWAP模型[19][32]是一个基于代理的模型,即一个关于农民在其土地上实施水土保持方案的决策模型。该模型在NetLogo(一种基于代理的可编程建模环境[33])上开发,其中主要的代理是农民,他们决定是否实施水土保持方案,次要的代理是鼓励农民实施水土保持方案的政府和非政府人员。农民积极性的高低可能会受其周围人群的影响。

SWAP模型是:(1)一名“感兴趣的业余爱好者”,即一个可用来提高政策利益相关者之间互动质量的讨论工具;(2)对水土保持文献中农民行为理论的探索。

埃塞俄比亚的利益相关者探讨了该模型作为“感兴趣的业余爱好者”的用途。使用模型作为感兴趣的业余爱好者是受Dennett[34]的启发。Dennett认为专家可能会彼此误会,基于对方的观点而作出错误的假设,和/或担心自己看起来很愚蠢而不敢提出简单的问题。这些通常会导致专家犯下欠缺解释的错误,进而导致无法在讨论中达成共识或令人满意的结果。对于哲学家Dennett而言,解决方案是让本科生——感兴趣的业余爱好者共同参与讨论,提出简单的问题,以逼迫专家进行充分解释。SWAP模型作为感兴趣的业余爱好者而被应用于埃塞俄比亚的专家、政策制定者和政府官员之间。这样做是因为旨在提高水土保持利用率的政策由于对农民需求的定位不准确而往往都没有成功。

(四)INFSO-SKIN模型

欧盟委员会预计在2014年至2020年期间花费约770亿欧元在其“地平线2020”研发计划上。它是此前规模较小的一个叫作“框架7”的计划的延续和拓展。在设计地平线2020计划时,欧盟委员会希望了解如何改进框架7计划的相关规则以适应“地平线2020”,以及如何针对当前的政策目标进行优化,例如增加中小型企业(SME)的参与。

INFSO-SKIN是基于代理模型,它被用于评估可能的供资政策。该模型的建立是为了重现资助规则、资助组织及项目,以及由此产生的框架7计划的网络结构。这个模型在没有任何政策变化的情况下推断到了未来,然后被用作进一步试验的基准。

(五)Silent Spread and Exodis-FMD模型

2001年口蹄疫(FMD)爆发后,英国环境、食品和农村事务部实施了为期20天的静止期,即禁止在牲畜到岸后20天内进行任何转移。这项为期20天的规定给当地农民带来了巨大的难题。2002年7月,就此次疫情所做的经验教训调查报告建议,在静止期制度的详细成本效益分析(CBA,Cost-benefit analysis)出炉之前,为期20天的静止期规定仍然有效。

英国环境、食品和农村事务部于2002年9月委托进行成本效益分析,并要求在2003年初得到一份报告,以便在春季牲畜转移季节之前知晓转移方式的变化。由于时间短且可用数据有限,报告中所要求的成本风险效益建模颇具挑战性。因此,他们提出了一种自上而下的模型,它仅捕获决策的基本要素,将它们组合在要做出决定的影响图表中。大量的专家参与了模型开发,帮助调整模型的结构、参数、验证及结果的解释。在专家小组的指导下,敏捷开发也被添加到模型的一系列周期性开发中。

由此产生的Silent Spread模型显示,在确定疫情严重程度时,诸如疾病检测时间等因素比静止时间重要得多。[35]这一仿真结果对于政府决定将20天静止期这一规定放宽而改为6天,起到了至关重要的作用。这种迭代的、参与式的发展过程为以前一直存在争议的领域带来了前所未有的改变。

在此之后,英国环境、食品和农村事务部委托做了进一步建模,以便在口蹄疫疫情暴发时能够为应急预案提供信息。对于此种应用,我们需要一个详细的“自下而上”模型,该模型可以重现疾病传播的相关机制,以及不同疾控策略对疾病传播的影响。[36]该模型是建立在Exodis疾病建模框架上的一个基于代理模型。该框架搭建了一个基于英国农场普查数据的异质地理数据库,建立起不同口蹄疫疾病的传播机制,并整合了不同疾控策略的效果和实施这些策略所需的资源。

在成本效益分析工作之后,英国环境、食品和农村事务部保留了一个决策支持工具,该工具可作为一个培训辅助工具,也可以在疫情实际爆发时为决策提供信息。该模型曾在2007年新一次口蹄疫疫情暴发期间被使用,并继续用于疾控策略变更的仿真测试。

(六)抽水公司行为模型

英格兰河流和含水层的取水量受20世纪60年代建立的许可制度控制。英国政府希望将该体系改革,以达到鼓励抽水公司有效管理水资源并通过共同努力充分利用水资源的效果。抽水管理是一个典型的“棘手”问题,因为它对改革具有很强的抗拒性。在此之前进行的系统改革尝试均以失败而告终,这其中部分原因是未让利益相关者参与到解决方案的需求表达和方案制定中。

评估改革系统不同方式的成本、风险及收益是复杂的。它需要考虑到:复杂的自然环境与抽水公司(包括公共供水系统、电力系统、农民及工业)之间的相互作用;经济、社会和气候条件将以我们无法预测的方式发生变化;并且各个抽水公司将长年累月地受到新措施的复杂影响。

基于代理的建模非常适合于探索现在及将来改革的进展情况。在跨学科团队与广泛的专家和利益相关者的通力合作下,一个基于代理的混合模型被开发出来,它能够把经济行为与流域水文模型在时间序列上进行结合[37],包括所有有权从特定流域的河流和含水层取水的企业。模型利用河流、含水层的水文模型和土地利用情况对河流流域进行了分辨率为“1km×1km”的详细建模。每个代理都会作出一系列的策略和运营决策,当对水的需求和可用性随经济和气候条件变化而变化时,决策也在不断变化。政策选择使用不同的机制控制河流和含水层中的水位,并允许代理之间进行不同类型的水权交易。监管代理人确保环评达标,他们在必要时可以采取行动进一步限制抽水许可的发放。

五、政策建模者的主要经验教训

根据上一章中描述的政策模型示例和笔者已经开展的其他工作中得出的经验结论,我们列出以下建模人员在政策建模工作中应该注意的一些关键经验教训。

(一)过程与结果一样重要,甚至更重要

许多政府在决策过程中需要定量数据,例如完成监管影响评估模板。一组简单的成本效益值能够为支持决策或结论提供明确、有说服力的论据。然而,在复杂的、不断变化的环境中,把答案缩小到有限的集合在很多时候既不可能也不可取——因为它们很难实现。当我们在复杂环境中建模时,充分理解问题和决策与最终得到的数字同样重要。需要注意的是对最终结果的需求或渴望以及对不熟悉算法的陌生或怀疑不要将我们推向退而求其次的建模方法。

在抽水改革工作中,尽管模型确实生成了数字,但这项工作的最大收获是对政策设计的贡献,这主要得益于模型中探索性的一面,包括:以模型可以表达的方式阐明改革需遵守的规范;通过多场景运行、敏感性分析和情景假设,了解系统的复杂性。

在SWAP模型中,政策的价值完全在于模型咨询,并将其作为讨论、分享假设及建立共识的基础。

在TELL-ME模型中,我们找到了类似的信息。在这个例子中,详细的微观验证,以及对结果影响的探索是利益相关者参与公共卫生项目的主要益处之一。

HOPES模型介绍了有关制定管理家庭能源需求的政策分析,它假设家庭能源的使用是基于价格考量的个体理性行为之上的实践活动。事实上,HOPES模型可以社会实践理论为基础生成合理的输出,这对利益相关者来说可能比它输出的某一个具体值更为重要。

(二)模型需要处于适当的抽象级别

没有模型可以完全反映现实世界:总要省略一些细节,并且围绕建模内容绘制出边界。然而,最详细的模型未必就是最好的。相反,过于详细的模型所需要的数据量可能远超实际可用的数据量;可能难以校验;而且,最重要的是,可能很难理解。良好的建模应该是将模型置于两个极端之间正确的位置。

Silent Spread模型是一个在高度抽象层面上开发的简单模型。该政策模型需要解决一个单一的决策问题,即是否可以减少或取消牲畜的转移静止期?当时英国环境、食品和农村事务部没有经常性地收集有关动物转移相关信息的基础,建模的可用数据是有限的。因此,解决方案是用一个仅捕捉决策所必需要素的抽象模型。当拥有更充裕的时间和更丰富的数据后,就有可能为Exodis-FMD模型开发出更详细的疾病传播模块。

HOPES最初是一个抽象模型,它证明了超越有限传统方法的可能,即在理性和个人决策层面分析能源需求,以模拟家庭能源消耗这一社会实践。使HOPES模型更具体的一个动机是希望将其与英国能源供应系统的现有模型联系起来。这些来自于电力发电站、风电场等以及互联电网的模拟电力供应系统已被用于虚拟场景,以便为2050年实现整个能源系统的低碳目标做出最佳决策。然而,这些供应模型结合了基于相当简单的家庭效用最大化假设的需求函数。HOPES模型已被用于改善供应模型的此方面问题,但并非没有困难,这些困难源于模型的整体复杂性、不同方法的异质性以及不同的模拟时间尺度(供应模型使用时间步长为几天或几年,而HOPES的时间步长则为每小时)。这个例子很好地说明了一个事实,即需要仔细考量模型的适当抽象层次,不仅要考虑它们与利益相关者的相关性,还要将它们恰当地融入相关模型的整个生态中。

(三)必须认识数据和验证方面的种种挑战,但不应以此为借口不建模或不使用结果

1.数据挑战。数据永远不会完美。缺乏数据或数据质量差都会导致模型的参数化和验证受挫。但是,永远不应该将缺乏数据作为不建模的借口,或者作为不对某个重要方面进行建模的借口。协同建模、专家先验知识、不确定性的显式建模和敏感性分析都可用于解决数据匮乏的问题。

在TELL-ME示例中,尽管建模者和利益相关者最初认为数据是可用的,但很明显并没有数据将政策干预与行为变化及结果联系起来。在此例中,不应将数据的缺乏视为不建模的理由。建模的动机仍然存在。相反,当前模型中数据的明显缺乏反而能够使得未来的数据收集变得更加有的放矢。

2.验证挑战。数据的缺乏可能会给模型的正式验证带来特殊挑战,特别是在复杂的、不断变化的环境中探索未来可能性的任务中。在TELL-ME的示例中,行为结果随时间变化的数据要么不存在,要么倾向于较小幅度的改动。这意味着没有足够的纵向结果数据可与模型结果进行比较。

缺乏全面的验证数据集并不意味着该模型无法针对其特定目的进行验证。在这种情况下,可以采用分层的验证方法:即应从一开始就使用正式的质量保证流程,包括建模方法的选择以及就验证方式和验证过程进行正式记录。在正式验证中专家应与模型输出用户和建模人员通力合作,并将此过程列为模型开发的一个正式组成部分。

验证必须确保模型:具有技术或科学意义;可以重现;契合其设计的用途。关于这些问题,Taylor[20]列出了一个有用的清单,此外,清单中还包含使用模型做决策会遇到的其他问题。

Silent Spread示例中说明了如何通过对模型的所有开发过程和专家、建模人员、用户等利益相关人员生成的结果进行详细审查,实现在没有太多“硬”数据的情况下进行模型开发和验证。

(四)模型开发和使用需要敏捷开发和协作

敏捷的协作流程能确保模型始终围绕政策需求,并提供更有效的同行评审和对建模过程的审查。这需要评审委员和建模人员从一开始就彼此建立起高度的信任。决策者、分析师、模型输出用户、利益相关者及同行评审员不仅要参与用户需求阶段的问题定义,还应始终参与建模以确保建模方法、模型结构和抽象层次、参数化、分析和结果解释始终符合建模的初衷。

在范围界定阶段,需要就最佳建模方法以及现有模型是否满足需求进行诚恳的讨论。在将模型用于新的场景时需要非常小心,以确保模型的基础结构符合建模目的。一个循环迭代地为模型添加功能和细节的敏捷开发方法[38]可以有效地防止建模者和客户均倾向于详细程度过高的建模。

最后,建模人员应参与帮助解释决策结果,因为一份报告不可能完美地呈现出模型的每一个细节。Silent Spread模型采用了提高参与度的方法,从而大大提高了英国环境、食品和农村事务部与行业利益相关者之间的理解与合作。相比之下,INFO-SKIN模型是为响应招标邀请而开发的,也就导致了利益相关者,即政策制定者与建模者之间存在距离感。其中,欧盟委员会作为客户只是在模型开发的初始、中间和结束时与建模者进行了沟通,并没有参与模型构建。此外,欧盟委员会人员在模型开发过程中产生了变动,最终导致他们对模型的目的和能力了解甚少。另一个问题是欧盟委员会希望模型给出具体的政策建议,而建模人员则更倾向于由欧盟委员会先提出政策,再由他们对政策进行测试,因为他们认为由建模人员自己设计政策是不合适的。这些都是由于建模者与欧盟委员会之间缺乏适当的沟通所致。

(五)建模的道德约束

政策建模时需要仔细谨慎地考虑道德问题,尤其当政策模型有可能改变当前政策,进而直接影响人们生活的时候。除了我们刚刚提到的建模目的需要符合道德准则外,我们还需要确保使用的数据以及输出结果的方式都同样符合道德准则。

在收集个人数据时,无论是显性的通过问卷调查,还是隐晦地通过身份信息或者其他活动(例如使用社交媒体或移动电话),我们不仅需要遵守数据保护法,还需要获得恰当的数据使用许可。

一个重要的需要考量的因素是使用的数据能否代表“被建模”的人群。人工智能研究人员已经发现,如果数据集是有偏差的,那么基于此数据集形成的模型也很可能是有偏差的,而且这种偏差在事后还很难被检测到。[39]对“大数据”来说,这是尤其重要的一个问题,因为当一个数据集非常庞大时,很容易让人们觉得它肯定具有代表性,但实际上这个数据集可能并不包含数量上很小的少数群体。

由模型得出的结果总是存在一定程度的不确定性。然而,这种不确定性以及对决策的影响通常会被建模者尤其是模型用户淡化,这可能是有意的淡化(因为他们觉得这种不确定性“不受欢迎”),也可能是无意的淡化(专家的偏见)。用户也可能对建模者施加压力以淡化这种不确定性。建模者应该清楚,他们要自信地表达不确定性,但同时也要提供有用信息。用户需要做的是了解不确定性在他们作出决策或进行沟通时意味着什么。如果模型很复杂并且像一个“黑箱”呈现给用户,则会产生更多问题,因为用户无法自行调查这些结果背后的逻辑和假设。鼓励用户和建模者之间协同合作的另一个原因是用户可以跟进模型的开发进程,至少可以了解模型的工作方式和理论基础;建模者可以更好地理解用户需求和背景知识,确保模型以有用的形式输出结果。

在Silent Spread模型示例中,可用于建模的数据非常有限,而决策却需要尽快作出。这就需要尽可能地使利益相关者、专家和政府工作人员广泛地参与到模型的设计与测试过程中来。工作组在建模过程的每个阶段都定期开会。一旦新的输出结果出现,该小组就马上开始着手分析和解释结果,并提出了一系列改进建模的方法,以测试输出结果所提出的新假设。模型使用了各种不同的方法来表示结果中的不确定性,特别是每个政策选项相关的风险水平都清楚地列出来了,让决策者在做出决策时加以考虑。这就确保了其能够达成让大家都满意的共识,该模型被一位专家描述为“集体的共同大脑”。

(六)需要仔细规划建模过程、结构和结果的有关沟通

沟通可以清楚地解释输出结果及其局限性,确保输出结果得到恰当使用,并建立起对建模过程和输出结果的信心。由于模型输出由数字和图表组成,导致它们看起来比实际中更加明确和确定,但反之也意味着数据和假设之间的界限往往被忽略。以往的失败经验会导致对建模的不信任,积极的协作则可以建立起对工作的信心,但不可能让每个人都参与其中。建模团队和政策客户中的人员变动也有可能导致新的问题出现。

在Silent Spread模型示例中,建模者必须努力消除由2001年疫情暴发后预测模型作出的对牲畜连续扑杀这一结果所带来的对政策建模的不信任。虽然起初很难让持有不同意见的利益相关者坐下来开诚布公地讨论,但这个模型给了他们一个相对中立的立场来分享不同的观点并对这些观点进行测试。

在SWAP模型示例中,信任并不是一个问题。反而是模型的设计以及模型(和建模者)得出的结论更需要恰当的传达给不熟悉计算机建模方法的利益相关者。

(七)模型需要维护

如果政策模型在初次使用之后可以继续在政策监督、开发和评估中发挥作用,那么它们就可以提供愈发准确的结果。但在政府采购流程和政府组织中,模型很难得到适当的维护。开源模型很有吸引力,因为开发者社区可以继续维护和检查它们,但政策模型有时候不能做到开源,因为政策模型必须在一段时间内准确地代表复杂的政策,并考虑到政策和政策环境的变化。在第四章描述的模型中,目前只有Exodis模型得到了定期维护。因此,确保模型能够得到长期维护是迄今为止很少得到妥善解决的问题。

六、结 论

在建模这个复杂领域所需的技术支持已日臻完善,而且在使用上也越来越容易。然而,为了使政策建模充分发挥其潜在优势,则需要更多地关注模型开发和使用过程。在政策模型发挥积极效用及使用的过程中仍存在诸多缺陷,这在很大程度上是由经验和错误中获得的“技术知识”所造成的,这就是为什么本文描述了笔者在各自不同的经验中得到的关键经验教训。然而,如果政策变化所需付出的成本或伴生而来的风险很高,而且环境复杂,那么进行政策建模就不仅是一种共识,而且是道德要求。

笔者认为,成功的政策建模最重要的一点是鼓励相关人员进行沟通与协作:即在建模者自身、客户和利益相关者、数据提供者、模型输出用户等之间沟通与协作。学界仍然倾向于在象牙塔内工作,即只在用户完全开发完成并将研究成果发表在研究文献中之后,才向他们提供结果和模型。虽然这种方法可能适用于一些正式的模型,但几乎可以肯定的是这无法向决策者提供可使其在实际中运用的行之有效的政策模型。相反,正如本文所强调的,政策建模需要协作、迭代和敏捷。这样做有很多好处,首先,它提供了一种对模型的所有权,即鼓励建模者向用户承诺他们有可能看到属于他们自己的模型,而不是别人强加给他们的黑箱。其次,协作有助于防止建模者在目标上作出太过天真的假设,因为如果一个人不是该领域的专家就很容易这样。因此,通过协作,建模人员知晓了其试图去呈现的世界的复杂性,与此同时,用户也知晓了他们正在帮助开发的模型其功能的局限性。最后,利益相关者的积极参与可以帮助检测模型的参数等,即使在“硬”数据匮乏的地方。数据的缺乏不应该成为放弃建模的借口,但是方法需要调整,如此,一种能够识别数据需求以及访问方式的迭代的、参与性的建模方法被开发出来。

这种协作式的工作方式对许多政府机构来说可能是陌生的,甚至可能涉及机密、隐私和数据访问方面的微妙谈判。然而,越来越多地使用模拟、机器学习和人工智能来辅助政府和企业做决策似乎已成为势不可挡的趋势,因此(政府及企业)文化可能不得不改变,以允许甚至鼓励一种更加协作、敏捷的建模方法。当它实现时,政策建模将会趋于真正的成熟。

注释:

①本文译自Nigel Gilbert,Petra Ahrweiler,Pete Barbrook-Johnsona,Kavin Preethi Narasimhan,Helen Wikinsonc合作的论文“Computational Modelling of Public Policy:Reflections on Practice”,原载于 “Journal of Artificial Societies and Social Simulation”(《人工社会与社会仿真杂志》,2018年1月31日刊发),中译本已获作者授权在《江西社会科学》刊发,标题按中文习惯略作修改。

②奈杰尔·吉尔伯特(Nigel Gilbert)教授生于1950年3月21日,英国萨里大学社会仿真研究中心的创始人并担任主任,著有多本关于计算机社会科学、社会仿真及社会研究方面的著作,是社会科学中使用基于代理模型(Agent-Based Mmodel)的先驱。20世纪90年代,吉尔伯特教授发表了关于社会仿真学的第一本教科书:《社会科学家的仿真》(Simulation for the social scientist,1999),且创办了该领域领先的国际期刊《人工社会与社会仿真杂志》。

③因图表分辨率及印刷的原因,原文相关模型的图表均省略处理,请前往原文网络版查看,http://jasss.soc.surrey.ac.uk/21/1/14.html。

猜你喜欢
相关者建模政策
政策
政策
校园篮球利益相关者的分类研究*
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
助企政策
基于利益相关者理论的本科教学中教师调课现象审视
政策
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
全生命周期视角下PPP项目利益相关者关系网络动态分析