差异化产品逆向供应链上对生产者责任延伸的混合激励

2022-08-01 08:53孙冬石王文娣

物流技术 2022年7期

孙冬石，王文娣

（大连东软信息学院信息与商务管理学院，辽宁大连 116023）

0 引言

生产者责任延伸机制（Extended Producer Responsibility，以下简称EPR）的概念于1988年被瑞典环境经济学家托马斯首次提出，后来经由学者们在理论和实践中不断完善。随着可持续性发展理论的不断完善，EPR在德国、美国、荷兰、日本等发达国家的法律法规和社会公信等领域不断提升影响，近年来，在我国随着《再生资源回收管理办法》等制度的出台，EPR也在逐渐成为我国构建循环经济体系的重要支撑。但应该看到的是，目前我国EPR的实施无论在执行度和有效性上都不够理想。其原因主要有如下几点：生产者作为企业的逐利性、消费者的不信任、缺乏第三方公信力。

针对上述问题，国内外的学者进行了大量的研究。学者们首先对EPR的适用范围和实施模式进行了研究，Wassenhove，等是应用博弈论解决闭环供应链上EPR问题的先驱，比较了生产者、零售商和第三方进行产品回收的效率，并就集中和分散两种模式的优劣进行了分析；王文宾，等研究了在具有4个利益相关者的闭环供应链中，不同回收难度的产品，生产者应该承担的固定投资的比例与供应链整体利润最大化的关系，界定了生产者在产品逆向中的责任区间。政府的参与也被证明是EPR顺利实施的关键因素，彭本红，等证明了政府规制对EPR的巨大作用，并且比较了政府与消费者之间在合作与不合作两种模式下，EPR实施情况的差别，提炼出影响废旧产品回收的主要因素。消费者的行为是EPR实施中另一个重要影响因素，曲英，等以手机为例，提出了生产者与第三方物流结合的废旧手机回收思路，并探讨了居民对不同的联合回收模式的偏好，为生产者进行决策支持。

学者们的研究分析了EPR的适用条件，并对EPR实施中的影响各主体的因素进行归纳，但目前研究的对象一般具有较高的回收价值，实践中针对一些低回收价值但有较强的公益属性的产品，生产者对于EPR的态度是非常不明确的，在没有响应的激励机制辅助，产品的逆向供应链很容易出现断裂。本文首先要研究目前的较为常用的激励机制在差异化产品EPR实施中的表现，并根据产品的特征，给出全面提升EPR实施的路径建议。

1 研究方法与数据来源

1.1 研究方法

1.1.1 演化博弈。演化博弈在研究有限理性的多主体策略平衡问题上具有较大的适用性。EPR的实施效果是政府、企业、消费者这三个产品逆向供应链中利益相关者策略博弈的平衡。生产者是EPR的实施的执行主体。政府在EPR中的作用主要体现为两点：一是增加实施EPR的概率，在政策上使更多的企业可以参与到循环资源网络的构建。该项监督主要以激励的形式为主，参考现有政府部门的做法，激励的主要手段是降低纳税比率；二是保证生产者在进行产品的回收时，按照回收标准进行处理，保证产品转化过程对环境和消费者的损害在要求的范围内。该项内容是对生产者诚信度的监督，且不按标准的废弃产品处理会产生恶劣的影响，所以该项监督是以惩罚形式体现，手段为对违规生产者收缴罚金。EPR演化博弈中的另一个主体是消费者。消费者的重复购买行为和生产者实施EPR 过程中对消费者的补贴是影响EPR实施演化的主要动因。由政府、生产者、消费者三方主体构成的EPR演化博弈中，涉及到的相关变量见表1。

表1 演化博弈中的变量设定

三方的策略集分别为（监督，不监督）、（实施，不实施）、（购买、不购买），把肯定策略选择用1表示，否则用0表示，则三方在博弈中按照主体不同的选择将产生8个纯策略组合，收益情况见表2。

表2 三方主体收益矩阵

在实践中，博弈策略选择不是简单的（0，1），而是以概率进行。设三方选择监督、实施、购买的策略的概率分别为α、β、γ，概率的区间都为[0,1]。关于EPR的演化博弈中，政府、生产者和消费者的复制动态方程中包含了大量的外生变量、不同策略的概率分布和收益的组合，利用联立方程组，通过雅可比矩阵计算特征值，判断局部稳定性分析的方法并不适用，其计算过程复杂，且不能分析单独外生变量对策略选择的影响。

1.1.2 系统动力学。系统动力学（System Dynamics，SD）的主要思想是系统结构决定系统性能，是以控制论为基础，把复杂系统分解为若干子系统，并构建子系统之间的逻辑联系，通过计算机仿真模型，验证系统的性能，为决策提供支持。系统动力学与演化博弈方法具有较高的适配性，在需要判断大量的外生变量对主体演化博弈稳定性的影响时，系统动力学可以提供较为清晰的仿真结果。

所以，本文选择应用系统动力学的理念，使用Vensim PLE软件构建不同的外生变量与决策变量之间的因果关系图和存量流量图，并通过对可调控的外生变量进行不同条件下的灵敏度分析，进一步对低于预期效果的产品设计混合激励机制，以实现三方在长期博弈过程中可以达到理想平衡。

仿真中的基本参数设置为：INITIAL TIME=0，FINAL TIME=72，TIME STEP=1，Unites for Time=Week。在仿真中，α、β、γ构成的纯策略组合作为初始解的时候，在仿真过程中，α、β、γ也将保持不变。为方便进行仿真分析，对其进行微调打破恒等式，0设置为0.01，1设置为0.99。

根据各变量之间的因果关系，可得出如图1所示的存量流量图。

图1 基于EPR演化博弈的存量流量图

1.2 数据来源与参数设定

1.2.1 高回收价值产品的数据。本文通过进行问卷、走访调研，及查阅网络资料等方式，进行数据收集，以确定外生变量赋值。为考虑研究的普适性，本文讨论的产品为市场上常见产品，生产者的数量众多，每个生产者市场份额较小，提供有差别的同种类产品，产品的替代性很强，认为产品所在的市场为垄断竞争市场。在这种市场中，近似认为产品的价格等于其价值，在计量中等于其使用价值，即≈。

在高回收价值产品仿真分析中，选择电冰箱作为参考产品，以多家生产者产品的平均值为外生变量的初始赋值。变量为单位产品的相关费用，单位：千元。

产品价格P为3，则同时V=3。业界的产品总成本设定为产品价格的2/3左右，即为2；生产者按标准进行EPR，其物流费、加工处理费等成本C为总成本C的1/10左右，即C=0.2；支付消费者的回收补偿V约为总成本的一半，即V=0.1；冰箱的回收主要是重金属和零部件，废旧冰箱的回收总价值为成本的20%左右，约0.4，减去回收成本C，即为通过产品回收节省的原材料成本S=0.2；废旧冰箱回收的正向收益等于治理重金属、氟利昂等污染费用加上节省的垃圾处理费用，经调研B=0.3；冰箱为代表的高回收价值产品，生产者的收益主要来自原材料回收，其实施EPR的主动性较高，按标准回收率也较高，设定=90%；目前政府对EPR监督缺乏专业的手段，假定=50%；生产者不按标准进行回收时，成本会大幅降低，约为标准回收的1/2，即C=0.1；政府实施监督的成本C目前处于较低的水平，抽检每个冰箱需要的总成本为C=0.02；生产者不按标准实施责任延伸，主要是造成污染D，另外，不标准的原材料再利用也对消费者造成损害D，通常情况下，D是直接的，且损害较大，设定D为D的2倍，D=0.2，则D=0.1；税收减免等奖励收益R一般不超过价格的5%,故本文设定为R=0.15；不按标准回收将导致环境污染、市场公信度差等严重的问题，需要对违规的生产者进行严惩，F设定为R的2倍，即F=0.3。

1.2.2 低回收价值产品的数据。为了验证低回收价值产品的演化，需要对部分外生变量进行调整。首先，选择的对象为建筑材料为代表的低回收价值产品，为了在尽可能类似的条件下比较三方主体的选择，保持产品的初始价格不变，成本不变，即P=3，C=2。改变的外生变量如下：由于建筑材料回收价值低，回收总价值为成本的10%左右，约0.2；回收成本相对也较低，设定为C=0.5，其中给消费者补偿V=0.05，则S=回收总价值-C=0.05；生产者不按标准进行回收时，C=0.08；实施生产者责任延伸的主动性较低，按标准回收率也较低，=30%。

2 结果分析

2.1 演化博弈仿真结果

根据高回收价值产品外生变量的设定，选择（1,1,1）为α、β、γ的初始策略，仿真结果图2所示。

图2 初始策略为（1,1,1）的高回收价值产品仿真

图3 初始策略为（1,1,1）的低回收价值产品仿真

从以上的仿真结果可知，低回收价值的产品，最终政府、生产者之间达成（不监管、不实施）的平衡，而消费者是否选择购买具有较高的随机性。生产者缺乏实施EPR的意向。

2.2 灵敏度分析

在低回收价值产品的三方演化博弈仿真中，显然最终演化结果是不乐观的。需要验证部分策略型外生变量的调整是否可以对生产者实施EPR策略产生影响。以下的灵敏度分析是在图3 仿真结果中进行的。

（1）税收减免等奖励收益R和欺骗的惩罚F。当前条件下，最终演化成为0，考虑增加奖励来对生产者实施激励。其他变量保持不变，图4显示了R分别等于0.15，0.2和0.3时的变化。

图4 政府奖励R变化时β的演化图

仿真结果表明，提升奖励会降低下降的速率，但影响较小，且最终不能改变生产者不实施EPR的选择。此外，政府监管中的惩罚只针对非标准的责任延伸，惩罚的目的是防止生产者恶意骗取政府激励，但在当前的条件下，生产者没有意愿实施责任延伸，惩罚的作用没有体现。综合奖励和惩罚效果，可证明，对于低回收价值产品，政府部门针对生产者是否实施责任延伸的一般性奖惩机制是失效的。

（2）产品回收时给消费者的补偿。考虑降低V来验证相关决策变量的变化规律。当其他变量不变，V值为0.05，0.03和0时，对模型进行灵敏度分析。结果表明，V下降会降低下降的速率，但影响较小，下降趋势图与图4类似，不做展示。消费者购买率的变化如图5所示。

图5 消费者补偿Vr变化时γ的演化图

结果显示，V下降会对消费者的购买选择产生较大的影响，当V降低时，其从产品生产者再次购买的概率降速较大。且即便V=0时，依旧无法保证EPR的理想概率，而消费者的购买欲望接近于0，无疑是饮鸩止渴的行为。

（3）非标准且被发现的比率和监督成本C。通过对非标准且被发现的比率和监督成本C进行上浮和下浮的调整发现，当前条件下，以上两个外生变量对生产者责任延伸实施的概率的影响不大，篇幅关系不做展示。

综上，灵敏度分析证明了对于低回收价值产品，博弈中的可策略性调整的外生变量不能对生产者是否实施EPR产生决定性影响，即单一激励协调失灵。

3 结论

本文深入研究了EPR在差异化产品逆向供应链中的实施效果，通过政府、生产者、消费者的博弈，建立了多外生变量影响下的三方演化博弈模型，并通过Vensim软件建立系统动力学仿真模型，分析了不同回收价值的产品回收中博弈主体的表现。结合本文的研究成果得出以下的结论。

（1）EPR 的实施与产品回收价值有直接的关系。回收价值高的产品，生产者会选择主动实施EPR。而低回收价值的产品，生产者实施EPR的意愿低。且通过对单一外生变量进行策略调整，如改变奖惩措施、加强政府监督、降低生产者对消费者的补偿等，也只能实现短期EPR实施率的提升，而不能保证生产者在长期演化中稳定实施EPR。

（2）针对生活中大量的低回收价值，无法科学处理就会产生严重污染或资源浪费的产品，需主动对产品逆向供应链进行重构，改变产品单一的逆向回收路径，如引入第三方垃圾处理机构进行逆向产品预处理降低回收成本，才能从根本上提升生产者实施EPR的比例。

（3）在单一激励失灵的情况下，合理地进行激励机制的组合设计是EPR实施的有效保障。但在混合激励的设计中，要注意正向激励和反向激励在组合中是否出现“效益悖反”的现象。激励的设计固然需要以企业为核心，但要兼顾产品逆向供应链中其他主体的收益。