演化博弈视角下网课平台“刷课”行为控制研究

2021-04-10 07:03:56欧阳富明李兴旺

华中师范大学学报(自然科学版) 2021年2期

欧阳富明，范霞，邓帅*，曹毅，李兴旺

(1.湖南工学院建筑工程与艺术设计学院, 湖南衡阳 421002;2.湖南工学院经济与管理学院, 湖南衡阳 421002)

自2014年教育部在线教育研究中心成立以来，全国各大高校相继大规模推广在线教育，既弥补当前教育资源的不足，也改变了传统的知识传播模式和学习方式[1].据教育部2020年4月10日公布的数据，截止2020年4月3日，为克服“新型冠状病毒肺炎疫情”的影响，在教育部相关政策的推动下，全国在线开学的高校达1 454所，95万余名教师开设“线上课程”，参加在线学习的学生达11.8亿人次[2].但是有的学生为了在更少时间内获得更好的成绩，网络上出现了找他人代替上课或购买第三方代上课服务的“刷课”(courses cheating，CC)行为，严重干扰教学秩序，也对学生的健康成长造成不良影响.这种违背开设网课教学初衷的现象引起社会和学校的高度重视，如2019年7月15日《中国青年报》就曝光了付费刷课灰色产业链问题[3].

近年来，大学生中的“有偿代课”行为引发了学术界的关注，如Yu等认为缺乏自控能力是大学生作弊行为的主要原因之一[4].于成文等通过实证研究探析了引发大学生作弊行为的社会因素[5].李宝鑫从分析大学生“有偿代课”的成因入手探讨解决问题的对策[6].盖艺伟等深入剖析“有偿代课”产业链，从学生、教师、学校和社会角度提出遏制“有偿代课”市场化发展的有效手段[7].龙佳等从学生、家庭、学校和教育体制角度对“有偿代课”提出防治措施[8].庞雨欣等基于计划行为理论构建大学生选择“有偿代课”模型，发现性别、学校类型、经济、具体情境和同辈群体因素对大学生“有偿代课”行为有显著影响[9].薛孟春基于理性选择理论分析大学生选择“有偿代课”的根本原因，提出加强引导，从营造学习氛围角度优化网课环境[10].李慧慧分析当前学生、教师、学校和社会存在的问题，并有针对性的提出防治“有偿代课”的方案[11].汪雨晴通过内生、外生两方面因素剖析了大学生“有偿代课”的原因，提出净化教学环境需从学生、学校、教师三个层面同时入手[12].

目前学术界针对在线学习的“刷课”行为研究还非常少.王铎的研究认为在线课程的引入为学生提供了更丰富和优质的学习资源，但同时也出现了一些纯粹为修满学分而“刷课”的现象，并指出这种“刷课”拿学分的行为完全是自欺欺人[13].程玉等发现在MOOC学习过程中，学习者自主选择授课教师、自主控制学习进程，自由度比较大，学习的自主能动性发生改变，不少学习者出现“刷课”现象[14].Kroher等通过在线匿名实验证实了在线学习者会表现出高度的不诚实行为，增加作弊的可能性，并在知道他人行为不道德会增加作弊的程度[15].范铮认为慕课为传统公开课提供更优质和更自由的学习方式，课程管理的重点必须由课程提供转向服务提供和教学过程监督[16].于潇宇以高职英语信息化教学改革为对象，深入剖析学生“刷课”现象产生的缘由，并提出促进网课高效运营的建议[17].陈乾国通过学习记录分析和数据挖掘方式研究干部学习过程中利用第三方工具进行网上学习的作弊行为，提出了针对网上“刷课”行为的检测与预测策略，有利于提高干部学习课程网上教学质量[18].彭良军从博弈论的角度证实了仅依赖加大惩罚力度无法完全控制学生作弊现象，还需加大对监管方(教师)的激励或惩罚[19].

本文在前人的研究基础上，构建网课平台监管策略与大学生刷课策略之间的演化博弈模型，进一步总结出网课平台监管与大学生刷课之间的影响因素，通过决策行为在时间轴上的动态变化研究，挖掘出控制大学生“刷课”行为的关键因素，并提出相应的解决措施.

1 演化博弈利益主体

当前大学生在网课平台“刷课”行为是涉及诸多利益主体的博弈结果，主要源于考虑学校方的监察监督影响下网课平台运营方(下文称“网课平台”)和大学生之间的演化博弈.基于此，将网课平台和大学生看作博弈的局中人，并且局中人会随着时间的演化彼此进行博弈.

1.1 网课平台

网课平台，指运营网课的平台商.学校通过网课平台对大学生进行在线教育，并在考核合格的情况下授予大学生相应的学分，此类平台目前主要包括智慧树、超星等.“刷课”行为是指大学生通过第三方购买代上网课服务，并以此获得相应学分的行为.网课平台在运作过程中会根据自身可持续性发展的需要，也是基于社会和学校方对平台运营方社会责任和良好授课秩序的要求，在“刷课”行为控制层面投入一定的人力物力，甚至赋予教师权限激励全面制止“刷课”行为；当然也有可能出于自身利益的考虑，并不实行严格监管而任其存在的现象.基于此，建立网课平台相应的策略组合为{严格监管，不严格监管}.在此基础上，分析网课平台随着运营时间的推移其采取不同策略的概率变化，这里假设网课平台选择“严格监管”的概率为ra，0

1.2大学生

大学生特指正在网课平台上课并存在“刷课”需求的大学生.通过向第三方代上网课机构支付一定的费用Cs，完成本应由自己学习的一部分学习任务，从而获得好的成绩及排名等额外收益E.大学生可能因网课平台监管不严格而选择“刷课”行为，因为不严格监管情况下其他同学的“刷课”行为将导致其排名的落后，从而选择“刷课”；也可能因为网课平台严格监管下可能承受过大的惩罚而选择“不刷课”.基于此，得出大学生的策略组合为{刷课，不刷课}.在此基础上，分析大学生随着时间的推移其采取不同策略的概率变化，这里假设大学生选择“刷课”行为的概率为rb，0

1.3 学校

学校一方面作为网课平台的采纳方，对网课平台积极实施“严格监管”行为予以一定力度的支持A，表现为优选该平台的网络课程作为本校学生学习的资源或者是额外经济鼓励措施；另一方面作为大学生学习的监管方，为了保障网课平台的教学效果不低于传统教学，对大学生“刷课”行为予以一定力度的惩罚T，表现为对平时成绩的降分或者零分处理等措施.

2 演化博弈模型

2.1 收益矩阵

针对目前网课平台“刷课”行为的两大主体展开研究，考虑网络平台与大学生都无法事先完全掌握对方的信息，故而无法做出完全理性的抉择，因此，博弈双方是不完全理性决策模式.这是典型的演化博弈模型，因此构建如表1所示的网课平台与大学生之间的博弈收益矩阵.

表1 网课平台与大学生博弈收益矩阵Tab.1 The return matrix of the online course platform and college students

矩阵中，参数I和Q是网课平台“不严格监管”且大学生选择“不刷课”的基础收益，C2是“不严格监管”情况下网课平台付出的监管成本.

如果大学生选择“刷课”行为，那么在网课平台“不严格监管”情况下存在概率为p2可能被识别出在“刷课”的风险，至此被识别出“刷课”行为的学生将承受惩罚力度为T的损失，而网课平台会因监管成功得到诸如口碑、边际奖励等的收益为R.显然，现实状况是如果网课平台“不严格监管”，学生出于个人利益最大化考虑必然选择“刷课”，即-Cs+(1-p2)E-p2T>0，“刷课”获得更多的收益.此时网课平台获得额外收益为p2R.

如果网课平台选择“严格监管”，那么网课平台将付出相应的人力物力成本C1，从而大大提高对“刷课”行为的识别能力，即识别概率提升到p1，显然有p1>p2，另外由于网课平台的“严格监管”行为将带来诸如良好社会效应、目标学校绩效奖励等激励收益，记作A.

此外，在网络平台“严格监管”的情况下，不刷课同学鉴于网课环境的公平公正性带来的心理预期效应记为f.

2.2 复制动态方程

演化博弈的基本方法是构建博弈双方决策概率相关的复制动态方程(replicator dynamics equations)[20]，基本原理是博弈双方在其策略组合里选择策略比例随着时间的变化趋势，收益较平均水平高的策略将逐步被多数博弈方采用.基于此构建网课平台与大学生之间的复制动态方程.

对于网络平台而言，选择“严格监管”和“不严格监管”的期望收益分别为U1、U2，平均收益为U，则：

U1=rb(I-C1+p1R+A)+

(1-rb)(I-C1+A)，

(1)

U2=rb(I-C2+p2R)+(1-rb)(I-C2)，

(2)

U=raU1+(1-ra)U2.

(3)

因此，网课平台选择“严格监管”的复制动态方程为：

ra(1-ra)[A-C1+C2+(p1-p2)rbR].

(4)

同理，对于大学生而言，选择“刷课”和“不刷课”的期望收益分别为V1、V2，平均收益为V，则：

V1=ra[Q-Cs+(1-p1)E-p1T]+

(1-ra)[Q-Cs+(1-p2)E-p2T]，

(5)

V2=ra(Q+f)+(1-ra)Q，

(6)

V=rbV1+(1-rb)V2.

(7)

因此，大学生选择“刷课”的复制动态方程为：

rb(1-rb){E-Cs-raf-

[p2+ra(p1-p2)](E+T)}.

(8)

3 演化规律分析

3.1 演化稳定性分析

演化分析的目的是为了找到博弈双方的演化稳定策略(evolutionarily stable strategy， ESS)，即有限理性的博弈双方在追求自身即得利益最大化的时候形成的动态平衡.

(9)

(10)

演化的结果最终收敛于哪个奇点，取决于网课平台与大学生之间的初始状态与复制动态方程(4)和(8)对应区间的取值范围.借助雅可比矩阵局部稳定性分析演化动态稳定策略的收敛方向.雅可比矩阵如下：

判断二维矩阵的稳定性为：

1)如果全部λ<0为演化稳定点即ESS；

2)如果全部λ>0为不稳定点；

3)如果全部λ正负皆有为鞍点；

4)如果λ是共轭的虚数，为中心点.

表2 各奇点的特征值Tab.2 The eigenvalues of each singularities

其中,

显然K>0，并且有λ31=-λ12λ41=-λ32λ42=-λ22.

情况1：对于E1(0，0)，由于λ11>0不是演化稳定点，并且当λ12>0时为不稳定点，λ12<0时为鞍点，即网课平台“不严格管理”的情况下大学生不会选择“不刷课”，这是因为这种情况下，选择“刷课”能带来额外收益，而原本“不刷课”的大学生在“刷课”大学生的影响下将会发展成“刷课”大学生，显然这种情况是社会不愿意看到的，有违网课平台建立的初衷.

情况2：对于E2(0，1)，由于λ21<0，当λ22<0时为稳定的演化点(ESS)，此时网课平台选择“不严格管理”，大学生选择“刷课”，这正是E1(0，0)发展的结果，即A-C1+C2+(p1-p2)R<0，网课平台严格监管下所获得的全部额外收益小于其严格管理的成本支出，是导致网课平台“不严格监管”的主要原因.因此网课平台严格监管下所获得的全部额外收益高于严格管理的成本支出是打破这种均衡的基本保证，因此只需让λ22>0，此时E2(0，1)为不稳定的演化点.

情况3：当λ22>0时，对应的E4(1，1)中λ42=-λ22<0，其成为ESS的保证是λ41<0，即(1-p1)E-Cs-p1T-f>0或者说T<[(1-p1)E-Cs-f]/p1，即当被发现刷课大学生的惩罚力度较小时(T<[(1-p1)E-Cs-f]/p1)，虽然网课平台选择“严格监管”，由于利益的驱使，大学生还是会选择“刷课”，因此为了保证至少在“严格监管”情况下大学生有选择“不刷课”的动机，就必须将惩罚力度提高到一定的程度(本例中T>[(1-p1)E-Cs-f]/p1)，即必须保证λ41>0.

综上所述，关于大学生在网课平台“刷课”行为的控制关键在于对大学生的惩罚力度和对平台严格监管的额外激励.

3.2 影响演化稳定性的因素分析

图1 网课平台与大学生博弈相位图Fig.1 The online course platform and college student’s repayment probability (ra，rb) distribution interval map

3)网课平台“刷课”行为的选择与网课平台基础性收费I和大学生都“不刷课”的收益Q无关.

4 数值实验与分析

4.1 初始策略比例对稳定性的影响

随着网课平台与大学生初始策略比例的变化，ra一直朝着ra=1的方向发展，这说明初始策略比例只影响网课平台与大学生决策的发展过程，并不影响最终趋势的状态(如图2).在本算例中网课平台受着利益最大化追求的影响逐步提高监管力度，直至发展成“严格监管”的状态；而rb则是先变大，直到网课平台接近“严格监管”时，迅速下降，这是因为一方面本算例惩罚力度较小(本算例T=1，关于惩罚力度在4.3节中详细探讨)，在完全“严格监管”之前，大学生抱有侥幸心理选择“刷课”行为，而当网课平台真的实施“严格监管”时，因风险过大而选择“不刷课”.

图2 初始比例(ra，rb)对稳定性影响Fig.2 The impact on stability by initial proportion of repayment probability (ra，rb)

4.2 严格监管激励A对稳定性的影响

严格监管激励A的取值大小只影响ra的发展趋势，ra随着A值的增加的变化趋势如图3所示.当A=0.5时，A随时间的发展收敛于ra=0；随着A的增加ra的变化趋势逐渐向上浮动，并且A值越大ra越早收敛于ra=1.这说明对于网课平台而言，更注重严格监管时社会和学校对其带来的额外收益，即社会效应.通过ra的增大间接影响大学生选择“不刷课”行为.

图3 ra与A的时间关系图Fig.3 The relationship between ra and A versus time

4.3 监管成功边际收益R对稳定性的影响

在图1中可以看出R的取值大小只影响ra的发展趋势，ra随着R值的增加的具体变化趋势如图4所示，可以看出当A值确定时，R>0的取值范围都不会影响到ra的最终取值，随着R的增长，ra会更早的收敛于1.这说明识别出“刷课”同学单个所带来的收益对网课平台的最终决策影响较A值弱一些，网课平台识别“刷课”行为的个别效应并不能激励网课平台“严格监管”，对于“严格监管”策略只能是锦上添花.

图4 ra与R的时间关系图Fig.4 The relationship between ra and R versus time

4.4 惩罚力度T对稳定性的影响

在图1中可知T的取值大小对rb的发展趋势影响很大，具体的影响趋势如图5所示.

图5 rb与T的时间关系图Fig.5 The relationship between rb and T versus time

T值对rb的发展趋势的影响存在阈值T*=[(1-p1)E-Cs-f]/p1(本算例T*=0.625).当TC1-C2时，网课平台才会始终坚持“严格监管”.而当T特别大(本算例中T=20)时，虽然网课平台前期“严格监管”概率小，但是大学生们也没有选择“刷课”行为的动力.

5 结论与建议

通过构建网课平台与大学生之间的演化博弈模型，分析演化路径和均衡情况，得出下述结论.

1)在博弈过程中，网课平台选择“严格监管”的概率ra和大学生“刷课”行为概率rb并不受网课平台基础收益、大学生基础收益和两者概率初始化状态的影响，这说明在没有任何外界激励的情况下，两者之间的博弈结果是网课平台选择“不严格监管”，大学生选择“刷课”.

2)当对大学生“刷课”行为的惩罚力度高于某一阈值时，大学生最终会选择“不刷课”，但是其发展过程还会受到网课平台选择“严格监管”概率的影响；反之，大学生将选择“刷课”.因此对于大学生行为控制的关键在于惩罚力度.

3)当对网课平台选择“严格监管”的社会激励高于某一阈值时(本文算例A>C1-C2时)，无论大学生是否选择“刷课”，网课平台都会坚持“严格监管”；当社会激励在某一取值范围内时(本文算例C1-C2-(p1-p2)R

基于上述研究结果，为促进网课平台的良性发展，学校管制应从以下几方面着力.

1) 加强对网课平台审核，优选“严格监控”平台进行合作，控制“不严格监控”平台的选课比例.2) 健全教学管理部门、教师、学生多维监管监督机制，对“刷课”行为者实行严厉惩处，如零分处理、不诚信记录等.3) 加强对网课学习重要性和优势的宣传，加强网课过程管理，注重以生为本管理理性的体现，促进学生网课学习获得感、体验感的提升.4) 完善相关规章制度，加强网络环境监察，严厉惩治组织“刷课”的行为，从源头控制“刷课”行为产业化.

为了便于研究，本文只考虑了网课平台与大学生之间的两方博弈，为学校控制学生“刷课”行为的管制措施抛砖引玉.因此在后期的研究中可以将教育管理部门、代课方等决策主体考虑进来，另外博弈主体收益层面可以考虑社会影响、群体收入差距的影响[21]，以期对“刷课”现象的研究更贴近当前实际变化，从而从多个角度提出相应的解决对策.