网民眼中的政府反腐败
——基于网络爬虫和结构主题模型的分析(2012—2017)

2020-05-04 07:13:50郑崇明

广州大学学报（社会科学版） 2020年2期

郑崇明

(深圳大学城市治理研究院，广东深圳 518060)

引言

党的十八大以来，中国廉政建设呈现出前所未有的反腐败高压态势。据统计，2013年至2019年9月，全国纪检监察机关共立案263.5万件，给予党纪政纪处分245.7万人。(1)根据中纪委网站公布数据整理。2015年2月27日，习近平总书记在中央全面深化改革领导小组第十次会议上，首次提出让人民群众有更多获得感的重大战略思想；[1]2016年1月12日，在十八届中央纪委六次全会上，习近平总书记提出了“让正风反腐给老百姓带来更多获得感”的党风廉政建设和反腐败新理念；[2]2019年1月，习近平总书记在十九届中央纪委三次全会上指出，要“着力处置群众身边的腐败问题”[3]。习近平总书记的上述理念反映的是政府反腐败与社会公众评价之间的关系。换言之，社会公众是政府廉政建设工作的评估主体，其评价结果的高低直接反映了社会公众的反腐败获得感水平。从这个意义上讲，反腐败绩效如何由社会公众来准确评价就成为研究的重要议题。

由社会公众评价反腐败绩效属于反腐败绩效评价方式中的主观评价方法范畴。在廉政研究的诸多文献中，对政府反腐败绩效的主观评价出现了“腐败感知”“腐败容忍度”“反腐败效能感”等三种不同的概念和研究方向。最初，腐败感知主要以专家和企业人士为研究主体，调查其对政府过去一年的腐败程度认知水平，比如透明国际的CPI指数。此后，陆续出现了基于某些国家和地区的腐败感知研究(Belousova, Goel, Korhonen, 2016[4];ábelková, Hanousek, 2004[5]; León, Araa, de León, 2013[6]; Melgar, Rossi, 2009)[7]，重点在于识别影响因素，提高公众廉洁感知水平；腐败容忍度则集中体现为社会公众或公职人员对政府腐败现象和程度的容忍程度或接纳程度(公婷, 王世茹, 2012)，[8]它反映的是历史长期累积和文化差异对个体腐败认知方面的影响；而反腐败效能感则是社会公众期望政府的反腐败努力能够减少他们对腐败问题的担忧并且使得社会更加清廉(Li, Gong, Xiao, 2016)。[9]

不难发现，上述三种主观评价方法各自侧重反腐败绩效的一个方面，仅能表明公众不同程度的腐败感知、腐败容忍度和社会公众对政府反腐败努力期望的差异，难以揭示党的十八大以来，社会公众对政府反腐败工作的具体认知状况和讨论内容，即社会公众对党的十八大以来政府廉政建设讨论了什么具体内容？涉及到哪些主题？哪类主题占比较高以及可能的影响因素是什么？

为回答上述问题，我们使用网络爬虫和自动文本分析技术，从新浪微博上获取了所有有关2012年12月至2017年6月政府廉政建设的数据并加以分析。通过对该数据集进行词云和结构主题模型分析，揭示网民对政府反腐败绩效的主观评价内容和认知差异，从全新的维度对话反腐败绩效评价。

对上述问题的研究可以弥补仅靠单一指标衡量反腐败工作的不足，真正做到中国政府的反腐败工作由人民群众自己评价。从公众参与廉政建设的角度出发，通过大数据的分析方法，获取社会公众反腐败认知的海量数据，可以准确识别和判断社会公众对中国廉政建设的期望和所关注的重点议题，从反腐败工作的获得感出发，切实调整政府廉政建设的时间注意力分配。

一、反腐败绩效研究文献综述

如何评价反腐败工作是摆在理论和实务工作者面前的重要议题。已有文献主要运用主观和客观两种方法评价政府的反腐败效果(过勇，宋伟, 2016)。[10]一般来说，反腐败工作的评价与腐败规模的大小共生共存。换言之，对腐败程度的测量是反腐败工作评价的间接方式，而反腐败工作的落脚点也在于衡量一个地区政府腐败规模是否实质性地降低，是否赢取了社会公众对政府反腐败工作的认可。

(一)反腐败绩效的主观评价：多维度测评时代

腐败感知是与反腐败结果评价最为相关且发展时间较长的概念。然而，已有文献表明，完全依靠腐败感知并不能有效评估政府的反腐败工作。最为相关的是学者们采用量化研究的方法，系统检验政府反腐败力度与公众清廉感知之间的关系，发现两者之间存在着较大的不确定性。有研究指出，没有经验证据表明两者之间存在着显著的相关关系(倪星，孙宗锋, 2015)，[11]即在县区层面，似乎反腐败力度的大小并不影响公众的腐败感知水平；然而，也有研究表明两者之间存在着显著的负相关关系(孙宗锋，杨丽天晴, 2016)，[12]即在短期内，反腐败力度加大会曝光大量腐败信息，刷新民众对腐败认知的底线，反而不利于社会公众的政府清廉感知水平的提高。此外，有相当一部分学者系统检验了腐败感知的影响因素，发现宏观层面的制度和文化差异与微观个体层面的因素共同导致了腐败感知的差异。具体来说，宏观层面的制度包括法律法规(La Porta, Lopez-de-Silanes, Shleifer, Vishny, 1999)[13]、政治民主(Brunetti, Kisunko, Weder, 1998；[14]Diamond， Plattner, 1996[15])、经济发展(李辉，唐敏, 2015)[16]等。文化层面的影响因素有宗教信仰(Persily， Lammie, 2004)[17]、腐败容忍度(倪星, 2017；[18]肖汉宇，公婷, 2016[19])等；微观个体层面包括官方媒体的使用和小道消息(Zhu, Lu, Shi, 2013)[20]、腐败经历(Rose， Mishler, 2010)[21]等。可见，腐败感知这一概念受到诸多因素的影响，并且与政府反腐败力度之间的关系呈现出复杂的图景。单纯的腐败感知并不能准确地显示出腐败减少与否，也不能完全反映反腐败绩效的高低。

由于腐败感知受到诸多因素影响，容易产生偏误。因此，一些学者主张应当考察反腐败满意度,提出用反腐败效能感来反映当前社会公众对政府反腐败效果的主观评价(Lili,2016)。[22]政府反腐败效能感越强意味着社会公众感觉到政府反腐败政策的执行更加有效。研究发现，个体的收入不公平感显著影响社会公众的反腐败效能感差异。类似地，国家统计局也开展了相关调查，主要调查受访者对国家反腐败工作的满意度评价水平。2015年民意调查显示，91.5%的群众对党风廉政建设和反腐败工作成效表示满意，比2012年提高16.5个百分点；90.7%的群众对遏制腐败现象表示有信心，比2012年提高11.4个百分点；90.6%的群众认为当前违纪违法案件高发势头得到遏制，比2012年提高5.2个百分点，均创新高。[23]

除此之外，学者们重点关注腐败研究的文化维度，并体现为对腐败容忍度差异的研究。已有研究指出，腐败容忍度意味着公众对腐败现象的“包容”程度，显示了人们对公职人员违规行为的接受限度(公婷，王世茹, 2012)。[8]换言之，腐败容忍度是反腐败制度建设的重要社会土壤，当腐败容忍度较低时，民众的反腐败决心和参与的意愿都会较高，有利于形成全社会的腐败零容忍态度。同时，腐败容忍度还会显著影响公众对政府腐败程度的认知差异(倪星，孙宗锋, 2015)。[11]当腐败容忍度较高时，人们会对小规模的政府腐败采取默许和想当然的态度，因而不利于政府清廉水平的提升。

然而，无论是反腐败效能感、腐败容忍度还是反腐败满意度的调查，均反映的是社会公众对廉政建设评估的一个维度，无法了解公众对政府廉政建设讨论了什么具体内容、涉及哪些主题、哪些主题占比较高以及可能的影响因素。

(二)实践探索：指标多元化时代

与理论探讨同时开展的是各地区反腐败绩效评价的实践探索。1999年，韩国首尔市政府开发了一套“反腐败指数”(2)该指数包含反腐败认知指数和反腐败努力指数。，用来评估市政府各行政单位的廉洁程度；台湾地区“法务部”开展了“台湾地区公众对政府廉政主观指标与廉政政策评价”的调查(余致力, 2011)；[24]香港廉政公署通过问卷调查方式，广泛收集不同社会群体的反腐败认知态度，推动香港廉政建设和反腐败工作。[25]

山东省淄博市出台了建立廉政指标体系的意见，共13项腐败控制指数和12项公众感知指数，廉政指标体系的建立，改变了过去对反腐倡廉建设评价客观性不足、说服力不强的状况，成为加强各部门党风廉政建设工作指导、推进全市反腐倡廉建设的有力抓手；[26]安徽省纪委(2002)构建了“安徽省反腐倡廉工作综合评价系统”[27]，该评价系统分为目标测度系统和民意调查系统；河南省纪委提出了以工作作风、依法行政、廉洁从政、廉政效能四个维度为一级指标的评价指标体系；广州市“廉洁广州”建设领导小组构建了以廉洁清明政治、廉洁诚信市场、廉洁文化、廉洁公平社会、廉洁城区建设五个维度为一级指标的评价指标体系。这些指标体系的构建对于提高反腐工作的科学性起到了重要推动作用，体现了各地方政府廉政建设的特色，实现了指标设计的本土化，具有重要的现实意义。

但这些指标体系将腐败与反腐败、主观与客观指标混合到一起，使得评估结果混杂无序，更无法准确解读结果所反映的具体方向。虽然有学者(过勇, 2017)[28]主张反腐败绩效评估体系的设计不应局限在采用简单的腐败感知来评价中国社会的反腐败成效，而应从腐败程度、反腐败强度和腐败风险三个角度入手，但是将多种指标融合到一起的风险可能使反腐败效果的可解读性更弱。

由于腐败感知会降低人们对政府的信任度(Kim, 2010)，[29]影响政权合法性(Seligson, 2002)，[30]因此政府反腐败绩效的评价显得至关重要。事实上，自党的十八大以来，政府反腐败工作确实得到了社会各界的广泛关注，尤其是负责廉政建设的各级纪委监察部门。

(三)主观评估的必要性和不足

由上述文献分析可知，反腐败绩效的主观评价结果反映了公众、专家、媒体等各方主体对政府廉政建设的观点和看法。相比客观的统计数据，如官员违纪违法案例数、反腐败机构的廉政教育次数、制度建设和监督保障机制等，主观评估的结果更能体现社会公众对政府廉政建设的关切水平，尤其是在党的十八大以来的反腐背景下更为凸显。另外，社会公众对政府高压反腐带来的非预期的后果，即官员腐败信息在较短期内呈现出爆炸式的曝光如何评价同样值得关注。已有研究表明，单一指标衡量反腐败绩效会在短期内产生与预期结论相反的结果(孙宗锋，杨丽天晴, 2016)。[12]如果将分析内容转变为社会公众对反腐败认知的分析，改变过去的指数化模式，则可能实现由社会公众来评价反腐败绩效的目标。然而，已有研究在这方面的关注却并不多见。Zhu等使用5家网站数据(3)腾讯、搜狐、新浪、凤凰和财新网。研究网民对反腐败运动的情感态度认知，并发现9大评论的分类(Zhu, Huang, Zhang, 2017)。[31]这对我们在反腐败领域使用大数据方法研究社会公众的反腐败情感差异具有启发性。

二、文本分析技术与模型设计

为解决上述问题，我们采用基于Python语言的网络爬虫技术和基于R语言的结构主体模型(STM，Structural Topic Model)。前者在网页数据的获取上存在着比较优势，后者在自动文本分析上略胜一筹。我们通过设计编程语言，从新浪微博上爬取了网民对2012年12月至2017年6月这一时间段所有有关政府反腐败方面的讨论帖子。

据统计，截至2017年6月，中国网民规模达7.51亿，互联网普及率为54.3%；手机网民规模达7.24亿，移动互联网已渗透到人们生活的方方面面。(4)资料来源：中国互联网信息中心发布的《中国互联网发展状况统计报告》。众所周知，新浪微博是中国社会最大的社交网络平台，该平台在2012年便拥有注册用户超过5亿。2017年6月的月活跃用户数(MAUs)为3.61亿，较上年同期增长28%，其中92%为移动端用户。2017年6月的日均活跃用户数(DAUs)为1.59亿，较上年同期增长26%。尽管有研究指出，新浪微博存在着删帖的现象(King, Pan, Roberts, 2014)，[32]但它仍是最能反应当前网民讨论社会热点问题的重要平台。事实上，新浪微博的数据挖掘和分析在众多研究中均有所体现(Tong， Zuo, 2014)。[33]本文的基本前提假设是新浪微博的数据可以反映党的十八大以来网民对政府廉政建设的认知状况和讨论话题的差异。

在这一前提下，我们使用目前大数据算法常用的自动文本分析技术，开展网民对政府反腐败认知差异的研究。从本质上看，图像是模糊的非结构化数据，而文字则属于一种半结构化的数据类型，即我们所知的语言。语言之中包含了有关其自身的信息。新浪微博用户发表的有关政府反腐败方面的帖子在很大程度上反映了当前网民的认知态度和情感取向。而主题模型则是在众多文档中提取主要内容的重要方法，其常用的算法为词袋法(Bag of Words)，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。在此基础上，相关主题模型和结构主题模型等众多模型得以产生。结构主题模型允许用户整合元数据(Metadata)进入到主题建模中去，其主要目的是允许研究者发现主题并估计主题和文档之间的关系。

为此，本文在微博上按照关键词搜寻的办法，进行相关主题搜索，形成本文要分析的数据集。同时，通过结构主题模型，迅速识别所有微博帖子关于反腐败讨论的内容。具体而言，网民讨论反腐败包含哪些主题、各自占比多少、受哪些因素影响，等等。一般而言，我们主张主题占比会在人口统计学变量如性别上存在显著差异。此外，微博用户因为其关注者的多寡会对网络舆论走向产生不同影响。换言之，用户关注者多，说明其舆论影响力大，也即经常出现在媒体面前的“大V”。因此，文章试图检验用户影响力的大小与不同主题占比之间的关系。

三、数据收集与研究发现

(一)数据收集

已有关于腐败问题的实证研究主要基于问卷调查和典型案例的方法。问卷调查虽然具有代表性和可推性，但数据的收集和处理不够灵活，并且在实际的操作过程中极易存在抽样偏误的问题；而个案访谈虽然可以对典型案例进行深度挖掘，但是难以实现因果推断。相反，大数据方法自其产生之初便标榜能获取要分析的海量数据和多样化的变量(Diebold, 2012；[34]维克托·迈尔-舍恩伯格，肯尼思·库克耶, 2013[35])，因而成为本文分析方法的首选。我们分别以“十八大反腐败”“打老虎拍苍蝇”“习近平反腐”“廉政”“中央反腐”“基层反腐败”为关键词进行搜索，爬取了2012年12月至2017年6月所有新浪微博讨论内容，形成了一个包含7 836个微博原创发帖的数据集。

(二)研究方法

由于本文的数据均为文本格式，意味着传统的统计模型难以满足本研究需求。随着自然语言处理技术的进步和文本分析方法的成熟，对海量数据实现自动文本分析已经成为可能。结构主题模型的出现极大地方便了众多研究者开展文本分析(Roberts, Stewart, Tingley, 2014[36]; Roberts, Stewart, Tingley, 2014[34])。结构主题模型能够对海量文本进行自动文本主题识别和主题影响因素分析，为详细阐释网民对反腐败的认知和评价状态提供了技术支持。

(三)总体描述

通过R语言的自动文本分析程序包，我们首先对7 836条微博进行基本整理，然后用segmentCN包对所有文本进行分词，并采用常用汉字停用词表，去掉一些没有意义的字词，如“那么”“但是”“此外”等。在对分词后的文本进行去掉数字和字母以及一些网址等信息后，最终形成本文要分析的语料库。为了直观展示所有微博帖子可能的反腐败评论的内容，我们绘制了词云图，如图1所示。

图1 7 836条微博对2013年以来反腐败工作的讨论内容

2012年12月中央出台八项规定以来，中纪委坚持“老虎”“苍蝇”一起打的反腐败方针，形成了空前的反腐败高压态势；2015年十八届中纪委五次全会明确指出，要继续保持反腐败高压态势不放松、坚决遏制腐败蔓延势头；[38]2016年中纪委六次全会要求全面从严治党、加强党内监督,[2]同年6月通过了《中国共产党问责条例》；2019年1月11日，习近平总书记在十九届中央纪律检查委员会第三次全体会议上发表讲话指出，要深化运用监督执纪“四种形态”，夺取反腐败斗争压倒性胜利，着力惩治群众身边的腐败问题，完善党和国家监督体系等，以问责倒逼责任落实，推动管党治党走向严紧硬。[3]研究发现，党的十八大以来，网民对腐败和反腐败工作进行了热烈的讨论，并且在众多的词汇中，讨论廉政建设时用到的高频词汇一般包括“廉政”“腐败”“党风廉政建设”“干部”“清风”和“教育”等。其中，也包含“贪官”“违纪”“中央”“纪委”“打老虎”等内容。这说明网民对政府反腐败工作的讨论与中纪委和各省纪委近些年的反腐败工作重点具有高度的契合性。然而，上述内容虽然可以让读者总体上把握过去三年微博用户所发有关反腐败帖子的主要内容，但却并不能展示所有帖子讨论的主题、各自占比以及可能的影响因素。

近几年兴起的结构主题模型(Structural Topic Model，简称STM)，不仅可以识别海量文本中的主题，也可以发现影响主题占比和主题内容的因素。所谓主题占比(Topic Prevalence)是指各主题在所有文本中所占比重，占比越高，代表主题被讨论的可能性越高，而主题内容(Topic Content)是指某一主题之下，有哪些关键词语作为支撑。

(四)主题占比

如图2所示，经过结构主题建模分析，在20个主题中，“中国-官场-大地震”占比最高，约为所有主题的10%。这意味着自党的十八大以来，微博用户对中国反腐败发表最多的评论是“官场大地震”，表明网民对政府反腐败的力度和决心之大表示震惊，同时也彰显了中国共产党以零容忍度的态度面对各种形式的腐败，坚决惩治腐败行为、遏制腐败现象的决心和行动。此外，对中国的反腐败，网民还讨论了县级官员廉政问题、廉洁教育问题、党风廉政建设制度推进问题、反腐败责任落实与监督问题、腐败案件与犯罪问题、聚焦人民群众反腐败问题、基层廉政建设的问题、中央巡视党纪维护问题、社区廉洁活动建设问题、纪检监察机关廉政建设问题、中央巡视组“打老虎”问题等。

上述议题的讨论表明，网民对廉政建设保持了较高的热情和参与积极性。2003年联合国大会通过了《联合国反腐败公约》(下文简称“反腐公约”)，为各国反腐败提供了国际标准原则和政策目标。联合国反腐公约在吸收各区域性反腐公约的基础上，进一步强调了社会参与反腐败的重要性，敦促各国推动社会参与，把社会参与作为预防腐败机制的重要环节，并作为一项国家应尽的义务(王雪梅, 2009)。[39]

图2 各主题占比注：topic代表主题。

另外，在数据爬取时，我们不仅获取了网民微博讨论的内容，还获取了网民的性别和微博账户的影响力(5)影响力用该微博用户的关注者数量多少来衡量。关注的数量越多，代表其影响力越大。等信息。结构主题模型的优势在于，其可以提供协变量对各主题占比影响的分析。为检验各主题占比是否受到性别的影响，我们把主题占比作为因变量，性别作自变量进行了分析，分析结果如图3所示。

与女性相比，发现主题1、主题9和主题18的占比，男性要分别显著高0.025、0.1和0.02左右。而与女性相比，主题7、8、10、11、12、13和15的占比，男性显著低。

为进一步探究主题占比可能的影响因素，我们同时以性别和微博影响力作为解释变量，微博主题占比为因变量，建立统计回归模型,分析结果如表1所示。

表1所示的主题占比影响因素模型表明，性别和微博影响力两个变量显著影响反腐败主题占比。

图3 主题占比男女之间差异注：0.00左侧代表女性，0.00右侧代表男性。

表1 主题占比影响因素分析

注：***0.001,**0.01,*0.05。

具体而言，与女性相比，男性在主题2和9上占比显著较高，而在主题7、8、10、11、12、13、15和18上占比显著较低。在主题1、3、4、5、6、16、17、19和20上，男女之间并无显著差异。

在主题1、3、4、5、6、8、11、13、14、16、17和18上，随着微博影响力越来越大，主题占比也显著增加；相反，在主题2、7、9、10、12、15和20上，随着微博影响力的逐渐增大，主题占比显著提升。

(五)主题内容

主题内容不仅反映了网民对政府反腐败的认识，还体现了网民对政府反腐败的注意力分配。按照主题占比前4位的标准显示主题内容，结果如图4所示。

图4 主题内容(占比前4)注：左上为主题9，右上为主题18，左下为主题1，右下为主题11。

不难发现，主题9的主题占比最高。这表明主题9除了说明了“中国官场-大地震”以外，还有“习大大-中纪委巡视组-打老虎-反腐风暴”等内容，直接表明了反腐败力度之大前所未有，反腐败决心之不动摇，前所未有；主体18为“廉政文化”主题，其内容更多的包含了“党风廉政建设-社会主义-人人-心声”等；主题1为“廉政教育”，具体包含“廉洁-家庭-提醒”等内容；而主题11则是廉政建设部署工作，具体体现为“书记-召开-贯彻-会议-精神”等内容。

此外，由于男女差异，可能对主题内容产生一定影响。因此，以主题6为例，我们做了进一步的分析，具体如图5所示。

图5 男女主题6内容对比注：f代表女性，m代表男性，topic为主题。

图5表明，在主题6上，男女之间的词语使用上存在明显差异。左侧红色字体为女性常用词，分别为“党委-班子-机构-职能”等词汇，而右侧蓝色字体则为男性常用词汇，包含了“党风廉政建设-纪委-责任-落实”等内容。

此外，我们还分析了不同主题间的词汇差异，如图6所示，发现主题12更多使用了“腐败-案件-犯罪-问题”等词汇，而主题14则更多使用了“党风廉政建设-政治-制度-执纪问责”等词汇。

图6 主题12和主题14内容对比

结论与讨论

本文以2012年12月至2017年6月所有新浪微博涉及到的反腐败方面的帖子作为分析对象，采用自动文本分析和结构主题模型方法识别出20个主题。研究发现，当前网民对反腐败工作保持了较高的参与热情，网民讨论的主题与党的十八大以来的廉政建设工作具有较高的一致性，各主题的占比受到微博用户的性别和微博影响力的显著影响，从而拓展了社会反腐的研究深度。

从委托代理的角度来看，腐败源于代理人对委托人公权力的滥用。沿着这一思路，形成了国家中心主义和社会中心主义两种反腐败模式，其中社会中心主义的反腐败模式强调营造良好的社会氛围，杜绝腐败滋生的土壤。由此人们开始围绕社会反腐败进行了深入的研究，为社会反腐败的知识增长积累了丰富的文献，因而具有重要的理论和现实意义。然而，社会反腐败研究的不足也非常明显，即通过腐败感知、反腐败效能感知、腐败容忍度等难以更加深入地评价政府反腐败绩效。正是在这个意义上，本文聚焦社会公众度对政府反腐败工作的具体认识状况和讨论内容，使得社会公众度对政府反腐败内容的评价更加具体，从而丰富了社会中心主义的反腐败内容。

此外，把大数据运用到反腐败研究领域也是对研究方法的一种创新。通过数据爬取、数据处理、自动文本分析、结构主题建模等方法，实现了对海量数据的降维处理，通过网络爬虫获取大数据的方法克服了传统依靠调查数据进行分析的弊端，即主观调查本身具有滞后性和偏误性，因而能够更加全方位地反映网民对反腐败认知的全貌。在公共管理实践领域，也为政府反腐败绩效的主观评价提供了一种新思路，表现为对数据的分析摆脱过去仅依靠数值型数值的局限，可以采用半结构化的数据-海量文本-进行政府绩效的评估。

网民眼中的政府反腐败——基于网络爬虫和结构主题模型的分析(2012—2017)

引 言