熊思斯 滕 宇 胡 珀
(1. 华中师范大学计算机学院 武汉 430079;2.国家语言资源监测与研究网络媒体中心 武汉 430079)
随着智媒时代的到来,数据民主化进程日益加速,常见的问政方式逐渐从现场座谈问政、广播电视问政等传统方式转向政务新媒体问政。新媒体问政方式相比传统方式具有平台渠道多样、互动直接高效等优点,但同时也存在互动延迟的缺点。政务新媒体为民众提供了更多诉求表达机会,逐渐成为民众参与政治过程的重要途径之一,对新型政民关系的建构以及推进政府治理能力的科学化、精准化和高效化发挥着重要作用。
当前,各级政府部门越来越重视政务新媒体建设,使其成为搜集民众诉求、解释公共政策、解决各类问题的常用平台。随着政务新媒体的广泛应用及全国范围内网络问政的普及,由政民互动自然产生的数据给政府治理带来了新的机遇和挑战。一方面,政民互动数据为从“网络问政”到“网络理政”转型提供了丰富的资源和必要的基础条件,而对资源的深度理解、挖掘与应用将为提高政府的回应能力,提升政府的治理效率,调节国家社会关系发挥积极的作用;另一方面,因回应失语或回应迟缓所引发的消极社会影响频繁发生,由诉求汇聚所致的信息碎片化、内容冗余化等现象也对廓清民众期望与政务媒体绩效间的关系提出了严峻的挑战。而中部城市近年来发展迅速,武汉、郑州、长沙先后突破常住人口1 000万大关,成为我国城市规模划分中的超大城市。人口的大量流入和产业的飞速发展使得超大城市的治理面临更大的挑战。
鉴于此,为了客观了解我国政务新媒体在网络社会治理中的角色及作用,本文以人民网留言板中武汉、南昌、长沙、郑州四个中部省会城市2022年全年的市民留言内容和政府回复内容为研究对象,基于自然语言处理技术,对新媒体平台的政民互动内容进行多维度的语义分析研究,从议题语义、情感语义等角度揭示民众与政府在互动时的语言特征、内容特征及行为特征,为新时代民众参政议政、管理者执政理政提供科学的参考依据。
现有研究从不同层面和不同视角围绕政民互动问题展开研究,旨在揭示政务新媒体环境下的民众参与及政府回应的典型特征。其中,民众参与指民众借助政务新媒体平台表达意愿和诉求。政府回应指在民众参与的基础上,政府部门就某议题做出回复,进行议程设置或解释决策。聚焦民众参与的研究包括:李莉等以某全国性网络问政平台民众投诉信息为研究对象,采用量化研究方法分析了民众参与议题的数量变化、分布差异及不同主体的诉求内容,重点讨论了关于反腐类议题的投诉行为和特征[1]。徐绪堪等构建了基于BERT模型和Affinity Propagation算法的热点追踪框架,主要识别留言中的领域和各领域中的热点话题[2]。胡吉明等基于Top2Vec主题聚类、TextRank抽取式摘要和结合覆盖机制的Transformer生成式摘要,对政务微博互动内容进行挖掘[3]。聚焦政府回应展开研究的工作包括:常多粉等采集了人民网留言板近十年的环保话题留言内容,运用有监督机器学习和统计分析,从政府层级和机构类型维度分析了政府对环保议题回应的话语模式[4]。邵鹏等根据框架理论,基于次生灾害防控的政务微博网络话语进行分析,讨论了政府网络话语框架及其传播效果[5]。师硕等根据框架理论,采用案例分析法,对政务微博与政府网站文本进行编码与统计,分析了政府网络话语的特征[6]。
在传统的政治动员中,信息传递具有单向传播性,而新媒体环境下的政民互动则具有典型的双向交互性。Hassid等认为民政参与民政互动既可能有利于媒体议程设置,也可能激化社会矛盾[7]。翁士洪等分析了网络参与对政府决策的影响机制,并通过大量实证研究,提出四种网络参与下的政府决策回应模式[8]。孟天广等采集了2010—2016年全国地市级政府发布的微博,统计分析了政务微博传播的内容及功能[9]。杜明曦等对美国北卡罗来纳州政府部门在飓风“佛罗伦斯”期间的2 121条推文与1 776条评论数据进行了内容分析,发现美国地方政府已具备运用政务新媒体进行对话的意识,能及时预警并帮助民众了解灾情[10]。Mossberger等从社交网络和其他新媒体互动工具的使用角度展开了调研,也得出了与之类似的结论[11]。更多研究开始探究民众参与和政府回应间的关联性,代表性的工作有:许鑫等选取了1995—2015年间的300个网络公共事件,通过案例分析方法研究了议题特征、民众参与和政府回应间的关联性[12]。李锋等以人民网留言板为研究平台,采集了2008—2014年间的发帖内容,从身份认同和政治价值取向等角度分析了民众的表达模式与政府的回应模式[13]。孙宗锋等以青岛市市长信箱为实验平台,统计分析了民众诉求与政府回应的变化趋势[14]。孟天广等采用人工标注的方法对留言议题进行分类,通过统计分析研究民众诉求的时间和空间特性,最后基于回归分析考察了多个因素与政府回应的影响模式[15]。李少温等基于人民网留言板的60 797条数据,使用LDA主题模型聚类,通过秩和检验研究了民众行为特征对政府回应的影响[16]。张敏等基于政务话语框架和BERTopic模型对政务短视频标题进行主题挖掘,并结合话题与用户行为数据进行关联分析[17]。张渝等采用问卷调查法,对政府回应策略与公众满意度之间的关系展开定量分析[18]。
当前相关研究虽然已经取得了丰硕成果,但仍存在以下不足:a.对民众参与和政府回应在语义层面的内容理解尚不充分,缺乏从议题、情感等角度开展的深度定量分析研究;b.关于民众参与和政府回应在内容和行为交互层面上的模式关联仍缺乏系统研究及大规模的实证检验。鉴于此,本研究采用基于预训练神经网络模型RoBERTa的零样本分类,深度挖掘留言和回复内容,结合话语框架理论从文本语义特征的角度来匹配不同的话语框架,揭示了政民互动中的语言特征、内容特征和行为特征,为政民互动内容分析和诉求回应研究提供了一种新的视角。
在选择数据来源时,本文考虑以国家中部崛起战略覆盖的六座中部省会城市为初始研究对象。根据人口数据显示武汉市城区常住人口已超1 000万迈入超大城市行列。因此,在此时期研究武汉的政民互动内容具有典型意义和研究价值。为综合考虑不同类型城市的覆盖性和代表性,本文根据中国城市统计年鉴数据,对六座城市各项数据进行了聚类分析,得出的结果如图1所示。
图1 城市统计年鉴数据聚类
与国家统计局定义的城市规模接近,六座城市整体的数据也可划分为三个类别,超大城市级的武汉,特大城市级的长沙、郑州和I型大城市级的南昌、合肥、太原。因此本文选取了具有代表性的武汉、南昌、长沙、郑州四座城市作为分析对象,研究其人民网留言板数据的互动特征。本文的数据来源是人民网留言板,通过编写网络爬虫采集了2022年全年武汉、南昌、长沙、郑州等四个中部省会城市的留言内容。其中公众留言共计36 391条,政府回复共计31 951条,占留言总数的87.8%。为了探究影响政府回应的主要因素,我们分别采集了留言对象、留言类型、留言领域、留言内容、留言标题、留言时间、回复组织、回复内容、回复时间等字段信息。
基于36 391条留言文本数据,本文采用自然语言处理技术,先对文本进行预处理和数据清洗,然后对文本进行情感分析,挖掘其中包含的情感特征。从议题语义角度,使用Sentence-BERT词嵌入并基于社区发现算法挖掘文本中隐含的议题语义。为了进一步识别文本内容相关的话语框架,本文从数据中抽取关键词和最长公共子序列,编码每一类话语的标签,采用RoBERTa模型进行零样本分类,共从留言和回复数据中归纳出留言的四种典型话语框架及回复的三种典型处理类型及典型话语框架。
情感分析方法大致可分为两类:一类基于传统情感词典,另一类基于机器学习。近年来,随着大规模预训练模型的发展,其对文本语义特征的挖掘性能获得显著提升。基于此,本研究采用基于预训练模型的情感分析方法,使用ERNIE模型提供的开源API进行情感分析。
ERNIE是基于知识增强的多范式统一的预训练框架[19],其中,自回归和自编码网络被融合在一起进行预训练。该模式在语言理解、语言生成及零样本学习等任务上均获得了优异表现。
RoBERTa模型是Facebook与华盛顿大学推出的具有良好性能的预训练模型[20]。鉴于该模型在挖掘文本语义上的显著优势,本研究采用零样本学习场景下的RoBERTa模型,利用语义特征和句子相似度对话语框架进行分析,其优点在于针对不同数据无需重新扩充词典,泛化性能更好,而且基于语义向量的相似度分类模式也能更好地利用大规模预训练模型的内在能力。
为了从多个不同维度揭示政务新媒体互动内容的典型特征,我们对留言和回复内容进行基于自然语言处理的文本分析,从语言特征、内容特征和行为特征等三个方面展开研究,并针对民众留言和政府回复定义了如下研究变量。
①针对留言语言特征的变量:
V1:情感倾向。对留言进行情感分析,提取出留言中包含的情感倾向,具体可分为负面、中性、正面三个大类。
V2:留言话语框架。已有研究将民众诉求表达分为情感和理性两类或无价值取向话语、贤能话语和民主话语三类[4]。本文从情感和法理角度将留言内容的话语框架归纳为如下四类,包括抗争框架、弱者框架、个人权益框架、社会影响框架。其中,弱者框架表达自身弱势困难处境,以求获取领导关注,如“恳请咱们人民政府为我们做主”;抗争框架表达对规则的失望不信任,发泄自身情绪以获得关注,如“这到底归谁管,什么时候管?”个人权益框架则指根据法律法规维护权益,如“该公司违反了《消费者权益保护法》,诉求内容是退赔费用”;社会影响框架是以社会群体利益和影响来说服管理者,如“严重影响祖国花朵的健康成长”。上述四种留言话语框架具体分类图2所示。
图2 留言话语框架类型
②针对留言内容特征的变量:
V3:留言领域。主要指民众留言涉及的议题领域,分为城建、环保、交通、教育、金融、就业、旅游、企业、三农、体育、文娱、医疗、政务和治安等14个类别。
③针对留言行为特征的变量:
V4:留言类型。主要指民众留言的诉求类型,分为建言、咨询和投诉/求助三类。
④针对回复行为特征的变量:
U1:回复积极性。为同时覆盖回复行为的速度和效率,本研究定义D为回复时间与留言时间之间的天数差值,单位为天,并依据D的范围将回复积极性分为三类,具体定义如公式(1):
(1)
编码-1、0、1分别代表7天之内回复、7~15天回复和15天之后回复。
U2:回复处理类型。为了更深入地挖掘文本中隐含的行为特征,本研究通过深度学习技术对回复内容进行自动分类,将回复处理类型具体划分为三类:整改、协商和转办。其中,整改指回复组织与相关单位调查情况后做出整改,如“建设局工作人员现场核查并督促整改”;协商指回复组织为纠纷双方搭建沟通平台,通过协商调解的方式解决纠纷,如“市场局第二市场监督管理所立即联系某公司,为您搭建友好沟通协商平台”;转办指留言事项不属于回复组织管辖区域或管辖范围,需要留言群众进行转办,如“鄂州红莲湖不属于我区管辖范围,建议您向该地所属管辖的相关部门进行反馈”。上述回复处理类型具体如图3所示。
图3 回复处理类型
⑤针对回复语言特征的变量:
U3:回复话语框架。已有研究将政府回应公众诉求时采用的话语框架按情感色彩和法治程度两个维度分为描述话语、共情话语、规则话语和混合话语四种类型[4],具体如表1所示。描述话语主要指对民众诉求进行事实层面的程式化回应,如“经核实,该处路口已有电子警察进行执法。”共情话语主要表达对民众诉求的理解、关注和重视,如“您担心环境污染问题的心情可以理解,请您放心。”规则话语主要指政府根据具体法律法规或政策文件进行回应,如“按照《信访工作条例》属地管理规定,建议您向江夏区相关部门反映。”混合话语则指在回复过程中联合使用了多种话语框架。由于政府混合话语的占比过高,导致实验数据区分度较低,因此本文不设混合话语这一分类,而根据回复话语框架的倾向分为共情话语、描述话语、规则话语三类。
表1 回复话语框架类型
本文采集了2022年全年中部省会城市(郑州、武汉、长沙、南昌)的留言-回复数据,数据集基本统计如表2所示。
表2 留言-回复基本数据统计
在挖掘政民互动内容的语言特征方面,本文对不同城市民众留言和政府回复的语言特征进行了分析。
3.2.1民众留言语言特征
表3呈现了不同城市留言的情感倾向分布情况,其中负面情感留言占比均超过80%。
表3 留言情感分布
表4呈现了不同城市留言话语框架的分布情况,占比由高到低依次为弱者框架、社会影响框架、个人权益框架和抗争框架,民众留言的话语框架使用存在着显著差异性。弱者框架话语占比在四个城市中均显著更高,这反映出留言民众更倾向于将自身视为弱势群体,并希望通过强调弱势地位来获取社会关注和支持。弱者框架也有助于激发社会关注和支持,政府和社会各界则应该重视弱势群体的声音和诉求,积极鼓励和支持他们争取合法权益,并采取具体措施来促进社会的公正和平等。
表4 留言话语框架分布
3.2.2政府回复语言特征
表5呈现了不同城市政府回复话语框架的分布情况,其中描述话语和共情话语在不同城市中占比较高,规则话语相对较低,这体现了政府在选择回复时所使用的语言倾向,一方面倾向于使用描述话语塑造政府客观、统一形象,另一方面适当使用共情话语来帮助政府部门拉近与民众间的沟通距离,提升民众的满意度。其中,两者占比的差异性也反映出政府对民众诉求的态度和方式。使用共情话语的政府部门体现了对民众的感受和需求的重视,通过情感连接增强了民众的信任和支持,而使用描述话语的政府部门体现了对事实和逻辑的重视,通过理性的表述传达了事件处理结果。建议政府为留言板增设回访和满意度的机制,为研究政民互动提供更立体的数据,从而得到有双向数据支持的诉求回应模式,采取适当回应策略,提升民众满意度。
表5 回复话语框架分布
表6呈现了不同城市留言领域的分布情况,通过统计分析可以发现:各个城市排名前5的热门领域均为城建、交通、教育、就业和企业,仅在郑州市数据中,环保取代了企业成为热门议题。这与城市统计年鉴数据相吻合,郑州全年的工业颗粒物、二氧化硫、氮氧化物排放量和细颗粒物平均浓度等多项数据均处于前列。值得注意的是:长沙城建领域留言相对较少,就业领域留言较多,其原因在于长沙城建用地面积显著低于其他三市,2022年长沙人口增量位居全国第一,增长的常住人口带来的就业压力导致就业领域议题更受关注。通过计算教育领域留言比例与城市年鉴教育有关数据的皮尔逊相关系数得到表7,其中双一流高校和教育支出与留言比例呈现较强的相关性。民众留言内容特征的各项领域内容与城市统计年鉴相应数据存在关联性,能够客观反映各城市不同领域存在的问题。
表6 留言领域分布
表7 教育领域留言比例与城市数据皮尔逊相关性
尽管政府留言板预设了14种留言领域类别,但现有方法对民众留言的分类准确度并不理想,且无法反映具体议题的使用频度。因此,本研究基于sentence-BERT模型[21]对基于语义相似度聚类后的各类进行命名实体识别,从中获取每个类中出现频率最高的实体,使用TSNE降维后的聚类结果如图4所示,根据聚类各簇最长公共子序列和三元组,最终归纳出热门留言领域的典型议题如表8所示。
表8 聚类热点议题-实体表
图4 留言实体信息聚类结果三维图
通过分析内容特征,可以总结出以下几点建议:第一,政府部门应当从议题中捕捉关键实体,迅速定位到关键问题并归因;第二,对于热点议题和高频出现的实体,政府部门可将相似留言合并处理以合理规划优先级、提升办事效率;第三,现有留言领域的分类易混淆,如共享单车议题的留言往往也会同时出现在城建、交通和企业等领域,说明现有领域划分对民众而言较难辨别,领域设置不清晰、相互存在交叉不仅影响民众问政,更影响政府办事效率。在热门留言领域下设置子议题、留言板提示各领域留言的详细划分范围说明或使用自然语言处理手段挖掘内容中隐含的议题语义是提升政民沟通效率的可行方式。
表9呈现了不同城市民众留言行为特征的分布情况,武汉和长沙呈现出更相似的分布特征,投诉/求助比例明显较高。本文对投诉/求助类型留言占比和城市统计年鉴数据进行了相关性分析,结果如表10所示,投诉/求助类留言占比与人均地区生产总值之间存在强正相关性。根据城市统计年鉴数据,武汉与长沙人均地区生产总值在研究对象中分列前二,随着城市的较快发展,产业结构和经济活力带来的纠纷和冲突更多,这也为政府部门的管理者提出了更高的要求,人均地区生产总值较高的城市需要侧重对于民众投诉/求助类的处理。
表9 留言类型分布
表10 皮尔逊相关系数
表11呈现了不同城市政府回复行为特征的分布情况,政府回复行为在时效上呈现出占比由高到低的典型趋势,依次为15天后回复、7~15天内回复和7天内回复。观察发现,郑州政府留言量庞大且回复积极性较其他城市明显较高,其原因在于郑州政府将人民网留言板平台链接纳入了郑州市人民政府官网的互动交流板块,而长沙、南昌两座城市则没有,武汉政府官网对人民网留言板平台进行了宣传推广,同时也提供了长江网城市留言板平台作为另一选择。由此可见:政府部门一方面应当考虑各政务新媒体平台的职能和特色,更好覆盖民众需求;另一方面应当处理好多平台间的分工合作,根据平台民众诉求量适当分配资源。
表11 回复积极性分布
表12呈现了不同城市政府回复行为特征在处理类型上的分布情况,不同城市政府回复处理类型均以整改为主,武汉政府回复处理类型中协商比例较高,反映了武汉民众留言中涉及第三方单位的议题较多,这意味着政府搭建平台调解纠纷的能力将面临更多考验,武汉政府在长江网武汉城市留言板中已经推出了面向法检及其他单位直接留言的渠道,为畅通政民互动渠道,减少沟通成本做出了积极尝试。南昌政府的回复处理中转办比例较高,建议政府考虑打通部门壁垒,提升政民沟通效率,或者廓清责任归属,在网站中设置留言地区、部门划分提示以引导民众正确留言。
表12 回复处理类型分布
本研究还利用卡方检验和列联表分析方法探究了不同特征间的潜在关联性,具体如表13所示。
表13 卡方检验p值结果
卡方检验的结果显示,民众留言的内容特征对政府回应的影响最大,留言的语言特征对政府行为特征并无明显影响。不同的议题领域往往需要政府采取不同的行动,从而在一定程度上会影响政府的处理方式和处理效率。具体而言,对教育、医疗、文娱等留言议题领域,政府部门往往采取协商的处理方式,三农、治安等政府直辖的议题则通常采取整改为主的方式。由此可见,当前政府回应行为主要关注留言的内容特征,相对较少关注留言的语言特征和行为特征。因此,系统研究政民互动内容的话语框架等语言特征,为网络问政渠道完善行为特征的测度——如民众满意度、点赞数等,揭示这些特征并针对不同语言特征和行为特征采取不同的回应方式,将为政府部门提升回应能力,提高治理效率提供依据和抓手。
随着政府的数字化转型,数字政府已成为提高国家治理能力现代化的重要途径,如何有效获取并利用大量政民互动数据逐渐成为当前治理生态优化与创新的核心驱动力。本文基于2022年人民网留言板中36 391条政民互动内容数据进行了分析,综合运用定量分析法和基于数据驱动的自然语言处理方法,结合政府回应话语框架类型学研究基础,从语言使用、议题语义和情感语义的角度综合揭示了政民互动内容的语言特征、内容特征和行为特征及其关联性,并得出相应观察或建议:a.民众留言在语言特征上表现为负面情感和弱者框架类型占比较多,投诉/求助类留言占比与人均地区生产总值之间存在强正相关性,在内容特征上,城建领域的留言数量占大多数,各领域留言频次与城市统计年鉴相关数据存在关联,其中的热点议题有拆迁、小区、建房等,在行为特征上的表现为投诉/求助类行为较多;b.政府回复在语言特征上倾向于使用共情话语和陈述话语,从行为特征角度,整改在各类处理类型中占较高;c.政府回复的行为特征与民众留言的内容特征存在着潜在关联性,其中政府行为的处理类型受民众留言的内容特征影响最大。
本研究将为地方政府科学开展新媒体问政提供依据和支持。第一,建议政府部门采取扁平化的网络问政模式,提供更多面向相关单位的留言途径,畅通政民互动渠道,减少沟通成本,提升民众参政的体验感。第二,建议政府部门在处理留言时捕捉热点议题,在留言板平台热门留言领域下设置子议题或提示各领域留言的详细划分范围说明,便于民众操作,减少跨区域/部门办理和重复办理。第三,建议政府为留言板增设点赞、回访和满意度的机制,为研究政民互动提供更立体的数据,从而得到有双向数据支持的诉求回应模式,采取适当回应策略,提升民众问政满意度。