(福建师范大学公共管理学院,福建 福州 350117)
公民对公共服务的满意程度与国家的稳定、发展、繁荣息息相关,公民对政府市场监管领域的满意程度是衡量政府工作绩效的重要指标之一。随着大数据电子信息技术的发展,运用传统社会调查研究的方法不再是探究民众对市场监管类问题满意度的最有效方法。传统社会调查研究方法存在成本高、耗时长、及时性差等问题,已逐渐无法满足研究者们使用最低成本,完成最有效研究的要求。近年来,政府部门着手运用电子计算机技术管理行政事务,电子政务应运而生。站在新的历史起点上推进电子政务的发展,是落实“网络强国”战略,建设“数字中国”的重要方式,是贯彻以人民为中心的发展思想,让群众共享互联网发展成果的重要内容,是让信息化推进国家治理体系和治理能力现代化的重要途径[1]。地方政府开发属于各自管辖区域的应用软件和网站,建立政府信息开放平台和便民服务平台。运用互联网实现政府信息公开既提升了群众对行政监督的参与度,也为中国发展服务型政府提供了更为有效的途径。政府数据开放平台上的群众投诉意见,是用于衡量政府绩效的重要数据。用大数据研究方法,爬取网站投诉信息进行分析处理,可得到群众对政府工作的满意程度,是政府绩效评估的新方式。目前,福州市已进行市场监管综合执法体制改革,将原来的质监局、工商局、食药局“三合一”组建了新的市场监管局,为福州树立了整体市场监管的概念[2]。
本文拟采用情感分析的方法,使用具有典型性的福州市“12345”便民服务平台中的投诉信息,对平台中民众关于市场监管类的投诉运用大数据技术进行分析,追踪民众对市场监管相关部门的满意度变化情况。
目前国内外将情感分析法运用于政府大数据的研究较少,但学界关于市场监管、情感分析的相关文章为研究提供了参考。
在地方政府市场监管部门绩效管理中,苏州市姑苏区市场监管局制定了绩效管理考核办法和实施细则来实现绩效评估[3],徐鸣通过构建监管绩效评价体系来衡量市场监管的成效[4],刘鹏则利用平衡计分卡理论模型构建了全面的省级政府食品安全监管绩效评价指标体系[5]。对于公众满意度研究,王建华等采用实地调研的方式收集群众对食品安全总体状况的评价,为食品安全监管提供政策依据[6];盛明科等通过构建适合中国国情的政府服务公众满意度(CPSI)测评模型,对我国政府服务的公众满意度进行测评[7]。
大数据是市场监管主力军的“重武器”,亦是市场监管现代化的“强支撑”[8]。在当今信息化高速发展的时代,研究市场监管,离不开大数据的支持。而前人的研究中,还没有学者将情感分析法运用于地方政府市场监管领域,采用情感分析法,进行大数据分析,充分利用大数据中包含的情感倾向信息,分析公众满意度,完善了市场监管部门的绩效评价体系,弥补了相关研究空白。
情感分析法吸引了国内外众多学者对其适用性和方法完善进行研究。关于情感分析方法完善,国外学者V.Hatzivassiloglou等建立词汇级情感字典,在此基础上进行情感分析,使分析结果准确率高达82%[9]。而S.Archana等在WordNet的基础上,建立了适用于学术文章的情感词典,以文章的积极性、消极性、中立性为标准进行情感倾向分析[10],使情感分析更加具有针对性。除完善方法本身外,学者们也对情感分析法的适用性进行了探索。Lu等使用情感分析法探究美国在埃博拉病毒流行期间,网络用户在互联网上的积极与消极评论的变化趋势[11],此外,也有学者将情感分析运用于服务质量评估,如Kiljae Lee等通过分析用户的在线评价数据来评估机场服务质量[12]。
情感分析法在国内被用于各个领域的研究中。在经济领域,郭博等运用情感分析研究电商平台的评论来分析用户购买体验感及市场倾向[13],刘苗等用情感分析法构建消费情感指数[14]。在新媒体领域,敦欣卉等研究了基于微博的细粒度情感分析[15],有助于群众获取热门话题,也有助于舆情的监控。同样研究网络舆情的还有蒋知义等,他们用“罗一笑”事件相关微博数据进行情感演化特征研究,揭示了舆情演化各阶段的特征与规律[16]。
近年来,随着计算机网络和大数据技术的普及,互联网上的信息已形成巨大的数据库,如何运用这些庞大的数据分析问题成为学者们逐渐关注的问题。此时,人工分析已无法满足海量信息计算的需求,基于大数据技术的文本情感分析应运而生。例如,马宝君等利用网络平台公众反馈的大数据研究公共服务效能与成本之间的关系,进而探究影响公共服务效能的因素[17]。目前有关公共服务领域情感分析的研究不多,以上研究给本文提供了参考,但都没有将情感分析技术运用于地方政府市场监管质量监测研究中。为弥补这一不足,本文使用来自福州市“12345”便民服务平台的数据,对平台投诉信息进行情感分析,得到群众在各区域、各时段对市场监管类公共服务的满意度情况,为政府绩效考核提供科学的数据支撑。
文本情感分析又称意见挖掘,是指通过计算机技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断[18]。情感分析(sentiment analysis)技术,是一种基于大数据的自然语言处理(简称NLP)技术,可从投诉文本中提取有效情感信息,对文本类的语言进行情感倾向判断,从而把握文本意见观点、态度,为网络舆情监控、预测潜在民生问题提供科学的决策依据[19-20]。情感分析法主要分为三大类:基于情感词典的情感分析方法、基于机器学习的情感分析方法和二者混合使用的情感分析方法。情感分析的主要流程包括数据挖掘、数据处理、情感分析。近年来,大数据技术不断发展,情感分析法开始被广泛用于大数据研究中。基于大数据的情感分析法可通过分析含有情感倾向的文本,获取该文本的情感分值,为科学研究提供参考依据。研究运用情感分析法中基于情感词典的分析方法,获取政府绩效信息,通过分析公众诉求内容计算情感得分,从而判断句子的情感倾向,可为公共服务满意度评估提供数据支持,是政府绩效信息获取的新途径。
3.2.1 爬虫代码编写及数据处理
针对获取政府绩效信息的具体诉求内容与数据分布情况,利用Python语言进行编程,完成爬虫代码编写,抓取需要分析的数据。政府绩效信息主要从大众投诉信息中分析获取,数据质量参差不齐,容易影响情感分析结果,故需对获取的投诉数据进行必要处理。数据清理规则是:①删除数据中内容为乱码的无效数据;②删除数据中出现的非法字符。
3.2.2 获取政府绩效信息的情感分析具体步骤
①基于语义倾向性的情感分析,主要依赖于情感词典。因此,需提前对获取的数据进行分词处理。由于Python语言的分词包结巴(jieba)的词汇量大、处理速度快、分词准确、支持用户的词典,适合用于政府绩效信息的获取,故研究采用结巴(jieba)作为中文分词工具。分词是指在停用词表的基础上利用结巴(jieba)分词对数据文本进行去除停用词操作,以便后续使用情感词典进行数据分析。
②调用中文停用词词典去除数据中的停用词,可提高数据的可分析性。停用词包括符号,如“,”“#”“:”等,还包括无情感倾向性的词语,如“一个”“中间”“主要”“之所以”等。
③使用知网“情感分析用语词集”以及台湾大学的NTUSD词典作数据处理,其中包括情感词、程度副词、否定词等。
④为相应的词典赋值,赋予不同的情感分值。其中,程度“轻微”分值为0.4,程度“稍微”分值为0.75,程度“略强”分值为1.25,程度“强烈”分值为1.75,程度“最强烈”分值为2.0。此外,否定词分值为-1。
⑤输出总分词列表(list),进行单条内容情感分析。遍历每个编号对应的投诉内容,查找对应段落中分句的情感词,记录积极或消极,以及位置,最终以编号为标识进行分段操作。
在判断积极情感词模块中,出现积极情感词,则积极分值+1,进而判断情感词之间的程度副词并返回结果。若出现否定词,则否定词词数+1,若出现其他程度词,则把积极情感词数乘以程度副词分值。当出现单重否定时,则把情感值乘以(-1),反转情感值的分值。若出现双重否定,相当于肯定,情感分值不变。模块的最后记录情感词位置变化。
在判断消极情感词模块中,出现消极情感词,则消极分值+1,进而判断情感词之间的程度副词并返回结果。若出现否定词,则否定词词数+1,进入否定判断计算。若出现其他程度词,则把消极情感词数乘以程度副词分值,若无程度副词则分值不变。否定判断计算包括单重否定、双重否定或无否定的情况。模块的最后记录情感词位置变化。
感叹号意味着情感强烈,遇到感叹号时,倒叙扫描感叹号前的情感词,此情感词的权值+2,退出循环,扫描的词语数+1。分析得出句子中每个情感词的分值后,把分值累加,得出本句的情感得分,返回列表。接着对文本情感倾向性分析进行分段分句情感计算,得到每一条诉求内容的情感得分。最后,累加所有句子的情感分值,得出此编号对应诉求内容的最终情感得分。
⑥分析结果存储到本地数据库中,进行数据统计分析。
3.2.3 对获取的政府绩效信息进行公共服务满意度评估
在政府绩效信息获取中,运用情感分析法的优势在于其研究内容为公众直接诉求,研究目的在于分析民众投诉内容的情感倾向强烈度与具体情感得分,可保证获取的绩效信息的真实有效性。运用情感分析法所获取的分值波动情况可清晰对比地方政府各区域、各季度的绩效情况,给绩效考核提供了具体的数据支持,进而根据情感分析结果进行公共服务满意度评估。
本文研究福州市“12345”便民服务平台的数据分布情况,匹配网页数据,抓取研究需要的市场监督类投诉数据,爬虫部分主要由网页结构分析、数据采集和存储模块组成。对福州市“12345”便民服务平台进行网页结构分析后实现数据抓取,爬取平台所有投诉信息,再从平台筛选市场监管类投诉,爬取每条投诉的编号信息,最后根据投诉编号从总的投诉信息数据库内查找出每条编号对应投诉信息的其他具体内容。本研究所需信息有投诉编号、投诉标题、所属区域、投诉时间、投诉来源、处理情况等,再将查找到的对应编号的投诉结果导出数据表,得到初始数据。对数据进行有序存储,可生成一份汇聚所有关于市场监督类原始投诉数据的表格(见图1)。
资料来源:本研究整理。图1 爬取的数据
4.2.1 数据预处理
把爬取得到的投诉信息进行情感分析,可得到市场监管类的政府绩效信息。投诉信息来自普通群众,数据质量参差不齐,且初始数据存在非法字符,分析数据前,需进行数据清洗。将原始总表中的数据存储为csv格式,去除文本中的非法字符,如“ ”“”等字符,删除无需进行情感分析的内容,如回复时间、截止时间等。数据预处理可提高分析结果的准确性,分析预处理清洗后的数据,可节约时间,提高分析过程中程序运行的效率。
资料来源:本研究整理。图2 预处理前的数据
数据预处理后,进行分词处理。把中科院计算所发布的中文停用词表作为初始停用词词典,手动加入适合研究的停用词,形成一份完整的停用词表,共含1535个停用词。在搜狗输入法词库中有关福州市信息精选文本的基础上使用Python的jieba分词对中文数据进行分词操作,可避免福州城市专有名词在分词时被分开,影响情感分析结果的准确性(见图3)。
资料来源:本研究整理。图3 分词后的数据
4.2.2 词表配置
研究使用的情感词典有停用词、极性词典及程度副词。极性词典包括积极词典和消极词典,由知网HowNet中文情感词典和台湾大学NTUSD简体中文情感词典手动合并后进行文本去重后形成。删除部分不适用的词汇,加入部分需要的极性词汇,形成积极词典和消极词典。其中,程度副词根据词性的情感极性赋予不同的分值。图4表示部分情感词典内容,其中a为停用词典,b为否定词典,c为程度副词词典,d为福州城市专用词典。
资料来源:本研究整理。图4 情感词典部分内容
本文使用的情感分析法以分析情感倾向和情感极性为主。在已获取福州“12345”便民服务平台关于市场监管类投诉具体内容的基础上,通过分析投诉内容的情感正负情况和情感极性程度来判断民众对某一事件的满意程度。正向情感值表示积极情感,表达民众对某一事件的处理效果持肯定态度或对某一部门给予表扬。负向情感值表示消极情感,表达民众对某一事件处理不满意或对某一部门的批评。其中存在中立态度的数据,表示阐述某一事实或对该事件和部门无其他情感倾向。
投诉信息由多句话、多个段落组成,分析前需对数据进行分句处理。分句后,计算每一分句的情感得分,累加情感分值,返回每一投诉编号对应投诉内容的情感总分值。
分析投诉信息时,在进行词典匹配的前提下,还需进行语义分析,即对每条语句进行否定判断处理。首先,加载否定词典进行语义判断分析。本研究把否定词加入程度副词中,加入关键字识别该词是否为否定词,若为否定词,则在分词后的积极词汇情感分析中,将该否定词的权值赋值为-1,消极词性前的否定词赋值为-0.25。由于中文语句中含单重否定和双重否定两种情况,单重否定表示否定,双重否定表示肯定,故在分析时应分清否定的类型。单重否定赋值为-1或-0.25,双重否定赋值为1。
基于以上方法对投诉内容进行情感分析后,把情感分析结果以文本的形式,汇总到原始数据列表,原始数据列表中的投诉编号可为后续的测试或详情查看提供查询条件。情感分析后的结果如图5所示。
资料来源:本研究整理。图5 情感分析结果
对市场监管类投诉的情感分析结果进行统计分析,可对比福州市各区域关于市场监管类投诉的情感得分情况,还可对比福州市2017年1月至2018年7月各月份的情感得分情况。政府可根据情感分值的差异,了解各区域民众对市场监管类公共服务的满意度情况,也可为各个时间段市场监管部门的绩效考核提供参考依据。据统计,消极投诉占71%,中立投诉占15%,积极投诉占14%。
4.4.1 区域数据
基于情感分析结果,统计福州15个区域的投诉情况。统计类目为投诉总数、消极投诉数量、积极投诉数量、中立投诉数量,根据情感得分,计算出消极情感极性总分值与积极情感极性总分值,得到表1。
4.4.2 不同时段数据
基于情感分析结果,统计各季度福州市市场监管类投诉的情况。统计类目为投诉总数、消极投诉数量、积极投诉数量、中立投诉数量,根据情感得分,计算出消极情感极性总分值与积极情感极性总分值,得到表2。
表1 福州市各区域投诉数量统计
表2 福州市各时段投诉数量统计
设投诉总数为Total_Number,一条投诉内容的情感值为Pa_Value,消极投诉数量为Neg_Number,积极投诉数量为Pos_Number,中立投诉数量为Mid_Number,群众消极情感极性均值为Neg_Grade,群众情感极性均值为Ave_Grade。
消极态度占比(P1)符合:
(1)
积极态度占比(P2)符合:
(2)
中立态度占比(P3)符合:
(3)
群众消极情感极性均值符合:
(4)
群众情感极性均值符合:
(5)
由各区域的投诉数据及以上公式可得表3,福州市除平潭综合实验区外的14个区域中,消极投诉、积极投诉、中立投诉分别占总投诉数量的比例情况。平潭综合实验区无投诉信息,故以下统计省略平潭的内容。
表3 福州市各区域投诉占比
由各时段投诉数量统计表与以上计算公式,计算结果可统计为表4。以3个月为一个周期(即每季度),2018年仅有一、二季度的完整投诉数据,故分析时2018年7月作为独立整体,计算各季度消极投诉、积极投诉、中立投诉分别占总投诉数量的比例情况。
表4 福州市各时段投诉占比
由表3、表4可知,在福州“12345”便民服务平台中,14个区域的消极投诉占比平均值为69.59%,积极投诉占比平均值为16.37%,中立投诉占比平均值为14.04%。各个季度消极投诉的平均值为70.68%,积极投诉的平均值为14.42%,中立投诉的平均值为14.91%,由于2018年7月在本次平均值统计中为独立的月份,故在本次计算中省略。可见在不同分类研究中,消极投诉平均值都接近70%。
本文主要针对群众投诉情况进行地方政府市场监管质量检测研究,故主要使用消极投诉数据进行研究。结合以上数据进行群众消极情绪极性程度统计,分别得到各区域、各时段的情感极性结果,消极情感极性均为负值,为方便统计,下图中消极情感极性均使用正值表示,数值越高代表消极程度越高。详见图6、图7。
图7 福州市各时段情感极性对比
消极情感极性均值越高,代表投诉信息的消极情绪越重。通过比较消极情感极性均值,可得到市场监管类的公众满意度信息。
4.6.1 公众满意度信息
群众投诉目的大多基于对自身利益的维护,可保证研究收集的投诉信息的真实性。从图6可见,在各类情感倾向的投诉中,消极投诉占71%,积极投诉占14%,中立投诉占15%。可见在福州“12345”便民服务平台关于市场监管类的投诉内容中,消极投诉数量最多,群众登陆投诉平台的主要目的是反映日常生活中遇到的问题、受到的不公待遇或举报他人的不当行为等。
从表3、表4可见,积极投诉与中立投诉的比例较接近,虽总数所占比例不高,但由此可知群众登陆服务平台并非仅为投诉,也有部分群众通过便民服务平台反映有关市场监管类问题的客观事实,或对市场监管类相关部门的工作给予肯定。
由图6、图7可知,不论划分依据为区域或时间段,群众的情感极性程度均值均为负值,且情感极性在-3附近波动,群众的消极情感极性均值在-5附近波动。
4.6.2 公众满意度比较
从福州14个区域各类投诉分布情况看,闽清县的消极投诉占比最高,高新区的消极投诉占比最低。根据福州市各区(县、市)2018年GDP排名[21]可推测,闽清县的经济相对于其他区域较落后,政府部门市场监管类公共服务系统建立较不完善,导致在闽清县群众的所有投诉中消极投诉比例最高。高新区的群众主要为高新技术人才,这类群体往往学历较高、素质较好,且工作较忙,无暇顾及市场监管质量而到平台投诉。福州市高新区近几年发展迅速,政府公共服务逐渐完善,这也是投诉中积极、中立投诉较多的原因之一。平潭所有投诉类别总数量为2条,市场监管类投诉无数据,可能的原因是平潭拥有独立投诉平台亦或是平潭县对于福州“12345”便民服务平台的宣传力度不大,导致群众对平台的了解不够。
福州市各区域消极投诉数量详见图8,可见福州市区的消极投诉数量明显多于其他区域。仓山区消极投诉量最多,可得到仓山区市场监管质量较差的结论。鼓楼区和台江区分别位列第二、第三,闽清县、永泰县、罗源县、平潭的消极投诉最少。仓山区群众对政府市场监管最不满意,仓山区、鼓楼区、台江区的居住环境相对嘈杂、较为拥挤,这是导致群众投诉较多的原因之一。这也表明居住在市区的群众维护自身利益的意识更高,愿意积极向政府反映问题,提升居住环境内的市场监管力度,最大限度地维护群众自身利益。
图8 福州市各区域消极投诉数量图
从福州市各区域情感极性对比图可知,永泰县的消极情感极性均值为-9.77,是所有区域中消极程度最高的区域。反映了永泰县群众对市场监督管理严重不满,有关部门需反思2017—2018年的工作情况,分析群众负面情感强烈的原因。其他区域的消极情感极性均值在-5附近波动,情感极性均值在-3附近波动。情感极性强度最弱的是高新区,情感极性均值为-1.6,表明高新区群众对市场监督相关部门的工作较为满意。对政府市场监督方面较满意的区域还有罗源县、闽清县。平潭综合实验区无数据,不进行比较分析。故可得到永泰县的群众不满意程度最高,高新区群众不满意程度最低的结论。
图9 福州市各区域情感强度图
由2017年1月至2018年7月共计19个月的投诉数据分析可知,2017年第三季度的消极投诉占比最低,中立投诉、积极投诉的占比最高。2018年7月,消极投诉占比最高。或许由于福州夏季天气炎热,导致群众情感较为消极,容忍度较差。政府部门可根据季度投诉信息对比各部门在各季度的绩效,以实施对市场监管领域的质量检测。从情感极性均值分析,2017年2月的情感极性均值最低,为-1,结合中国国情,2017年1月28为中国的春节,2月还处在春节喜庆的氛围中,群众往往忙于新年其他事宜,对市场监管类问题往往较宽容,故投诉情感程度较平缓,投诉总量在一年内最低。2018年2月也处在中国的春节期间,情感极性均值为-1.55,投诉总量在已知的几个月内也较低。对于每年2月,从8月至次年1月投诉数量不断增加,群众不满意度也逐渐上升。若进行政府市场监管质量检测,建议在数量和情感强度的高峰期、低谷期以及平缓期各选择一个时段进行研究,可得到更为准确的结果。从消极情感极性均值看,消极情感程度最高的是2017年7月,建议政府部门关注2017年7月的投诉情况,及时了解群众“非常不满意”的原因,解决群众反映的问题,响应建设服务型政府的要求。从图7可观察到有两次消极情感极性均值变化较明显,即2017年4月—5月、2018年6月—7月,或由于前一个月的投诉较多,政府积极处理,次月群众的满意度及消极的情感强度有所缓解。由此可见,每年2月群众对市场监管服务的满意度最高,每年6~7月群众对政府的服务最不满意。
本文采用实现地方政府市场监管质量检测的新方式,即情感分析方法,对群众在福州“12345”便民服务平台上的投诉数据进行挖掘分析,通过情感分析方法找出市场监管类管理部门绩效最差的区域和一年中绩效最差的时段,对于政府改进市场监督领域服务和促进服务型政府的建设有积极意义。
研究发现,2017年1月-2018年7月,仓山区、永泰县群众对于市场监管类政府公共服务最不满意,高新区群众满意度最高。每年2月,群众对市场监管的满意度最高,每年6~7月,群众的消极情感程度最高。
综上所述,本方法除适用于福州“12345”便民服务平台群众投诉信息研究外,也适用于其他政府便民服务平台投诉模块的研究,对群众的投诉信息进行自然语言处理分析,可得到信息真实度较高的群众投诉分析结果,为地方政府市场监管质量检测提供最直观的绩效信息,使各部门绩效考核评比更加切合实际。然而,投诉文本中的口语化、日常化的语言更新速度快,已有的情感词典无法完全匹配群众投诉文本中涉及的所有情感词,会导致分析结果有一定程度的偏差。但随着情感分析方法的发展和情感词典的完善,情感分析法的准确性将不断提升。