基于文本挖掘的政府工作报告研究综述

2018-07-10 10:46

福建质量管理 2018年13期

(湘潭大学　湖南　湘潭　411100)

在现实生活中，在文本挖掘的帮助下，许多工作都能够自动化完成，并能够用定量研究的方式分析数据。文本挖掘的一般的处理过程是对大量文档集合的内容资源进行爬取、数据预处理、特征提取、趋势分析、文本分类、可视化等[1]。图1给出了文本挖掘的一般处理过程。1995年，Feldman正式给出文本挖掘的概念[2]，国内外众多学者对文本挖掘的理论和技术研究开展了很多研究，并取得了可观的成果。文本挖掘技术主要包括信息提取、主题跟踪、文本分类、文本聚类、关联规则挖掘和信息可视化等领域[3]。

图1　文本挖掘的一般处理过程

一、国外政府工作报告研究综述

从定性研究的角度来看，国外学者针对政府工作报告作了大量的研究，Walter和Kenneth[4]认为从重要性和内容[5]两个角度对测量政府财政报告质量是有用的，关于政府工作报告在对政府进行职能问责中所扮演的角色，Ryan和Taylor等人[6]的研究突出了政府工作报告在职能问责中的作用，而Jones和Priest等人[7]则对政府工作报告在监督中的作用持反对意见

二、国内政府工作报告研究综述

在文本挖掘技术还未得到广泛普及之前，针对政府工作报告的研究大多属于定性研究，也就是从语言学、文学、社会学的角度出发，如研讨报告文本的翻译问题[9]。从文学的研究角度，邓晔[10]以1978年以后的政府工作报告作为研究语料，并对研究语料进行体裁分析，为中国政治文体与书面用语的书写提供新的视角；王楠[11]则通过比较澳门与中央政府的报告为理解澳门历史文化提供了新的方向。

近年来，随着互联网的普及，利用计算机进行数据分析变得触手可及，国内对于政府工作报告的文本分析研究工作渐渐增加，不少学者开始从定量分析的角度对政府工作报告进行积极的探讨。杨君[12]以副省级城市政府年度工作报告为研究对象，使用回归分析研究官员的政治承诺行为，为中国政治体制下建立问责体系提供了有益的思路；文宏[13]使用文本分析软件QSR NVivo 9和分词软件ROST CM 6，以 1954至2013期间的政府工作报告为研究语料，通过统计涉及反映基本公共服务的关键词的句子频数，试图测量政府对公共服务的注意力配置，并为公共管理提供了一些有益的启示。

总的来说，这些学者从文学、语言学、社会学的角度出发，研究集中于分析比较中英两种语言的文本产生差异性的原因，这些研究大多属于定性分析，而把国务院政府工作报告作为探讨政府政策转变趋势的定量研究比较少，通过运用文本挖掘技术针对政府工作报告的信息提取工作更是方兴未艾。