公民评价政府绩效的抽样调查设计与可靠性分析——以北京市为例

2010-01-18 11:54严洁

四川大学学报（哲学社会科学版） 2010年1期

严洁

(北京大学政府管理学院,北京 100871)

一、问题的提出

政府绩效评估是近年来政府和学术界密切关注的课题。在众多的研究中,将公民作为评价政府绩效的主体之一已经为许多学者所强调。在实践方面,一些地方政府也开展过群众评议政府的活动。但是,有学者认为公民评价政府绩效存在很多局限性。例如,周志忍教授就认为,当前虽然公民满意度测评价值很大,但依然属于对政府绩效的主观评价。对主观评价的过度依赖具有明显的局限性[1]。也有学者认为,公民评价政府绩效本身难以操作,评价的行为流于形式,评价的结果也无法用来指导实际的政府行为[2]。因此,到目前为止,公民评价政府绩效的实践活动还未能得到较大的发展。

从理论上讲,公民作为政府服务的对象之一,对政府绩效进行评价是必不可少的。问题的焦点在于公民评价政府绩效在操作化层面上的种种困难。政府绩效本身具有覆盖面广、目标多样、抽象、产出难以量化等特点[3]6。公民往往信息不全,专业知识不足,兴趣不高,使得公民评价政府绩效往往难以实行。

针对当前的种种争论和实行困境,本项研究拟对公民评价政府绩效的操作化问题进行初步的探讨,希望通过对北京市实践案例的分析来回答以下几个主要的问题:(1)公民是否能够评价政府的绩效?(2)公民能够评价政府哪些方面的绩效?(3)公民对政府绩效的评价结果是否可靠?

在对这些问题的探讨过程中,本项研究还期望能够对公民评价政府绩效的抽样调查实行方案进行讨论,并建立一个可操作化的、客观有效的对政府绩效进行公民评价的数据采集平台,为公民评价政府绩效这一课题做出一些贡献。

二、研究对象与基本假设

所谓政府绩效是指政府在社会经济管理活动中的效率、效果、效益和效能,是政府在行使其职能、实施其意志的过程中体现出的管理和服务能力。国内有学者将政府绩效分为政治绩效、经济绩效、社会绩效和文化绩效等方面[4]。本项研究采用周志忍教授的定义,即本项研究所谈到的政府绩效是指政府在公共管理和公共服务活动中的业绩、过程和作为[5]。

(一)公民是否有能力评价政府绩效

有学者利用实证数据说明公民能够参与政府绩效评估,例如,Kelly和 Swindell从政府职员对某些公共服务的内部评估与公民的外部评估进行了比较研究,结果发现,公民在一些公共服务方面可以做出正确的评估[6]。Weatherford也认为,“尽管不是基于精确的计算,很多人也会基于个人利益、群体忠诚及一些焦点问题,对政府的总体表现有一种模糊评价。社会调查就是询问人们的这种评价”[7]。但是也有学者认为一般公众对有关政府的信息了解不多,研究者们既不了解公民进行主观评价的标准,也无法确定公众所掌握的信息是否可靠。另一方面,“中国民众由于受到相信政府的观念限制,通常漠视监督政府的重要性,这使民众不能担负起督促政府改进工作的责任”[8]。

对这个争论,本项研究设定的原假设 (H0)是“公民无法评价政府绩效”,备择假设 (H1)是“公民至少可以评价某些方面的政府绩效”。

(二)公民能够评价哪些方面的政府绩效

本项研究认为虽然大多数的普通公民对政府的具体决策过程、行为过程也许并不熟悉,但是他们可以感受到政府工作的效果,可以看到、感受到目前社会经济方面的状况和变化。而公共服务方面的状况就是属于宏观的社会大环境中的一种。因此,提出的假设是公民能够评价那些涉及到自身生活的公共服务方面的绩效。

关于公共服务,本文采用了《中国政府公共服务:体制变迁与地区综合评估》中的定义:指建立在一定社会共识基础上,一国全体公民不论其种族、收入和地位差异如何,都应公平、普遍的享有服务。从范围来看,公共服务不仅包含通常所说的公共产品 (具有非竞争性和非排他性的物品),而且也包括那些市场供应不足的产品和服务。广义的公共服务还包括制度安排、法律、产权保护、宏观经济社会政策等[3]3。本文参照该定义将所研究的公共服务范围界定在义务教育、公共卫生、社会保障、基础设施、社会治安、环境保护以及一般公共服务方面。

(三)公民评价政府绩效能具体到哪个层次

以基础教育为例,它自身涵盖了许多方面的内容,包括制度上的改革进程、教师、学校设施、教育公平、费用等等,若要更加细致的话,还可以分为教师素质、教师待遇、教师的教学理念、教学方法等等,不胜枚举。越是具体的事项,老百姓越能有明确的评价目标,但是就越受到信息、能力、经验方面的限制。因此,从难易程度这一角度出发,本项研究初步提请公民评价的是相对更加容易的、宏观层面的总的感受。另外在某些公共服务,例如义务教育、交通、医疗服务方面,也试验性地设计了一些具体的测量题目,从而考察公民的评价能力。

(四)公民的评价是否可靠

有学者认为公民对政府绩效的评价只能是主观的,我们并不知道人们是根据什么标准进行评价的,评价所依据的信息是否准确,因此怀疑公民评价结果的可靠性。本文认为通过抽样调查的数据可以反映大多数研究总体的评价结果,不管公民评价的标准是什么,如果公民评价的结果与当时的社会现实状况相符合,并且借助统计分析的手段能够发现人们做出评价是有一定根据的,那么就可以认为公民的评价是可靠的。

三、抽样调查设计与数据质量

为了探讨公民评价政府绩效的可能性和有效性等问题,笔者设计了“北京市公民评价政府绩效调查”(以下简称“绩效调查”),通过概率抽样调查的方式采集公民层面的第一手数据。为了在有限的课题经费下完成这个试验,“绩效调查”借助了北京大学中国国情研究中心的“北京社会经济发展年度调查”(以下简称“BAS调查”)这个平台,采用了其抽样设计方案和样本,并在其原有基础上加入“公民评价政府绩效”的内容。

(一)抽样设计

“BAS”调查采用了多阶段、概率与规模成比例的抽样方法,每年抽取50个初级抽样单位(居委会),1100个左右样本,通过采访员问卷面访的方式,获取个人层面的数据。该调查从1995年开始,每年进行一次,至2004年为止连续进行了十次。2007年以后改成每两年进行一次。各年的有效样本完成率平均为73.5%[9]8。1995-2004年BAS调查总体被定义为居住在城八区内有北京市非农业户口,并且年龄在18-70岁之间的成年人。在1995-2004年的调查中,尽管流动人口的规模在逐渐增大,但是为了保持调查的可对比性和连续性,原来对调查总体的定义一直保持下来。直到2007年,对BAS调查进行了调整,将调查总体从户籍人口扩大到了常住人口。2007年、2009年BAS调查的总体界定为居住在北京市六环以内的18-70岁的常住人口。为了保证能够和以往的BAS调查保持连续性,2007年、2009年BAS调查采用了分层设计,将城八区置为一层,城八区以外置为一层。

(二)研究变量的内容

“绩效调查”选择了从宏观角度入手的方法。其假设是:从理论上讲,公民对社会发展的宏观状况有一定的感知能力,政府公共管理和服务的效果也应该在宏观层面上为公民所感知。另外,相对于政府工作的具体行为,宏观层面的公共服务效果更容易回答和评价。按照这个假设,在这项调查中设计了对宏观的公共服务效果进行评价的题目,具体包括以下几个测量目标:

1.公民对公共服务内容认知:主要考察公民是否知道政府提供的公共服务内容应该有哪些。目标在于检验公民参与评价的知识基础。其测量方式采用开放性的问题。

2.公民对公共领域内各方面存在的问题及严重程度的感知:目的是考察人们对公共服务效果的主观评价。从1995年到2009年的“BAS调查”中,这组问题的测量方式基本上保持不变,测量的内容包括:市场管理、医疗服务、收入差距、教育、物价、就业、社会治安、环境质量、交通管理、通讯、市政建设、住房、社会保障、流动人口、市容卫生。

3.公民对政府工作的感知和评价:本项研究设计了这样一组问题,即询问受访人是否能够说出他所指的严重问题具体表现在哪些方面,如果能够给出具体的回答,则认为他的评价相对可靠。接下来则询问受访人是否认为政府在这些问题上采取了措施,以及采取措施的效果,从而从另一个侧面反映政府绩效。这一组题目就第一严重、第二严重、第三严重的问题分别进行提问,测量方式如下:

A.上述问题中,您认为第一严重 (最为突出)的是什么?

B.那么,它具体表现在哪些方面?(注意追问,还有吗?)

C.您认为北京市政府有没有在解决 (请读出受访人指出的第一严重的问题)问题上采取了相应的政策措施?

D.和去年相比,这个问题是有所改善、没有变化,还是更加严重了?

E.您认为北京市政府的这些措施是非常有效、有一定成效、没有太大成效,还是没有成效?

4.公民对医疗、交通、教育方面公共服务效果的评价:以政府在医疗、交通、教育方面提供的服务为例,深入考察公民是否对更为具体的现实状况有所感知。评价的尺度为“非常好、比较好、一般、不太好、非常差”。在医疗卫生方面,请公民评价的内容有:治疗检验费用;药品价格;卫生防疫;社区医疗服务;医疗服务态度;医德。在义务教育方面评价的内容有:学校收费管理;外来务工人员子女教育;改善学校设施;提高教师素质;教育体制改革。道路交通方面评价的内容有:交通管理;路网建设;道路收费;公共交通便捷程度;公共交通费用。

5.公民对政府工作的总评价:在分别考察了公民对政府公共服务效果的评价之后,请受访人从总体上对政府一年来的工作进行评价。

(三)辅助分析变量的内容

为了测量公民对政府公共服务效果评价结果的效度,本项研究还设计了其他一些变量用来解释这个问题,即人们究竟是有根据地给出评价,还是没有任何根据地凭主观臆断?本项研究假设,人们给出评价至少受到以下因素的影响:

1.教育水平高的人,更有可能给出评价,或者能说出公共服务的内容;

2.对新闻信息了解比较多的人,更有可能给出评价,或者能说出公共服务的内容;

3.对本项研究很感兴趣的人,更有可能给出评价,或者能说出公共服务的内容;

4.享受政府公共服务较少的人,例如,流动人口,更有可能给出消极的评价;

5.认为自家生活状况近一年来变差的人,更有可能给出消极的评价;

6.对收入状况不满意的人,或者说近一年来收入减少了的人,更有可能给出消极的评价。

如果以上假设至少有一项成立,那么可以说公民给出的评价至少是有一定根据的。如果这些因素都和评价结果没有显著的关系,那么,我们还需要寻找影响公民评价的因素,在那之前,公民的评价被假定是毫无根据的。

(四)研究变量的样本代表性

在进行可靠性检验之前首先要回答,通过抽样调查获得的样本在这些研究变量上的误差有多大?从“绩效调查”中的几个常用的人口学变量,以及主要研究变量的参数估计结果来看,它们的抽样设计效应大多数在1-2之间,而且标准误 (Standard Error of Mean)都比较小,均值参数估计的相对误差都控制在5%的范围内,说明调查数据能够在这些变量上比较精确地推论调查总体的状况①鉴于篇幅的限制,感兴趣的读者可向笔者索取该统计数字。Yanjie_pku@pku.edu.cn。。“BAS调查”中的大部分人口学变量的抽样误差情况也比较小,可以精确地推断总体[9]21-23。

(五)研究变量的信度与效度

评价信度的方法包括重测法、折半法、复本法和检验内部一致性法。其中检验内部一致性的方法依据的是Cronbach Alpha系数。西方学者Carmines和Zeller认为Cronbach Alpha系数是个较好的估计信度的工具[10]。“绩效调查”的数据结果显示,测量公共服务效果评价的14个条目之间的Alpha系数为0.85;测量医疗、义务教育、交通服务效果的各个条目之间的Alpha系数分别为0.80、0.73、0.73;测量政治知识的各个条目之间Alpha系数为0.86。以上量表的信度系数都高于0.7,表明这些条目具有较高的内部一致性,信度可靠。

相对信度而言,效度多数只能依靠主观判断,例如,内容效度一般由研究者或专家评判所选题项是否符合测量的目的和要求。而选择一个合适的准则往往十分困难,限制了准则效度的应用。到目前为止,多数学者认为结构效度是最强有力的效度评价指标。结构效度是指测量结果体现出来的某种结构与测值之间的对应程度。

本项研究采用因子分析法衡量了测量指标的结构效度。将测量公共服务效果的条目进行因子分析之后,产生两个公因子,除了市场管理这个条目之外,其他各个条目在相应因子上的因子负载均≥0.4,说明这些研究变量的统计结构是清晰的。测量医疗服务的6个条目中,可以提取两个公因子,这两个公因子共同能够解释总体方差的66.6%,各个条目在相应因子上的因子负载均在0.6-0.7左右。义务教育服务效果、交通服务效果量表的结构效度也比较高。测量政治知识的条目一共有8个,因子分析的结果显示,一个公因子的方差贡献率就达到了51.1%;两个公因子则能够共同解释总体方差的64.5%。公因子一在各个条目上的负载均超过0.6,这套测量指标的效度水平也很高。

通过以上对于主要研究变量的信度和效度的检验可以说明,通过抽样调查的方式进行公民评价政府绩效基本可行。所设计的测量指标不仅具有良好的信度,而且具有较好的结构效度。在这种测量质量的基础上,我们可以使用这套数据来检验公民评价政府绩效的可靠性问题。

四、公民能否评价政府公共服务的效果

(一)公民是否知道公共服务的内容

2007年绩效调查的数据显示,有75%的公民知道公共服务的内容。即使在拥有外地户口公民的有效样本中,也有67.6%知道公共服务的内容。在给出的全部答案中,提到率②提到率等于提到该答案的人数除以总的回答数,这个题目允许受访人给出三个答案。最高的是基础建设方面的公共服务 (22.8%),其次为公共卫生医疗服务 (16.4%)。

(二)公民能否对公共服务效果给出评价

“BAS调查”数据显示,从1995年到2009年,北京市居民在对所列举的公共服务是否存在问题进行评价时,回答“不知道”的人数比例都比较低,平均为5.2%。最大值在2009年的调查中,有21.2%的人无法对市场管理是否存在问题做出判断,其次为1999年,有18.3%的人无法对收入分配问题做出评价。在收入分配、医疗服务、教育、通讯、市政建设、社会保障、就业、市场管理方面的平均无回答率在6-10%之间,其余的都小于5%。

为了进一步考察公民的评价能力,我们在2007年、2009年的调查中,请受访人就他所认为的最突出的三个问题的具体方面进行描述。对于收入问题的具体表现,2007年、2009年分别有3.4%、3.6%的人不知道或者拒绝回答,分别有90.3%、87.4%的人认为“收入差距太大”。对于医疗服务问题的具体表现,2007年、2009年调查中没有人不知道,分别有1.0%、1.3%的人拒绝回答,84.7%、75%的人认为“收费高”,6.9%的人认为“服务态度差”(2007年),11%的人认为“看病难”(2009年)。对于就业问题、交通问题的具体表现,也是没有人不知道,不到2%的人拒绝回答。

(三)公民对公共服务效果的总评价是什么

在所列举的公共服务中,人们对通讯、市容卫生和市政建设等问题反映不强烈,每年认为这些方面存在问题的受访人都不多。但是对流动人口、收入分配、就业、物价、社会治安、住房、医疗服务、市场管理等方面的公共服务,1995-2006每年都有超过60%的人认为在这方面存在着问题。图1分别列举了认为公共服务方面存在较严重问题的市民占总体市民的百分比①2006a表示2007年调查中城八区内的拥有北京市户口的人;2006b表示城八区内的居民,包括在北京居住已半年以上的外地人口。因为2007年调查询问的都是对2006年的评价,因此分别用2006a,2006b表示,下同。。

从图1中可以看出,流动人口问题从1995年到2006年始终都比较严重。收入分配、物价问题在1995年和2006年有较高比例的人认为这个方面存在问题。在就业、社会治安方面,各年都有60%以上的受访人认为它们存在问题。

接下来我们测量了在所列举的公共服务内容中,受访人认为存在最严重的问题是哪一个?数据显示,1995年到1996年最严重的问题是物价;社会治安在1997年到2000年都成了最严重的问题,2001年最严重的问题是流动人口; 2002年、2004年最严重的问题是就业问题; 2003年最严重的问题则是交通管理,到了2006年,收入分配问题则成为最严重的问题。2008年,最严重的问题则依次是物价、住房和医疗服务。

综合以上的分析,公民对政府公共服务效果的评价具有以下几个特点:1.社会治安、流动人口是各年间人们反映比较多的两个问题;2.物价问题在1995年、2004年相对更为突出;3.收入分配问题在2004年、2006年逐渐成为严重的问题;4.就业问题在1997年、2002-2004年间被多数人所提及;5.交通管理在2003年成为人们反映的最为严重的问题。

下面将针对以上总结的几个特点,分析公民反映的数据结果是否和当年的社会状况相吻合。

五、评价结果的可靠性分析

(一)公民的评价是否反映当时社会现实

1.物价。能够反映当时物价的数据之一是物价指数的变化,表1显示了1995-2008年的价格指数情况。可以看出,居民消费指数1995年最高,1996年开始逐渐下降,到 2004年、2008年又有所升高。从BAS调查数据来看,认为物价存在问题的人数比例也是在 1995年、1996年、2004年比较高。虽然公民的评价和物价指数的变化曲线没有完全一一吻合,但是至少可以得知,在物价指数变化比较明显的年份,公民的感知也相对比较明确。

表1 北京市居民消费价格指数

2.收入分配。关于收入分配的问题,公民反映最多的是收入差距大、贫富分化严重等。在这里,可以从高收入户和低收入户的平均收入的差距来反映。表2的数据显示,在2003-2008年间,高、低收入户之间的收入差距已经扩大到2万元以上。与此相应,在我们的调查中,公民在这几年反映收入分配问题比较严重的人数比例也比较高 (参见图1)。

表2 北京市城市家庭平均每人年可支配收入 (元)

3.就业。本文选择1995-2008年的城镇登记失业率来反映各年的就业状况。参见表3。

表3 北京市城镇登记失业率 (%)

从2001年起,城镇登记的失业率比前些年有较大幅度的增长,到了2006年更是如此。将城镇登记失业率和“BAS调查”中认为就业存在问题的人数比例进行比较,我们发现,二者的基本走势很相近 (参见图1)。在“BAS调查”中,1997年、1998年认为就业方面存在问题的人数比例最高,当时正值国有企业改革和政府机构调整使得下岗分流人员大量增多,人们的感受比较强烈。到了2001年以后就业问题也一直为多数人所关注。另外一个值得注意的现象是,城镇登记失业率在2006年陡然增长,但是当年认为就业存在问题的人数比例并没有太大的变化,其中的原因之一也许是到了2006年,人们更多地集中关注收入分配问题所致。

4.社会治安。在“BAS调查”中,每一年都有较大比例的人反映社会治安方面存在问题。为了考察这种判断的可靠程度,我们选择当年的刑事案件情况来反映社会治安的基本情况。图2显示1998年的刑事案件的立案数较1997年有一个突然的增长,从图1中也可以看出认为社会治安存在问题的人数比例曲线在1998年为高峰状态。到了2004年,立案数又有所提升,同样在调查中认为治安存在问题的人数比例也相应地有所增加。由此可见,公民对于社会治安问题的感知是比较切合实际状况的。

5.流动人口。流动人口也是调查中公民所普遍反映的一个问题,在2000年、2007年和2009年,我们对该问题的具体表现形式进行了考察,有90%以上的人都认为在流动人口方面存在的具体问题集中表现在“流动人口太多”这个方面。为此,本文选取了北京市统计年鉴上的数字来分析流动人口比重的变化。用年末常住人口总数减去户籍人口总数的差来代表流动人口。图3反映了非户籍人口占常住总人口的比例变化情况。从2000年以后,非户籍人口的比重显著增加。在我们的调查中,2001-2004年超过80%的人认为流动人口方面存在问题。

6.交通管理。在历年的“BAS调查”中,并没有太多的人认为交通管理方面存在问题,仅2003年除外。在2003年交通管理迅速成为最突出的问题,而且有超过75%的人认为它存在的问题比较严重。众所周知,在2001年12月7日,一场大雪导致北京市交通瘫痪。在那之后,整个2002年-2003年交通拥堵问题成为百姓们的主要话题。2003年,全年新增机动车高达40万辆。关于2003年的交通拥堵状况,有新闻指出:“至2003年秋,市区部分主要干道高峰期的车速已降至每小时12公里左右,有的道路机动车时速只有不到7公里。2003年9月12日,在北京市市长国际企业家顾问会议第五届年会开幕式上,王岐山坦言:‘我现在最头疼的是交通问题。’11月中旬,在党的十六届三中全会小组上,王岐山的发言还是集中于北京交通。”①转引自“治本北京交通”,http://finance.sina.com.cn 2004年01月19日10:32《财经》杂志。可见,当时的交通拥堵状况已经成为备受关注的问题,而我们的调查也恰好表现出了这种现实状况。

(二)公民的评价是否有根有据

本文提出的原假设是:公民对政府绩效的评价是毫无根据的,与个人特征,例如教育水平、年龄、性别等无关,而且与人们的信息水平、知识水平、兴趣、生活满意度等也毫无关系。备择假设则是:公民对政府绩效的评价在以上提出的各个因素中,至少有一项上是具有显著差异的。为了检验该假设,本文设立了两个待检验的回归分析模型。

模型I:政府绩效总评价的影响因素

因变量:政府绩效总评价。根据公民对公共服务存在问题的严重程度的判断分值加总而成。

自变量:教育程度。用受访人的学历代表,分别转换成4个虚拟变量,选择大专及以上学历的人参照类。信息水平,通过受访人每周看电视新闻和互联网新闻的时间来测量。政治知识。通过受访人对政治领导人的了解程度来测量,这种测量虽然并不能代表政治知识水平的全部,但是它至少是公民所最容易了解到的有关政府和政治方面的知识。生活满意度。通过定距变量的形式,了解人们对在北京生活的总满意度,取值范围是0-10。收入满意度。也是0-10的量表。该变量与生活满意度可能高度相关,需要经过回归分析的检验留下解释能力比较强的一个变量。家庭生活状况变化。假设一年来家庭生活状况变好的人会比那些变差或者没有变化的人更能对政府绩效做出较好的评价。感兴趣程度。该变量通过采访员的判断进行测量,并且在进行回归分析之前已转换成虚拟变量。北京市户籍。这个变量对于反映人们享受到的公共服务范围比较重要,对于北京市户籍人口来说,他们比流动人口享受了更广泛的社会保障,在医疗服务、就业等方面也享受更多的保障,在对待流动人口的问题上,二者之间更有可能具有不同的看法。因此,在分析影响政府绩效评价结果因素的回归模型中将其作为主要的自变量之一进行检验。年龄、性别。在这里仅作为控制变量使用。

模型II:医疗服务评价的影响因素

因变量:医疗服务评价。根据公民对医疗服务的具体6个方面的评价分值加总而成。自变量除了模型I中的自变量以外,还包括个人健康状况。在该模型中,个人健康状况被假设对医疗服务的评价具有显著的影响,健康状况好的人很少接触医疗机构,也许对医疗服务的评价就不那么差。该变量是通过个人对自己健康状况的自我评估测量进行评价的。

由于“BAS调查”采用的是横截面式的调查,每一年都是重新抽取的具有代表性的样本,因此对于模型的检验无法使用严格的时间序列分析方法。为了检验本研究的原假设,本文选取了对每一年都单独进行统计分析的方法,由于数据表比较多,在此仅列举1995年、2004年和2006年的数据分析结果,见表4。

表4 影响政府公共服务效果总评价因素的一般线性回归分析结果

从表4的分析结果来看,在我们所事先假设的一些影响人们评价结果的因素中,在95%的置信水平下,至少有一个变量对因变量的变化具有显著的影响作用。这说明公民对政府公共服务效果的评价是受一定因素影响的,并不是毫无根据的主观臆断。在这些影响因素中,回答能力、生活满意度的高低对评价结果都有显著的作用,尤其是生活满意度这个因素,一直都稳定地、显著地起着作用,当人们对在北京生活的满意度低的时候,对公共服务方面的效果的评价就越低。

接下来考察在具体层面上公民的评价是否可靠。以人们对医疗服务方面的评价为例,见表5。

表5 影响医疗服务效果评价因素的 (OLS)一般线性回归分析结果

注:因变量:公民对医疗服务效果总评价,值域为0-30,分值越高表示存在的问题越严重。

表5数据显示,公民在对医疗服务进行具体评价时,也受到生活满意度和对政府公共服务总评价的影响,而且北京市户籍人口和外地人口对医疗服务的评价结果显著不同。虽然在2007年的调查中,我们并没有测量更多的可能的影响因素,例如,是否去过医院,住院或者看病花费的金钱、时间成本等等,但是,就目前的调查数据来看,公民不仅能够评价医疗方面的服务效果,而且不同人的评价也是有显著差异的。

七、结论

北京市公民评价政府绩效年度调查数据结果表明:公民能够从宏观层面对政府的公共服务效果进行评价。不仅如此,大多数公民也知道公共服务的内容,能具体说出某种公共服务存在的具体问题。另外,大多数公民也能对政府的工作从总体上进行评估,能够对政府是否采取措施解决公共服务中的突出问题,以及采取措施的成效做出明确的判断。

公民对宏观层面政府公共服务效果的评价结果基本可靠。本项研究通过对北京市12年来的物价、就业、社会治安、流动人口、交通管理等方面的变化情况与公民评价的结果进行对比之后发现,公民对宏观层面政府公共服务效果的评价结果比较贴近当时的社会现实,官方数据和调查数据显示的12年间的发展趋势也基本一致。除此之外,在统计数量关系上,也可清晰看出公民对宏观层面政府公共服务效果的评价受若干因素的影响,评价结果基本上是可靠的,而不是毫无根据的主观臆断。

此外,通过中立的调查研究机构组织实施抽样调查的方式基本可行。这种方式既节省了政府的人力资源和时间投入,节约了成本,也保证了评价的中立性。12年的北京社会经济发展年度调查数据表明,通过这种抽样调查方式获得的大多数变量的误差在可接受的范围之内,所分析的若干个主要研究变量的信度和效度水平也比较高,调查数据质量可靠。

当然,我们通过这样一种探索性的试验,并不能完满地解答所有问题。北京市公民评价政府绩效年度调查的试验尚需要在以下两个方面重点改进:

(一)调查内容的设计上还需要进一步完善和丰富

由于“BAS调查”并不是专门针对政府绩效评价的专项调查,而本项研究受到研究经费和时间的限制,只能将少部分内容作为前期探讨提出来,从而使得绩效调查这部分内容还未能形成一个系统化的研究指标体系。

(二)调查方式上要考虑如何降低无回答所带来的系统性偏差

在“BAS调查”中,有效样本的完成率是逐年下降的,而高比例的无回答率容易引起估计偏差,这一点需要在抽样设计和调查方式上进一步探讨。此外,它与公民的兴趣和参与热情是紧密相关的,因此如何采取有效途径吸引公民参与也是一个值得关注的问题。

总的来说,通过概率抽样调查的方式,借助中立的研究机构采集公民对政府绩效评价的方式既可行而且又能获得可靠的数据。坚持概率抽样调查是本项研究提出的第一个原则。第二个原则是坚持持续性的调查。不管是采取年度调查的方式,还是采取固定样本跟踪调查的方式,为了实现政府绩效评估的目标,持续性的评估是非常必要的。第三个原则是坚持追求系统化的、科学化的、可量化的公民评估政府绩效的测量指标体系。

对于研究者来说,需要重点解决的是如何设计系统化的、可量化的测量指标体系,即使是专门针对某一项公共服务效果的评价,也需要进一步完善和丰富。对于政府来讲,需要通过制度化的方式保证公民的参与热情和参与质量,同时要将公民的评价结果纳入到绩效管理中,从而最终实现建设服务型政府的目标。

[1]周志忍.政府绩效评估中的公民参与:我国的实践历程与前景 [J].中国行政管理,2008,(1).

[2]王锡锌.对“参与式”政府绩效评估制度的评估 [J].行政法学研究,2007,(1).

[3]陈昌盛,蔡跃洲.中国政府公共服务:体制变迁与地区综合评估 [M].北京:中国社会科学出版社,2007.

[4]陈振明.公共管理学——一种不同于传统行政学的研究途径 [M].北京:中国人民大学出版社,2003:273.

[5]周志忍.公共悖论及其理论阐释 [J].政治学研究,1999,(2).

[6]Kelly,JANET M.,Swindell,David.A Multiple-Indicator Approach to Municipal Service Evaluation:Correlation Performance Measurement and Citizen Satisfacation across Jurisdictions[J].Public Administration Review,2002, 62,(5):618.

[7]Weatherford,M.Stephen.How Does Government Performance Influence Political Support[J].Political Behavior, 1987,(9):10.

[8]孟华.政府绩效评估的民众基础及其改善 [J].东南学术,2005,(2).

[9]杨明.北京社会经济发展年度调查数据报告 [M].北京:北京出版社,2008.

[10]Carmines,EDWARD G.,Zeller,RICHARD A.Relability and Validity Assessment[M].Beverly Hills,CA: Sage Publications,1979:50-51.