政治控制、个人取代组织与过渡年资量化——我国历史上大一统时期政府绩效评估经验、遗弊与继承之道*

2013-11-27 09:15尚虎平
社会科学 2013年1期
关键词:评估政府

尚虎平

据《中国人事报》调查,早在2007年,全国已经有1/3的省 (区、市)开展了政府绩效评估。2010年7月20日,经中央纪委书记办公会议批准,中央纪委监察部绩效管理监察室正式组建。2011年3月10日,国务院批复建立政府绩效管理工作部际联席会议制度,这标志着我国政府绩效评估以制度、体制的形式面向全国推开。然而,如同经济、政治、社会、文化、生态发展到了拐点一样,目前我国政府绩效评估也面临一系列难题。要解决这些难题,除了大力引进国外的作法之外,更需要回头看看我们先辈所开创的各种适应这块特有土地、特有民族、特有文化的“中国式”政府绩效评估的作法,以期从古圣先贤那里找到启示。根据麦迪逊 (Maddison)的估计,直到1820年,中国仍是世界上最大的经济体,GDP总量仍占世界份额的32.4%①A.Maddison,Chinese Economic Performance in the Long Run.Paris:OECD,1998,pp.25-40.,这证明中国在相当长的时期内都走在世界经济发展的最前列。从政治制度来看,古代中国是典型的中央集权式前现代国家,在这种体制下,国家经济绩效的取得主要依靠政府的谋划与推动。中国经济长期居于世界前列的事实证明了历史上我国政府绩效是相当高的。我们有理由相信,中国历史上长期保持兴盛也来自于政府的绩效优势。依据系统原理和科学管理原理,高绩效的获得依赖于绩效评估这种反馈控制工具。从各种历史文献可以看出,我国政府绩效评估源远流长,最早的官吏考评,大约可以追溯到公元前11世纪。《尚书》载:“三载考绩,三考黜陟幽名,庶绩庶熙,此分三苗。”②《尚书·虞书》。由此而始,我国的政府绩效评估至清朝一直未有间断。

一、我国历史上政府绩效评估的分析框架

与已有文献的历史学分析范式不同,本文依照彼得·罗希①[美]彼得·罗希、马克·李普希,霍华德·弗里曼:《评估:方法与技术》,邱泽奇、王旭辉、刘月等译,重庆大学出版社2007年版,第17-27页。等人的现代评估理论、波伊斯特②[美]西奥多·H.波伊斯特:《公共与非营利组织绩效考评:方法与应用》,肖鸣政等译,中国人民大学出版社2005年版,第9-16、25-27、79-80页。的公共组织绩效评估理论,对我国历史上有资料支撑的政府绩效评估按照现代管理学分析框架进行了厘清,该框架包括十个方面的内容。

表1 我国历史上政府绩效评估简况

(1)评估类型。依照评估学原理,将评估类型分为个体、组织、项目绩效评估,依次编号为a、b、c③尽管我们依次分类编号,但每个时期可能只有某一种甚至没有这些类别,后文其他分类也与此类似。。(2)评估主体。在“内、外部”评估主体的基础上,将其具体化为5个:内部上级、内部平级、内部下级、外部评估者、自评估,依次编号为a、b、c、d、e。(3)评估系统设计与实施过程。笔者将此分为确保管理者认同、制定评估管理政策、制定评估系统总体蓝图、确立评估系统目标和参数、确定工作结果、定义并选择评估指标、开发数据收集程序、阐明系统过程、进行系统测试、全面实施、反馈和修改系统,依次编号为a、b、c、d、e、f、g、h、i、j、k。(4)评估方法。在“定性、定量”方法基础上,将“研究方法”具体化为5种:定性方法、定量方法、定性为主的方法、定量为主的方法、定性定量同等重要的方法,依次编号为a、b、c、d、e。(5)评估目的。分为政治控制、经济发展、社会发展、文化发展共4种,依次编号为a、b、c、d。(6)评估成本。由于资料过于稀少,无法运用具体的数据对其评估成本进行核算,此处只考察在绩效评估过程中有无成本核算措施,如果有则记为Y(Yes),无则记为N(No)。(7)评估时机选择。本文将评估时机分为行政行为前的“预绩效评估”,行政过程中的“过程绩效评估”、行政结果产生时的“结果绩效评估”、行政行为实施一段时间之后的“后绩效评估”4种,依次编号为a、b、c、d。(8)评估实施。本研究以评估实施中效度和信度的保证措施来考察评估的实施情况,由此可以判断评估实施的求真性、现实性和解决问题的态度。笔者将其分为信度保证、效度保证、信度效度均保证、两者均不保证4种措施,依次编码为a、b、c、d。(9)评估结果报告。依据评估学要求,本文将评估结果报告分为4种:横向比较型、纵向比较型、与评估者规定的某一标准比较型、无任何比较型,依次编码为a、b、c、d。(10)评估结果应用。政府绩效评估的目的是利用评估结果来提升绩效。评估不是目的,仅仅是实现目的的一个阶段。判断绩效评估实效的依据是在一段时间之后看它是否有助于个人、组织和项目绩效的提升。本文主要考察绩效评估结果在战略规划、预算和财政管理、工作项目管理、绩效管理、质量和过程改进、合同管理、外部标杆管理、公众交流沟通、绩效正激励、绩效负激励、干预等11个方面的应用情况,依次编码为 a、b、c、d、e、f、g、h、i、j、k。

二、我国历史上政府绩效评估实践的分析结果

尽管我国有着“上下五千年”的悠久历史,但要找一部有关政府绩效评估的专门史料,却与大海捞针无异。在极其浩瀚的书海中,笔者重点检索了我国历史上大一统时期在政府绩效评估方面所作的各种努力。之所以这样,是因为考虑到目前我国也属于大一统的盛世,古代的作法对类似的环境具有启示、警示意义。笔者竭尽各种可能,发现有资料支撑的共有8个朝代,即秦、汉、隋、唐、宋、元、明代和“预备立宪”之前的清朝。我们在审读之后,将其按照时代的继起性和各种作法的继承性分为了秦汉、隋唐、宋元、明清4个时期,将其按照分析框架的要求作了具体解析,形成了“我国历史上政府绩效评估简况”(表1)。

1、评估类型是针对政府官员个人的个体绩效评估,其评估主体来自于内部上级

从表1可以看出,我国历史上的政府绩效评估,无一例外均是针对政府官员个人的个体绩效评估,且其评估主体来自于内部上级。之所以将这两个问题放在一起分析,是因为从我们所收集到的资料来看,与这两个问题相关的历史资料一般都是结合在一起的。

秦朝实行上计制度,汉朝考绩则沿袭了秦制,制定了《上计律》、《考功课吏法》和“六条制察”,加强了对地方官员的绩效考评与管理。“秋冬岁尽,各计县户口垦田、钱谷入出、盗贼多少,上其集簿。丞尉以下,岁诣其郡,课校其功。”①《后汉书·百官志》(五)。就是这种考绩的写照。

隋唐时期的绩效评估分为“计课”与“考绩”。“计课”是按日、月累计官员功过,一般由各部及地方行政长官自行负责;“考绩”是根据考课法规定实行定期的政绩考核,是既有程序又有实际内容的考核,它们都属于行政系统内部的上级发起的针对政府官员个人的绩效评估,这从唐玄宗为中书令张说写的考词可见一斑:“动惟其道,累闻献替之诚,言则不宝史,自得谋酞之体。政令必侯其增损,图书又籍其刊削,才望兼著,理会事褒升。考中上。”②《全唐文》卷四一。“每发一巡县,观风俗,问百年……皆附于考课,以为褒贬……”③转引自夏炎《试论唐代都督府与州的关系 (二)》,http://www.wenhuacn.com/article.asp?classid=65&articleid=7754。也是此类评估的写照。

宋代的绩效评估形式是“磨勘”。首先,由各部门长官每年对所属官吏的善恶功过进行考评,朝廷为每位官员统一颁发的“历纸”上“岁书其功过”,称为“小考”;应考者经三考之后,即将“解状”、“举状”、“家状”、“考状”等相关材料报中央主考部门“磨勘”。“磨勘”过程中,京官由上级长官考核其功过,地方官由“守倅考县令,监司考知州”④《宋史·选举六》。,两者最后由审官院或吏部等专门机构复查。为了保证考课能够如实公允,御史对诸路监司所定的守令考课有复审权⑤总结自《宋会要辑稿·职官》。。元朝中书省负责考核京都官吏,吏部负责考核外任官吏,肃政廉访司和监察御史台对各地方派遣官员进行考察,考核可以分为“计年”与“廉访”两种。考核内容和标准主要依据《五年三等考课升殿法》进行。 “掌天下官吏选授之政令。凡职官锉叙之典,吏员调补之格……”⑥《元史·百官一》。“省判所办诸课增亏分数,升降人员。增六分升二等。”⑦《元史·选举二》。其中描述的就是这种考核。

明代政府绩效评估分为考满和考察。考满时,在京六部五品以下官员由本衙门长官评价;四品以上官员及一切近侍官、御史等,“任满黜陟,取自上裁”。地方府州县官由各级长官考核,然后再经布政司、按察司考核,吏部考功司复考。考察分为京察和外察。京察中四品以上自陈功过以取上裁,五品以下则由吏部尚书、吏部考功司郎中、吏部给事中、都察院都御史和河南道御史参与。外察可以是地方官朝觐来京师,由吏部课其殿最,也可以派御史等官分巡天下考察官吏。这些措施从朱元璋统一全国建立明朝后就开始施行,“洪武元年,令各处府州县官,以任内户口增,田野辟为上”①《万历会典》卷十二。。清代政府绩效评估基本上承袭明代,略有变化。从作法来说,分为考核京官的京察和考核外官的大计。京察三品以上的官员向皇帝自陈,四品以下的部院司员由吏部、都察院长官考察。大计由藩、泉、道、府考察属吏的表现。

2、评估系统设计与实施过程中一般都具有“确保管理者认同”、“制定评估管理政策 (法律)”、“制定评估系统开发总体蓝图”、“确立评估系统的目的和参数”、“定义并选择评估指标”和“全面实施系统”的环节

秦代使用“上计”评估法,制定了《为吏之道》、《田律》、《仓律》、《除吏律》、《效律》、《除弟子律》、《公车司马猎律》、《课律》等法令,对政府官员考核从不同方面进行规定,同时提出了“五善五失”的为吏之道:“吏有五善,一曰中 (忠)信敬上;二曰精 (清)廉毋谤……五者毕至,必有大赏。”“吏有五失,一曰夸以迣,二曰贵以大 (泰)……五曰贱士而贵货贝。”②《云梦秦简·为吏之道》。到了汉代,政府绩效评估的系统设计更加丰富,其时出台了《功令》、《上计律》,从汉元帝开始推行《考功课吏法》,这是我国历史上最早的政府绩效评估法规。在绩效评估指标方面,汉代推出了“六条问事”:“一条,强宗豪右田宅逾制,以强凌弱,以众暴寡;二条,二千石不奉诏书、遵承典制,背公向私,旁诏守利,侵渔百姓,聚敛为奸……”③《汉书·六条问事》。

隋唐时期,中国在历经长期分裂动乱之后重新步入和平与统一的“快车道”,政府绩效评估的评估系统设计也进入了快速、全面发展时期。隋朝短暂,历史资料稀缺,但唐代的资料较为丰富。唐代颁行了一系列政府绩效评估法律,如《考课法》贵为《唐令》第一编,同时还出台了《四善二十七最》、《四等课法》、《唐六典》、《唐律疏议·职制律》等④总结自《新唐书·百官志》。。唐代的绩效评估内容较之之前的作法更为丰富,分别对“流内官”和“流外官”制定了详细的“四善二十七最九等考第”绩效指标和简略的“四等考第”指标体系。“四善”指标是“德义有闻、清慎明著、公平可称、格勤匪懈”⑤《通典·选举·考绩》。;“二十七最”指“铨衡人物,擢尽才良为选司之最”;“扬清激浊,褒贬必当,为考校之最”;“赏罚严明,攻战必胜,为将帅之最”⑥《唐六典·考功郎中》。。

宋代颁布了一系列政府绩效评估类的法律条令,目前尚存的考课法有《元年考课法》、《县令课》、《守令课》、《州官考课法》、《监司考课法》、《京官考课法》六种。宋代考核政府官吏的内容是由唐“四善二十七最”精简而来,常用的“磨勘”指标有“户口之登耗;田土之荒辟;茶酒盐税统比,不亏递年租额……”⑦《宋会要辑稿·职官》五九·之七。。宋神宗时代推出了对县令的“四善三最”考核体系,即“德义有闻,清谨明著,公平可称……抚恤困穷,不致流移为抚养之最”⑧《宋史·职官志三》。。对路州则运用“七事考”体系,即“一曰举官当否,二曰劝课桑农、增垦田畴,三曰户口增损,四曰兴利除害,五曰事实案察,六曰较正刑狱,七曰盗贼多寡”⑨《宋史·职官志三》。。公元1107年,宋徽宗颁布《考课法》,原“四善三最”被改为“四善四最”,并被扩展应用到对州官的评估①总结自《庆元条法事类·职制门·考课》。。元代考核法令主要是《五年三等考课升殿法》,考核指标以“五事考课”为主,涉及经济绩效,如户口增、田野辟、赋役均②《元史·选举二》。。

明代的“考满”和“考察”体系更为完整,其所依法律主要是《考满法》、《明会典》、《考核通例》、《繁简则例》。“考满”包括官吏任职期间的经济绩效和钱粮是否完足,有无侵欺贪污等。“有司每十里以下,务要积粮一万五千石……”③《万历会典》卷十二。“令天下官吏考满迁秩,必严核任内租税,征解足数”④《明史·食货二》。,描述的就是“考满”的内容和指标。“考察”主要是“丽以八法”,即查贪、酷、浮躁、不及、老、病、罢、不谨⑤总结自《明史》(卷七十一·志第四十七)。。清代沿袭了明朝的作法,主要采取“考满”和“考察”两种方式,其内容设置、指标体系等也承袭了明朝,评估所依法律主要是《清会典》。顺治时实行“四格八法”的绩效指标体系,即“才、守、政、年”和“贪、酷、罢软无力、不谨、年老、有疾、浮躁、才力不及”,嘉庆以后将其精简为对京官考察的“四格六法”和对非京官大计的“二等八法”⑥总结自《皇朝文献通考》卷五十九《选举考十三·考课》。。

3、各朝都选择了“过程绩效评估”、“结果绩效评估”和“后绩效评估”三种评估时机

在评估时机选择上,秦朝除了每年进行的兼具“过程绩效评估”和“结果绩效评估”的“上计”,还有每年一小考、三年一大考的“上计”与“考课”,它们兼具“结果绩效评估”和“后绩效评估”的特色。汉朝沿袭了秦朝的作法但稍有改进,它分为中央对地方的考绩和中央及地方所属官吏的考绩,前者由郡国课县、中央课郡国、丞相受计、御史大夫核实、皇帝主计等程序组成,时间上由每年秋天开始,年终结束。“秋冬岁尽,各计县户口垦田,钱谷入出,盗贼多少,上其集簿”⑦《后汉书·百官五》。。汉代还发明了“朝会受计”和“巡行受计”的考绩方法:“郡国守丞长史上计事竟,遣君侯出坐庭,上亲问百姓所疾苦。”⑧总结自《云梦秦简·课律》。“一年一小考”、“三年一大考”的时机选择性质与秦相同,但“朝会受计”和“巡行受计”属于典型的过程绩效评估,是一种不定期评估。

隋朝对官员的绩效评估时机选择主要以年终评估为主,九品以上的地方官,由吏部每年考核一次,年终到中央报告工作,叫做“朝集”,这是具有“结果绩效评估”和“后绩效评估”式的评估。唐代对所有官员不论职位高低,每年都要经过一定的考课,称为小考。每隔三年,偶尔也有隔四年或五年举行一次大考。这些属于“结果绩效评估”和“后绩效评估”式的时机选择。此外,唐代还有过程绩效评估的时机选择,也就是不定期考核和不定期抽查。据载,李世民曾将都督、刺吏姓名写于屏风,并随时将其善政恶迹一一列举名下,并派遣李靖、肖璃等13人分行四方,巡视天下,“观风俗之得失,察政刑之苛弊,黝阶幽明”⑨《贞观政要》卷二。。

宋代在“磨勘”过程中,实行一年一考和文官三年一任、武官五年一任的考任制。“凡内外官,计在官之日,满一岁为一考,三考为一任。”[10]《宋史》卷一百六十三·志一百一十六。《县令课》规定“凡三年一考,上等者加族赏,无善者将被淘汰”。“一年一考”属于任职中的“过程绩效评估”,同时兼具对一年来行政行为的“结果型绩效评估”性质;“三考为一任”、“凡三年一考”属于对任期的结果评估,同时也具有“后绩效评估”的性质,考核任职期间行政行为的影响、效率、效益。元代考课方法有“廉访”与“计月”两种。“廉访”是指每个道都设肃政廉访司,每司有肃政廉访使8人,2人留司掌握总的情况,其余6人分临所部巡查官员的功过优劣,所有民政钱粮等事均在考课之列。“计月”是指根据职务规定其任职的期限。《通制条例·选举·选格》和《元史·选举四·考课》对评估时机选择有较为清晰的记载:“诸职官以三十个月日为任满”,“吏员须以九十个月方得出职”。“凡官员考数,省部定拟,从九品拟历三任,升从八……通历八十月,升三品。”这就是说,诸衙门及行省、宣慰司官,常例30个月为一考,外任官常例36个月为一考,三考为一任,这表明时机选择主要是对行政行为产生30、36个月之后进行的后绩效评估。

“宣德五年奏准:天下官员三、六年考满者,所欠税粮立限追征;九年考满,任内钱粮完足,方许给由。”①《万历会典》卷二十二。其描述的是明代的绩效评估时机选择。《考满法》规定,无论内外官任职满三年为一考,六年再考,九年通考,每一阶段考绩完成,称为“考满”。朱元璋还规定了朝觐之法,称为“察典”,于丑、辰、未、戊年举行。“三年一考”属于任职中的过程绩效评估,同时具有对三年行政结果的考核性质;“六年再考”和“九年通考”属于对任职期的绩效评估和任职特定时段后的绩效评估。清朝“考满”和“考察”的评估时机选择基本沿袭了明代的作法。

4、不同时期绩效评估方法都以定量为主

与传统印象大不相同的是,从我们所检索到的资料来看,古代政府绩效评估的方法竟然是以定量方法为主。秦代对官吏的考核分“小课”和“大课”,考课方式沿用上计制度。先由县令把该县的户口、垦田、税收、粮食、治安等具体统计数字编为计簿上呈郡国,由郡国守相进行考核;郡守再对核定后的县计簿加以汇总,结合本郡国一年政绩,在年终前报送朝廷,由中央管理部门进行考核②总结自《云梦秦简·课律》。。尽管我们没有进一步的史料来证明当时的“大课”和“小课”的报告是一份充满了基数和百分比的绩效评估结果书,但从定类 (nominal)、定序 (ordina)、定距 (interval)和定比 (ratio)4种数据的特性来说,这些指标的设置本身已属于定类、定序、定距数据。按照定类→定序→定距→定比4种数据依次转化的规律来看,只要将这些指标体系应用到评估中去,它必然属于将前三种数据转换成能够辨识异同、比较高低、度量差异强度、度量差异比率的定比数据,从而成为严格意义上的定量化评估③参见李怀祖《管理研究方法论》,西安交通大学出版社2000年版,第108-114页。。实际上,即使评估指标体系不转换为定比数据,它依然属于定类、定序、定距3种数据,当然属于量化评估。秦代考核完毕后,由主考者依据得分给出每个官吏的考绩等级,作为奖惩升降的依据;这与现代意义上以量化为主的政府绩效评估相比,差距已经是很小了。汉朝的“六条问事”式绩效评估继承自秦代的“小课”、“大课”,也是一种以量化为主的绩效评估。

唐朝“四善二十七最”、“四等课法”,宋朝的“磨勘”全过程都属于以量化为主的绩效评估方式。“磨勘”的指标:“户口之登耗;田土之荒辟;茶酒盐税统比,不亏递年租额;上供、和籴和买物不亏年额抛数”④《续资治通鉴长编》卷一六六。以及“四善三最”、“四善四最”考核体系都属于定量化的产物。而且在绩效评估结果上,也采取了量化方式。“磨勘”结果一般可分为三个等级,从而作到“有官必有课,有课必有赏罚”。元代绩效评估的“五事考课”、“九征”、“二十六美”、“三十九类”、“三要”也都以量化为主⑤《元史·选举二》。。《元史·选举二》对此有详细记载,如“省判所办诸课增亏分数,升降人员。增六分升二等,增三分升一等……亏兑一分,降一等”。

明代的考察和考满的定量化更为明显。《万历会典》卷十二载:“有司每十里以下,务要积粮一万五千石……”⑥《万历会典》卷十二。在考察和考满中,依照特定的分数分为称职、平常、不称三个级别,而且级别之间比例数据也非常精确,如洪武十六年,考核朝官4117人,“称职”的只有435人,“平常”的有2897人,不称职和贪污的有785人。明代还产生了一项伟大的数量化成就——朱元璋在对官员的评估中,为了防止篡改数字、涂改账本,在绩效评估技术上发明了大写数字,在官方的评估中,统一将一、二、三、四、五、六、七、八、九、十、百、千,改成壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、陌、阡①此处参照了《朱元璋为反贪发明大写汉字数字》,http://www.njmgg.cn/mgg/bencandy.php?fid=2&id=176。。清朝对钱粮征收指标用精确的数字来衡量。《光绪会典事例》卷一百零八载:“浙省南秋等米,每年额征收共十分核算……州县官欠不及一分者,免议;欠一分以上者,罚俸六月……五分六分以上者,革职。”《光绪会典事例》卷一百七十三也反映了量化评估事实:“原限二年全完者,如限内全完,州县官一万两以上,纪录一次……布政使司十万两以上,纪录一次……三十万两以上,不俟俸满即升。”

5、政府绩效评估报告多采用“纵向比较型”、“与评估者规定的某一标准比较型”

秦汉时期,随着统一的中央集权制国家建立,上计式绩效评估更加完善,评估报告的“纵向比较型”和“与评估者规定的某一标准比较型”特色鲜明。秦代每年年终的上计,内容包括税收、粮食、衣物等,上计的政府官员必须带着“绩效评估报告”——上计薄籍,甚至还要携带绩效数据(“支撑材料”),即有关随员、上缴物资来证明纵向比较下自己绩效增长点和达到甚至超过评估者规定标准的程度。汉代的绩效评估报告的类型与秦代无二,在逐级上计中,每年“秋冬岁尽,各计县户口垦田,钱谷入出,盗贼多少,上其集簿”②《后汉书·百官五》。。

宋朝从宋太祖开始就将“四善”分为评估者所期望的三个等级:政绩优异者为上,职务精理者为中,临事弛慢者为下。宋真宗时改为“公勤廉干惠及民者为上;干事而无廉誉,清白而无治声者为次;畏儒贪婪者为下”③《宋史·选举志六》。。神宗时用的是“四善四最之法”,将评估结果分为上、中、下三等。宋时考核一年一考,三年为一任,任满就其考核结果决定黜陟。“磨勘”、“黜陟”所依据的都是“磨勘”报告书。从分等的作法来看,它也是基于某种比较而产生的结果,属于“纵向比较型”和“与评估者规定的某一标准比较型”的评估报告。元代的绩效评估中,无论大小官吏均由中书省发给历纸一卷,称作“考功历”,卷首写明姓名出身,调任时由上级长官注明任职年月、任期内功过,“人之贤否一览而知”。填写“考功历”的官员最后还须联衔结保具状,以免敷衍塞责或徇私舞弊。吏部以“考功历”为依据决定任命,地方官员则遣官分考其属,其“考功历”经肃政廉访使考证后呈吏部,“具实申闻,以凭黜陟”④《元史》卷一百八十三。。“考功历”就是现代评估理论中所说的绩效评估报告。从“调任时由上级长官注明任职年月,以及任期内的功过行状”和“人之贤否一览而知”可以看出,这种绩效评估报告首先属于“纵向比较型”;从“经肃政廉访使考证后呈吏部”可以看出,它也是“与评估者规定的某一标准比较型”。《明史·选举三》志第四十七记载:“考察之法,京官六年,以巳、亥之岁,四品以上自陈以取上裁,五品以下分别致仕、降调、闲住为民者有差,具册奏请,谓之京察。” “州县以月计,上之府,府上下其考,以岁计,上之布政司。至三岁,抚、按通核其属事状,造册具报,丽以八法。”“具册奏请,谓之京察”是指将对地方政府官员的绩效评估报告递交中央,由中央区处好坏,其逻辑仍然是纵向比较;“造册具报,丽以八法”是将绩效评估报告上报,其所依据的标准是“八法”,这是典型的“与评估者规定的某一标准比较型”绩效报告书。清代的历史资料较为缺乏,但从李孔怀的研究来看,清朝在应用“四格八法”、“二等八法”进行绩效评估的过程中,基本沿袭了明代的作法。“凡三品以上京官,自陈政事得失,最后由皇帝裁决;三品以下官员有各主管长官出具考语。”⑤转引自李孔怀《中国古代政治与行政制度》,复旦大学出版社1993年版。《清文献通考·选举考》也对此有所记载:“各地总督、巡抚亦可自陈政事得失,其下属官吏由总督、巡抚出具考语。”由此可以看出,确定称职与否的报告必然是涉及与考核前比较或者与某个评估者确定的标准相比较而形成。

6、政府绩效评估结果应用主要是绩效正激励、绩效负激励

“绩效正激励”是评估者依据纵向比较或与某个标准比较,认为被评估者绩效满意,在此前提下,给予被评估者以晋升、褒奖、增加物质、精神收益等正向的激励;“绩效负激励”则相反。《秦律》规定,每年考核结果分为“最”与“殿”①总结自《云梦秦简·秦律》。。对于成绩为“最”者给以奖励,主要方式有拜爵、迁官、赐金、赏物等正激励;对于成绩为“殿”者施以惩罚,主要方式有削爵、降职、罚赀、罢官、处刑等,这是负激励。《为吏之道》规定,凡作到“五善”而没有一失者,“必有大赏”,即加爵升官;官吏如有一失,就要被减爵。汉代对绩效评估结果的应用也类同于秦代,每次大考之后,赏罚兑现。“考绩黜陟,计事除废,有功者赏,有罪者罚……不能致功,虽有贤名,不予之赏。”②《春秋繁露·考功名》。朱邑“迁北海太守,以治行第一入为大司农”③《汉书·朱邑传》。,清河太守何武因“数年坐郡中被灾害什四以上,免”。河内太守曹褒因“坐上灾害不实”而被罢免”④《汉书·何武传》。。

唐代的“四善”、“二十七最”都有正负激励的规定。如《通典》、《唐律疏议》规定“扬清激浊,褒贬必当,为考校之最”⑤《唐六典·尚书吏部》。。“各计傭,坐赃论减一等。”⑥《唐律疏议》卷一六。“每加一分,刺史、县令各进考一等……亦每减一分……每加二分,各进考一等。其有不加劝课,以致减损者,每损一分,降考一等。”⑦《通典》卷十五。“太守、县令廉能勾当租庸每年加数成分者,特赐一中上考,如二载之内皆有成分,所司录奏超资与处分。”⑧《册府元龟》卷六百三十五。由此可以看出,唐代的正激励除了绩效晋升外,还有“超资”等物质激励;除了降职的负激励外,还有“处分”等精神或者物质负激励。

“有官必有课,有课必有赏罚。”⑨转引自《上皇帝十事书》,http://www.cdlvi.cn/dzts/content/2008-09/02/content_30077396.htm。宋《县令课》规定,凡三年一考,上等者加族赏,无善者将被淘汰,这反映了宋代绩效评估结果的应用既有绩效正激励,也有绩效负激励。《庆元条法事类》载,“诸监司,巡历所部不遍者,杖一百,遍而不申减二等……诸州县公吏,因监司巡历点检,辄逃避者,杖一百”。另据《宋史》卷一六零、一六六载:“初著令:州县户口准见户十分增一,刺史、县令进考;若耗一分,降一等。”[10]《宋会要辑稿·职官五九》。按照《元史·选举二》的记载,元代对官员以五事考课为升降,实行增羡者迁赏,亏兑者赔偿黜降:“省判所办诸课增亏分数,升降人员。增六分升二等,增三分升一等。”

《明会典》对考满结果应用作了5种规定:对“繁而称职”、 “繁而平常”、 “简而称职”、“简而平常”、“不称职”可以“无过升二等;有私笞公过;升一等……有纪录徒流罪一次本等用;二次降一等;三次降二等;四次降三等;五次以上杂职内用”[11]《明会典》卷十二。。《考核通例》、《繁简则例》等法典也对政府绩效评估结果应用作了相关规定,如“少五分者,罚俸一年;少六分以上者,九年考满降用”[12]总结自《清会典》卷十一。;“令天下官吏考满迁秩,必严核任内租税,征解足数,方许给由交待”[13]《明史·食货二》。。按照《考功清吏司》规定,清朝在绩效结果应用上,对称职和尽职者,一般都升任,还有赏赐衣物、入旗、入功臣祠等激励方式。对于不称职者,则要“纠以六法”,给予严厉处罚[14]总结自《清会典》卷十一。。

7、政府绩效评估的主要目的是不计成本的政治控制,不保证评估实施的信度与效度

在政府绩效评估目的、绩效评估成本、绩效评估实施中的信度与效度保障方面,并无直接相关的史料,但对此三者之所以不用“NS”来表示,是因为可以根据已有资料并依照绩效评估基本理论的规定性、流程的科学性、评估实施步骤的继起性而进行合理推断。

(1)政府绩效评估的主要目的是加强政治控制。首先,由于历史上政府绩效评估的主体主要来自于内部上级,它们既有行政系统内部的“层级节制”型评估,也有逐级甚至越级直呈中央的“上计”、“京察”、“大计”等,这样作的主要目的是为了实现逐层控制,甚至中央直接控制。作为一个中央集权的封建国家,我国古代并不存在政治、行政、司法三权分立的体制,它们浑然一体,源于皇权的政治权力。这样,无论是内部的层级节制还是中央直接控制,其本质都属于政治控制性质。其次,鉴于行政系统的权力实际上来自由皇权逐级授予的政治权力,这种“过程控制”式的“巡”、“察”等绩效评估,实际上是上层或中央的政治权力不定期控制某个层级政府官员的一种表现形式,归根到底是皇权控制的一种表现;与此类似,“结果绩效评估”是上层或中央政治权力定期控制某个层级政府官员的表现形式;“后绩效评估”是任期过了若干时间段之后,上级或中央政治权力定期追踪控制某个层级政府官员的表现形式。最后,从绩效结果应用来说,正激励措施如加官进爵、宣旨褒奖、物质奖励等,负激励措施如降职、降级、罚俸,甚至杀头也都是以实现皇帝所期望的绩效目标为标准的。如果达到甚至超额实现目标,必然是正激励,否则必将是负激励。皇帝的目标成为社会权威目标的原因,就在于皇权是以“公共权力”的形式出现;而作为“率土之滨,莫非王臣”的各级官员,其进行行政管理的权力源头仍然是皇权,其行政绩效目标自然是皇帝目标的逐层分解,它本身是封建社会最大的政治——皇权政治在特定层级政府、政府官员中的表现。

(2)政府绩效评估均不计成本。绩效评估的投入与产出是指在评估过程中,一定要保证从评估系统设计到评估实施产生绩效评估报告,整个过程中所花费的各种成本要小于其收益。假设绩效评估整个流程的投入为a,收益为b,则必须a<b(a>0,b>0),这就是绩效评估中的基本成本原则。遍观各个历史时期,并未发现相关记载。故此我们可以推断,历史上的评估并无成本意识,只是以政治安定为目标的控制性评估,评估被看成了一种政治保障活动,可以不计成本,这就如同政治行为中的革命活动,发起者往往为求一胜而不计一切成本。

(3)政府绩效评估基本上没有信度、效度保障。纵观我国历史上各个时期,并未推出信度、效度保证措施,哪怕是很简单的表面效度、重测效度这种最容易保证的项目都缺乏保障措施。朱元璋发明大写数字壹、贰、叁等,用来防止在评估、“大计”中篡改账本等作法,可以看作是在信度、效度保障方面的有益探索,但这较之于“上下五千年”的悠久历史,廖若晨星。总体而言,是缺乏信度、效度保障的。这大概可以解释为什么从宋代开始,绩效评估逐渐变成了年资评估,从而使得绩效评估流于形式了。

三、我国历史上政府绩效评估的经验、教训与遗弊

漫漫中华文明史,悠悠神州五千年。尽管我国在历史上的绝大多数时期都处于国际领跑者角色,但我们必须正视,自1820年之后我国逐渐落后于世界先进国家的现实,这也是政府组织绩效落后的直观体现。历史上我国政府组织绩效优异离不开绩效评估的促动,各种作法不乏可取之处;与之相反,政府绩效不彰也与不良的绩效评估不无关系;各种不良作法,不乏教训,其遗弊至今尚存。笔者将经验和遗弊在表1的基础上总结出了表2。

1、“评估类型”主要是教训和遗弊,且影响深远而巨大

历史上的绩效评估基本上都属于针对行政人员个人的评估,它的积极意义在于重视了政府管理中“以人为本”的要求,符合科学管理原理中“人、财、物”要素的基本要求和马克思主义所倡导的“世间一切事物中,人是第一可宝贵的”人本哲学原则,重视了从人的方面保证政府效率和“为民作主”,这是非常值得肯定的经验。但我们也不得不正视它对组织绩效和项目绩效的忽视。这种评估模式是一种简单、机械的线性思维,其哲学逻辑是高绩效的官员必然带来高绩效的政府,但它忽视了政府管理与其他领域的管理一样,首先应该遵循系统原理。实际上,政府管理可以用如下4种函数关系式表示:

表2 我国历史上的政府绩效评估经验、教训、遗弊及继承之道

(1)和 (2)式中的x表示参与政府管理的行政人员。实际上,(1)代表的这种一元线性模式只适合于政府仅有1名行政人员的情况,在此情况下,政府组织绩效取决于该行政人员的绩效,而我国历史上的政府绩效评估正是将此逻辑作为评估的元指导思想。但除了《鲁宾逊漂流记》中的“荒岛政府”,几乎没有第二个政府只有1名行政官员,它代表了一种极端的政府绩效评估,现实情况则更多如 (2)所示:政府管理是由多人进行,这样个人与组织绩效的关系就彻底复杂化了,在这种情况下,可能会是 (2-1)所表示的线性关系,而且还受扰动量的影响;也可能是如 (2-2)所示的曲线关系;更可能是 (2-3)所示的对数关系……甚至还存在如 (2-4)表示的非确定性关系 (NS),它表示政府管理完全是一种经验、一种艺术,是德鲁克(Drucker)所倡导的一个个经验案例和汤姆·彼得斯 (Thomas J.Peters)所宣扬的“全是重大的试验,是还在进行中的工作,是一席变化着的盛宴,一个与时俱进的进化故事”和“唯有天晓得”(God alone knows)与“大胆闯 (screw around vigorously)”的原则①T.J.Peters,Re- imagine:Business Excellence in a Disruptive Age.London:Dorling Kindersley,2003,pp.57 -65.。在如此复杂的关系下,仅仅以对官员个人的绩效评估来代替对政府各方面的绩效评估,显然过于简单化、机械化。

(3)式代表的是政府管理的投入要素与产出绩效的复杂性,政府投入人 (H)、财 (F)、物(M)进行日常运行及管理,其产出大多表现为公共项目。在这些项目运行中,人如何管理、财如何发挥功用、物如何促进运作以及它们与总体绩效的关系如何,都是一个黑箱 (black box),它需要进行就事论事的研究。不同政府的“黑箱”内容千差万别,需要进行有的放矢的评估,而不是千篇一律以某个特有的绩效评估系统来评估所有不同地域、不同层级、不同部门的政府绩效。(4)式代表的是政府管理的运行职能及其绩效结果。我们按照孔茨的理论将管理职能划分为计划 (P)、组织 (O)、人事 (H)、领导 (L)、控制 (C),以此来探究政府职能运行与绩效结果的关系。与前述类似,一旦职能开始运行,就开始了一个“黑箱”,如何将这个“黑箱”透明化,则是一个因地、因时、因部门、因层级而不同的实践。由于忽视了 (2)、(3)、(4)式所代表的情况,我国历史上将 (1)式代表的极端情况普遍化,这对后世的影响极大。目前进行的各种绩效评估,也都是重个人考核而轻视项目、组织绩效评估。影响力巨大的“德、能、勤、绩、廉”评估,实际上仅是由中组部针对个人所提出的评估指标。截至目前,我国政府实务界、学术界依然没有开发出令人信服的政府组织、项目绩效评估体系,就是这种遗弊所致。

2、“评估主体”、“评估结果应用”一半是经验,一半是遗弊

历史上不同时期都设有专门的政府绩效评估机构,且由特定法律或皇帝直接授予其评估权限,这就保证了评估的权威性,可以降低被评估者向评估主体讨价还价的可能性,减少被评估者作假、阳奉阴违等不良现象,是非常值得学习的经验。然而,由于评估主体均来自本系统的上级或皇帝,这使得评估很难摆脱“自己人评自己人”的窠臼,不能真正发挥绩效评估的监督、干预、激励功能。这亦造成了我国政府组织普遍抵触甚至拒绝外部评估的现象。目前我国政府绩效评估仍然以内部评估为主,尽管个别地方如兰州、广州有了非政府评估的苗头,但由于评估者受政府资助,仍然不是真正意义上的非政府评估,此遗弊消解尚需时日。

在“评估结果应用”上,历史经验颇为符合现代人力资源管理理论和绩效评估理论。在应用过程中,既有针对称职、勤勉、忠心、“为民”等“良政”进行晋升、奖励等正激励,也有针对不称职、贪污、腐败等“劣政”进行降职、开除直至杀头的负激励,这可以促进不同层级政府推出“良政”,抑制“劣政”的输出,起到了科学管理所倡导的“及时控制”的作用。但它忽视了绩效评估结果应用中的战略规划、预算和财政管理、工作项目管理、绩效管理、质量和过程改进、公众交流沟通和干预等功能,这直接影响了后世的绩效评估。目前我国很少将评估结果用于干预日常管理、与公众交流沟通,就是这种遗弊的表现。

3、“评估系统设计与实施过程”的经验多于遗弊

我国不同历史时期都制定了规制绩效评估的法律体系,也都开发了评估的总体蓝图,并确定了特定的绩效评估系统和指标体系;且能够在确保皇帝、专司机构、上级认可的情况下全面实施绩效评估。这一系列作法,即使在目前也未能完全实现;而美国的《政府绩效与结果法案》也仅仅是1993年出台,1996年才推出GPP评价模式。历史上的这些作法,较之国外,更适合我国特有的东方文化,其当代价值更大。此环节的遗弊主要是评估指标单一。从史料来看,“六计”、“五善五失”、“六条课郡法”等指标体系都显得简单化,目前的“德、能、勤、绩、廉”式简单化考评,不能不说受此影响。另外,历史上也忽视了对作为行政相对人的民意的评估,缺乏“民”的认同,目前这种不良作法仍然司空见惯。历史上的评估实施走样,致使评估倒向了年资指标,成了变相的年资评估,这种恶习亘古未绝,以至于在干部“四化”之后,去“老年化”仍然是个大问题。“嘴上没毛,办事不牢”就是这种遗弊的写照。

4、“评估方法”基本上是有益作法而“评估目的”基本上是遗弊

我国历史上政府绩效评估以量化为主,是难能可贵的经验。一直以来,将政府绩效评估数量化都是世界性难题,而我国古代却较好地运用了量化方法,而且也大大促进了政府绩效评估,这非常值得借鉴并发扬光大。古代“评估目的”以政治控制为主,尽管这保证了政府官员的正直忠诚,但却将政治目标等同于所有政府目标,造成了政府活动的“泛政治化”和“唯政治”是从。实际上,政府需要解决社会、经济、文化、政治、环境等多方面问题,需要综合性目标。这种遗弊目前仍然困扰着我国政府绩效评估实践。近年来GDP导向的绩效评估并非是以经济为导向,而是因为“抓经济”变成了各级政府的最大政治,而“抓经济”的载体是GDP。

5、“评估成本”、“评估实施”完全是遗弊

我国历史上的政府绩效评估基本上没有作出任何成本收益考量,是完全不计成本的作法,把绩效评估变成了如同革命一样的纯政治活动;在评估实施中,几乎不采取任何信度、效度保证措施,这使得评估流于形式。这种遗弊在目前的影响依然很大,我们动辄可以看到的“万人评议政府”、“万人评议机关”等不计成本、不讲可信度的绩效评估,就是这种流弊在作怪。

6、“评估实施”、“评估结果报告”主要是有益经验

我国不同时期的政府绩效评估特别注意评估时机的选择,既有过程绩效评估式的“抽查”、“巡查”、“访察”,也有结果绩效评估式的每年评估、三年期评估,还有行政行为实施一段时间后的“后绩效评估”。即使在现代社会,这些时机选择也属于很科学的作法。唯一不足的是,对“预绩效评估”重视不够,这造成了我国向来不重视“绩效预算”、“绩效目标”等预绩效评估措施。“评估结果报告”对当代的价值也远大于遗弊。历史上的绩效报告书中将取得的绩效与之前的绩效对比,以发展的目光看问题;或者在报告书中将取得的绩效与某一标准对比,保证了行政目标的实现。这两种作法在现代评估学上属于“纵向对比型”和“达标型”评估,符合科学管理原理,对目前推进绩效评估仍然有很强的借鉴意义。不足的是,这种作法忽视了“横向对比型”绩效报告,忽视了以兄弟政府作为标杆来撰写绩效报告书,以至于逐渐形成了忽视地方政府良性竞争的流弊。

四、结语:继承之道

我们不能苛求古人,而需要用批判的立场、借鉴的视野来看待先人的作法,努力作到将经验发扬光大,将遗弊根除,站在古人的肩上,古为今用,以促进当前政府绩效评估的发展。

第一,在评估类型上,要在继承政府官员个体绩效评估的基础上大力推行组织绩效评估和项目绩效评估。尤其要加大组织绩效评估,以走出“一个人是一条龙,一群人是一条虫”的怪圈,利用组织绩效评估来解决政府中的人民好干部多,但政府整体形象一般的现状。第二,在评估主体上,要设立专门的权威评估机构。可以设立类似于历史上御史台这样既具有权威性,又有相对独立性的评估机构,可以将其命名为“国家公共绩效评价局”,但设于国家权力机关人民代表大会之下。该局专门从事各种公共组织的绩效评估工作,并利用评估结果及时指导、改进各种公共组织的管理工作。在此基础上,还要扩大绩效评估的参与主体,在引入第三方评估的同时,特别要扩大人民参与绩效评估的参与度,实现评估中人民当家作主。第三,在评估系统设计与实施过程中,首先需要同时确保管理者与行政相对人的双方认同,不能让绩效评估成为政府自我包装的脂粉和政府“自我服务”的工具,同时还要兼顾“顾客”即行政相对人满意;还要借鉴历史经验和经合组织 (OECD)国家的作法,出台专门的政府绩效评估法案。我们建议出台《公共部门绩效评估法》;同时,还要制定科学的评估系统和参数,开发科学的绩效评估指标体系,力争制定出一套具有参照意义的可与《卓越绩效标准》媲美的政府绩效标准,并以GBG(政府国标)的形式颁行全国。第四,借鉴古代全面量化方法,将平时不予量化的行政文化、组织廉洁等也转变为可量化考核的指标体系。第五,吸收以政治导向为目的的“合理内核”,将“为人民服务”、“人民答应不答应”、“人民满意不满意”、“立党为公、执政为民”纳入评价体系,同时要戒除只重视政治,而忽视对社会和谐、经济繁荣、文化昌盛等目标的评估。第六,开展对政府绩效评估的“绩效评估”,将投入/产出观念贯彻到绩效评估活动中去,特别要注意将评估中所涉及的时间、物资、人力等各种成本与最终绩效评估所取得的收益进行比较,保证绩效评估的效能。第七,在评估时机选择上,要加强政府绩效预算、绩效目标管理等预绩效评估工作。第八,在实施过程中,要开发出科学的评价指标体系以保证内容效度,也需要借助因子分析、主成分分析、结构方程等解决好评估指标体系的结构效度,还需要在不同指标体系间解决好关联效度问题;在保证效度的情况下,可以应用同一评估系统对同一评估对象前后两次评估来保证重测信度,可以设计两个不同的评估系统对同一对象进行评估来保证复本信度,也可以将评估对象按照随机原则分成两半进行评估,从而保证折半信度。第九,在评估报告中,继续保持纵向对比、“达标性”对比的优良传统,同时引入政府间的横向对比,充分发挥政府间的良性竞争。第十,继续保持正负激励的有益作法,同时扩大绩效评估结果在政府战略规划、预算管理、工作项目管理、质量和过程改进、合同管理、外部标杆管理、公众交流沟通等方面的应用,特别要发挥结果应用的“干涉”功能,及时干预“劣政”、“劣官”,防患于未然,或作到亡羊补牢。

猜你喜欢
评估政府
第四代评估理论对我国学科评估的启示
知法犯法的政府副秘书长
依靠政府,我们才能有所作为
用“打包法”衡量政府投入不科学
政府手里有三种工具
政府必须真正落实责任
评估依据
双信封制和综合评估制各有千秋
立法后评估:且行且尽善
最终评估