崔啸
大数据一词在计算机术语中叫做“巨量数据集合”,从字面即可看出其最基本的便是“巨量数据”。并且这些“巨量数据”具备四个特点,亦是被广泛认可的4V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。而在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法。无论对大数据一词理解有何不同,其归根结底不在于数据简单的庞大,而是能够应用专业且有效的方法、手段从庞大的数据中分析和总结出具有规律性的信息,从而应用到实践中。
我国早在西周时就已出现了类似于行政监督的法律规文,并成书于东周的《周官》,其记载了行政职责的划分和对各地方权力的划分。在近代孙中山先生在《五权jh宪法》中提出了国家机关除设立立法、司法、行政机构外,还有设立考试和检查两大机构,进一步促进了我国行政监督的发展。现如今我国行政监督经过了数千年的发展,并采纳东西方之所长,逐渐形成了政党监督、国家权力机关监督、司法监督、社会团体监督、群众监督、舆论监督和审计监督几大方面,已经形成一套覆盖全面、行之有效的系统。并且自1992年国务院办公室下发文件《国务院办公厅关于建设全国政府行政首脑机关办公决策服务系统的通知》首次提起政府机关信息化,至2001年国务院办公厅制定全国政府系统政务信息化建设的五年计划,即《全国政府信息化建设2001-2005年规划纲要》正式对我国政府信息化的指导思想、方针和政策作出了明确的规定,也正式标志着我国政府信息化进入了高速发展阶段。而特别是基层政府部门中政府信息化普及率的提高,增加了相关数据库的数量,扩展了相关内容类别,丰富了信息获取手段。
2015年3月5日上午十二届全国人大三次会议上,李克强总理在政府工作报告中首次提出”互联网+”行动计划。李克强总理在政府工作报告中提出,制定”互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等雨现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。由此可以看出”互联网+”的提出将要改变中国信息资源与其产生的利益的重新分配,而对行使社会利益分配功能的公共政策的监督,如何保证分配符合规定透明执行的监督方面将面临巨大挑战。现如今较为落后的监督方法必须得以进步才能跟上执行”互联网+”后相关执行部门的脚步。然而随着大数据经过三十年逐步发展,并且随着我国政府已经进入政府信息化的高速发展阶段,有效数据逐步增加,将大数据应用于行中监督中无疑成为提高我国行政监督能力的有效途径。
一、大数据中数据仓库技术在行政监督中应用分析
数据仓库是一种数据库,它与其链接的单位数据库分别进行维护。数仓库系统允许将各种系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。并且数据仓库中的数据应围绕主题组织。数据存储是从历史的角度提供信息,并且是汇总的。例如,数据仓库中存放的并不是各级政府具体某一部门中的某一位人员办公的细节,而是存放每个行政类别、每个部门办公事务的汇总,或汇总到较高层次,即各市级政府、各省级政府的办公事务的汇总。简单来说,数据仓库是一个从多个数据源收集信息的存储库,存放在已知的模式下,并且通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造一个链接多个单独数据库的数据仓库。
数据仓库是一个面向主题的、集成的、事变的、非易失的数据集合。第一,面向主题的是指数据仓库主要是围绕重要的主题,如政府办公人员、政府部门、行政权力被执行者。数据仓库关注决策者(监督权利执行者)的数据建模与分析,而不是戴维的日常操作和事务处理。因此,数据仓库通常能够排除对于决策者无用的数据,提供特定主题的简明信息。加快了监督执行人员执行监督过程中对特定主题查询的速度。第二,集成的是指数据仓库使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。提高了数据库中政府信息的条理性。第三、时变的是指数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显示的包含时间因素。第四,非易失的是指数据仓库总是无理地分离存放数据,这些数据源于操作环境下的应用数据。由于这些分离式的存储,数据仓库不需要事务处理、恢复和并发控制机制,它只需要数据的初始化装入和数据访问。简化了监督执行人员操作的复杂性。
二、大数据中数据挖掘技术对行政监督的应用分析
行政监督主要是国家机关、社会团体或个人对国家行政机关及其公务人员的行政行为进行约束、检查和督促。而现今行政监督主要局限于事后监督,无法行之有效的在事件发生前进行预测和预防,因此在大数据环境下,我国行政监督应对大量数据进行分析,从而能够实现事前预防和对于重点对象的预测。
重点行政监督对象预测主要目标是为了缩小监督的范围,提升监督的预判性,加强监督的针对性。重点行政监督对象的预测主要强调的是预测,强调对未发生情况的“未卜先知”,而任何对未来的预测都是建立在对现有或之前事件的分析与总结之上,凭空猜测是有失偏颇又毫无依据的。因此,对重点行政监督对象的预测需要对相关数据进行切实有效且逻辑严谨的分析。在政府信息化高速发展的环境下,政府机关及其公务人员的相关数据呈现井喷式的上涨,其中虽有着大量有效信息,但伴随着有效信息的却是几何倍数的无关信息。故而仅仅依靠人力从大量数据之中提取出对预测重点行政监督目标切实有效的信息将会花费大量的人力和财力却可能无法得出准确的结果。所以为了能够迅速缩小监督范围或是准确的确定重点监督目标,应运用数据挖掘技术。
数据挖掘具有描述和预测两种性质。描述性能够刻画出目标数据中数据的一般性质,预测性能够在当前数据上进行归纳,以便作出预测。数据挖掘的描述性能够通过对政府各个部门及其公务员所产生的数据进行统计并加以分析,得出其部门内部或其公务员在行使其行政权力时忽略的不足之处或是不正确之处发生于何种情况、何种时间、关联人物等结论,极大的缩小了监督的范围。数据挖掘的预测行是通过对政府各部门及其公务员现有数据进行分析而得出去未来将要出现结果的预测,通过预测出的结果对现有状况进行反推,能够更加清晰的反应出现阶段应该着重监督的目标与方向。
通过数据挖掘对监督对象进行预测主要运用分类分析法。而在分类法中运用较为广泛,准确率较高的即为”决策树归纳法”。
决策树是一种类似于流程图的树结构,其中,每个内部节点表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶节点存放一个类标号,树的最顶层节点是根节点。将决策树归纳法运用于行政监督对象预测中的主要原因是决策树可以处理高维数据。获取的数据用树的形式表示是直观的,容易被监督执行人员所理解的,并且决策树归纳法在具有良好准确率的前提下的学习和分类步骤是简单和快速的。因此将数据挖掘应用于行政监督的重点监督对象预测是可行的亦是对行政监督有深远意义的。
综上所述,基于现今各种数据爆发的大环境下,将大数据应用于行政监督中降低了行政监督执行的成本,丰富了行政监督的手段,提高了行政监督的准确率。因此,将大数据应用于行政监督中是现实的需求,亦是政府信息化发展的必要结果。(作者单位:湘潭大学)