苏峻青
摘 要 本文针对当前公共权力运行中出现的各类职业腐败风险问题,结合预防职业腐败风险系统建设工程研究,将数据挖掘技术引入职业腐败风险防控系统建设中,探讨运用更为科学管用的数据挖掘算法,编织一个监督权力滥用的“电笼子”,筛选、抽取公共权力腐败风险的预警信息,强化苗头性问题监管,从源头上防范职业腐败风险问题发生。
关键词 数据挖掘 预防职业腐败 科技手段 信息平台
中图分类号:TP311.13 文献标识码:A
0 引言
在云计算和信息时代,“大数据”对于公共管理显得日益重要。有效的公共管理和权力监督,越来越依赖于公共部门对来自外部世界各类信息数据可靠的、高质量的解读。在预防公共职业权力腐败方面,如何充公运用GB或TB数量级庞大、海量的公共权力运行信息数据进行分析,实现对公共管理腐败风险的实时监测、预警纠错、动态跟踪,从源头上预防腐败风险发生,已经成为纪检监察机关研究和关注的重要课题。
1 基于数据挖掘技术的预防职业腐败风险系统的构建
预防职业腐败风险系统,就是将公共权力运行和监督数据全部集中统一起来,形成公共权力运行与监督数据仓库,运用数据挖掘技术,建立综合分析和预警功能模块,对权力运行实行网络化监督监察,保证公共权力公开、公平、公正地行使。
1.1 预防职业腐败风险数据的准备
数据选择。预防职业腐败风险系统是基于公共权力基础数据库和舆论监督数据库挖掘的预警平台。其中,公共权力基础数据库主要是面向电子政务的大型公共权力运行数据库及相关文件,具体包括行政审批、行政执法、行政征收、公共资源交易、公共资金管理、行政确认、行政裁决、三重一大事项决策与运行、基层农村“三资”管理等数据库,涵盖各类公共权力事项、流程、时限、结果等权力运行要素信息;舆论监督基础数据主要指与互联网交互的投诉举报和舆情监督数据库,具体包括效能投诉、行风投诉、信访举报以及网站论坛、博客、新闻评论、社交网络等基于Web的分散的网络舆情数据库。在上述两类基础数据库中,有的属于关系型数据库,有的是面向对象的数据库,还有的是Web数据或TEXT文本数据源、多媒体数据库、空间数据库、时态数据库等。根据预防腐败风险知识发现的实际需要,可以选择以上各类基础数据库的一种或几种,作为备选源数据库。
图 1 云计算模式下的预防职业腐败风险平台数据挖掘过程示意图
数据清洗、抽取、转换。在弄清公共权力源数据的信息及其结构的基础上,通过清洗,去除或修补公共权力运行源数据中那些不完整、不一致或含有噪音的数据。然后界定所选取的公共权力数据源及数据抽取规则及新抽取数据的数据库结构,建立抽取数据库与公共权力基础数据库之间的转换和装载机制,以便让系统能够自动、实时、准确地从每个公共权力数据源中抽取纪检监察机关所需的风险数据。这些被抽取的风险数据库的数据结构、数据转换规则等信息应当作为元数据(Metadata)被封装、存储起来,以便将来根据挖掘需求及时作出调整。在数据抽取过程中,应当全面掌握公共权力数据源的详细结构及特点,任何小的疏忽都可能导致职业腐败风险数据抽取的失败。由于各类基础数据库一般来自不同公共权力运行部门,这些数据库往往具有异质异构的特征,而数据库基础信息的完备性直接影响预防职业腐败风险系统平台的建设质量和应用效果。因此,需要按照统一确定的基础数据库标准,将各部门的异构异质数据库转换为符合统一标准要求的数据,最后集成到待挖掘的目标数据库中。
1.2 预防职业腐败风险数据的挖掘
结合预防腐败风险系统建设,根据数据类型、特点,选取特定的挖掘模型与算法,运用数据挖掘SaaS云服务部件,对清洗、抽取和转换后的数据进行挖掘,对规格化的目标数据集进行知识提炼,分析出腐败风险发生的趋势、规律、特点、关键部位、关键点行业,以量化或图线等形式生成数据结果,形成纪检监察人员关心关注的风险数据集,用于实现不同抽象层次、适应于不同维度的风险数据分析和辅助决策;对系统预警风险或违规问题,按照相应的工作程序进行查处。具体地讲,预防职业腐败风险系统通过数据挖掘算法,一是对各类公共权力基础数据库进行关联分析、聚类分析、分类、预测和偏差分析,及时识别各级公共组织行使公共权力、管理公共事务的行为是否正确、及时、公开、公平、公正,发现依法浪费或权力滥用问题;二是发挥预测分析功能,找出职业腐败风险的重点领域和关键环节并加强监督,帮助公务人员及时规避错误;三是汇总反馈公众对公共管理和服务的新诉求,引导和督促公共管理领域加强严格自律,更加有效地履行公共服务职能,从而构建起预防职务风险的前期预警机制,使反腐倡廉工作从事后监督向风险防控等事前、事中监督转变。在预防职业腐败风险平台建设中,主要应用到以下数据挖掘算法。
(1)关联规则(Association Analysis)。通过简单关联、时序关联、因果关联等方法,找出预防职业腐败风险数据库中不同数据变量之间关联的规律性,即一种腐败行为与另一种腐败行为发生的支持依赖关系,建立腐败风险数据的频繁项集。例如行政审批环节过多、服务质量差与行政审批效率低之间的关联关系;不依法使用规范票据罚款收费与私设“小金库”之间的关联关系;不认真落实民主集中制度与“三重一大”事项管理混乱之间的关联关系等。通过对这些关联关系进行分析,帮助有针对性查找分析影响腐败风险的关键因素。
(2)分类分析(Classification Analysis)。包括决策树方法、神经网络方法等算法。其中,决策树方法适用于对数据分类进行分析和预测的领域,比如若将所有部门工作人员发生的腐败问题作为一个整体来考虑,按照违规问题情节轻重进行分类,可将其分为严重型、较重型、一般型、较轻型、苗头型等多种类型的违规行为。针对不同类型的违规行为,纪检监察机关可采取相应的防范或惩戒措施。神经网络法适用于识别哪些部门属于重点防控部门、哪些权力属于重点防范的权力,例如运用自组织特征映射网络(Self-organizing feature Map,SOM),通过输入某部门的公共权力运行种类、权力数量、行使频度、公开透明数量、电子监察发现的违规问题数量、被投诉举报的信访数量等信息,系统根据事先确定的各个参数重要性的权重(Wi),最终计算并输出该部门发生腐败风险的机率,从而通过该机率和相关标准,判断该部门应当属于严密监察部门或重点监察部门,还是一般监控部门,从而帮助纪检监察机关根据不同情况采取相应措施对其加以防范。
(3)聚类分析(Clustering Analysis)。根据监察监督数据的相似性,从公共权力、行业部门、监察类型等不同维度,对监察监督数据进行归纳,聚合为若干未知类别,帮助纪检监察机关揭示隐含在监察监督数据背后的风险分布模式、发展变化规律及其相互关系,从而发现腐败风险集中的部门、风险集中的环节、风险集中的问题,增强预防腐败的针对性。例如,在行政处罚电子监察系统建设中,通过对工作流程监察事项的聚类分析发现,“调查取证”、“作出处罚决定”阶段办事效率太低是造成办案“时限超期”的重点因素,那么,就应当在这些阶段加强对执法人员的提醒,防止执法人员在这些环节上发生效率低下、吃拿卡要报等风险问题。
(4)“预测”。运用该算法,可以在对已发生的腐败问题历史数据进行分析的基础上,找出腐败行为的变化规律,据此对权力运行及腐败风险突出问题及未来发展态势进行研判,为纪检监察机关从源头上预防腐败蔓延提供决策依据。在预防腐败风险系统建设中,可采用灰色—马尔科夫模型算法,对过去几年或十几年发生的信访举报、网络舆情、电子监察异常等腐败风险数据进行分析,对未来一段时间内某领域、某部门或某项公共权力发生腐败风险的趋势进行预测,使纪检监察机关更有针对性地明确监管重点,防患于未然。
(5)“偏差分析”。就是充分运行计算机高速、高效的特点,通过记录搜索等技术,从大量的公共权力基础数据库中,对照正常运行的规则进行“偏差”监测和分析,找出各项权力存在的异常、异动、违规情况的“偏差点”和“独立点”,为查处腐败风险问题提供案源线索。目前,在已建的行政审批、行政处罚、公共资金、公共资源交易电子监察系统中,多数都采用了这种算法,发现了诸多电子监察预警信息,为促进行政权力规范运行发挥了重要作用。
1.3 预防职业腐败风险模型的评估
为了提高预防腐败风险系统的针对性和实效性,需要对数据挖掘工作进行反复测试,通过实验和训练得到浓缩的知识,对风险预防模式特别是数据挖掘模式进行评估,验证知识模型的有效性,为预防腐败系统平台提供科学准确的模型,形成标准的模型库,作为电子政务“云”资源池中的SaaS服务部件,为各级各纪检监察机关采集监察数据时予以调用或重用。