刘泽照 朱正威
(西安交通大学 公共政策与管理学院,陕西西安 710049)
自从四川遂宁首创重大工程项目社会稳定风险评估(以下简称“稳评”)工作以来,该项制度无论理论抑或实践均在探索中得以丰富发展,当前“稳评”作为中国社会转型期风险治理创新的重要手段已实现了地区“全覆盖”的既定目标。①中央维稳办召开全国社会稳定风险评估工作座谈会,《法制网》,2012-09-13.Http://www.legaldaily.com.cn/index/content/2012-09/13/content_3841267.htm?node=20908.按照现有制度设计和运行模式,对于重大事项社会风险的预判及等级划定是“稳评”的关键组成步骤,以此确立最终评估结论及公共决策事项的走向依据,而如何保障评估结果的科学性、精准性也成为“稳评”制度不可回避的焦点问题②刘泽照、朱正威:《中国社会稳定风险评估实践框架及关键着力点》,《西南大学学报(社会科学版)》2014年第5期。,其中评估数据状况是核心要素之一。当前,社会风险衍生、传播、扩散的渠道日益复杂,愈发显现出链式反应和随机性特征,利益诉求多元,风险信息混杂,这使“稳评”面临的外部评估环境发生新的变化,同时也为基于数据的风险评估创造了更大的应用潜力和拓展空间。大数据,作为一种新兴的数据处理技术与认知思维,近年来获得国际理论界和实务界的高度推崇,被认为是决策支持的有力工具。在公共管理领域,大数据注重集成提炼社会方方面面的“民意信息”,更加强调现实与网络世界的深度融合,有利于形成用数据分析、用数据决策的风险评估模式和理念,对于提高时下“稳评”的科学有效性和群体认同度具有积极意义。大数据为“稳评”的研究及应用实践提供了一个新的可能路径。
无疑,伴随当代社交网络的兴起及云计算、移动互联网、物联网等新一代信息技术的广泛应用,数据已经渗透到社会各个行业和业务职能组成,包括政府公共治理领域,大数据正在成为当代国家战略性资源。①李国杰、程学旗:《大数据研究:未来科技及经济社会发展的重大战略领域——大数据研究现状与科学思考》,《中国科学院院刊》2012年第6期。按照大数据思维,每一个数据都被视为一个节点,无限次地与网络间关联数据形成裂变式传播路径,其间的关联状态蕴含着风险扩散的无限可能性,对于这一动态变化,可以通过一定的科学手段,挖掘出具有核心价值的重要信息,从而有助于作出更为精准的风险判断。现实中,美国作为全球大数据领域的先行者,在运用大数据手段化解社会纠纷、预防及打击犯罪、维护国家安全方面取得了显著成效,大大提高了社会“维稳”工作的总体质量。②安晖:《美国大数据维稳镜鉴》,《人民论坛》2014年第2期。大数据的迅猛发展使得当今的网络环境成为一个巨大的精准映射并持续记录不同个体行为特征的数字世界,其中所蕴藏大量数据信息为深刻理解公众风险感知的心理层面(如焦虑、恐惧等),文化层面(社会信任等)的隐性规律提供了强有力的研究依托,对其进行挖掘在一定程度上可为政府公共决策风险预测评估提供支持。
重大事项社会稳定风险评估作为一项实践性极强的系统工程,建立在一套完整的规范体系之上,而风险等级的判定是评估程序中的核心构成。一直以来,既有的政策引导及地方实践,多倡导通过问卷调查、实地走访、座谈、听证、公示等方式听取多方意见,以此权衡并确立评估结果,划定风险等级。③蒋俊杰:《我国重大事项社会稳定风险评估机制:现状、难点与对策》,《上海行政学院学报》2014年第2期。现实表明,上述方法获取的数据不可避免带有较强的主观经验性,样本抽样方式的固有局限往往“稀释”了社会问题镜像的全貌,很难突破片面化、单一化、静态化的传统信息数据弊端。尤其在现代社会动态、立体化的网络环境下,复杂个体的“异质性”心理与行为表现极为突出,因重大决策诱发的风险信息常常借助自媒体的独特优势快速扩散、交互,短时间内形成数量巨大、形态多样的舆情数据,以强大开放的渗透力影响到事态变化,仅仅依靠传统样本式调查取证很难完全把握公众的真实态度和行为演变过程,加剧采集数据的时间滞后性而导致风险“测不准”。时下,尽管一些地区“稳评”实践中已开始强调加强网络舆情平台的信息监测,但依然多集中在以往结构化的文本语言信息上,而较少关注图像、视频、音频、点击流等半结构化或非结构化的数据内容,忽视了复杂多变的社会关系网络中隐藏的公共态度、诉求及行为趋势特征,故数据的大面积“遗漏”进一步扩大了“稳评”风险探测的工作误差。
事实上,与传统环境评估和项目安全评估不同的是,社会稳定风险评估绝非单一技术导向,更多面临着复杂社会个体心理与行为动态性的挑战,而这一挑战在当代网络化环境下表现得更加突出,实现“稳评”制度运行由“线下”向“线上”转型,由舆情监测向风险预测转型便显得十分紧迫,大数据为这一转型提供了现实可能和动力。显然,数据背后往往是动态变化的个体行为轨迹,研究利用大数据实际上是探索复杂社会网络间的个体及群体性行为趋向,运用到“稳评”领域,其预测的价值实现就是对因某一特定外部冲击引发的舆情关系进行关联,不仅仅关注传统意义上的因果关系,而更多关注数据间的相关关系。按照大数据理念,将突破现有“稳评”采集数据偏于样本信息的不足,转而深度挖掘重大事项目标相关的所有看似不相干的数据信息,譬如个体兴趣爱好、学历水平、体貌特征、社会关系、既往行为事实等全面的综合数据,为系统分析背后的个体态度倾向及舆情演化态势拓展空间。换言之,“稳评”的数据来源不限于表层体现“因果关系”的抽样数据,更要延伸至立足全体的,把握复杂社会网络中“相关关系”的多模态数据。
一直以来,不同业务领域风险评估过程中不同程度面临数据范围与时效滞后性的限制,从而影响到评估的现实质量,导致“信息失真”,“稳评”同样面临此类障碍,从空间和时间维度提升数据层次是今后“稳评”研究实践的必然趋势。从理论研究与地方实践出发,尽管对于“稳评”操作方法和具体工具的运用不尽相同,但大致上均落脚于定量技术与定性技术两大类,不少学者尤其强调建立及完善系统评估指标的思路。①②③董幼鸿:《重大事项社会稳定风险评估制度的实践与完善》,《中国行政管理》2011年第12期。对于重大决策(如工程项目、公共政策)出台前后的社会安全态势把握,实践中一般采用实地调查、公开听证、专家打分和利益相关者协商等方式,辅之以简单描述性统计分析,并在特定领域结合类似案例剖析,该种思路实质上是要素比较法、数值排序法的评估应用,容易受到主观经验性思维影响,甚至内部“人为操纵”干扰。更深层次的评估手段主要是指数评价,依托于评价模型和指标体系,按一定规则通过抽取数据纳入模型而达到风险源识别的目的。此类数据来源集中体现在二手报告资料、问卷、量表、质性访谈等途径,同样面临信度、效度的测量误差,该环节中指标体系的选择与确定颇具争议。目前针对“稳评”的评估指标选取设置、指标权重、关键识别技术大多未经系统论证,多处于理论探讨及试验层面,尚未真正大规模应用于“稳评”实践。同时,评估指标的静态性特征,数据采集的抽样限制也使这一工具方法现实中难以避免时效性差、权威度低的局限,降低了对长期趋势和波动幅度的可预测性④Sheldon,Eleanor B.&freeman,Howard E.“Notes on Social Indicators:Promises and Potential”,Policy Sciences,Vol.1,No.1,1970,PP.97-111.,无法获取持续的、周期性的观测数据。更为关键的是,偏于线性因果关系指标评估体系往往忽视了对社会行为的文化和集体心理方向的测度⑤Firestone,Joseph M.“The Development of Social Indicators from Content Analysis of Social Documents”.Policy Sciences,Vol.3,No.2,1972,PP.249-263.,而个体行为的情绪心理层面具有典型的非线性特征,恰恰是“稳评”中最为重要的评测方向。基于客观现实,现有“稳评”工具方法已不能适应信息网络时代和社会转型期的变革发展要求,需要尝试应用新的数据分析技术,快速精准地采集、发现复杂群体交互中的隐性信息,从面向全体而非样本的大数据中提炼预测风险行为轨迹,以实现无限逼近社会真实状态的目的。
故此,创新大数据智能评价方法,依托海量、多源、动态数据深入挖掘并揭示规律,或是突破当前“稳评”工具局限的可行路径之一。具体而言,重大决策出台前后,除了继续通过传统人工调研、听证座谈等方式获取评估数据外,要更加突出强调从网络虚拟平台摄取多源信息数据,积极将现代微博、微信、即时通信、民间论坛、贴吧、重要门户网站、专业社区等网络平台涌现出的信息数据纳入“稳评”分析及判测的综合数据库,更加重视储存挖掘各地区、各类别重大决策业已形成的社会稳定风险信息,通过对历史数据的整合、比对确定关键风险点;另一方面,鉴于“稳评”直接针对个性化的公众对象,个体间的社会网络关系演变随时会引发公众风险感知态度的变化,即数据信息呈现出一定动态不确定性,这也决定了有必要改变单纯依靠静态调研工具的单一方式,转而树立数据实时跟踪采集、持续监测反馈的全流程思路,高度关注“线上”交互情绪表达对“线下”行为的关联性影响,寻求社会稳定风险的即时线索。
立足大数据特征和产生过程,大数据来源主要以现代网络平台、智能移动终端为载体,产生的数据类型和应用处理方法千差万别,但是总体来看,大数据的价值发现规律大都体现一定相似性。中国人民大学网络与移动数据管理实验室(WAMDM)①Lab of Web and Mobile Data Management,WAMDM Homepage,[2013-07-24],Http://idke.ruc.edu.cn/index_cn.htm.开发了一个学术空间“Scholarspace”,总结出大数据处理的一般流程②孟小峰、慈祥:《大数据管理:概念、技术与挑战》,《计算机研究与发展》2013年第1期。;微软在“The Fourth Paradigm: Data -intensive Scientific Discovery”中从科学研究方法角度阐释了大数据第四范式③Tony Hey,Stewart Tansley,Kristin Tolle.The Four Paradigm,Microsoft Press,2009.PP.1-2.;英国科学技术设施研究理事会(STFC)则鲜明提出了数据密集型科学研究的生命周期模型。④How JISC Is Helping Researchers:Research Lifestyle Diagram,[2012-11-18].Http://epubs,stfc.ac,uk/bitstream/3857.借鉴国内外研究成果并结合基于数据的“稳评”实施过程,本文构建大数据环境下社会稳定风险评估体系概念框架,其主要内容包含“评估数据多维采集”、“评估数据集成挖掘”、“评估结果可视化解析”三个程序部分(见图1)。“评估数据多维采集”旨在拓展“稳评”所需支撑的多模态数据源渠道,扩大网络实时流数据的搜取和监测,保证数据的完整性;“评估数据集成挖掘”主要通过专业化手段完成采集数据清洗去噪等处理,构造风险舆情分类器,确立动态风险演化态势;“评估结果可视化解析”则进一步实现社会稳定风险判别和综合定级,并借助一定工具以可视化的形式呈现,为决策走向提供基本依据。
大数据的“大”,原本意味着数据众多,种类复杂,因此通过多种方法获取数据信息便显得尤为重要,也是大数据技术应用流程中最基础的一步。作为“稳评”信息加工的初始阶段,该程序需要完成由传统静态平面数据采集的“线下”行为向动态立体数据采集的“线上”行为转变,即不仅采用实地走访、问卷量表、听证座谈、历史文献记录等工作获得分析判断的结构化数据,更要根据现代社会风险传播演化规律,实现对包括网页语义、图片、音像视频、XML、流数据在内的半结构化和非结构化数据的全面覆盖,使之满足网络巨系统中不同公众个体间复杂交互关系的轨迹分析。对于后者,目前可用的数据采集手段主要有传感器技术、射频识别(RFID),搜索引擎分类工具,以及分布式计算系统如Hadoop、Mapreduce等,并且由于智能手机、平板电脑等移动设备的迅速普及,大量移动软件的开发应用也有助于提高“稳评”相关动态数据的采集精度。
采集到的数据信息内容同样体现出多维度:一是重大项目(政策)主体互动信息数据,即项目单位、中介方、政府部门、新闻媒体、社会组织和普通公众之间信息传递、交流沟通的过程痕迹、强度、频率、关联关系等。二是社会公众心理及行为数据,即源于重大项目、重大政策的情绪反应,主观认知“轨迹”,以及由此产生的特定风险性行为倾向,如破坏性谣言、鼓动性组织集聚等。三是同类决策时空序列数据,即跨地区、跨年度的关联性映射信息,以通过数据遍历的方式获取风险演化“背后的规律”。
图1大数据思维应用“稳评”体系概念框架
大数据理念最重要的是从大量看似杂乱、繁复的数据中,分析提炼数据足迹,以支撑社会生活的预测、规划和决策⑤刘智慧、张泉灵:《大数据技术研究综述》,《浙江大学学报(工学版)》2014年第2期。,故大数据的价值不在信息本身,而在于通过挖掘数据关联性,评估和预测未知事件,这种“先知先觉”的优势与风险评估的预期目标相一致。“评估数据集成挖掘”程序是大数据环境下“稳评”系统的核心,旨在对采集到的多维数据通过专业化手段进行清洗去噪,转换分区等处理,涵盖关联分析、倾向性判断、聚类归簇、模式识别、趋势预测等主要层面,以“沙里淘金”最大程度提炼繁杂数据中的有用价值信息。
大数据的重要特征之一是“Variety”①中国信息产业网:《大数据的四个典型特征》,2012年12月4日,Http://cyyw.cena.com.cn/a/2012-12-04/135458292978407.shtml.,即类型多样性,这就决定了经过多种渠道采集到的数据种类和结构都非常复杂,匹配度会有冲突,很可能掺杂了较多“噪音”和干扰项,例如从线上截取的个体态度行为数据,既有围绕项目政策较为明确的支持、反对和中立倾向反应,也会伴有与决策事项毫无相关的商业围观信息、私人交易、琐事痕迹,这就需要对采集数据进行清洗,以防止其对最终结果产生不利影响,常用的方法是在数据处理的过程中设计一些过滤器,通过聚类及关联规则将无用和错误的离群数据过滤掉,并建立专门数据库分门别类放置,以提高数据提取速度。在此基础上,对原始数据进一步处理分析、传统的手段有机器学习、序列模式挖掘、情感分析、智能算法以及高级统计等,更先进的技术无疑是“云计算”①陈康、郑纬民:《云计算:系统实例与研究现状》,《软件学报》2009年第5期。,包括分布式文件系统GFS,分布式数据库BigTable,批处理技术 Mapreduce,开源实现平台Hadoop等。大数据的核心技术实质上是数据挖掘技术,其关键领域离不开网络舆情的监控,构建适用于舆情挖掘的相关模型和方法,满足社交网络等复杂系统中不同舆情对象间的复杂关系探测,以实现大数据技术与舆情挖掘的有机融合。
“稳评”的目的是风险预测与防控,故在数据集成挖掘环节,必须提炼标识出风险的类型、趋势、概率,初步明确风险状态和风险爆发之间的关联度,这需要舆情聚类方法的应用支持。舆情聚类是在混杂的数据体中,根据线上数据的主要量化特征,如发生时间、评论数量、地理分布、传播频度、交互强度、褒贬倾向等,把相同或相近特征的数据归为一类,分在同一簇的数据对象具有很高相似性,不同簇间的相似性则非常低,所形成的每个舆情簇都可以视为一个舆情类,由其导出分项规则,利于对后续舆情级别进行标记进而把握风险态势。用于创建模型的舆情集即为训练集,可以用数学公式,分类规则,神经网络或判定树等模型来描述,当新的未知类别的网络舆情出现后,把舆情数据输入分类模型,由其判断实时风险的严重程度。②徐广军:《思维变革的重构:大数据视角下的网络舆论引导工作》,《人民网 -舆情频道》2014年 8月 27日,http://unn.people.com.cn/n/2014/0827/c14717-25551998.html。特别强调的是,由于时间的滞后和个体态度行为变化的动态性,重大事项事前舆情数据挖掘往往是不充分的,决策实施和运营过程中不断涌现的舆情数据可能是风险衍生的重要方面。因此,评估数据集成挖掘阶段有必要基于网络环境下生成信息进行周期性挖掘提炼,即时性展示某一时段的风险因素,以精确确立风险预控的时点,该领域的专业实现有待大数据技术的突破。
对于“稳评”一线操作的政府工作部门来说,最关心的或许并非数据的挖掘处理过程,而是对大数据分析结果的应用解释与展示,做出风险可能性和等级程度判断,并提出风险防范与化解建议。在大数据采集与集成挖掘基础上,评估系统需要引入“数据可视化技术”③戴国忠、陈为、洪文学等:《信息可视化和可视分析:挑战与机遇——北戴河信息可视化战略研讨会总结报告》,《中国科学:信息科学》2013年第1期。作为解析输出的最有力方式,帮助直观发现大数据分析中隐藏的内在价值,更方便一线人员对评估结果的理解和接受。常见的可视化技术包括基于集合的技术、基于图标的技术,面向像素的技术和分布式技术等。④⑤FRANKELD.A.,“Bigdataandriskmanagement”.Risk Management,Vol.7.No.10,2012,P.13.该领域的研究至今方兴未艾,拓展空间很大。
借助可视化技术并结合以往类同案例的剖析,确立挖掘输出结果的风险等级:一般、中等、严重、非常严重,随之为建立响应方案提供判别支持。与此同时,在利用大数据工具对评估结果解读过程中,应充分发挥多方参与的信息协同机制,鼓励引入社会机构部门、NGO、专业人士对评估结论进行更深入的参与论证,增强风险分析的准确度与认同感。
高质量的数据是大数据应用效能的前提基础,专业的数据分析工具只有在高质量的大数据环境中才能提取出隐含的、准确的、高价值的信息,政府部门使用其做出的风险决策结果才不至于偏离正常轨道,甚至发生谬误。当“稳评”数据采集源从线下迈入线上平台时,数据结构也随静态的文本形式转向了多维形式,数据之间很可能存在冲突、不一致或相互矛盾的现象,也有可能获得的是“过期”的数据。要对结构复杂的大数据内容进行整合,是一项异常艰巨的任务。由于数据的多样性,单一的数据结构已经远远不能满足大数据存储的需要,“稳评”执行部门需使用专门的数据库技术和专业的数据存储设备,以保证采集到的数据存储有效性。然而,目前我国政府公共部门绝大部分业务运行数据以结构化数据为主,相应地主要采用传统的数据存储架构,如关系型数据库,对于图象、音视频等非结构化或半结构化数据,一般均是将其二次转化后再行存储处理,该过程大大滞后于网络舆情的发展速度,也使采集数据质量很难得到有效保障。同时,大数据具有低价值密度的特征①HAMISH B.“IIIS:The‘Four Vs’of Big Data”,[2013-07-24].Http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.,网络采集到的舆情信息数据极为多样繁杂,很多时候可能意味着大量冗余“垃圾”数据的填充,会对真正有用的信息造成干扰,影响分析判断,故大数据的清洗过程需要更加高效的专业工具。这种情况下,传统的数据库技术、数据清洗技术在分析能力上已力不从心,处理小规模数据质量问题的检验工具无法适应大数据环境下的检验和识别任务。事实上,当前国内一些地区政府部门对于大数据相关技术的吸收应用多集中于分布式存储及并行计算方面,满足大数据要求的数据质量检测和清洗的智能化工具还十分稀缺②宗威、吴锋:《大数据时代下数据质量的挑战》,《西安交通大学学报(社会科学版)》2013年第5期。,这对基于大数据的“稳评”应用实践构成直接的基础性障碍。
时至今日,从事“稳评”的主体人员数据采集源依然主要停留在座谈、访问、问卷等传统样本阶段,尚未触及使用大数据技术进行深度分析和挖掘的程度,政府公共部门更处于大数据浪潮的末端,专业的“稳评”数据挖掘人员支持几乎空白。由于大数据本身的复杂性增加了大数据应用的难度,既通晓现代数据挖掘技术,同时又谙熟“稳评”运作流程和地方政府运行规制的复合型人员是当下促进“稳评”大数据应用方案最急需的人才,而对应企业私营部门却早已出现了诸如“首席数据官”(Chief Data Officer,CDO)这样的中坚群体。③Lee, Yang;Madnick, Stuart;Wang, Richard. “A Cubic Framework For The Chief Data Officer:Succeeding in A World of Big Data”.MIS Quarterly Executive.Vol.13.No.1,2014,PP.1-13.故此,大数据环境下,未来可首先考虑在政府内部舆情监测部门和信息分析中心配置、输送、发展主攻“稳评”方向的专业人员力量,要求根据各政府组织部门的实际需求和重大项目特点选择合适的数据库及数据采集、抽取、转换、清洗工具,进行针对性的评估分析,并依据分析结果对风险决策提供参考建议和意见,该项业务亦可积极吸引外部商业机构,如百度、腾讯等数据密集型企业的参与,联合制订统一高效的“稳评”大数据应用架构方案。
随着“稳评”执行结构的拓展及外部环境的不断变迁,政府部门间的信息互通与评估工作协调日益占据关键地位,而数据公开、信息共享是实现制度有效性的重要保证。依据国家有关“稳评”的明确规定,重大事项社会稳定风险评估应从合法性、合理性、可行性和可控性四个方面进行评估,而与此相关的评估分析关联数据资源(包括实时舆情数据、项目数据、历史数据、人口数据等)往往分散于不同层级政府机构、项目单位及职能部门之中,在现有体制下,组织内部形成的是以各自部门为单位的一个个支片数据体和“信息孤岛”,彼此相对封闭独立,尚缺乏信息共享的意识及管理机制支持。大数据的应用基础是将大量分散的、不同来源的多模态、异构数据进行整合性挖掘,并从中提取高质量有价值的隐藏结果,若没有数据信息公开的有效支撑,数据处理集成平台构建或几为空想,“稳评”大数据应用目标现实中也很难实现。
缺少数据清洗过滤和整合的机制方法,还只是技术层面的障碍,更深层次挑战或来自地方政府公共部门评估思维的转型。对于习惯传统经验式决策方式和评价手段的基层政府而言,长期以来缺乏“数据治理”的潜在观念①贺宝成:《大数据与国家治理》,《光明日报》(理论版)2014年3月27日。,这或使面向大数据的“稳评”理念接受度及支持性感知也将经历一个较长过程。尤其在既定行政环境下,如果主要决策者缺乏大数据意识以及对大数据评估价值的正确理解,将会对大数据“稳评”应用带来最直接的阻碍,相关资源整合与技术创新也无法得到全面、有效的保证。此外,大数据环境下的智能评估较之传统综合性评估,必然要发生评价思维上的革命:即从选择静态、个体且相对独立的样本对象,转而面向动态、系统且关联的全体数据,从原先按照设定的程序步骤获取部分“利益相关者”意向数据,扩展延伸到从规模巨大的、彼此可能毫无关联的数据流中集成截取,而这些全生命周期的评估理念的建立需要“稳评”决策者很强的开放视野和专业素养能力。
无疑,大数据将造成社会政策研究②Cook.Thomas,D.“Big Data In Research on Social Policy”.Journal of Analysis and Management,Vol.33,No.2,2014,PP.544-547.和社会文化变革,特别会发生在公共管理与社会治理领域,这一趋势也为中国政府正大力推进的重大决策社会稳定风险评估制度带来新的契机。然而,与传统“稳评”数据模式不同,在采集数据来源广泛、数量巨大、变化急速、结构复杂的大数据情形下,每一流程监控绝非易事,面临重重障碍,仅大数据质量的保障就已成为当今世界和学术界面前的重大难题。加之目前我国公共组织的大数据意识及配套技术、管理制度尚在概念探讨或试验阶段,大数据应用“稳评”还任重道远。尽管如此,大数据毕竟为“稳评”的开拓提供了又一崭新的研究发展路径和前景可能,期望随着今后多方条件的成熟,依托大数据工具可以提升发现、揭示基于人群复杂社会网络背后的行为规律和风险趋势,进而为我国政府“稳评”的创新性实践提供强有力的决策支持。