樊莲花 杨令平
摘 要: 加强数据质量管理是推进义务教育均衡发展的必然要求。当前,我国义务教育均衡发展数据质量管理体系已初步建立,但还存在着信息不对称导致数据采集的科学性困境,管理流程复杂性导致数据审核的规范性困境,技术手段滞后性导致数据挖掘的修复力困境、人员素质不高和机制不完善导致数据应用的交互性困境。强化“伴随性”收集,构建新型数据生态系统;优化审核流程,提高数据精准度;深化技术创新,延展数据内涵价值;固化权责评估,推动数据高质量应用,是破解“数据质量管理困境”的有效对策。
关键词: 义务教育;均衡发展;数据质量管理困境;数据生态系统
当前,国家已在义务教育均衡发展评估验收中建立了较为完整的数据质量管理系统,但与数据驱动下的监测评估要求还存在一定差距。如何加强县域义务教育均衡发展数据质量管理,确保数据的准确性、及时性、相关性、可比性、可获取性、一致性和适用性,成为推进县域义务教育均衡发展进程中学术界和实践界关注的热点和难点。
一、加强数据质量管理是实现义务教育均衡发展目标的必然要求
从学理上分析,数据质量是指数据产品满足特定用户期望的程度,可分为数据自身质量(如数据完整性、规范性、一致性、准确性、唯一性等)、数据传递中的质量(如比较性、联结性)以及数据控制过程中的质量(如有效性)。1 以此为依据,数据质量管理是指运用各种技术手段,对数据收集、审核、挖掘、应用的全过程实施控制,以确保数据的真实性、准确性和完整性的活动。在县域义务教育均衡发展中,数据质量管理是指对所有能够表征均衡发展质量、规模、结构、效益等状态主题的数据源进行从源头到终端的全面质量管理。大数据背景下的县域义务教育均衡发展监测评估越来越强调数据驱动,即利用现代信息技术持续收集、深入分析均衡发展数据,从数据中萃取知识,让数据说话,直观呈现义务教育均衡发展状态,为多元主体价值判断和科学决策提供客观依据。1 理想的义务教育均衡发展数据应满足数据采集的可靠性、数据审核的规范性、数据挖掘的科学性、数据应用的交互性等质量要求。
然而,反观我国义务教育均衡发展监测评估数据,其在具体管理实践与流变中却明显地出现了质量不高、管理不善、效能不佳等现象,这在数据质量管理的顶层设计中可被诠释为“数据质量管理困境”。
二、当前县域义务教育均衡发展数据质量管理面临的主要困境
从数据生命周期和数据质量形成规律看,县域义务教育均衡发展数据质量管理主要面临以下困境:
1.信息不对称导致的数据采集科学性困境
县域义务教育均衡发展数据主要采用报送式采集方式,借助基础均衡数据采集系统和满意度问卷调查系统,由均衡发展利益相关者填写,自下而上进行数据逐级报送。这种方式具有操作性好、权威性强等优势,但同时存在以下问题:其一,部分客观数据不一致或相互矛盾。由于涉及的数据庞大而复杂,监测部门无法独立地承担所有的数据采集工作,需要与其他部门合作,由他们进行原始数据的采集并交给监测部门汇总与收录。但各部门间的统计数据存在重叠与分离现象,彼此间统计口径不一,致使不同来源、不同结构的数据源在定义、存储和管理标准上存在差异,导致数据准确性较差,且数据不一致或存在矛盾。如在“适龄人口数”的统计中,有的部门采用“当地常住人口”进行测算,有的根据“户籍人口”测算。这种统计口径的不一致,致使“适龄人口数”不准确。其二,满意度数据弄虚作假。问卷调查系统数据主要来自问卷调查和随机实地走访,如社会认可度的调查,即对县级人民政府和有关职能部门在落实教育公平政策、推动资源共享以及义务教育学校规范办学行为、实施素质教育、考试评估制度改革、提高教育质量等方面的成效评估,主要通过向学生、家长、教师、校长等发放问卷获得。由于问卷最后要转化成分数进行量化考核,调研过程中部分县政府和学校为了得高分,存在“干涉家长、学生、教师等填写数据,进而致使问卷统计结果过高”等虚假现象。
导致以上困境出现的主要原因在于信息不对称。这种不对称主要表现在:
第一,数据提供者与数据收集者对监测指标的认识存在信息不对称。由于不同部门对元数据的描述和理解不统一,导致“数出多门,数数不同”。如前述对“适龄人口数”理解的不同造成数据不一致。
第二,数据核算管理者与实际信息不对称,数据审核随意性过大。在实地抽查走访过程中,抽查的样本县数量过少,数据来源不充分,无法对数据填报员主观推断和虚假填报的数据进行核实,致使数据准确性难以保证。数据收集者和数据提供者之间的信息不对称使数据采集的准确性遭到质疑,尽管近年来各级教育行政部门加大了数据稽查和追责力度,但面对海量的教育数据,事后补救终是亡羊补牢。
第三,均衡发展数据与政府人员绩效考核存在“利益关系”。部分学校填报人在数据填报过程中,未能秉持客观、公正、严谨的原则,而是出于自我利益考虑,仅提供能给自己“贴金”的数据信息,忽略甚至掩饰存在问题的数据。因此,监测评估所获得的数据可能是经过被评估方筛选过的、僅能支撑县域均衡发展成就的数据。
第四,数据系统缺乏统一标准。从实用角度看,县域义务教育均衡发展数据可分为达标数据、差异数据和模糊数据。2 不同类型的数据属性各异、表达不一、在结构化程度上也存在差异,若缺乏统一的系统化标准,数据一致性、可比性和效用性将难以保障。
2.管理流程的复杂性导致的数据审核规范性困境
义务教育均衡发展数据审核采取“县域内学校填报员初审—县(市、区)督导员自审—市级督导复审—省级督导终审”的流程。这一流程层次清晰且富有操作性,但在具体执行过程中往往存在以下偏差:一是数据审核流于形式。无论是学校填报员的初审还是省级督导的终审,都存在“重形式、轻实质”现象,即只注重拼写错误、重复记录等形式,忽视数据真实性、完整性和一致性的实质性审查。二是数据审核缺乏制度保障。现阶段各级数据审核缺少统一的校核标准和整体的规划制度,即使发现数据有问题也没有相应的校核机制,致使问题数据不断沉积,数据质量出了问题也无法溯源追责。
导致以上困境的主要原因是管理流程过于复杂。当前县域义务教育均衡发展数据质量管理流程中存在着管理主体模糊、管理程序偏多、管理环节复杂等状况,直接或间接地导致了如下问题:
第一,管理流程前后相互影响与制约。如数据标准是教育数据质量管理的基本环节,也是实现教育数据共同理解、诊断错误的重要依据。1 但现阶段均衡监测各审核部门间缺乏明确的数据质量标准,导致不同部门对数据质量管理的要求缺乏相关依据,进而使得数据审核难以有效开展。
第二,均衡发展数据源的多样性加大了审核难度。县域义务教育均衡发展数据具有“开放性、爆炸性、自由性”2 等特点,其类型多源异构,种类千差万别,频率需实时更新,数据存储分散且格式各异,智能化检测与人工审查需交叉呈现,这从客观上加剧了均衡发展数据的审核难度。
第三,“数利关系”的客观存在异化了审核主体与被审数据间的关系。理想的数据审核状态是审核主体秉承客观、公正、公平的职责立场,对数据进行严格审核校对。然而,由于被审核的数据与审核主体间存在一定的“数利关系”,即部分审核主体为特定目的,可能存在自行修改、人为捏造、刻意隐瞒数据等现象。
3.技术手段的滞后性导致的数据挖掘修复力困境
县域义务教育均衡发展监测数据挖掘一般包含三大目标,即判断县域内资源配置度、政府保障度、社会认可度等是否达标;明确义务教育发展特色及存在的问题;形成县域义务教育发展的“前景地图”。依据上述目标,当前县域义务教育均衡发展数据挖掘中存在以下问题:一是数据挖掘以推断统计为主,深度不够。现阶段义务教育数据分析人员主要采用“抽样调查”,辅之以“实地走访”的方法,以获得的样本数据简单推断整体数据质量。由于样本数据基数有限,推断出的整体数据质量往往与实际状况存在一定偏差。二是缺乏数据质量控制机制,检测与校正能力薄弱。在县域义务教育均衡发展数据收集和审核过程中,对记录错误的单源数据和冗余、矛盾以及前后不一致的多源数据,要进行离群值、缺失值和重复值的检测与校正,而现阶段的数据分析人员缺乏统计学、人工智能和机器学习等知识,难以采用神经网络、模糊理论和聚类分析等方法进行数据的检测与修复。
导致上述困境的主要原因在于技术滞后。影响县域义务教育均衡发展数据挖掘质量的技术因素,主要包括数据融合分析、数据检测识别、数据预测预警等技术。首先,数据融合分析技术滞后。一是数据分析技术与实践需求匹配度不够。面对实时性、多样性的海量数据,监测的模型、算法和工具还不够成熟,难以针对给定数据类型和规模因地制宜进行自适应分析。二是数据整合优化技术较为匮乏。现阶段均衡发展数据的集成和融合技术还不够成熟,难以在纵向上实现宏观和微观的贯通,更难以在横向上使数据从碎片化走向网络化、系统化,导致“数据孤岛”或“数据矛盾”现象的出现。
其次,数据检测识别技术相对滞后。一方面,数据检测识别技术滞后会影响异常数据的剔除及修复。检测识别技术方法的适切性与技术应用的娴熟度影响数据质量。当前县域义务教育均衡发展数据中,不可避免地存在着数据冗余、矛盾和不一致、拼写错误、重复记录等问题,而现有义务教育均衡发展检测识别技术无法有效识别这些离群值、缺失值和重复值,并对其进行及时校正与修复。另一方面,数据检测识别技术需要整合各地区的数据中心,形成全国统一的数据平台和数据中心,在数据整合的过程中必然会涉及数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等环节,但现阶段该类技术还不能满足这一需求。
再次,数据预测预警技术的滞后性。数据的深度挖掘需利用数据关联性,为区域内和区域间的均衡发展态势预测及预警提供技术支撑。现阶段县域义务教育均衡发展预测预警技术还处于初级阶段,无法对数据进行动态的“随动而谋”,更多的是静态的“谋而后动”。
4.权责不明确导致的数据应用交互性困境
当前县域义务教育均衡发展数据应用主要有两种形式:一是在教育部网站上公开发布;二是以《义务教育均衡发展自查报告》《义务教育均衡发展督导评估工作报告》等书面报告形式反馈给省级和县级政府教育督导部门,省教育厅、统计局也会以一定方式将部分监测结果向社会利益相关者公布。这种数据使用方式具有权威性,但存在以下不足:一是數据可视化程度低。现阶段义务教育均衡发展结果数据的可视化展示,既无法满足社会大众“看得懂”“记得住”“用得上”的需求,又无法实现学校、学生个体以及社会公众对源数据的查询、搜索、比较等功能。二是数据的预警反馈功能未充分发挥。县域义务教育均衡发展书面报告中缺乏均衡验收的细节数据,单项指标数据的预警无法体现,数据横向之间可比性较差,监测的预警反馈功能大打折扣。
导致以上困境的主要原因在于管理体制中权责不明确。一是数据管理人员质量意识和数据素养不高。数据质量管理人员在数据收集、录入、审查与使用过程中扮演着重要角色,其数据理念、专业水平和职责立场将直接影响数据应用质量。1 现阶段县域义务教育均衡发展数据管理人员存在以下问题:首先,评估主体与客体在数据指标的概念内涵与实施细则上尚未达成广泛共识,导致采集的数据存在差异。其次,数据管理人员配备不足。填报员工作任务重,队伍稳定性差,业务能力偏低,从源头上影响数据可靠性。再次,管理人员的数据素养偏低。如果说均衡发展数据是义务教育均衡发展状态的“化验单”,那么数据管理人员不仅要把“化验单”数据厘清,还要能够在此基础上分析“诊断”,利用现代统计分析方法对数据进行挖掘。而当前数据管理人员的专业知识、岗位知识以及问题分析能力,还不能完全胜任均衡发展数据的分析与挖掘要求,导致均衡发展统计数据应用质量不高。
二是数据管理规则与标准、规定与执行、技术与行为等系统耦合度不够。首先,我国义务教育均衡发展缺乏专门的数据质量标准,所参照的统计标准与国际标准存在差距,这在一定程度上影响了均衡发展数据的有效性。其次,数据管理机制不健全。义务教育均衡发展数据的收集使用、开放共享、报告使用、问责约谈机制等还不够健全完善。再次,数据可视化技术使用制度缺乏。数据可视化技术是在计算机图形学和视觉设计、人机交互基础上发展起来的,强调以直观方式传达抽象信息,增进人们对数据的理解,在增强认知、减少搜索、加强记忆、促进推理等方面具有独特作用。但从目前发展实际看,县域义务教育均衡发展还缺乏数据报告可视化的技术规范与制度,影响了数据质量的呈现。
三、改进县域义务教育均衡发展数据质量管理的路径
“让数据说话、用数据决策、靠数据管理”2 是新时代推进县域义务教育均衡发展治理的必然要求。针对县域义务教育均衡发展数据质量管理方面存在的困境,我们应确立“全面质量管理”理念,借鉴大数据管理思维和方法,加强数据全过程、全要素、全方位管理,实现数据高质量发展。
1.强化“伴随性收集”,构建新型数据生态系统
数据采集的规范性决定数据内容的精准度、监测决策的科学化。针对当前数据采集的科学性困境,需要如下操作:一是构建统一的数据采集规划,注重数据的“伴随性收集”。可参考教育部《教育管理信息:教育管理基础代码》等七个教育信息化标准文件,分别制定监测基础类数据采集标准和指标类数据标准,以统一的“数据采集标准”缓解“数出多门,数数不同”的采集壁垒,借助穿戴设备、物联网、人工智能技术,对均衡发展过程中相伴产生的数据集合进行及时采集,以“伴随性收集”弥补因“信息不对称”造成的“报送式数据准确性不高”问题。二是构建无缝流转的均衡数据运用生态系统。在区域范围内探索构建集“高效快捷的数据采集、安全的数据存储、智能动态的分析挖掘与预测以及可视化的结果输出”为一体的新型数据生态系统。这一无缝流转的均衡发展开放数据生态系统,能够打通区域间信息流通渠道,利用均衡数据的流动性,以“积极开放”“互联互通”的数据流动改变以往“逐级报送”的“条线烟囱”状态,引导教育行政部门、教育机构以及社会大众广泛、深入运用均衡发展数据,以均衡数据的逐级广泛运用带动均衡数据采集,从而提高数据采集质量。三是引入新的数据采集工具和手段。在人工智能、“互联网+”、大数据等技术革命的冲击下,应当充分利用丰富的数据采集手段来保障数据采集的准确性、完整性、连续性和一致性,如可充分利用计算机、地理信息系统、八爪鱼、图像识别等数据采集工具进行均衡发展数据的云采集。
2.优化审核流程,提高数据精准度
数据审核是保障数据质量的门槛。针对数据审核过程中的“规范性”困境,需要如下操作:一是树立数据质量核心理念,加大稽核检查力度。审核管理人员要全面落实《统计法》,严格遵照《关于严把统计数据质量关确保2016年统计数据汇总工作顺利进行的通知》,自觉践行数据核查工作责任,杜绝随意编造和篡改数据。二是构建县域义务教育均衡发展数据处理流程框架。借鉴其他行业数据处理流程控制办法,将县域义务教育均衡发展数据处理流程划分为数据采集层、数据审核层、数据挖掘层、数据发布层。1 数据采集层以均衡数据系统和问卷调查系统的数据为主,辅之实地走访的数据。数据审核层在审核的过程中,要关注原始数据及其结构和质量,对数据取值范围、数据注释、数据来源进行核查。重点对提取的元数据的完整性、一致性、可识别性进行审核。对不同部门提交的数据,如政府统计网等数据,要注重数据的结构一致性和语义一致性,避免出现统计口径不一致的现象。此外,要充分发挥数据挖掘层的数据检测与数据矫正功能,重视对数据发布层的可视化展示与可视化分析结果,利用后续处理流程的反作用倒逼数据质量提升。三是实施人机双重校对,明晰各层级数据审查责任。开发数据编辑检查程序,及时检测所提交数据的完整性,同时在提交过程中精准识别错误数据,核验数据报告是否一致,是否有遗漏、错误,是否符合预期。与此同时,在不同层级教育政府部门设专门的数据管理员,依照数据管理规范,再次审核已提交的数据,以进一步发现系统中存在的数据异常。一旦发现数据异常则立即处理,并向数据提交者反馈,要求其详细解释数据异常的原因,以解决潜在的数据质量问题。
3.深化技术创新,延展数据内涵价值
数据挖掘是矫正异常数据与发挥数据监测、预警及预测功能的关键。针对技术手段滞后带来的数据修复力困境,需要如下操作:一是拓宽数据挖掘技术功能。在明确均衡发展标准红线基础上,加强数据挖掘技术在聚类分析、预测分析、关联分析等方面的实践应用,拓展其在数据整合、识别和诊断等方面的功能。二是加大数据清洗技术创新。可利用统计软件,通过变量取值和逻辑关系,识别出数据中的异常值,及时发现逻辑不合理、数值矛盾的数据,采用适当算法实现数据修复;也可通过忽略元组(均衡发展数据库中的记录或行,每个元祖代表一个对象)、人工填写缺失组、属性均值、进行中位数填充等办法修复数据中的缺失值;或利用“R语言、Weka语言、Trificata Wrangler、Google Refine等软件”2 对采集中的重复数据进行去重,以保障县域义务教育均衡发展中的数据满足完整性、一致性、有效性等目標。三是引入大数据预测、预警算法与技术。将大数据的预测、预警功能引入均衡发展监测领域,释放均衡发展数据的预测与预警价值。具体说来,可采用知识图谱等分析技术区分正常和危险数据类型组合;利用深度学习方法挖掘均衡发展历史数据规律,进行均衡发展趋势预测;借助濒危参数初始值、最大值等临界点与预测值的比较,实现均衡发展潜在问题的预测等。
4.固化权责评估,推动数据高质量应用
对数据的分析应用是推动均衡发展数据质量提升的动力。针对数据应用的交互性困境,需要如下操作:一是更新数据质量管理理念,扭转部分数据工作人员“视数据收集和审核为行政任务,缺乏数据质量管理理念”的错误认识。可加强对数据质量管理新理念的学习和研讨,彰显“以学生为中心、重视数据赋能、精准使用数据”的理念,进而明晰各利益相关者在数据质量管理中的权责范围。二是放宽数据使用权限。对数据的应用不能仅停留在均衡验收达标上,还需将数据与教育资源配置、学校布局调整、校园特色发展、教师教学创新、学生特质开发、家校交流合作、教育研究转型等主题融合起来,以数据的深度运用来推动数据质量管理的常态化。三是畅通数据质量反馈渠道。数据质量的核心就是满足用户需求,因此管理应注重公开、透明与互动。县域义务教育均衡发展数据管理者可通过会议、公开讨论、用户问卷调查等方式,向学校、学生、家长、第三方等利益相关群体及时了解信息,使数据质量管理措施有的放矢,进而达到提高数据质量的目的。四是加强数据管理团队力量。将数据素养作为数据管理人员考核标准,确保每一位数据管理人员都具备“知”(知道如何获取、分析数据)、“思”(思考如何做好数据规划、鉴定数据、评价数据)、“行”(能将数据应用到监测实践中)的能力。1 此外,还可构建专门的数据质量管理机构,如通过定期开展均衡发展数据质量管理研讨会,总结分析数据采集、输入、审查、挖掘与应用中的典型问题,提升数据管理人员的质量意识和数据素养。五是构建数据质量评估体系。数据的深度运用要以及时、准确、适用的质量评估标准为起点,以完善的数据质量评估体系为保障。在县域义务教育均衡发展数据质量管理中,可通过引入数据质量评估信念,出台数据质量评估政策,建立数据质量评估机构,营造良好数据质量文化,来保障评估体系的落实与执行。