文/郑有为 计敏 唐朴谦
上海市公共资源交易中心(以下简称“交易中心”)于2020 年12 月24 日正式揭牌成立,标志着上海市全市公共资源“一网交易”总门户开通。上海市成立该公共资源交易中心的目的是进一步落实《全国公共资源交易平台系统评价考核办法》,全面提升数据质量,建设开发数据互联互通系统,搭建以大数据为依托的全新治理体系。自交易中心开通以来,上海市公共资源交易市场上的数据质量实现了质的提升,引领上海市在全国考核中名列前茅。
《全国公共资源交易平台系统评价考核办法》(发改办法规〔2018〕8 号)明确指出,全国公共资源交易平台系统考核评价指标可划分为以下五项一级指标:上传数据准确性、上传数据覆盖面、数据上传及时性、数据上传全面性以及运行维护情况。
交易中心的首要任务是与各交易分中心共同建立“全新”的数据互联互通体系。因此,交易中心必须保证工程建设分中心、土地交易分中心等四大核心交易领域数据互通。2020年7 月,交易中心正式启动数据互联互通系统开发建设工作,该系统由Java(计算机编程语言)编写,简称HLHT 系统,即互联互通的首字母合写。HLHT系统的数据流处理架构主要由以下四个组件构成(见图1)。
图1 HLHT 系统数据流架构
1. 数据文件日志化组件(Logging Module)
各交易分中心在调用由交易中心提供的互联互通数据接口的同时,采用《公共资源交易平台系统数据规范(V2.0)》中的数据模型封装了与每一个数据集对应的XML 文档;将采集到的数据以XML 格式存储在非结构化数据处理组件的数据库中;将每一次接口请求记录与XML 文档的索引统一存放在“交换记录”(hlht.exchange_record)数据集中。
2. 数据入库持久化组件(Persistence Module)
交换记录是数据进一步加工处理的重要基础。通常,数据入库持久化组件会按索引定时抽取交换记录中各交易分中心的数据集,并针对其内容分别做配置分发和数据落库处理,例如:将解析后的XML 文档落库于“生产环境业务”(hlht.business_database)数据库;由工程建设分中心上传的招标项目数据集将落库存放于“招标项目”(hlht.tender_project)数据集中。
3. 数据上报对象化组件(Transaction Module)
数据持久化入库后就可以直接被前端业务功能调用,如发布官网公告等。而在数据通过前置机上报国家信息中心环节,HLHT 系统的数据上报对象化组件会将业务数据整合在一起并生成上报对象,再将这些对象的上报记录统一存放在“国家消息”(hlht.nation_message)数据集中。
4.上报同步可控化组件(Sync Module)
“国家消息”应做到多维度同步可控,以确保工作人员可以根据实际需要精准推送实战场景。例如,当上报对象完成初始化且同步状态(nation_message.sync_status) 为0、成功上报至前置机时,该条记录的同步状态将设置为1,以实时掌握每一条数据的前置机上报状态。
基于HLHT 系统,交易中心的数据团队在三个月内完成了四大核心领域以及两类新兴交易领域(碳排放权和药品采购)的全覆盖任务。此外,由于交易分中心开发资源不足,短期内无法实现符合国家公共资源数据标准要求的接口支持,为更好地完成前置机迁移的切换上报①将国家信息中心的数据前置机从上海市经济信息中心迁移至上海市公共资源交易中心。,交易中心果断增投人力资源,采用非接口直接写库的方式进行对接。其间,数据团队重新编写了一个数据转换模块以替代数据文件日志化模块,确保后续三个模块能够正常处理数据流。2020 年10 月,交易中心顺利完成前置机迁移任务,并在之后的8 个月内实现了六类其他交易领域的全覆盖:公共拍卖、技术交易、农业要素、无形资产、国企采购以及机电招标。自2021年5 月起,交易中心在覆盖交易领域的考核中获得满分成绩并保持至今。
国家信息中心对数据上传全面性的考核非常严格,不仅要考核交易中心的上报数据,也会同步校验四大核心领域分中心的数据全面性。例如,政府采购分中心在官网上共发布100 条业务数据公告,但由于其与交易中心在数据业务逻辑方面存在差异,最终也许只有98 条数据可以完成同步,那么剩余的2 条未同步数据就有可能导致交易中心被判定为数据全面性不合格(每缺失1 条数据扣2 分)。
对于成立不久的交易中心来说,这无疑是一项非常艰巨的挑战。以政府采购分中心为例,在应对考核期间,该分中心正处于从老系统向新系统切换的过渡阶段,以致其与交易中心数据同步的难度进一步增加。因此,自2021 年起,交易中心的数据团队就启动了数据底座项目立项前的探索准备工作。其间,数据团队基于数据底座的数据湖率先启动了独立的CACP(全面性自动检测程序)项目(见图2)。数据团队一方面利用爬虫工具获取了各分中心官网公示的所有业务数据;另一方面,利用采集工具入湖各分中心,通过HLHT 系统上报的数据,实时运行程序进行数据比对并生成比对结果。随后,数据底座以邮件的方式自动将比对结果推送到各分中心数据责任人的邮箱。同时,相关工作人员也会在微信工作群确认缺失数据详情,由分中心在第一时间优化数据同步逻辑,每日定期汇报进展,以此确保相关数据在24 小时内能够及时、全面同步。自CACP 项目上线运行以来,交易中心数据上传全面性满分成绩保持至今,并且在交易中心将CACP 程序逐渐拓展覆盖至所有交易领域后,其数据上传及时性也在2022 年取得满分成绩。
国家信息中心对上传数据准确性的考核同样严格,其中,数据采纳准确率是从数据元层面考察数据质量的关键指标,应填必填。数据标准则明确了业务数据应向社会公开的必传属性,如果必传属性为空值,那么交易中心的数据采纳准确率就会成为扣分项。数据三码准确率是在数据采纳准确率的基础上,针对投资项目监管码、统一交易标识码以及统一社会信用码进行专项质量考核的重要指标。以统一交易标识码为例,交易中心必须采用国家标准规定的生成规则,并确保统一社会交易标识码的长度符合规范要求。
针对数据底座,数据团队启动了独立项目“QD-XSD”,即在数据文件日志化组件的上下游同步应用XSD(XML 模式定义)技术,使上游实时校验上报数据,屏蔽数据源不明的垃圾数据,下游实时生成质量报告,进而实现数据元的质量分析与质量提升。XSD 是XML生态系统的重要组成部分,可确保XML 文档的数据结构符合数据模型的定义,并校验文档内容是否符合数据标准和数据规范要求。其间,数据团队将每一个XSD 文档同需要验证的XML 文档按照对应数据集进行关联,并使用XSD 处理器验证XML 文档是否符合规则。如果验证结果显示XML 文档符合规则,那么该文档有效;否则,XML 文档的数据记录及相关属性就会被程序化地纳入质量报告及异常明细,以供数据团队后续进行数据质量分析。在QD-XSD 项目中,数据质量体系的整体架构是先按交易领域分类,再按质量需求分类,最后聚焦某个交易领域下某类质量需求的异常情况进行深入分析。如图3 所示,在三码准确率的质量检查提取异常明细中,与三码有关的数据集将通过程序自动聚合各交易领域的异常数量,并按三码类型进行分类统计和可视化分析。统一交易标识码前期由各分中心按照规则自主生成,数据准确性较为不稳定。在交易中心向全市分中心推行一网交易赋码服务后,统一交易标识码的数据质量显著提升。在HLHT 系统中,统一社会信用码主要在QD-XSD 项目中发挥作用,如引入第三方平台和全国公共资源交易主体查询接口,进行质量检查和质量提升等。自QDXSD 项目上线运行以来,交易中心在数据上传准确性方面的考核已经系统性地获得满分40分的目的。
本文概述了交易中心数据质量提升的实践历程。由数据团队构建的HLHT 系统既具有独特性也具有可借鉴性与通用性,可以为全国非实体整合的省级公共资源交易中心提供参考。其中,融合数据底座的CACP 项目为交易中心建立满足数据上传全面性、数据上传及时性考核要求的一体化质量监测体系提供了保障;运营数据底座的DQ-XSD 项目则为数据质量实现数据上传准确性的满分考核目标创造了有利条件。更重要的是,以数据底座为基石,由HLHT 系统、CACP 项目以及DQXSD 项目构成的三维数据治理体系不仅为交易中心数据质量的提升做出了历史性贡献,也为数字化转型驱动公共资源“一网交易”高质量发展打下了坚实基础。[1]如图4 所示,自成立以来,交易中心在国家考核中的排名已经由2020 年的近30 位跃升至全国榜首,并持续保持优异成绩。
(特别鸣谢:广联达科技股份有限公司上海团队对数据互联互通系统开发的支持与合作;特别鸣谢上海智子信息科技股份有限公司、阮备军博士和朱建秋博士在联交所数据底座项目数据治理与数字技术中给予的大力支持)