新型冠状病毒肺炎疫情下地方政府数据开放平台建设进展研究

2020-03-20 07:59刘瑾
数字图书馆论坛 2020年2期
关键词:开放平台病例肺炎

刘瑾

(国务院发展研究中心信息网,北京 100010)

2019年12月,武汉突发新型冠状病毒肺炎(以下简称“新冠肺炎”)。当前,随着电子政务、阳光政府的发展,我国政府已经能够及时地将疫情相关信息向公众传递,同时,由于互联网技术的发展和移动终端设备的普及,公众也拥有更多途径了解疫情动态。在疫情较为严重的特殊时期,政府信息能够及时、准确地公开至关重要,一方面,政府主动公开信息有利于引导企业和公众参与到疫情防控中,使政府、企业、个人之间的信息形成流动态势,从而使政府部门能够掌握疫情一手资料,进行精准决策;另一方面,政府信息公开可以缓解公众的焦虑和恐慌情绪,公众可以通过公开的确诊病例来判断自己是否有接触史,从而主动进行监测和防护。

当前,政府主要有3种途径发布疫情相关数据。①政府部门官网。如国家卫生健康委员会网站从2020年1月21日每日通报全国新增确诊病例、新增治愈出院病例、累计报告确诊病例等疫情最新数据。②政府部门微信公众号或应用程序。如中国政府网微信公众号每日都会发布疫情数据。③政府数据开放平台。截至2019年10月,我国共有102个地方政府数据开放平台,包含16个省级平台和86个市级平台[1]。山东省公共数据开放网2020年1月30日上线了“山东省新型冠状病毒感染的肺炎疫情情况”数据集,贵阳市、深圳市等市级平台也提供了疫情相关数据集。相比前两种方式,政府数据开放平台更加专注于原始的、结构化的、可机读的、大批量的数据类信息开放,是公众获取疫情数据的重要渠道。基于政府开放数据,政府和企业可以开发出功能更加丰富的应用产品。在此背景下,本文将重点关注地方政府数据开放平台的疫情相关数据开放情况,考察我国地方政府数据开放工作进展。

1 研究综述

随着地方政府数据开放工作的开展,相关研究不断涌现,部分研究对地方政府数据开放平台进行对比和评价。余奕昊等[2]从数据功能(包括数据集总量、数据分类方式、数据开放主题、元数据等)、接口功能、应用功能及其他功能4个角度,对10个地方政府数据开放平台进行对比。郑磊等[3]构建了包含数据数量、数据质量、数据标准、数据覆盖面和数据可持续性5个指标在内的评价体系,并对46个平台进行实证分析。周文泓等[4]从数据共享(包括可获取性、多元性、及时性等)和促进数据利用(包括知识性支持、社区性支持、互动性支持等)两大维度来评价24个地方政府数据开放平台。对此类研究进行分析后不难发现,数据的多样性是考察政府数据开放效果的重要方面,同时,数据开放和更新的及时性代表了政府是否能够提供最新的、可持续的数据资源,也是评价政府数据开放平台的主要标准之一。

部分研究从主题或行业角度出发分析政府数据开放情况。肖荻昱[5]从数据层和平台层来评估政府数据开放平台的信用数据开放情况,发现存在信用数据量少、数据来源少、数据使用率低等问题;汤志伟等[6]获取了43个平台的交通类数据集,从数据的优质开放和高效利用两方面进行分析和评价,发现交通类数据集存在浏览量和下载量小、应用产品少等问题;刘新萍等[7]通过对地方政府平台环境类数据集的开放情况进行研究,发现环境数据开放存在数据量小、标准和规范缺乏、数据增值利用率低等问题。李姣等[8]对美国和英国政府数据开放平台中的健康医疗数据集进行研究;李赞梅[9]从政策法规、数据规模、开放水平等方面,对中国、美国、英国、澳大利亚和加拿大的政府开放医疗卫生数据进行分析,对我国政府数据开放实践有一定借鉴意义。

2 评估对象和评估框架

新型冠状病毒相关数据集是指政府部门针对此次疫情专门开放的数据集。本文按照《中国地方政府数据开放报告(2019年下半年)》提供的102个地方政府数据开放平台进行搜索,除新疆、肇庆、珠海、阳江、阜阳、湖州平台访问失败,天津平台访问后不显示具体信息外,其余平台均可正常访问。由于医疗卫生相关数据集不是由单一部门提供,因此,本文主要根据主题进行查找,相关主题类型主要有医疗卫生、医疗健康、卫生健康等。截至2020年2月6日,共有9个平台提供了新型冠状病毒数据集,分别是山东省省级平台,以及贵阳、深圳、济南、青岛、福州、银川、佛山和日照8个市级平台。本文使用人工和爬虫系统相结合的方式获取58个数据集,采集时间为2020年2月6—8日。由于部分省份和地市之间存在行政隶属关系,导致省级数据集包含市级数据集,如“山东省新型冠状病毒感染的肺炎医疗救治定点医院名单”这一数据集和“济南市新型冠状病毒感染的肺炎患者收治定点医疗机构”数据集存在包含关系,无法进行对比,因此,本文将分别考察省级平台和市级平台。

在参考肖荻昱[5]研究的基础上,结合新型冠状病毒爆发这一特殊事件,本文将从数据层和平台层两个角度来对新型冠状病毒相关数据集进行评价。数据层包含元数据、数据数量、数据内容、数据质量、数据格式、数据发布时间及更新频率、数据浏览量和下载量7个二级指标,使用这些指标可以考察数据集的数量、质量、用户使用情况;平台层包含平台注册方式、数据应用、互动和反馈3个二级指标,使用这些指标可以考察平台使用的便捷程度、数据的应用情况、平台与用户的沟通情况。

3 新型冠状病毒相关数据集开放情况研究评估

3.1 省级政府数据开放平台

山东省公共数据开放网(data.sd.gov.cn)专设疫情防控栏目。表1提供了5个新型冠状病毒相关数据集的具体信息,可以看出,山东省从2020年1月30日开始发布相关数据,数据开放总量为1 337条。“山东省新型冠状病毒感染的肺炎疫情情况”数据集提供了2020年1月24日—2月6日的数据,包含日期、地区、新增确诊病例、累计报告确诊病例等7个数据项,用户可以获取宏观的信息;“山东省新型冠状病毒感染确诊病例信息”数据集包含地区、性别、年龄、居住地、行程、发病时间、症状等11个数据项,用户可以获取每个患者的微观数据,有助于公众做好疫情防护。5个数据集都提供了XLS、XML、JSON、CSV 4种数据格式,均可机读,为用户下载和使用数据提供便利。

从数据接口来看,所有数据集都提供了API。从数据浏览量和下载量来看,目前公众对“山东省新型冠状病毒感染的肺炎疫情情况”最为关心,浏览量最高,但仅有17.30%的用户会选择下载数据。“山东省设有发热门诊的二级及以上医疗机构信息”数据集发布时间较早,近一半用户在浏览后会下载该数据集。从数据应用来看,平台提供了“山东省新型冠状病毒感染的肺炎疫情监测”网页应用,发布山东省新冠肺炎病例区域分布图、累计确诊(疑似)例数走势图、新增确诊(疑似)例数走势图等信息。同时,还提供了“新型冠状病毒最新消息”APP,对山东省疫情进行实时发布。

3.2 市级政府数据开放平台

当前,共有8个市级平台提供新型冠状病毒相关数据集,见表2。在复旦大学开放数林指数中,排名前10的市级平台有6个开放了新冠肺炎相关数据集,同时,贵阳、深圳、济南和银川平台还在首页单独开设疫情数据开放专题。从开放主题来看,银川市平台新创建了疫情防控主题来专门开放此次疫情相关数据。

表1 山东省公共数据开放网新型冠状病毒数据集

表2 开放新型冠状病毒相关数据集的市级平台

3.2.1 数据层

(1)元数据。在8个市级平台中,只有贵阳市和深圳市平台专门设置了元数据栏目,福州市平台使用目录简介来描述数据情况,济南、青岛、银川、佛山和日照平台在基本信息、使用情况栏下提供了相同的元数据信息。从元数据内容来看,所有平台都提供了数据集名称、主题分类、行业分类、数据提供方、发布日期、更新频率、更新日期、资源格式、浏览量和下载量这10个元数据,贵阳市平台没有提供开放状态和数据量信息,深圳市没有提供开放状态信息,福州市没有提供开放方式和开放文件数量信息,济南、青岛、银川、佛山和日照平台没有提供开放方式信息。

(2)数据数量。从数据集数量和数据总量两方面考察,见表3。①数据集数量。8个平台共提供了53个新冠肺炎相关数据集,其中,福州市平台提供的数据集最多,济南市平台次之,佛山市平台仅提供1个数据集。②数据总量。贵阳市平台没有提供此类数据,其余47个数据集共提供了6 408条数据,福州市平台的新冠肺炎相关数据量最多。47个数据集平均每个数据集包含136条数据,青岛市平台平均每个数据集提供的数据量最多。

(3)数据内容。表4将53个数据集分为8个类别,并按照不同平台进行统计。①定点医院和发热门诊信息。8个平台均提供了该类信息。②确诊病例和新增病例信息。除银川平台和佛山平台外,其余6个平台均提供了该类信息,可以帮助用户了解疫情概况。③确诊病例来源、住址和行程信息。只有深圳、济南和青岛平台提供了该类信息。④确诊病例详细信息。深圳、济南、青岛和日照平台提供了该类信息。前4类信息属于核心信息,其余4类信息提供了相关政府部门联系方式、湖北旅客安置点、交通状况等内容。

表3 新冠肺炎数据数量对比

从平台角度来看,福州和青岛平台数据集覆盖了6种类型的信息,济南市平台数据集覆盖了5种类型的信息,提供的数据内容较为广泛,银川和佛山平台仅提供了第一个类型的信息。如果结合数据集覆盖水平和信息重要程度考虑,有深圳、济南和青岛平台覆盖了前4类信息,福州市平台提供的数据集虽多,但核心信息较少。

表4 新冠肺炎数据集数量分类统计表

(4)数据质量。本文经过调研发现,数据集主要存在4类问题。①表头含义不清晰。如深圳市“新型肺炎-每日确诊病例来源统计”数据集表头为“jzrq”“jzsj”等字段,文件并没有介绍字段含义,只有到数据预览功能,才能了解这些字符分别代表“截止日期”“截止时间”。②数据集实际数据量和元数据信息不一致。如“济南市有确诊新型冠状病毒感染的肺炎患者的活动场所信息”数据集的元数据显示数据量为11条,但下载数据后发现只有8条数据。③数据集内容不完整。如“青岛市新型冠状病毒感染的肺炎病例详细信息”数据集中共有506个单元格应该填有内容,但其中有46个单元格为空,数据缺失。④数据集存在强行拆分问题。如“济南市有确诊新型冠状病毒感染的肺炎患者的居住地址信息”数据集只提供了确诊病人居住区县和具体小区名称2个指标,而在“济南市新型冠状病毒感染的肺炎确诊病例信息”数据集中,有一项便是“居住地”,因此,前一个数据集完全可以并入后一个数据集当中。

(5)数据格式。贵阳平台新型冠状病毒数据集只提供了CSV和XLS两种格式,济南、青岛、福州、银川、佛山和日照6个平台相关数据集提供了XLS、XML、JSON、CSV 4种格式,深圳市平台除这4种格式外,还提供了RDF格式,这5种格式均可机读。Berners-Lee[10]于2010年提出了关于开放数据的五星标准,其中,三星是如CSV等非专有开放格式,四星主要是RDF格式。当前,只有深圳市新冠肺炎相关数据集满足四星标准,其余平台满足三星标准。从数据接口来看,53个数据集中有38个提供了API(占71.70%),贵阳、银川和佛山平台相关数据集均没有提供API。

(6)数据发布时间及更新频率。图1对53个数据集的发布时间进行统计。1月30日,济南市平台发布了3个新型冠状病毒相关数据集,1月31日,深圳、济南、青岛、福州4个平台发布了7个相关数据集,2月5日发布的数据集最多,占全部数据集的45.28%。图2为疫情相关数据集的更新情况。更新频率类型包括实时、每天、每周、不定期等,其中,有12个数据集为实时或每日更新,从数据类型来看,大多属于确诊病例和新增病例、确诊病例住址和行程信息、确诊病例详细信息这3类,数据的快速更新能够使用户及时了解疫情最新动态,有利于疫情防控。有18个数据集为每周更新,主要属于新冠肺炎定点医院和发热门诊、相关部门联系方式、交通信息和其他信息这4类,这些信息在公布后不会频繁变化,每周更新即可满足公众的需求。不定期和自定义更新的22个数据集涵盖了各种信息类型。

图1 新型冠状病毒数据集发布时间

图2 新型冠状病毒数据集更新频率

(7)数据浏览量和下载量。从以下三方面进行分析。第一,在信息内容方面,4类核心信息的浏览量、下载量和下载率最高,说明公众对与疫情关系密切的信息最为关注。第二,在3类考察指标方面,浏览量数据的差异较大,排名第一的数据集浏览超过5万次,而排名第十的不到1 000次;有16个数据集的下载量为0,下载量最多的数据集被下载1 086次;下载率最高为25.78%,仅有6个数据集的下载率超过20%。第三,从平台角度看,深圳市平台开放效果最好(7个数据集中有5个浏览量排在前10),6个下载量排在前10,7个下载率均排在前10,其次是济南平台,再次是青岛市平台。佛山和银川平台开放效果最差,5个数据集的下载量均为0。

3.2.2 平台层

(1)平台注册方式。8个市级平台均需注册后登录才能下载数据,表5对平台注册方式进行对比。深圳平台需要填写的项目最多,贵阳市平台次之,要求最少的平台也须填写5项信息。所有平台均要求填写登录密码并确认密码,有3个平台要求填写真实姓名,要求较为严格的是佛山和银川平台,须填写身份证号码,这可能是导致其数据下载量较少的原因。

(2)数据应用。数据应用产品主要可以分为网页应用和APP两种。当前,只有深圳市和济南市平台提供了新型冠状病毒相关的网页应用,深圳市平台提供了3个网页应用,其中“城市疫情场所地图”和“新冠肺炎小区查询”这两个应用提供的信息覆盖全国所有地区。济南市平台提供了7个网页应用,包含疫情实时动态、疫情小区地图、定点医疗机构等功能。新型冠状病毒疫情爆发后,云上贵州多彩宝、i深圳、济南发布、青岛政务通、银川发布等政务类官方APP也及时发布了相关数据和信息;贵阳、深圳、青岛和福州平台提供了医疗健康类APP(如健康贵阳、小豆苗、青岛掌上健康、榕医通等),为公众提供预约挂号、在线问诊等服务。只有日照市平台没有提供任何应用。

(3)互动和反馈。8个市级平台均提供了互动和反馈功能,其中,贵阳市和深圳市平台功能最全面,包括建议反馈、调查问卷、数据请求、纠错公开、反馈列表子功能。此外,在数据集详情页,深圳、济南、青岛、银川、佛山和日照平台均提供了数据纠错和交流互动栏目,用户可以针对该数据集的问题进行反馈。

4 新型冠状病毒数据开放工作的改进建议

当前,有9个政府数据开放平台开放了新型冠状病毒相关数据集,从数据采集日到2020年1月30日第一个数据集发布约一周时间,可见部分平台在应对疫情时已经能够及时地统计、处理和发布数据。在对新型冠状病毒相关数据集进行考察后发现,目前工作已取得一定成效。如除福州市外,其他平台提供的元数据基本能够满足用户需求,所有数据集均可机读,约20%的数据集能实现实时或每日更新,17%的数据集浏览量超过1 000次,有8个平台提供了与此次疫情相关的应用产品。但新型冠状病毒数据开放工作中还存在一些问题,本文根据相关问题提出以下改进建议。

表5 平台注册方式对比

第一,激励平台参与,拓展数据类型。目前开放新冠肺炎相关数据集的平台较少,数据集数量少,主要受两方面因素影响。①病毒爆发地点。病毒的爆发地在武汉,其他地方政府还处于对疫情的了解阶段,因此没有发布相关数据集。②政府数据开放平台建设水平。这9个平台在开放数林指数中的排名大多比较靠前,说明建设较为成熟的平台在面对突发事件时反应更为迅速。从数据集数量来看,9个平台总共提供了58个数据集,相比公众的需求,数据集数量还是偏少。当前,应推动地方政府在数据开放平台上开放新冠病毒疫情数据,这既需要更多平台尤其是疫情较为严重地区的平台参与进来,也需要已经开放的平台拓展数据类型,根据公众需求提供更加丰富、细致的信息。

第二,提高数据质量,规范考核标准。本文对新冠肺炎相关数据集进行查看,总结了4类质量问题,一半以上的数据集存在这些问题。其中,数据集内容不完整的问题较为严重,数据内容缺失,导致用户无法获得完整、有效的信息,严重影响开放数据质量以及数据产品开发。目前,新冠肺炎相关数据集的开放时间较短,平台也在探索和完善当中,未来,平台应多开放原始数据,在获得最新信息后及时填补空缺项,将数据质量作为平台绩效考核的重要指标,严格把控数据质量,保证数据的全面性、及时性和科学性,同时,平台也应向社会公众和其他数据使用者征集意见,为用户提供有针对性的、准确的数据资源。

第三,明确更新频率,及时发布数据。公众对确诊病例和新增病例信息、确诊病例住址和行程信息、确诊病例详细信息这3类数据集的更新频率要求较高,同时,这3类信息只有实现高频率更新才能更好地起到疫情防控的作用。58个数据集中有20个属于这3类,其中,只有1个数据集标明是实时更新,7个为每日更新,1个为每周更新,其余11个为不定期或自定义更新。在疫情爆发时期,平台应明确新冠肺炎相关数据集的更新频率,为公众提供准确信息,同时,建立长效工作机制,尽可能提高数据更新频率,确保数据能够实现及时更新,让公众了解最新动态。

第四,完善平台功能,简化注册环节。58个数据集中只有15个的浏览量大于500次,9个的下载率大于20%。58个数据集的平均浏览量为1 550次,平均下载量为65次,平均下载率仅为4.22%。共有16个数据集下载量为0,主要有3个方面原因:①数据集发布时间较晚,大部分为2月5日发布;②平台建设水平较低,功能模块设置不便利,用户较少;③部分平台注册时必须提供身份证号码,用户可能考虑到隐私安全便放弃下载。当前,我国已有100余个政府数据开放平台,各平台可以向其他平台学习,完善自身功能,为用户提供便捷高效的服务,增加平台用户量;同时,平台应针对新型冠状病毒相关数据集采取特殊政策,简化注册和登录环节,提高数据下载率。

第五,创新数据产品,拓宽应用领域。基于新冠肺炎相关数据集开发的应用产品较少,有3个平台提供了疫情相关的网页应用,但这些应用大部分由企业或高校使用国家卫生健康委员会数据开发,对全国疫情数据进行展示。只有少部分应用采用了政府数据开放平台上的数据,如“济南市疫情防控数据查询”应用是济南市大数据局基于济南公共数据开放网的数据开发的。对于APP而言,其数据大部分也来自国家卫生健康委员会,并不使用平台开放数据。数据应用是实现数据价值的关键阶段,政府部门应鼓励企业、科研机构等使用平台开放数据、国家卫生健康委员会数据、社会数据开发应用产品,为优质产品提供免费宣传等服务和支持,同时,也可以通过组织数据应用创新创业比赛来促进社会数据和政府数据融合,助力成果转化。

猜你喜欢
开放平台病例肺炎
新型冠状病毒肺炎(四)
基于百度地图开放平台的导航电子地图课程实践教学研究
新型冠状病毒肺炎防护小知识
基于在线开放平台的混合式课堂教学模式构建与实践
“病例”和“病历”
一分钟了解新型冠状病毒感染的肺炎
《新型冠状病毒感染的肺炎防治知识问答》
基于AliGenie语音开放平台的传统家居智联网解决方案
也门霍乱疫情更新
云计算开放平台的知识产权问题研究