我国地方政府数据开放平台API的建设现状及优化策略研究*

2021-11-03 07:45:16梁艺多翟军
数字图书馆论坛 2021年9期
关键词:数据量用户

梁艺多 翟军

(1. 大连外国语大学软件学院,大连 116044;2. 大连海事大学航运经济与管理学院,大连 116026)

近年来,政府数据开放已成为推进我国大数据战略实施和实现数字社会建设目标的重要举措。截至2021年4月,我国已有174个省级和城市地方政府上线了数据开放平台[1],大量原本封闭在政府内部的数据资源被广泛地发布、共享、开发和利用,极大地释放了数据的潜在价值。API(Application Programming Interface,应用程序接口)是源于软件领域的一个重要概念,在现代软件开发中被广泛使用。从本质上讲,API是软件库对外提供服务的一组可访问接口,开发人员通过调用API可快速构建项目并实现代码复用,能有效提高软件的生产效率[2]。在开放政府数据的应用中,API又被称作“接口服务”或“数据服务”,它的技术优势集中体现在以封装的接口形式屏蔽了烦琐的数据组织结构,用户可依据指定的接口调用格式,通过对程序访问参数的有限赋值,从指定接口地址处获取实时动态的海量数据。鉴于此,由中央网信办等部委联合印发的《公共信息资源开放试点工作方案》[3]对API的建设工作作出了具体要求,即试点地区可用API接口下载的数据集占开放数据集总量的比例不低于30%。由此可见,API已成为推进开放数据资源深度开发与利用乃至提升我国政府数据开放整体水平的强大助推器。

与此同时,随着各地API的大量开放及广泛使用,各类有关API的建设问题也随之出现。在学术领域,部分学者对此开展了相关的研究工作:Planas等[4]设计一种模型驱动的API分析工具以帮助API提供者了解最终用户的实际使用情况;翁丹玉等[5]分析我国开放数据平台API的不足并给出开放标准化API的关键步骤;迪莉娅[6]从功能、类型、应用模式、存在问题及完善策略等方面对我国政府开放数据API的应用情况进行讨论。可见,现有研究成果仅侧重对API应用问题的宏观讨论,缺乏对其建设现状的客观评价。本文认为,高效利用政府数据开放API的基础是确保各地所发布API的高可靠性,而对各地现存API建设情况全面而准确的评价是厘清问题根源、改善和提升API质量的首要前提。因此,本文立足于对我国地方政府数据开放API建设问题的研究,在设计评估方案的基础上,对我国典型地区API的建设情况开展评价与分析,总结存在的问题进而给出优化策略,以期为我国地方政府构建高质量的开放数据服务、促进API的高效利用提供一定的行动参照。

1 评估方案设计

1.1 调研平台

世界上,各国政府普遍采用通过建立数据开放平台的作法以推进本国数据开放进程[7],而我国各地现有的API都是依托数据开放平台而建立的。为了确保所调研API对象的典型性,本文参考由复旦大学数字与移动治理实验室发布的《中国地方政府数据开放报告》[1],将其作为调研平台的筛选依据。该报告于2017年5月首次发布,每半年更新一次,报告创新性地提出“中国开放数林指数”的概念,用于全面评估我国地方政府数据开放的整体水平。报告按省级(最新版称为“省域”)和地级(含副省级,最新版称为“城市”)单列,分别给出两者的综合指数得分、总排名和开放数级。本文认为,上线较早、发展稳定以及排名靠前的地方平台的建设基础较好,能够为其他地方平台的后续发展及完善起到指示和引领的作用,更具代表性。因此,本文将选取整体水平较高的优势平台作为调研的目标对象。在筛选过程中,考虑的因素包括:第一,所选平台将覆盖省级、副省级和地市级3个行政级别;第二,尽量选取上线时间早、平台稳定性高以及在历次报告中整体排名靠前的典型地区。通过参考上述报告,最终选定的目标调研平台及地址如表1所示。

表1 目标调研平台及地址

1.2 评估框架

通过文献梳理发现,学术界围绕政府数据开放的评价研究主要集中在政府数据开放程度的评价[8-9]、开放数据集的质量评价[10-14]、开放平台的建设现状评价[15-17]以及开放数据的利用效果评价[18-19]等,尚未出现专门面向开放数据API的建设现状评价研究,也无可直接参照的API评价指标。因此,在设计评价指标时,本文既参考并复用上述研究中与API评价有关的通用指标,也根据API自身特性设计可衡量其实际水平的专用指标。同时,所采用的指标尽可能覆盖从平台供给侧到用户需求侧的全过程,以确保评价结果的覆盖面。拟采用的API评估框架及指标描述见表2。

表2 评估框架及指标描述

2 建设现状及问题分析

2.1 开放性

确保数据的优质开放是高效利用数据资源的首要前提,而开放性是衡量政府数据开放程度的重要指标,它从侧面反映了政府部门对数据开放工作的重视程度。本文引入“接口开放率”的概念对API的开放性进行衡量与考察。接口开放率是指开放数据平台提供的API数量与数据集总量的比值[15],它反映了现有数据集在多大程度上以API形式对外提供数据的在线调用和访问。本文认为,如果接口开放率越接近100%,则表明API与数据集的协同开放度越高,即平台方较为重视API的建设工作;如果接口开放率明显小于100%,则表明API的开放度不足且有待提升;如果接口开放率明显大于100%,则表明平台方在接口设计方面存在一定的异常,需要分析具体原因。基于此,本文统计截至2021年9月15日各目标平台已公布的API数量和数据集总量,并据此计算接口开放率。其中,API的统计对象是指已被平台纳入API总量统计且以独立目录形式发布的API条目。

根据统计结果发现,浙江、北京、深圳和福州的接口开放率均在100%左右,说明这4个地区除了静态文件的方式外,均较为重视以API的形式对外提供数据的在线访问和调用,API的开放度较高。而上海、广东、青岛、济南和贵阳这5个地区接口开放率总体偏低,青岛接近61%,上海和济南不足45%,广东和贵阳均低于15%,说明上述地区较为重视以静态文件的方式发布数据集,对API的利用程度较为有限,API的开放度仍有提升空间。此外,哈尔滨的接口开放率虽高达204%,但这一数值明显存在异常,通过进一步分析发现,该地存在将一个完整的API按不同功能拆分为多个API的情况,这些API并未按其所属的数据集进行归一化的整合处理,导致这些被拆分的API无规律地散落分布并被平台单独统计,形成大量的API碎片,进而出现接口开放率虚高的情况。

2.2 多元性

API多元性[16]用于描述其自身内容的多样性和外部渠道的多源性。本文通过API的数据主题和发布部门两个角度考察其多元性。

首先,参考《中国地方政府数据开放报告》[1],将API的数据主题划分为城建住房、财税金融、交通出行等14个分类,并据此考察各地区已开放API的主题覆盖情况。对于采用与标准主题分类不同的地区,将其主题进行必要的归类与合并,并与标准主题分类进行映射,各地区主题分布的统计结果见表3。

表3 API数 据主题

由表3可见,在所有地区中,只有浙江、北京、青岛、济南和福州的API覆盖到全部主题,而其他地区均存在某类主题接口缺失或某类主题接口数量偏少的情况,说明我国地方政府仍存在部分平台对API主题多样化建设的重视程度不足。在所有主题中,排名前5位的分别是机构团体、社保就业、经贸工商、社会民生和资源环境,说明此类API具有较高的社会公共价值,是政府提供API服务的重点领域,应给予优先开放。此外,信用服务、城建住房、财税金融、农业农村和交通出行等主题的API数量较少,数据价值发挥有限,应加大此类API的开放力度,确保各类主题API的协同、均衡发展。

其次,对各地参与API发布的部门数量进行统计。根据统计结果发现,北京和济南两地参与API发布的部门数量都在75个以上,说明两地政府部门的重视度与参与度较高,确保了API来源的广泛性。相比之下,除广东为23个之外,其余各地参与API发布的部门数量较为接近,均在50个左右,总体偏少。通过进一步分析发现,市场监管局、自然资源和规划局、交通委和生态环境局等是提供API数量排名靠前的部门,此类部门与普通民众的生产生活联系紧密,可提供的API数据较多。同时,外事办、国资委和市编办等部门提供的API数量偏少,应采取更积极的措施加大上述部门的API开放力度,以确保数据来源的多渠道和覆盖面。

2.3 多功能性

多功能性用于描述API的不同功能类型及其用途。通过对各地API实例及用法的调研与分析,归纳出不同的API功能类型。其中,数据接口(也称为“信息查询服务”)用于一次性获取接口中所有数据记录,该类型接口的数据返回量大但处理难度高;分页接口(也称为“信息分页查询服务”)用于获取接口的分页查询子集,并通过“当前页数”和“当前页行数”字段控制分页效果;总数接口(也称为“信息数据量查询服务”),用于获取接口的数据总量,且返回参数中包含“数据量”字段;更新接口(也称为“数据更新查询接口”)用于获取接口的历次更新日志,且返回参数中包含“数据更新日期”字段;文件接口与其他类型接口不同,获取的是保存数据的文件介质信息,且返回参数包含“文件名称”“文件更新时间”“文件获取地址”字段。

基于上述功能类型,本文进一步统计不同类型API在各地的分布情况,结果见表4。

表4 API类型分布

由上表可知,在纵向上,分页接口的地区分布数最多(6种),其次是数据接口(4种),而更新接口和文件接口的地区分布数最少(仅为1种);在横向上,浙江和哈尔滨支持的接口类型最多(3种),而其他地区均只支持1种。可见,各地对API的功能认知并不统一,接口形式也呈现出多样性特点。通过进一步分析发现,上海、青岛和济南唯一采用的数据接口是一次性获取全量数据,如果返回的数据量太大,则不易处理与控制,与广东、深圳、福州和贵阳唯一采用的分页接口相比,缺少一定的灵活性和可控性;北京的接口类型以文件接口为主,调用此类接口返回的并不是数据本身,而是保存数据的文件介质信息,不利于应用程序的直接处理;浙江接口类型最多且接口开放率控制在100%左右,相比之下,哈尔滨的接口类型与浙江相同,但接口开放率高于200%,原因在于:浙江对归属于同一API目录的不同类型接口进行了有序化组织,即通过API目录定位某个接口名称后,可直接获取该目录对应的所有类型接口,而哈尔滨在接口目录中并未对具有同一性的不同类型接口进行归并处理,相反,这些接口散落分布且彼此间未建立关联,形成大量的碎片化现象。

2.4 可用性

API可用性反映了平台提供的API能否正常满足用户的使用需求。本文认为,“低效用”和“低容量”是影响API可用性的两类重要因素,而低可用性已成为政府开放数据向高价值数据迈进的主要障碍[20]。因此,本文从上述两个角度对API的可用性进行分析。

首先,在低效用方面,本文通过对各平台API实例的逐一考察,总结了影响API使用效果的典型问题,并将存在这些问题的API视为低效用API。其典型问题包括以下内容。第一,API目录对应的页面不存在。例如,访问贵阳市的“贵阳市企业股东信息”API目录和北京市的“保险代理机构设立审批”API目录时都会出现API页面不存在的情况。第二,API页面未提供接口调用地址。例如,上海市的“医疗机构注销通知书”API页面中未提供“接口服务地址”字段。第三,API页面的接口调用地址无效。例如,上海市的“统计年鉴查询”API页面中提供的接口地址实际是访问上海市统计局官方网站中历年“上海统计年鉴列表”的网址,而并非真实的接口地址。第四,API发布后至今从未被正式调用。例如,以2021年9月15日为截止日期,广东的“普通货物运输车辆信息”API自2020年1月7日发布后至今未被调用,调用次数显示为0。

基于上述标准,本文对各平台的低效用API进行专门统计并计算其在所有API中所占的比值,结果见图1。

图1 各地低效用API对比结果

可见各地方平台或多或少都存在一定数量的低效用API。其中,哈尔滨和北京所占比例较高,达到90%以上;上海超过60%;浙江和广东相近,在25%左右;其余各地均控制在10%以下。这些低效用API或者因其自身问题根本无法正常使用,或者是在其发布之后至今从未被应用程序正式调用。无论何种情形,这类API都未真正发挥过其应有的价值,相反,平台方在存储和维护这类API时需耗费较大的空间和人力,一定程度上造成资源的浪费,对此,平台方应定期开展检查并及时给予优化及清理。

其次,在“低容量”方面,本文认为,API的技术优势体现在对海量数据的发布和获取,如果单个接口的数据量不足万条,则采用静态文件的方式保存数据更加便捷和灵活。据此,本文将数据量不足万条的API视为低容量API,并对目标平台API所含数据量情况按不同层次区间进行分段统计。以贵阳市为例,其API所含数据量的区间分布情况为:小于1 000条的占比为83.07%,大于等于1 000条且小于1万条的占比为8.07%,大于等于1万条且小于10万条的占比为5.73%,大于等于10万条的占比为3.13%。由此可知,在贵阳市的所有API中,超过90%的API数据量不足1万条,且随着统计区间段的层级递增,各区段API的占比也逐渐减少,即低容量API占比偏高。除贵阳外,通过对其他可公开获取API数据量的平台分析发现,各地除了一些热门API的数据量处于较高的水平外,其余API的数据量也普遍较低,甚至出现个别API只有1条或几条数据的情况,对API的可用性造成一定的影响。因此,各地应进一步提升API自身的数据量,以推动其向高容量的转化,最大程度地保证API使用效能的发挥。

2.5 可访问性

可访问性反映了用户在使用API过程中所遇到的各种授权类型及其访问权限。本文主要从API的查看权限、使用权限和调用权限3个角度考察其可访问性。其中,API查看权限是指在查看某个API目录的接口服务地址和使用说明等具体信息时是否需要事先实名注册和认证;API使用权限是指某些特定API的开放属性是否为有条件开放,即需要先申请并获批后才可使用API;API调用权限是指在程序中调用具体的API时是否需要提供进行授权验证的应用识别码(如token或appKey)。各地API访问权限的统计结果见表5。

表5 API访问权限

可见除上海外,其余各地都支持以匿名身份对API进行查看。除北京和贵阳外,大多数地区都存在需要先申请再使用API的情况,但也存在一定的区别:上海和广东只针对部分API需要申请,而其他各地对所有API都需要依据申请再使用。在API调用权限方面,所有地区都要求调用者提供能够进行授权验证的应用识别码,并在应用程序中以参数的形式提交给API接口校验,以确保访问身份的专属性和合法性,避免因无限制API调用给平台带来的负载压力。总体而言,多重访问权限虽然在一定程度上保证了API的合理、合法调用,但同时也为使用者带来了诸如隐私泄露、操作烦琐等各类障碍和困扰,极易造成用户的体验感差、使用意愿低下甚至丧失信心和耐心等问题。

2.6 导航性

API导航性是指平台为了方便用户查找和使用API所提供的各种操作引导方式。本文从推荐排行榜、检索方式和检索结果查看方式3个角度对API的导航性进行考察。其中,推荐排行榜是指平台能够依据某项指标按照由高到低的顺序向用户推荐API排名榜单,检索方式是指平台提供的各种用于引导用户查找API的筛选条件和查找方式,检索结果查看方式是指平台针对用户API查找结果提供的多样化展示方式。各地API导航性的统计结果见表6。

表6 API导航性

从总体看,上海和贵阳支持的导航方式最多,共计13种;而北京、深圳和哈尔滨三地最少,仅为7种。可见,各地对API导航性的支持方式存在较大的差异。从推荐排行榜看,只有上海、福州和贵阳三地提供了3种API推荐排行榜,其余各地均存在缺失。其中,北京、深圳和哈尔滨三地只提供1种“按访问量排名”的推荐方式,且北京和哈尔滨两地的推荐榜单被放置在页面底部,降低了导航的直观性。从API检索方式看,所有地区都支持“关键字检索框”“按主题”“按部门”的检索方式,说明此方式是提升API检索结果的有效手段,应给予大力推广。其中,仅有上海支持“按评分检索”的方式,此方式可按评分高低对API进行等级分组,帮助用户直接锁定高质量API以减少筛选的时间,其他平台应尽快给予采纳。从API检索结果查看方式看,所有地区均支持“按更新时间排序”和“分页浏览”的方式,说明这两种方式较为符合人们日常的浏览与阅读习惯,应给予优先使用。其中,仅有上海和贵阳两地支持“按名称排序”的查看方式,此方式可按API名称的升降排序直接将内容关联性强的API并靠罗列,确保了API查找的全面性。此外,仅有福州和贵阳两地支持“按数据量排序”的查看方式,此方式可帮助用户精准掌握目标API的数据容量,进而辅助API可性用大小的初步判断,进一步提升了导航的实用性。

2.7 支持性

支持性是指平台为促进API的有效利用而向用户提供的各种支持和辅助措施。本文从API的效果评价、互动推广和开发支持3个角度对其支持性进行考察。其中,效果评价是指用户对API的使用效果进行打分和主观评价;互动推广是指平台为了向用户提供更全面API服务而设置的互动交流功能;开发支持是指平台为了辅助开发者有效利用API开发应用App而设置的各类支持性措施。对API支持性的考察结果见表7。

表7 API支持性

从总体看,深圳在所有地区中对API的支持措施最多,共计12种;而北京和哈尔滨对API的支持措施最少,仅为8种,说明各地在对API的支持力度上存在明显的差距。在效果评价方面,哈尔滨不支持任何对API的评价方式,北京仅支持1种,而上海、深圳和福州等地除了支持用户对API的综合评分外,还支持对其在完整性、准确性、及时性和可用性等分项的评分。在互动推广方面,上海和深圳两地支持所有的推广功能;而哈尔滨仅支持“收藏”一项功能,与其他地区相比,互动性明显偏弱,应给予加强。在开发支持方面,所有地区都提供了用户对需求接口的申请、接口使用说明和App提交通道的支持,一定程度上推动了API资源的深度开发与持续利用。大部分地区提供了“接口示例样本”这一元数据项,但需要指出的是,上海和哈尔滨两地并未提供其具体取值,导致其无法发挥实际作用,应尽快给予改进。同时,只有部分地区提供了开发指导文档和在线测试工具,此类措施可高效地辅助应用App的开发和调试,其他地区应加大对这一措施的支持力度。此外,为了加强API的应用推广,所有地区都组织了以“开放数据”为主题的数据类竞赛,起到了“以赛促用”的效果,但目前只有上海、深圳和福州等少数地区将比赛办成了年度常规赛事。

3 API优化策略

3.1 重视和推进数据集与API协同开放,建立长效、稳定、多元的API更新机制

我国各地方政府应充分认清API在促进政府数据开放整体水平提升中的重要作用与关键地位,提升思想重视度和行动参与度,坚持数据集开放与API开放的双轨建设并举,既要避免出现“重数据集、轻API”的开放失衡情况,也要杜绝“人为拆分完整API”的碎片化现象,力求将接口开放率控制在100%左右的合理水平,并在此基础上最大限度地提升API的开放度。同时,为确保API开放工作的常态化与持续性,在具体工作中,应建立起“主要领导督办、主管部门牵头和责任部门配合”的三层管理体系,为扎实、有序推进API的建设工作提供坚实有力的组织保障。主要领导应充分发挥“一把手工程”的引领和带动效应,做到靠前指挥、亲自主抓,确保各项API开放政策与行动的贯彻落实。主管部门应切实担负起宏观统筹与协调联动的指挥作用,立足已有的开放经验与成果,开展充分调研与论证,深挖用户的潜在需求,建立高价值主题API的指导性识别准则,采取激励措施引导更多部门加入开放队伍,建立和完善与API开放配套的管理制度与行动方案,确保API开放工作“有规可依、有章可寻”。责任部门作为API开放的执行主体应切实从思想上重视该项工作,积极响应、密切配合,结合部门自身的实际情况,认真分析、科学研判,制定合理的API开放清单,在确保高价值主题优先开放的基础上,不断扩大开放主题的覆盖范围,应建立本部门API新增与更新的日常执行条例,制定与之配套的具体执行计划,并严格贯彻落实,以确保API开放工作持续、有序地向前推进。

3.2 整合碎片化API、优化低效用API、扩充低容量API、破解限制性API

我国各地方政府应立足本地区API开放的实际现状,认真梳理并深入分析各类API质量问题,努力寻求破解之道。在实践中,可参考全国大多数地区在API类型设置上的主流作法,即优先使用“分页接口”、合理使用“数据接口”、少用或停用其他类型接口,从根本上截断碎片化API产生的来源。针对已有的碎片化API,应按照统一的API目录加以归一化整合,以确保功能不同但名称相关的API都挂靠在同一个目录下。各地区的主管部门应建立常态化的API质量检查机制,推行各主体部门定期自查和主管部门不定期抽查的双重检查举措,随时监测、发现低效用API,对于无法修正和优化的API应当给予及时清除,以充分释放平台的空间资源。针对用户关注的热点API和高价值主题API,在满足平台可支撑、机器可处理的条件下,应进一步加大单个接口的数据开放量,并从总体上逐步提升高容量API的占比,为用户创造更多的数据获取和使用机会,以充分释放API在处理海量数据方面的潜在价值。同时,在确保核心涉密数据不被泄露、数据所有权不受侵犯和用户个人隐私得以保护的前提下,应竭力破除各类API访问障碍、降低API使用门槛,支持用户以匿名身份方式对API目录进行浏览,减少或取消“依申请开放”类型API的数量,淡化行政审批在API使用中的干扰,力争实现“封闭即禁用、开放即可用”的简单API使用机制,构建用户与API之间的良性互动态势,持续扩大API的受众面和影响力。

3.3 建立和完善各项API促用保障举措,切实激活使用潜能、释放价值效能

为了最大限度地挖掘和释放政府数据开放API的潜在价值,各地政府应不断建立和完善各项API的促用保障措施,持续优化平台的各类服务功能,不断加大API建设的投入力度,针对不同API用户群体制定有针对性的宣传、推广与服务策略,进一步扩大API的用户基础,全力保障API价值效能的充分释放。针对现有API用户,各地可从自身平台出发,补足平台在API服务方面存在的短板。可通过提供多样化的导航途径以更友好的方式引导用户查找、检索、发现和组织所需的各类API资源;鼓励用户针对已开放API资源的实际水平进行分级打分以及主观评价;支持用户针对使用过程中遇到的问题及个性化需求开展反馈纠错、互动咨询、问题提报和收藏分享等;不断补充和修订接口使用说明书和API操作手册等指导性开发文档;提供API在线调用测试工具以支持应用App的开发;拓展和丰富各类应用App数量并鼓励更多的用户参与下载和使用。针对潜在API用户,可通过组织和举办API公益讲座、API免费公开课等社群活动开展API使用的普适性教育,引导潜在用户认知和认可API巨大的发展潜力,促使其向真实用户转变;各地可通过持续举办数据开放竞赛,吸引更多对该领域感兴趣的人加入其中,在提交参赛成果时,也潜移默化地成为API的事实使用者,最终实现以赛促用的推广目标。

猜你喜欢
数据量用户
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
电子制作(2019年13期)2020-01-14 03:15:18
AMAC
软件导刊(2018年3期)2018-03-26 02:14:46
关注用户
商用汽车(2016年11期)2016-12-19 01:20:16
关注用户
商用汽车(2016年6期)2016-06-29 09:18:54
关注用户
商用汽车(2016年4期)2016-05-09 01:23:12
Camera360:拍出5亿用户
创业家(2015年10期)2015-02-27 07:55:08
100万用户
创业家(2015年10期)2015-02-27 07:54:39