基于历史数据的志愿者地理信息数据质量生成机制研究

2022-11-26 00:55杨岸然
测绘学报 2022年9期
关键词:贡献者历史数据贡献

杨岸然

国防科技大学电子科学学院,湖南 长沙 410073

志愿者地理信息是用户以自发开放协作的方式生产的地理空间数据,具备生产成本低、数据更新快等优点,理解数据质量的不确定性是将其用于地理信息应用的关键。与传统地理数据生产通过标准控制数据质量的方式不同,在志愿者地理信息中,数据质量随时间推移不断优化,是一种“生成”的过程。这一过程与数据贡献的过程乃至项目发展的历程密切相关,需要基于历史数据进行分析研究。

以志愿者地理信息中最具代表性的开放街道地图(OSM)项目为研究对象,结合质量和贡献者这两个该领域的重要研究方向,通过分析贡献历史来分析志愿者地理信息的数据质量如何在项目的发展过程中逐渐优化。论文主要包含以下几部分内容。

(1) 提出了志愿者地理信息中数据演化与贡献行为的时空模型。①面向历史数据规模大,数据格式不友好,时空数据具有本质复杂性等问题,基于时间地理学定义了一个OSM历史数据的时空模型,定义了基于时态逻辑的谓词与算子,用于建模和分析历史数据。②实现了历史数据分析处理工具集,包括信息保真、内存轻量的数据库快速导入工具,以及可以支撑多种研究应用的SQL工具集,便于相关研究高效建模并形成分析结果。

(2) 定量分析了贡献不平衡性的基本特征、时空规律与内在机理。①基于分位数的分组策略,使用洛伦兹曲线、基尼系数与秩和检验分析OSM中的贡献不平衡性,即少数人生产绝大多数数据这一现象,发现OSM中的不平衡性显著高于维基百科等通用开放平台,并随着项目发展逐年加剧。②分析了“沉默的多数”和“发声的少数”这两极贡献者在不平衡性加剧中扮演的角色,发现前者人数持续增加、后者人数相对稳定是不平衡性加剧的主要原因;发现不平衡性的程度在没有显著导入的国家持续平滑增长,在有显著数据导入的国家存在波动并与最活跃用户的生产率变化保持一致,这可能由数据大量导入的事件导致。

(3) 基于贡献历史分析了主要贡献者的专业度,重新审视了志愿者地理信息的数据是来自专业用户还是业余用户这一关键问题。①研究选取承担了绝大多数编辑工作的头部贡献者,围绕实践、技能和动机这三个主题,基于假设检验的思想设计了一系列贡献者专业性的鉴定指标,如贡献天数、贡献跨度、主要工具、首月主要工具、工作日生产力及连续贡献天数等,尽可能可信地推断从事数据生产的是否可能是业余贡献者。②通过上述指标,判断在德国、法国和英国的主要贡献者群体更可能是专业人员而非业余贡献者,从一个侧面解释了OSM数据在这些地区的优良质量。

(4) 分析了主要贡献者的行为偏好、偏好变迁及其影响。①对用户偏好进行分类,设计基于熵的多样性指标,基于关联规则挖掘和规律分析方法与一系列统计方法对贡献偏好进行考量,并对其随时间的变化规律进行分析。②以建筑数据为例,运用建筑物数量、建筑物形状特征及建筑物属性等指标对数据演化规律进行刻画,证实了数据从数量到质量逐步精化的发展规律。③发现贡献者偏好多样性的增长,且这一多样性很大程度上归功于偏好不同的贡献者的持续加入。随着多样性的提高,为提高属性精度和精细度进行的编辑在整个贡献中的比重逐渐增长,且与数据演化中发现的相关规律相一致。④发现用户的偏好可能相当极端且具有稳定性。不进行某类操作的习惯较为稳固,许多贡献者甚至一直只进行一类编辑。这说明新增的、偏好不同的用户对补齐数据质量短板具有显著意义。

猜你喜欢
贡献者历史数据贡献
也论昆曲的形成与梁辰鱼的贡献
中国共产党百年伟大贡献
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
2020:为打赢脱贫攻坚战贡献人大力量
从“学习者”到“贡献者”:中国管理学发展的路径
“‘一国两制’杰出贡献者”国家荣誉称号
从数据分析的角度浅谈供水企业漏损诊断
爆笑大本营
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效