钟 静,刘星瑞,郭明强,,3,4*
(1.湖北地信科技集团股份有限公司,湖北 武汉 430200;2.中国地质大学(武汉)地理与信息工程学院,湖北 武汉 430074;3.中国地质大学(武汉)计算机学院,湖北 武汉 430074;4.国家地理信息系统工程技术研究中心,湖北 武汉 430200)
随着大数据、云计算、人工智能等技术的不断进步,深度学习技术在图像识别方面取得了重大进展[1]。在遥感领域,近年也利用深度学习技术支持场景理解、地物目标检测与土地覆盖分类等任务。人们通过构建大量样本数据训练深度学习网络,显著提高了遥感影像特征提取成效[2-4]。人工智能在各个行业广泛应用的过程中,对数据的完整性、数据标注效率、数据精准程度、数据维度和样本复杂性的要求越来越高,这对样本标注技术、标注平台能力、样本协同标注等都提出了挑战。样本标注是样本库建设的基础工作[5],作为人工智能模型训练过程直接与数据精度衔接的一环,样本标注更是整个工作流程的重中之重。
随着AI行业的发展,优质数据可能成为公司发展的壁垒。但无论大中小企业,在面对样本标注任务时,或多或少都会有技术或者资源上的问题,这归因于样本标注行业目前还没有较好的在线数据协作标注平台,也没有一个样本标注的统一标准。在这种行业状况下,亟需一个能够实现共享标注、样本统一管理的在线标注平台。本文以解决遥感影像深度学习样本标注的实际问题为基准,设计并实现了一种基于Web-GIS的遥感影像深度学习样本在线标注系统。
随着互联网技术飞速发展,人们的生产方式、思维方式、学习方式都发生了翻天覆地的变化,同时也加速了中国迈向学习型社会的步伐。深度学习作为一种新的学习方式,已越来越受到研究者和学习者的重视[6]。对遥感影像进行深度学习样本采集并非新课题,在各大高校、研究所或相关单位中,可见许多专用的遥感影像深度学习样本标注软件。
互联网的高共享,信息获取快的特点为遥感影像深度学习样本标注提供了更多的便利。目前市面上的深度学习样本标注系统虽然都服务于数据标注工作,但其功能各有差异,解决的问题也各不相同。例如航天宏图公司的PIE-Engine样本协同标注平台面向的是整个数据采集、标注、训练、应用的过程,其数据格式和标注过程也更加偏向其对应的数据训练模型[7];华为云的AI开发平台ModelArts提供其原创的数据标注系统,涵盖图片、音频、文本、视频等多种介质的分类方法以及海量的数据处理功能,但需要依赖华为云提供的云服务器,操作较为复杂,不利于团队协作标注;杭州景联文科技有限公司和北京倍赛科技有限公司的样本标注品平台均提供2D、3D融合标注,点云标注及OCR转写功能,其中景联文公司的数据标注偏向于指纹识别方向,而倍赛公司的数据标注偏向于医学研究,对于遥感影像的标注没有一套完整有效的标准。其他大部分的深度学习样本标注系统也都具有类似问题。但不可否认的是,现有的深度学习样本标注技术已经较为成熟,为遥感影像深度学习样本标注系统的构建提供了宝贵的案例和技术支持。
国外在深度学习领域起步早,研究者众多,在数据标注方向相关研究领先我国。面向数据标注工作的专业软件就有十余种。其中,可应用于遥感领域的具有多用户在线协同功能的有CVAT、Labelstudio、Scalabel等。在本地运行的单机标注软件有LabelMe、Vatic、Sloth、Annotorious等。但无论是国内还是国外,在Web端的多用户协作标注平台发展并不成熟,做得比较完备的如CVAT使用的是Django框架管理用户,在Web端上传数据并创建标注任务,且需要Docker容器环境运行,安装复杂且数据上传不稳定,等待时间甚至多于工作时间。
总体来看,亟需研究并开发遥感影像深度学习样本在线标注平台,提升样本标注团队的工作效率,提高遥感影像深度学习样本质量,最大程度减轻样本标注复杂程度。
经过分析,样本在线标注系统需要满足如下特点:标注工具部署在Web端,能即开即用;数据最好放在服务器端统一的样本数据库中,避免本地数据二次上传浪费人力物力;有公开的样本数据可供参考、学习;用户之间能够分享自己标注的样本。
作为一个样本在线标注系统,至少需具备在线协作样本标注基本功能。从标注用户角度出发,需考虑样本的呈现方式,简化协作标注过程,对已标注的样本考虑是否需要可视化展示及如何展示;从管理员角度出发,应了解如何进行用户信息管理和平台样本管理。对上述需求分析,系统功能规划为影像地图基础功能、样本标注核心功能、数据管理功能、网站业务功能四大模块,系统整体功能需求如图1所示。
由于遥感影像深度学习的在线标注系统是面向大规模样本进行标注的,涉及到的人员范围较广,这就要求该系统能够支持大规模的人员登录,同时也可以防止由于并行操作而造成的系统信息差错。
管理员登录人数少,但是要处理海量的数据,对本系统服务的容量有较高要求,否则会导致网页出现卡顿,从而影响用户的体验感。同时,如果与相关部门合作,会利用政府的内部资料,进行必要的安全防护,以避免信息外泄。
综上所述,系统需具备性能高,操作简单,数据安全性高,统维护便捷,可用性好等特点。
本文设计的遥感影像深度学习样本在线标注系统采用B/S架构,REST服务风格设计,前后端分离的开发风格,利用浏览器完成对工作页的访问。极少部分的业务逻辑存在于浏览器端,从而降低了服务器的负荷,也降低了后期的升级和维护费用。在后台使用MapGIS IGServer,为用户提供统一的数据存取界面。而在前端则是Vue架构,采用element-UI来调整网页的外观样式,让使用者获得更好的体验感。利用所述的界面传送Http要求、作业命令及接收用户反馈,并在前端网页上呈现数据。
系统前端划分为视图层和逻辑操作层,视图层主要是Vue框架将处理好的数据渲染到页面上进行相应的显示以及用户信息和网站业务信息显示的图层[8]。逻辑操作层主要是针对用户的操作进行相应处理,发送网络请求,以及获取后台发送回来的数据,对其进行相应处理,使得其符合数据显示的要求。后台划分数据逻辑操作层和数据层。数据逻辑操作层主要是后台获取网络请求后,按照要求设置数据的操作指令,以及发送数据操作后的结果。数据层是指数据库层次,指数据存储和对数据库中的数据进行修改、获取、删除等操作。
系统角色设计为普通用户和管理员两种。普通用户是系统的主要使用者,系统大量的样本数据是由普通用户上传并提交审核。在用户个人创建的项目中,项目创建者拥有对所标注的所有样本进行操作权限,而项目参与者只能够修改自己标注的样本。在公开样本集中,普通用户只有浏览下载公开样本集的权限,管理员则拥有变更这些信息的权限。
系统数据库采用IGServer平台的数据服务层,提供基础的影像、矢量、三维等数据支持。其中,GIS数据库包括本地的HDF文件数据库,以及基于其他数据库存储的网络数据源数据。在IGServer平台中,使用空间数据库引擎技术(SDE)与中间件技术,通过数据中心对海量、多源、异构数据进行一体化管理[9]。遥感影像深度学习样本在线标注系统数据库共有3个数据库表,分别为用户信息表、待审核信息表、系统项目信息表。其中用户信息表包括普通用户信息表和管理员用户信息表,系统项目信息表包括项目信息表和系统消息信息表。
本文设计的遥感影像深度学习样本在线标注系统基于Visual Studio Code×64开发环境和MapGIS IGServer 10.2互联网GIS服务平台实现,系统包括登录、首页、影像地图、样本标注、数据管理、网站业务管理等模块。
用户首先需要注册账号,拥有账号的用户输入正确的密码可直接登录系统,系统登录成功后,首页界面示意图如图2所示。然后需要创建项目,填写相关信息以及将待标注的影像数据上传,待管理员审核后发布在个人标注任务中。审核通过后,用户选择要标注的项目开始进行样本标注所示。
图2 系统首页
样本标注模块实现样本标注的全过程,该模块是本系统的核心功能。首先,用户选择标注的图层进行要素绘制,同时用户对所选要素可以进行编辑操作,如图3所示。标注绘制完成后,样本生成并打包提交审核。管理员读取并审核完样本后,如图4所示,将样本添加为压缩包,通过Node Package Manager发布至服务器,生成相应的超链接供用户点击下载。如图5所示,用户自行选取导出样本区域,裁剪合适大小调用后台进行批量下载,生成深度学习样本。用户可以使用已经标注好的公开数据集进行样本生成,以用于学习样本标注过程和统一样本标注标准。
图3 样本标注
图4 坐标选择审核范围
图5 样本下载
遥感影像样本标注专业性较强,目前样本采集主要采用专业人员手工采集,效率低、成本高,且由于样本标注者的专业认知差异导致标注质量不均[5]。为提高样本采集效率和质量,本系统支持样本众包协同采集标注、在线校验。用户将待采集遥感影像样本共享至系统,将地理信息数据公开,将大区域的标注任务发放至平台。通过发放众包任务,让多个专业用户在线协同标注及上传,管理员统一审核后将满足要求的样本补充至样本库。
信息化的标注平台不需要标注人员手工进行样本的标注统计,系统通过样本标注可视化功能全方位多角度地展示项目的完成情况及各类样本的占比。可以通过项目参与者各自标注的样本数量柱状图,近一周项目样本标注走势折线图,样本来源环状图,不同类别样本占比饼状图在线查看样本情况,如图6所示。
图6 样本统计
本文从建设背景、需求分析、设计、实现4个方面介绍了遥感影像深度学习样本在线标注系统。笔者通过对目前的国内外现存的深度学习样本在线标注网站进行调查研究,结合参与过的深度学习样本标注例子和面临的实际问题,充分对标注用户和管理人员的操作流程和习惯进行分析后构建出的管理系统。对标注用户来说,采用网页浏览的方式,界面友好,且操作形式和业务逻辑与传统的地图网站相似,操作简单易懂。业务方面,将遥感影像进行在线协作标注能大幅减轻标注团队的工作量,提高了样本标注效率,减少了人力消耗。