基于地标景物识别的非传统定位系统

2020-12-29 11:53陈一铭朱杰
科学大众 2020年7期
关键词:图像识别深度学习

陈一铭 朱杰

摘 要:目前受限于GPS等专业定位系统的高成本,人们日常生活中普遍采用移动端的定位设备(如手机),但是部分地区,如深山和峡谷区,通信信号很差,手机的移动网络失效,此时,基于手机GPS和移动网络的传统定位及导航方式失效,不能对自己定位并进行区域导航。因此,需要一种在弱信号地区,通过单机识别地标、景物来判断当前位置的系统,作为辅助定位的方式,帮助人们在特殊情况下实现离线定位和相对导航。

关键词:深度学习;图像识别;相对定位

1    研究背景和意义

在精准扶贫浪潮下,习近平总书记鼓励青年用创新创业成果服务地区振兴战略、助力精准扶贫。开发贫困地区丰富的旅游资源,兴办旅游经济实体,完善相关地区的基建设施,使旅游业形成区域支柱产业,进而成为实现贫困地区居民和地方财政双脱贫致富的重要途径。

近年来,旅游已经成为人们生活必不可少的一部分,但大部分目的区域对于旅客来说都是陌生环境,旅客需要依靠对应的定位和地图系统来获取自己当前的位置以及制定去往下一个景点的具体路线策略。由于对陌生地区的环境与地形不熟悉,为了准确判断当前主体的地理位置,大众普遍采用基于移动端GPS的网络地图来实现定位。不局限于日常生活,野外勘探、考察等行为也需要一个相对可靠的便携定位系统,以此作为其他专业定位方式的补充。但是,除了专业GPS定位外,大众普遍采用的移动设备(如手机)受制于网络或电信基站信号,对于山区、隧道、峡谷等弱信号地区或干扰信号区的定位普遍不够准确甚至会失效。

本项目提出一种在弱信号地区,通过深度学习来帮助用户识别目标对象,多维分析识别地标性地貌、景色来判断当前位置的方法。同时将此方法落地成便携应用(APP)后可以作为GPS定位的重要补充,为复杂地貌区及偏远地区的发展和个人用户的使用,提供可靠、便捷的地理信息保障。

2    国内外研究现状

基于图像识别的定位技术一般分为大范围空间的图像定位和特定某一区域定位。大范围空间的图像定位技术常见的有卫星遥感图像定位、声波图像定位等,这些定位技术在原理上有相似之处,但又存在根本差异。但目前国内外研究中,利用图像识别定位的主要共性,都是通过确定整体地域的对应方位关系,进而定位观测目标的实际地理位置。

在图像定位的技术体系中,图像处理技术是关键,其次才是数据匹配和相对位置的区域分析。图像识别技术属于人工智能机器学习在图像领域的应用,为了使得图像识别技术能够更加精准地进行识别,引入了深度学习。图像识别技术使用神经网络对目标特征进行提取和组合,形成高级语义特征概念,达到识别目标的目的,而图像识别技术引入深度学习,对比于传统的图像处理技术能够得到更加细致抽象的目标特征表示。但是目前对应的视觉识别和图像处理技术还并不成熟,只有譬如文字识别、人脸识别等图像识别技术达到了应用水平,其他大部分仍处在理论和实验阶段。

由于图像识别技术核心在于神经网络中的网络层对目标特征的提取,为了减少神经网络在设备中的运算负荷,深度神经网络的提出对图像识别算法进行了更加精细的改进。并且现如今随着计算机运算算力的大幅度提高、运算效率提升和GPU加速技术的发展,图像识别技术的识别率和精准度都有了显著的提升。

本文中的图像识别技术,是在移动端上进行的,最常见的设备就是手机。神经网络在研究识别模型中往往很少考虑设备的算力,而神经网络中含有大量的参数,在识别过程中将会耗费一定的时间,对于能够落地商用的图像识别模型来说,如何在满足快速识别的同时保证精准识别,这是最主要的问题。虽然手机等移动设备具备便携优势,但在算法模型的搭建和运行上还是有一定劣势。当下国内外基于移动设备的图像识别技术研究主要集中于局部特征提取、人像识别、文字识别、图像分类等方面。

3    定位系统的设计和主要架构

本文涉及的定位系统是基于移动端图像识别和数据分析的,主要介绍了图像处理技术、算法模型封装应用技术和定位导航的测算技术。为了让系统具备离线图像识别及定位功能,系统形式上主要由可下载区域图像特征参数的服务器端和客户使用的客户端构成。同时在移动端程序部署对应的深度学习模型和识别算法,通过识别地标地形、标志性景物来判断当前位置。再根据预先录入的区域地标分布图,实现三角定位和导航。

系统主要由三部分组成,分别是储存并分析出数据特征的服务器端、用于图像输入和搭载程序的移动端以及在移动端进行识别分析的算法模型。具体如图1所示。

图1  系统逻辑流程

3.1  服务器端

在服务器端,事先采集某一区域的地标建筑或地形图片,将图像进行规范化处理并进行类别标注,将处理后的大量此类图片在卷积神经网络(Convolutional Neural Network,CNN)进行训练学习。结合Core ML框架在经过多次迭代训练学习后,会得到图像识别模型,将经过训练的数据参数文件保存在手机端可访问的服务器上。同时在服务器端自动生成可供手机APP下载和安装的数据特征包。

3.2  移动端

在到达目的地之前,从远程服务器上预先获取对应此景区的数据特征文件,嵌入到本地。到达目的地后,即可将已下載的数据参数文件加载到算法模型之中。用户使用相机功能拍摄地标景物,将拍摄的图像作为深度神经网络的输入,经过深度网络处理后,生成图像的特征表示。然后通过建立图像检索任务,将拍摄图像的数据参数与下载的数据参数匹配,获取匹配度,根据具体的地标景物判断用户的地理位置,来实现对用户的定位。

3.3  算法模型

Core ML是Apple的机器学习框架。Core ML支持多种机器学习模型,其中包括神经网络(Neural Network)、组合树 (Tree Ensemble)、支持向量机(Support Vector Machine)以及广义线性模型(Generalized Linear Model)。

在本系统的应用过程中,使用Core ML 转换器,输入预训练好的图像数据,通过调用转换器的convert方法,将结果保存为Core ML模型格式(.mlmodel),最后通过预先下载将其置入手机APP程序之中。

4    关键技术分析

4.1  图像识别技术

图像识别技术是指利用相关程序对目标图像进行录入、处理、分析和理解,以识别各种不同模式的目标和对象的技术。图像识别的流程分为4个步骤:图像获取→图像预处理→特征提取→图像识别。图像识别技术是人工智能的一个重要领域,在大数据时代下,对海量数据的数据模式信息进行快速、准确的检索是现今研究的热点,而由于图像中所包含的内容信息更加丰富,图像识别技术在该背景下就显得尤为重要。

传统图像识别技术的特征提取主要依赖于人工设计的提取器,在一定程度上无法提取到更加深层次的高级语义特征,而且所设计的提取器往往需要有专业的知识和经验对提取器的参数进行调整,对此,采取基于深度神经网络的图像识别技术,该图像识别技术在识别效率上远超传统图像识别技术。为了能够达到更高的图像识别精度和速度,深度神经网络的选择是本系统能够达到预期目标的关键。在识别过程中,一般会将录入图像的特征参数与已下载数据包中的特征参数进行对比。为了提取目标地点的主要图像特征参数,选择采用CNN构建深度学习模型。

CNN是最具有代表性的深度神经网络。深度神经网网络往往具有泛化性的特点,即能够普遍适应于各种数据模式,但也因此在处理各种数据模式时会比较复杂,调整参数时会比较困难。CNN就是针对图像处理所设计出来的深度神经网络。对于图像数据来说,不同图像像素之间的距离与图像识别目标的相似性有关,图像像素之间的距离越近则相似度越高。CNN在图像处理过程中能够对图像进行弱化或者消除冗余信息的影响,提取到更加细致的图像特征,输出目标图像的特征向量,如图2所示,形成特征热图。

场景的环境是复杂的,要求在处理图像过程中,去除目标之外的元素。因此,需要寻找目标边界,并进行处理,留下核心区域。VGG16模型算法是CNN的典型算法,该模型对图像处理能够显现出优良的性能。因此,本文的处理方法为通过VGG16算法將摄入图像处理为热图形式,然后根据RGB颜色,依据亮度最高的区域选择阈值,再保留以阈值为基准上下浮动一定范围的区域。具体如图3所示。

图3  图像处理

经过深度神经网络的处理、训练、学习,对提取的特征向量进行运算,得出特征向量的距离,并进行匹配,得到匹配度,根据匹配度以及该特征向量所对应的类别标签,最终得出识别定位结果。

4.2  区域定位及导航技术原理

第一步是获取用户当前场景的标志地形,通过手机程序中置入的模型生成特征参数,并与已知的区域特征参数进行检索匹配,进而实现单机环境下的地理信息获取和应用。

当获得用户大致地理坐标范围后,要求用户输入目标地点,就可以根据二者的经纬度坐标在二维空间中建立相连的路线,并确定大致的行进方向,以此确定行进方案。在用户行进过程中,需要实时确定用户坐标位置的变化,动态地规划行进路线,因此需要进行用户运动轨迹推算,估计用户的行进距离和行进方向。

本文使用现有的行人航迹推算法来估计用户的行进距离和行进方向。该推算法基于智能手机的内置传感器,但由于手机传感器的精度限制,行人航迹推算法需要通过分析加速度数据,进行步长估计和计步得到用户的行走长度信息,再结合陀螺仪和磁力计完成对用户运动方向信息的估计,最后,为了消除运动过程中累计产生的估计误差,引入了地标对用户的位置进行矫正。基于手机传感器的行人航迹推算法如图4所示。

图4  基于手机传感器的行人航迹推算法

行人航迹推算法主要包含3个部分:计步与步长估计算法、方向估计算法、地标矫正算法。计步与步长估计算法用来确定用户的行进距离,方向估计算法用来估计用户的行进方向,地标矫正算法用于纠正用户的估计位置,减少运动时累计产生的误差以及位置偏移。

现代手机传感器如:加速度计、陀螺仪、磁力计的数据表示大多为三维矢量,即加速度、角速度、磁场强度;而由于数据噪声的存在,手机传感器收集到的信息可以表示为真实数据与噪声加合的形式,因此,在使用数据前需要对数据进行滤波处理,用某种标准的滤波器滤除部分噪声。在对数据进行预处理后,即可开始行人航迹推算法的计算。

在计步方面,计步与步长估计算法利用加速度信息判断。由于人类步行时加速度呈现正弦特征,即每前进一步都会产生一个加速度峰值和加速度谷值,另一方面,计步模型不考虑人的后退情况,因为对于一般用户,此种行为很少出现。此外,手机不同的放置状态也会影响计步的效果,现有的研究多将手机放置状态分为4种:置于口袋,随臂摆动,置于身前,靠在耳边。每种放置状态的加速度曲线均不相同,但仍然呈现正弦特征,因而有利于加速度特征的训练及手机放置模式的判断。

在加速度数据完成计步后,可以利用加速度进行步长的估算,根据数据反馈确定用户的行进距离。一般而言,不同用户的步长各不相同,同一用户每一步的步长也不相同。目前估算步长的方法主要有两种:一是通过输入用户身高来估计步长,此种需要先验知识的估算会造成使用的繁琐,且忽视了每一步步长的递增差异。目前对于步长的估计,较为普遍的方法是通过获得加速度的谷值和峰值动态地估计和预算。

移动设备的陀螺仪可以记录手机转动的三轴角速度,而磁力计则可以记录相对于手机的三轴磁场强度。陀螺仪的记录精度会随时间增加而降低,而磁力计又会受到人体磁场及环境磁场的干扰,因此常常把二者相结合来估计运动的行进方向。

地标矫正使用已知的特殊位置来矫正对行进距离和行进方向的估计。用户在行进过程中,对具有地标特征的景物或者建筑进行拍照识别,以此作为已知的特殊位置对估计进行地标矫正,可以通过增加采样次数的方式提高矫正的精确度。

因此,本文所提出的非传统定位及导航方法首先根据地标景物及辅助定位元素大致确定用户的地理坐标范围,由用户输入目的地后进行两地之间的路线规划,在用户行进过程中,根据手机传感器数据估计用户的行进方向和距离,动态地利用地标矫正的方法对估计进行矫正。

5    实际测试与实验

本文实验将使用VGG16算法对图像目标进行训练学习,训练的数据集和测试所使用的数据集为自己采集得到的学校地标建筑,并进行类别的标注。训练的深度学习框架为Core ML机器学习框架,将训练好的图像识别模型放入到配套的APP中进行图像的识别。

5.1  测试结果

目前基于Core ML机器学习框架已经开发出配套APP。经测试,在算法模型输出体积类比数据包体积缩小1 000倍的基础上,保守估计仍可有达到90%以上的识别准确率。项目后期擬将该系统扩大应用于司法、治安等场景中(测试数据为112 M的图片集,模型输出大小为88 K,识别准确率为91%),具体如图5所示。

图5  系统实际应用界面

5.2  创新点与问题

实验过程中使用了Apple Core ML预置模型,112 M的测试图片集,生成的特征模型大小仅为88 K。在数据集体量一般,识别目标轮廓较清晰的情况下(如大门、建筑物、山坡等),准确率非常高。但缺点是对于花朵等小目标的识别准确率较低。

基于地标景物识别的非传统定位系统,在实际测试中拥有非常好的实用性。但是在极复杂的地域下,由于所获得的图像环境不再是单一的环境,存在无穷的变化,比如光影、角度、远近等,同时人为因素对图像质量的影响也错综复杂。另外,由于深度学习模型的层数越深,复杂度就会越高,这就对运行算法程序的硬件设备产生了较高的要求,限制了其在移动端更深入的发展。在后续研究和应用中,可以通过深度学习处理不同自然环境带来的差异性影响,同时进一步优化模型架构,建立更高效的算法模型和应用思路。

[参考文献]

[1]杨状元,林建中.人工智能的现状及今后发展趋势展望[J].科技信息,2009(4):524-525.

[2]王宇楼.人工智能的现状及今后的发展趋势展望[J].科技展望,2016(22):299.

[3]张耀铭,张路曦.人工智能:人类命运的天使抑或魔鬼—兼论新技术与青年发展[J].中国青年社会科学,2019(1):1-23.

[4]余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013(9):1799-1804.

[5]何潇然.基于深度学习的文物图像内容理解[D].北京:北京化工大学,2016.

[6]苏邵麟.基于手机传感器和地标的Radio Map建立算法研究[D].哈尔滨:哈尔滨工业大学,2016.

[7]尹蕊.基于卷积神经网络的景物标记[D].北京:北京交通大学,2016.

[8]赵雁飞.基于稀疏表示和超限学习机的智能地标识别算法[D].杭州:杭州电子科技大学,2016.

[9]张东灵.基于图像识别的大范围小区域定位技术研究[D].广州:广东工业大学,2012.

[10]吴加顺.基于图像识别的辅助定位系统设计与实现[D].武汉:华中科技大学,2018.

猜你喜欢
图像识别深度学习
基于计算机视觉的图像识别技术研究
图像识别技术的应用与发展
人工智能背景下图像识别技术浅析
《图像识别初探》教学案例
基于字典学习的正则化鲁棒稀疏表示肿瘤细胞图像识别
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
图像识别交互系统
大数据技术在反恐怖主义中的应用展望