蔡映雪,胡松,胡辉,陈伽,尹辉,蔡昭权
(惠州学院,惠州516007)
一种面向北斗卫星定位技术的结构化数据挖掘模式
蔡映雪,胡松,胡辉,陈伽,尹辉,蔡昭权
(惠州学院,惠州516007)
作为我国独立自主研发的空间定位技术,北斗卫星定位技术已凭借这高精度高可靠的定位、导航、授时服务在地理测绘、水利渔业、交通运输等领域做出显著的贡献。由于北斗卫星导航系统的使用尚未全面铺开,市场规模较小,更多领域的应用服务有待深入开发,北斗卫星导航系统的市场前景以及发展潜力仍然巨大。但基于数量庞大的卫星数据的数据挖掘技术还相对落后,一定程度上制约北斗卫星导航系统的进一步发展。提出一种面向北斗卫星定位技术的结构化数据挖掘思路,解决过去针对卫星数据使用方式过于单一、片面的问题。
北斗卫星导航系统是基于北斗卫星定位技术开发的一套国际一流的集空间定位、导航、授时等功能于一体的卫星导航系统[1]。从2000年到2012年,我国已经陆续发射了20多颗北斗卫星并设立了32个地面站,北斗卫星导航系统也正式面向亚太地区提供服务。目前,我国正加快北斗卫星组网的速度,今年我国计划发射6-8颗北斗卫星,2018年前后将颗完成对“一带一路”沿线国家提供服务,预计到2020年,北斗卫星导航系统将可面向全球提供服务。届时,北斗卫星导航系统的用户数量将会达到二十亿以上,由此产生的庞大的卫星数据将是无价之宝。然而目前空间信息领域的数据挖掘技术相对落后的现状无疑是对其的极大浪费。如何将庞大而复杂的卫星数据转化为商业价值促使相关行业发展起来反哺用户群体是目前研究学者最为关心的问题[2]。
数据挖掘技术是近年来较为热门的技术话题。数据挖掘指的是针对现今互联网蓬勃发展带来的海量数据进行分析,利用数据模型和分析算法将隐藏在海量数据中有价值的信息提取出来,使得人们能够更为贴切的理解生活中的客观规律,并由此发掘更适合人类使用的新思想、新技术。数据挖掘通常会借鉴统计学的抽样方法或计算机技术领域的人工智能、模式识别、机器学习等分析和学习的方法[3]。这些方法往往又依赖信号的接收处理、大规模的信息检索、算法的最优化或竞争进化。因而数据挖掘是一个专门而深入的学科,以海量数据为基础的分析、学习和进化。
自20世纪70年代美国成功研制GPS卫星定位系统以来,基于GPS卫星数据的开发就从未停止过[4]。日本从上世纪90年代开始筹建GPS连续观测网,并于次年检测到北海道东部近海8.1级超强地震。同样的,卫星监测在地质调查、矿山遥感等方面的应用也毫不落后。1992年,美国开始研制“智能车辆高速公路系统”,以求实现车辆的动态管理、路线导航、安全检查、意外救护等任务。2000年前后,国外的大型农机制造企业成功研发了基于GPS的精细农业系统,实现了农业领域的精细化管理。在军事方面,GPS本身即为军事目的的专门定制产品,可提供军队各指挥系统各舰队甚至各个飞行管理的灵活管理,是美国军队强大的根本所在[5]。而娱乐方面,基于地图的周边景点和酒店等目标的导航更是为GPS的发展提供了强大的助力,并愈发深入和细化。
在我国,北斗卫星导航系统正处在起步阶段,近年来正处于逐步升级完善的阶段,对卫星数据的使用还处于跟踪学习状态,然而不可否认的是,我国业界对于北斗卫星导航系统的价值挖掘从未停止[6]。无论是2008年汶川地震还是还是北京奥运会,无论是气象预报还是交通管理,都无处不有北斗卫星导航系统的身影。出色的空间定位技术将会越来越多的被应用到各行各业中去,此为北斗卫星定位技术在未来的大趋势[7]。
以车辆为例,车载接收器能够通过北斗卫星从车辆的日常运行过程中获得大量的状态数据,如伪距、多普勒观测值、北斗时等。这些数据是动态且实时更新的,反映了车辆实时的运行状态,数据项越多则对车辆状态的描述越为准确。这些状态数据为道路交通状况的智能分析提供了基础。由于数据的多样性及零散性,且数据均为状态值,并非我们对于描述物体运动状态所需要的数据值,我们难以从海量的复杂数据中快速且概括性的了解物体本身的运动状态,因而需要在前期对采集到的数据进行数据的结构化提取。
从卫星回传的数据中,包含了卫星检测到物体运动状态的所有观测值,然而当我们需要从某一方面描述物体的状态是,是不需要将所有观测到的状态值全部用上的,所以挑选必要的数据项就显得尤为重要。举个例子,当需要测算车辆的速度时,就必须知道车辆在规定时间内移动的距离,这就需要获取车辆在这段规定时间内一系列延续性的坐标变化,进而计算出路程,最后利用速度公式计算出车辆的速度。
而当需要得到的数据约为抽象时,结构化数据提取的步骤及层次将会更多。如需要检测车流量的时候,设同一路段每小时车流量为M,平均数为G,计算Mn与G的增量比Vn,则有:
其中车流量M、平均数G均为多维度计算后得到的结果。
结构化数据的提取只是对零散而基础的数据进行初步的聚合或统计,并非深入挖掘不同数据项之间的关联性,难以在提升数据价值方面取得较为显著的效果,因此还需要在具有一定拟合的数据基础上利用更具有学习能力、更能提取数据特征的算法来完成数据价值的挖掘。
数据挖掘应该是一个不断提升数据价值的过程,而不是一门单一的技术或手段。数据挖掘的过程中会不断的产生新的高维度数据及其集合,这个过程一旦开始就将不断的利用机器学习的原理,不断地由基础数据形成可描述的数据集合,然后利用一些规定的条件对数据集合进行提取或清洗,去除冗余无效的数据,然后根据数据之间展示出来的规律性或关联性进行数据聚合,形成一定的数据模型,结合分类思想,得到一批新的数据,并在此基础上再次提取或清洗。在这一反复循环的过程中,会出现反复的衍生或归并,产生不同维度的新数据,直到数据被认可为有价值为止。
根据上述思路,可以形成一种面向结构化数据的数据挖掘模式,其中包含以下步骤:
(1)数据收集。在该步骤中,需要收集一切有效数据,并根据结构性进行调整和归类,使得数据看起来显得更为科学和合理。
(2)数据提取和清洗。在该步骤中,对收集到的有效数据进行高维度的提取,形成一批新的高维度数据作为下一轮数据的聚合和分类提供原材料。
(3)数据聚合和分类。当新的高维度数据形成的时候,不同数据之间必然会存在一定的规则关联性或趋向性,是下一轮数据挖掘的前提,根据不同的关联性或趋向性对本次产生的高维度数据进行分类,有助于数据的进一步挖掘。
(4)挖掘结果分支的回溯。数据并非维度越高,代表性越强,反而容易因为算法的缺陷使得某些有用数据被排斥掉,因而需要对原始数据的挖掘操作进行回溯,使得相同的原始数据在不同数据挖掘算法的计算下得到不同的结果集,形成更多的结果分支,这样有利于增加训练集,同时也能让数据挖掘算法自身能够通过机器学习的方式进行自我完善。
结构化数据挖掘模式如图1所示。
图1 结构化数据挖掘模式示意图
日益完善的北斗卫星导航系统具有广阔的市场前景,然而与之匹配的数据挖掘方式效果不尽人意,使得卫星数据资源造成了巨大的浪费。本文结合机器学习的思路,提出了一种面向北斗卫星定位技术的结构化数据挖掘思路,解决了过去针对卫星数据使用方式过于单一、片面的问题。
[1]仙桃蒸三元.北斗卫星导航系统[J].黑龙江科技信息,2012(12).
[2]张胜茂,程田飞,王晓璇,等.基于北斗卫星船位数据提取拖网航次方法研究[J].上海海洋大学学报,2016,25(1):135-141.
[3]JiaweiHan,MichelineKamber,JianPei,等.数据挖掘:概念与技术[M].机械工业出版社,2012.
[4]张治宇.GPS应用与发展[J].新丝路,2016(14):144-144.
[5]张勇,陈正阳.GPS在军事后勤保障中的应用[J].北京测绘,2008(4):56-59.
[6]陈建成.北斗导航系统应用在我国社会经济发展中的作用[J].中国电子商情:通信市场,2007(Z1):47-48.
[7]闫忠文.中国卫星北斗导航应用产业发展思路[J].卫星应用,2014(4):7-10.
A Structured Data Mining Model For Beidou Satellite Location Technology
CAI Ying-xue,HU Song,HU Hui,CHEN Jia,YIN Hui,CAI Zhao-quan
(Huizhou University,Huizhou 516007)
As China's independent research and development of space positioning technology,Beidou satellite positioning technology has been relying on this high-precision and reliable positioning,navigation,timing services in the geographical surveying,water conservancy and fisheries,transportation and other fields to make a significant contribution.As the use of Beidou satellite navigation system has not yet fully rolled out,the market size is small,more areas of application services to be in-depth development,Beidou satellite navigation system market pros⁃pects and development potential is still huge.But based on a large number of satellite data mining technology is still relatively backward,to some extent,constrained the further development of the Beidou satellite navigation system.Presents a structured data mining idea for Bei⁃dou satellite positioning technology,which solves the problem that the satellite data is used in the past is too single and one-sided.
1007-1423(2017)27-0033-04
10.3969/j.issn.1007-1423.2017.27.008
北斗卫星定位技术;结构化;数据挖掘;商业价值
惠州市科技计划项目(No.2014B020004023、No.2015B010002002)、广东省普通高校青年创新人才类项目(No.2015 B010002002)
蔡映雪(1983-),女,广东汕尾人,本科,研究方向为计算机软件
胡松(1985-),女,河北秦皇岛人,硕士,讲师,研究方向为信息系统和信息管理
胡辉(1979-),女,江苏盐城人,硕士,讲师,研究方向为计算机软件
陈伽(1979-),男,广东惠东人,硕士,研究方向为计算机软件和计算机网络
尹辉(1983-),男,广西桂林人,硕士,研究方向为3S应用
蔡昭权(1970-),男,广东陆丰人,硕士,教授,研究方向为计算机网络、智能计算、数据库
2017-07-11
2017-09-10
Beidou Satellite Positioning Technology;Structured;Data Mining;Commercial Value