基于互联网位置大数据空间可视化研究与应用分析

2023-04-11 08:24徐建军
互联网周刊 2023年7期
关键词:可视化空间信息

摘要:在互联网时代,依靠网络、虚拟化、物联网等大数据处理技术,带来了地理信息提供方式的巨大变革。本文通过介绍以阿里巴巴的大数据分析公司为代表的移动定位大数据分析,深入探讨了移动定位大数据分析和地理信息的结合方法,并着重探讨了移动定位大数据分析的清晰扩样、地域关系和旅行特征提取等新方法,并在此基础上通过Leaflet、DataV、ECharts等开源方法,建立了一个面向大数据分析可视化技术的新架构,研究了成果在城市规划、港区治理、动物疫病防治、森林消防等方面的具体应用方法与趋势。

关键词:互联网大数据;动态位置信息;地理关联;大数据可视化

引言

当前,中国地理信息产业正面临着以互联网、大数据技术为依托的数字化多业共存、融合发展新模式,以GIS信息技术拥抱互联网也已形成潮流,并开始重建中国地理信息技术的全产业链条。N市为全省首个系统推进智慧城市建设工作的城市,发展中大数据基础坚实、前景广阔。近年来,N市人民政府也频频出招,积极推动互联网落地。2016年10月,N市人民政府发布的《关于推进信息化发展的实施意见》中提出,到2020年将把N市打造成为国家级的城市信息化产业基础。2016年底,N市政府与百度公司签署了策略合作备忘录,双方确定将以国内首家试验示范性的高标准共同建立百度云智N城市信息产业培训基地。2020年5月,N市政府与阿里巴巴(中国)有限公司签署了全方位合作框架性协议书,成立了N市阿里中心,双方将在五大方面进行一系列协作,共同推动智慧城市、智能经济与大数据领域的融合发展。

互联网大数据是一个覆盖面最广、内容最丰富的大数据分析,涵盖了所有人类群体的空间行为特点,可有效揭示都市人员活动的发展轨迹及其空间聚集情况;经过相应的空间可视化表达分析,可以直接表达都市中人口的空间分布情况,很好地克服了传统静态地理数据的限制,有着重大的科学探索价值与实际使用意义。

1. 数据源分析与处理

互联网定位大数据分析的样本量大、信息真实全面、采样结果不会出现很明显的倾向性,而且具备了很大的时间稳定性,可以监测到客户出行的全部情况,是任何其他数据源都不能做到的。阿里巴巴是目前国内规模最大的网络企业之一,掌握着80%的智能手机客户,每天地址与路线数据信息请求量超过了千亿级,通过在各种地点情况下进行的GPS确定、IP确定、基站确定、Wi-Fi確定等四类地址数据信息的筛选和配合,进行客户定位数据信息的录入与追踪,并生成客户地址轨迹信息;借助阿里系服务(如高德地图、天猫、淘宝、饿了吗等)以及高德地图自有的人地关系数据分析,在各个层次对用户线上行为信息进行记录、排序、提取,并通过与客户的ID进行联系,生成客户画像数据分析。

我们采用了从阿里云特殊接口分析数据处理,并滤除客户特征内容后的加密手机信号数据分析,但不会触及个人隐私内容[1]。在开展研究期间,需对这些资料开展了格式转换、清洗降噪等前期处理操作,并通过将电脑的定位数据映射到地域空间位置,可以全面、真实地复原手机用户的出行链路径,最后发掘得出人口空间分布与经济活动特征等内容。

1.1 数据预处理

因为原有的网络定位大数据分析都是以JSON形式保存的,日期、地点等都不能简单地保存,且信息冗余率高,所以首先必须依照信息内容的分类设置数据字典,将大数据分析统一传输至Postgre SQL数据库中。另外,因为受到了传输干扰、信号弹跳、偏移等问题,通过网络收集的定位轨迹大数据分析会出现大量无效且出错的信息,使得原有大数据分析无法准确地描述客户的出行路径,所以必须及时对原有数据分析加以处理,以确定并消除出错或无效的信息。针对各种数据ID信息缺失的现象,通过利用对上下文信息的补满,筛选出时间持续、但地址偏离却较大的重要信息,并抽稀同一个空间位置所产生的大量密集点,以实现对网络地址重大信息的规范、格式化或清洗入库[2]。

1.2 地理空间关联

网络大数据的原始数据中除时间属性高度有序外,其空间位置信息内容和空间语义信息内容均高度不规则,不能直观完成出行统计分析,需通过地理空间关系,以完成大数据空间地图的可视化展现。因此我们通过整合已有的计算机数据库、地名地址表等要素向量资料,将网络大数据分析的空间位置信息内容与地域网格(分为区县、城镇街巷、居民村、基层网格等各种行政区划数据信息)通过多级绑定联系,从而形成了文字信息内容与地理空间关系的索引字典,并基于时间戳对其完成了时间聚合,从而获得了符合空间结构特征的客户生活大数据分析日期排序;再以月、周、天、时辰、分等不同时间段为单元,按照各种统计的时间戳大小依次展开时间归类,并以全国公安、政法等部门人员调查数据为母体,再按照样品与母体之间的大小差异计算扩样关系,从移动用户群体中有效地扩样至全国整个系统人员中(包含持电话人员与无电话人员);最后构造出带有时限空间属性的以时间点为单元的位置大数据集合。

1.3 出行特征提取

在地理空间联系的基础上,提炼交通特点,形成完善的交通链。出行链是指用户在从出发点开始至终点的移动过程中,所经历的空间位置序列。确定一个客户的两条旅行记录是否属于同一次出游行为,一般要求最小间隔长度和最小间隔时间两个阈值。其具体过程如下:第一步,对客户的出游轨迹根据时间序列进行排序;第二步,确定相邻站点间的时间距离,若超过给定阈值范围,则可确认为下一次的出行站点,并进入逗留站点预选序列;第三步,确定预选序列中所有相邻站点双方的时间距离,若超过时间间距阈值范围,则标识为逗留站点,以此类推直到遍历全部的数据集。经过对大量数据的检验后确定,如果相邻地点间的距离阈值仅为5min,且相邻间隔长度均小于10m,则认为这是一个完整的出行链,反之则视为有同一个人二次不同的外出活动情形[3]。

在出行链集的基础上,可以通过对一个地区较长阶段(1年)的人口活动状况训练确定夜间居所(home)和白天上班地(work),其方法是:在持续一年内对定位工具实时追踪,如果有一个地点多次发现,且时间集中在9:00-19:00时,确认该地点为上班地;相反,如果时间集中在20:00以后,且整个周末时段都发生在这个地点上,则确认为上班居所,从而获得完整的出行链数据。出行链接的每一条信息,都具有地理坐标、起点网络编号、终点站网络编号、路径、时间区域、是否是为居所、是否是为上班地点等特征。

2. 大数据地理空间可视化

大数据的空间数据可视化是利用地图和统计图等方法对大数据进行图像可视化表示,不但较好地解决了大信息的空间位置表示问题,同时可完成对大信息的分类利用,直接揭示了大信息的内涵意义。目前的海量空间数据可视化应用,一般主要采用了专门的GIS应用软件平台搭建、可视化函数库开发工具构建和根据地图应用软件的二次定制使用。虽然上述手段已经在一定程度上提高了数据可视化应用的搭建效果,但仍然存在着很大的应用入口难度,且缺乏复用度,很难再次移植使用,对大量正交的大数据空间也缺乏动态关系表达[4]。面向互联网大数据的地图可视化开发与应用框架如下:

2.1 数据层

该层使用PostgreSQL的扩展插件PostGIS储存了JSON数据库格式的网络信息,将网络信息经过标准化处理之后,再引入PostGIS中实现数据信息的储存和地理关系。

2.2 逻辑服务层

该层通过对Tomcat客户端的Ge-oServer.war包完成对Ge-oServer的配置。Ge-oServer将新增的数据链接到PostGIS中,将PostGIS作为主数据库完成服务开发工作。该层承担信息的发送和分析等任务,在Web客户端中,Tomcat客户端层主要接受用户在网站端的点击或其他形式的操作事件,并将其所收到的请求事件与其自身作为特定服务器的地址匹配,在配对成功后再将请求事件转发到GIS服务器Ge-oServer;在逻辑业务层中,Ge-oServer客户端接受了Tomcat客户端发出的请求后,对其需要的服务类型加以分析,从中获取申请方需要的GIS类型信息,然后将其返回送到Tomcat客户端,实现整个服务的申请流程。该阶段使用Node.js实现前后端的隔离。

2.3 展示应用层

该层是地图显示界面,主要载体是网页浏览器,也支援IE、Chrome、Firefox等主流网页浏览器。实现以地图为基础的图表与可视化元素的有效结合,并通过气泡图形、热力图、灯光图形、动图表、散点图形、流场图形、柱状图、饼图、树图形等空间可视化方式呈现丰富的点、线、面等信息,形成了基于海量信息展示功能和开发应用的新型空间可视化地图引擎,可整合当前绝大多数领域现有的空间可视化框架,支撑跨平台跨终端信息展示,并提供支持自定义的配置功能、多维度信息的相互关联以及秒级动态渲染功能,实现海量信息的动态连接与即时呈现,并支撑为各领域客户迅速构建个性化的空间可视化体系。

2.4 前端表现层

构成该层的界面框架包括ECharts、DataV、UI框架等,其实现基本地图操作的主要方式是引用Leaflet框架,并结合一系列插件将可视化功能变成可能。而这种运行路径需要设计人员有较强的宏观组织能力,将重复利用的代码划分成不同的模块。基本操作包括地图加载、标记、调整图层、设置弹窗的位置与时间等,本质上是大数据套件的个性化展示。

3. 典型应用成果

目前,该框架已分别在城市空间规划、智能码头区控制、森林火灾保险预防、禽流感预防等方面开展了初步实践,给政府部门带来了基于大数据视角的决策依据,推动了城市交通的精细化、智能治理。

3.1 城市空间规划

通过可视化框架,借助网络大数据分析有效研究了N城市的人口空间分布现状,并探索了各区域职住通勤状况,对城市综合开发政策的制订以及对城市规划的制定、评价,提出了更为合理、科学的技术框架[5]。该市居民活动变化能够直接呈现出该市的热力生活随时间推移变动的现象,比较了各个时期的居民热力活跃度;再整合周边POI公用设施数据,可为N市空间规划发展和质量升级提供依据。综合统计各区域职住比、居民偏好距离、通学程度等信息,对各区域的居民偏好联系做出了客观判断,直接体现出各区域发展的互动关系,将为地方的城市规划建设奠定科学基础[6]。

3.2 森林火险预警

通过可视化框架,以及移动位置大数据分析,实时监测山林火灾事故多发期、高发点周边的人员分布状况和区域密度情况,对N市内历史火灾事故高发点、历史风景区、墓区、游步道等重点部位或地区客流情况开展即时监测,并重点监视周末、十一、元旦、清明等法定节假日的客流状况,进而做到对山林火灾事故采取针对性的防控措施,为政府森林消防工作决策和社会管理决策提供了可靠依据[7]。

3.3 避免出现踩踏事件

在节假日等高人流量期间,通过居民流动行为大数据分析显示城市内各密集地区,特别是非常住居民以及游客迁入N市的状况,持续追踪每日各地入N市人员的变化,帮助预测人员流动方向,为避免踩踏、精准施策提供辅助保障,促进健康教育等公共服务方面的常态化信息监控,增强城市居民对重大公众突发事件的应对能力。

3.4 智慧港区管理

在可视化框架的帮助下,港区客流情况能够始终处在动态位置大数据的监控之下,有关部门可以在工作日或节假日时间段进行分段控流,也能够记录历史客流人数。这些数据都是港区制定后续发展计划的重要依据,也是我国规划公共服务计划的基础,还能够用于应急指挥与旅游统计等。可以说,大数据的应用大大增强了港区智慧化管理的改革进程,为我国第三产业做出了重大贡献。

3.5 交通网络管理

可視化框架能够与道路监控系统相结合,为我国交通网络管理提供详细的车流量与流向数据,这在提高我国交通安全系数的同时,也能够为后续的交通网络现代化改革提供关键数据。

结语

论文详尽阐述了最新的大数据分析清洗扩样、地理相关、生物特征提取等新技术,还提出和发展了以图为基础元素的大数据分析空间可视化技术框架,并介绍了该框架在城市规划、森林消防、传染病防治等诸多方面的应用示例。作为一种利用网络大数据分析开展地理信息应用的实践与探索,在应用技术以及对大数据分析的管理方面还有许多未完善之处,我们今后在研究上将进一步加强探索,争取为其他同类大数据分析探索与应用提供借鉴。

参考文献:

[1]吴秀芸,王海江,梁寒冬.互联网位置大数据空间可视化研究与应用[J].地理空间信息,2022,20(11):21-24.

[2]江平.基于大数据可视化激光测距城市空间三维图像重构[J].激光杂志,2022,43(3):174-178.

[3]马梦宇.大规模地理矢量数据交互式实时可视化分析技术研究[D].国防科技大学,2020.

[4]崔晓军,高子航.基于GIS与云计算的温州市农业大数据可视化平台研究[J].电脑编程技巧与维护,2020(4):113-115.

[5]尹言军,刘晖,叶琳,等.数据清洗和空间可视化在浮动车数据处理中的应用[J].地理空间信息,2019,17(5):116-119,6.

[6]王志敏.基于GIS云服务的云南省国土空间大数据可视化系统建设研究[J].地矿测绘,2018,34(3):12-16.

[7]周文涛.一种企业数据空间可视化汇聚流程建模方法与查询优化策略[D].青岛:山东科技大学,2010.

作者简介:徐建军,硕士研究生,讲师,研究方向:地理信息、大数据。

基金项目:2021年江苏高校哲学社会科学研究项目——基于社交媒体数据的网络事件时空演化研究(编号:2021SJA2479)。

猜你喜欢
可视化空间信息
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
空间是什么?
创享空间
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
订阅信息
展会信息
QQ空间那点事
空间