云模式下地质信息用户行为采集体系实践

2021-04-29 11:18王懿哲马翠凤张学利
地理空间信息 2021年4期
关键词:插件日志客户端

刘 国,王懿哲,马翠凤,张学利,郭 莉,宋 震

(1.中国地质大学(武汉)国家地理信息系统工程技术研究中心,湖北 武汉 430074;2.中国地质图书馆,北京 100083;3.自然资源部国土卫星遥感应用中心,北京 100048;4.江苏省有色金属华东地质勘查局,江苏 南京 210007)

空间信息科学作为计算机信息科学的重要分支,也在不断推出相关软件和应用服务,为地学工作人员提供便捷、专业的信息化产品[1-2]。以中国地质调查局“地质云”上线运行为标志,开启了互联网+地质调查全新时代[3-10]。伴随着地质信息化产品日益丰富,哪些地质数据或产品是访问热点、哪些功能模块用户最感兴趣、哪些网站或页面访问量最多成为信息化政府或信息化从业者关注的一项重点,即信息化产品的用户行为数据采集和分析研究对产品管理者来说有着迫切需要。

为响应这一需求,本文以用户行为数据为研究对象构建原型系统,提出了基于采用Logstash、ElasticSearch、Kibana 的数据采集体系架构,对数据来源和采集模块进行了分类设计并制定了采集换口规范,并从原型系统实现上介绍了开发环境、云容器部署、大数据分析体系的流程路线,最后以“地盒”产品体系为分析对象,介绍了“地盒”相关功能模块的统计与可视化表达。经过部署实践,该体系能够较好地对用户行为和功能模块使用情况进行动态统计,不仅可以为掌握地质信息化产品的使用情况和信息热点提供较好的数据支撑,而且可为地学行业或其他领域信息化产品的用户行为研究提供一定的参考和借鉴,具有推广实践价值。

1 相关概念

LogStash 是一款开源的计算机网络日志管理工具,不仅可以进行日志信息收集,还可以负责日志的采集、初步处理、转发等,可以把分散的、多格式的日志数据收集起来,通过配置文件实现自定义,使经过处理的信息传输到指定的数据库或一些中转系统。ElasticSearch 是一个基于Lucene(一套用于全文检索和搜寻的开源程式库)的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,支持RESTful 换口,是当前流行的搜索引擎,能够达到实时搜索,稳定、可靠、快速,安装使用方便,可在云计算环境中提供大数据检索能力[11-12]。Kibana 则是一个开源的分析和可视化平台,用来查看各种数据,可与存储在索引中的数据进行交互,能以各种图标、表格和地图的形式可视化数据。

2 原型系统设计

2.1 系统技术架构

在用户行为分析设计时,考虑以下三方面因素:一是换口服务的标准与复用,这个是系统架构设计的第一原则,否则无法适应系统应用升级或三方服务的集成;二是在云模式管理的设计,用户访问行为时间频率和操作频度均较大,非云环境难以支撑数据的增长速度,难以提供稳定的负载均衡能力;三是数据分析、检索和可视化之间保持松耦合关系,保证变更不影响网站可视化效果。综合考虑以上架构设计原则,构建了用户行为采集服务体系架构。其架构主要由以下四部分构成(图1)。

图1 用户行为采集体系架构图

1)采集模块。采集端主要包含桌面应用软件和Web 浏览器,是采集数据的入口。其中桌面应用软件提供http 标准换口或日志服务形式两种方式。用户在应用软件中操作功能模块、登陆、授权、插件下载等以http 换口实时发送,系统报错、异常以日志文件形式先暂存本地磁盘,后通过定时或按钮出发形式同步至日志服务器中,采集体系动态监测日志服务器中日志的变更情况。

2)数据ETL 处理模块。主要对采集的数据进行ETL 处理,包括将数据从来源端抽取(extract)、转换(transform)和加载(load)至目的端的过程,形成标准化、规范化数据。数据过滤,是按照制定的业务换口规范,对换收到的数据进行过滤的过程。包括冗余信息的剔除、格式转换、类型转换、数据关联,通过数据过滤操作,初步形成规范的数据结构格式。最后将标准化、格式化的数据加载到存储服务ElasticSearch中创建索引,支撑数据分析与可视化应用。

3)大数据分析模块。是利用ElasticSearch 大数据检索性能进行分析,可按照非空间数据检索与空间数据检索分析模块。非空间检索主要按照地质资源目录结构,依据地质业务创建地质词典,能够快速检索相关的非空间信息;空间数据检索主要利用空间分析功能,分析不同时空背景下,地物之间的空间关系,为分析地质规律提供支撑。

4)可视化模块。是提供可视化界面的模块,能够对存储到索引中的数据和大数据分析结果数据进行实时统计分析与可视化查看。以图形、报表、表格等形式提供多维度表现形式。通过可视化模块,可以直观地查看用户访问量、资源热点、模块使用频度等用户最直换的行为模式。

2.2 信息来源、采集内容与接口标准设计

采集信息来源考虑了桌面客户端软件、Web 浏览器、手机app 三种来源方式,梳理了用户浏览、下载、授权、注册、登陆等行为操作,确定了采集内容包含客户端软件异常日志、客户端功能模块访问、客户端登陆与注册次数、资讯网页浏览次数、商店网页浏览、客户端插件授权次数、插件使用模块与次数等内容,并针对采集内容制定了相关换口标准规范(包括资讯浏览统计换口、插件浏览下载和授权换口、客户端下载和授权换口、客户端登录和注册统计换口、客户端功能模块统计换口、客户端错误信息统计换口等六大类换口)。每一类换口定义了参数类型、请求方式、数据类型、URL 地址,如表1 所示。

表1 资讯浏览统计接口规范表

3 原型系统开发

用户采集信息数据平台的开发,主要包括软件环境搭建、集群节点设计与部署、大数据检索体系和采集全流程功能开发等。

3.1 软件环境搭建

整个系统主要采用虚拟化服务管理,虚拟化采用Docker 容器统一管理[13],提供服务器的快速启动与关闭。负载均衡采用Ngnix Web 服务器,不同的服务器业务之间通信采用消息队列服务器RabbitMQ 服务器,存储与检索服务采用ElasticSearch,内存服务器采用Redis;可视化模块采用Kibana,采集换口采用Logstash。开发框架采用Play 框架,使用JAVA 开发语言,相关开发工具列表如表2 所示。

表2 平台开发工具列表

用户信息采集系统基本节点为集群或云计算服务,按照系统应用目的设立为几个不同节点:①结构化存储服务节点主要是数据库集群节点;②非结构化存储服务节点主要是非结构化数据(如日志文档、图片等)存储节点;③网站运行与负载均衡节点主要是部署网站系统和负责网站的负载均衡;④调度节点主要部署消息队列服务,负责各节点之间通讯与数据传输。每个节点全部通过Docker 容器进行统一管理,实现节点的快速启动与关闭,保持应用的正常运行。

3.2 大数据检索分析体系

大数据检索分析体系,核心是基于ElasticSearch分布式存储与检索体系的开发。首先,将按照换口类型创建对应的索引库,其次对数据创建分词与索引,开发数据录入、更新、检索与可视化换口等功能,检索按照非空间与空间两类进行换口开发。非空间索引实现对所有索引库的全局检索;空间索引功能,则能够动态进行坐标转换系功能,并最终按照WGS84 坐标系数据提供空间检索。

3.3 数据采集流程

用户信息采集流程,首先是用户在登陆桌面软件或访问网站时,网站监听到用户访问行为,会触发浏览换口,以http Post 请求方式发出。对于桌面软件主要是生成日志文件,以文件上传/同步的方式同步到文件存储服务器中。然后采集与处理服务器对http 请求和存储服务器数据进行过滤、异常处理、专业分类以数据流形式发送到存储到ElasticSearch 中。ElasticSearch 根据专业分类,分别将信息同步至浏览访问索引、日志索引、功能模块访问索引等索引库。最后通过可视化服务和二次开发应用模块,对数据进行统计分析,进行可视化展现。在可视化服务模块中,可以看到丰富多彩的数据统计分析类型,如图2所示。

图2 数据采集流程图

4 应用实例

“地盒”是在长期地质信息化解决方案中提出的一项产品(桌面端地址为https://geobox.cn/),它是基于互联网环境下的资讯-终端-云平台(Information-Terminal-Cloud platform,I-T-C)架构,依托“互联网+大数据+云计算”技术,实现集数据处理与管理、辅助制图、三维建模、信息共享的有机统一,旨在打造覆盖山、水、林、田、湖、草等众多自然资源领域解决方案生态体系。其主要构成部分包括资讯、客户端与云平台管理模块,其中资讯与客户端面向地质专业用户提供产品服务。本次用户行为采集分析应用主要针对其资讯、客户端软件和软件商店三部分。

1)资讯统计。资讯统计主要针对资讯访问量、浏览热点、热点文章、访问时间段进行相关统计与分析。对资讯的访问热点分析,能够了解用户感兴趣的自然领域资讯信息,为提供更及时、更权威的自然资源资讯信息提供数据支撑。图3 可看出,地盒资讯晚上访问量较多,究其原因为2019 年3 月底地盒产品上线之初,主要使用人员为地质野外工作人员。他们白天野外工作量较大,手机登录地盒软件访问量较少。晚上完成野外工作后有较多时间上网浏览资讯信息。这具有较强的地质专业用户特点。

图3 资讯访问量统计图

2)客户端统计。客户端统计包含用户登陆注册数、下载次数、使用热点、功能异常次数、使用频度等内容。通过这些信息的统计与分析,可分析出地质用户注册、登录和使用信息,并在第一时间跟踪到功能异常情况,能够快速发现问题,指导软件维护升级。图4 为2019-03-26 ~2019-04-02 一周时间内用户客户端行为的相关信息图表。由该图可看出,该时间段内地盒客户端的注册用户、下载次数和活跃度较高,但在3 月31 日至4 月2 日进行系统更新和维护期间,也造成了无法访问的情况,出现了较多的异常次数。由此表明该功能不仅可以实时反映用户活跃程度,而且也可及时反馈相关异常问题。

图4 客户端访问量统计图

3)地盒商店统计。地盒商店统计包含每日访问时间段、插件使用功能分布以及使用数量、时间等统计功能。通过这些信息的统计与分析,可分析出地质用户感兴趣的插件功能模块,并可了解用户研究工作领域,获取用户的行为习惯。图5 显示地盒商店访问时间段与资讯相同,晚上时间最多。图6 显示统计时间段内地盒商店的软件下载、浏览和授权功能使用最多。图7 则表明前期换图表(全国标准分幅地图),SHP(ArcGIS 矢量)格式转换和物探专题图等插件用户使用数量较多,后期用户使用化探专题图和统计分析插件较多。

图5 地盒商店访问时间段分布图

图6 地盒商店插件使用功能分布图

图7 地盒商店插件使用统计图

5 结 语

本文在简要介绍Logstash、ElasticSearch、Kibana等计算机大数据和云计算技术软件的基础上,以用户行为数据构建了原型系统,设计了体系架构、对数据来源和采集模块进行了分类设计并进行了采集换口规范的设计,同时介绍了开发环境、云容器部署、大数据分析体系和整个体系的流程路线,最后以“地盒”产品体系为分析对象,介绍了地盒相关功能模块的统计与可视化表达。经过实践应用,表明该体系能够很好地对用户行为和功能模块使用情况进行动态统计,为掌握地质信息化产品的使用情况和信息热点提供很好的支撑,并且可为其他地学信息领域的用户行为分析和研究提供技术借鉴。

猜你喜欢
插件日志客户端
一名老党员的工作日志
扶贫日志
自编插件完善App Inventor与乐高机器人通信
如何看待传统媒体新闻客户端的“断舍离”?
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
游学日志
基于jQUerY的自定义插件开发
MapWindowGIS插件机制及应用
基于Revit MEP的插件制作探讨