任鹍翔
(山西省第一水文地质工程地质队,山西 太原 030024)
在矿区水工环地质调查中,一直存在着很多问题。水工环地质调查中需要调查的数据很多,但一直没有合适的系统可以收集、整理调查数据,也不能实现数据的实时发布。工作人员在进行地质调查后,如果没有专业的系统整理数据,这些数据就无法实时发布,影响地质调查的工作的推进。如果地质调查缺乏数据支撑,则会导致调查工作效率降低。但是矿区水工环地质调查数据属于保密数据,在获取和发布前都应该进行处理,设置相关权限,供一部分人查看。在大数据时代,虽然大部分的数据在网上都处于共享状态,但对数据进行保护性发布的技术也分很多种类,基于数据匿名的原理,设计基于云计算的矿区水工环地质调查数据发布系统。
系统主要由矿区水工环地质调查数据库和数据发布的终端两部分组成,联网部分加上数据传输和修改的浏览器,总体构造如图1所示。
图1 系统结构简图
如图1所示,数据的发布装置需要同时具备两种功能,一是实现数据的处理,二是充当嵌入式服务器使用。用户在数据发布装置上可实现远程网络操控,因此系统的硬件部分可分为处理器、通信器和数据储存器[1],再加上作为驱使动力的电源和最终显示结果的显示器,系统的硬件共有五部分组成。
系统的电源安装在显示器下方,节省空间的同时还能将电源隐藏,起到美观效果。电源与供电电路相连接,电压控制在3V-5V之间,采用E4412芯片作为数据处理器,数据处理器的主频最高可达到2G赫兹,可大大提高系统的处理速度。并且该处理器的能量损耗相较于传统处理器低[2],一块正常的电池可供处理器使用72个小时。外网远程控制器的芯片使用12GB的大容量芯片,可实现数据秒存,控制器和处理器采用16bit的接口连接储存器的储存芯片采用EMMC芯片,一边与供电电路相连,另一边连接数据通道。储存器的储存方式是随机储存,符合数据加密处理的要求,为矿区水工环地质调查数据发布系统的设计提供了良好的硬件环境。
矿区水工环地质调查数据系统用户可通过PC端口的浏览器直接访问系统,数据发布终端与浏览器的连接是通过远程操控的,浏览器与系统不能是单纯的连接和兼容关系,两者的融合方式是嵌入式的[3,4],嵌入式浏览器可随时为用户提供服务,用户在任何有互联网的地方通过任何IP地址登录都可实现系统的数据发布。这主要是考虑到矿区水工环地质调查通常的工作地点都不是信号畅通的城市,而是信号薄弱的山区,降低数据发布的信号要求,有利于降低系统最终的运行时间。
服务器的远程通信主要是依靠数据处理单元和服务器的连接,在操作系统中进行编程通信环节。系统自带的IP可满足通讯要求,服务器附着于操作系统进行数据发布的操作,服务器的CDI程序又独立于操作系统实验用户的身份验证和数据导出功能。防止操作系统在进行远程操作的时候被恶意攻击,导致数据丢失。
数据的发布过程中,数据的发布装置全程监听数据发布的动态,保证发布安全性的同时允许多个用户同时登录,在用户连接之前会进行来访者验证,在用户使用期间可能会随机进行来访验证。判断合法连接才能继续进行数据发布工作,一旦发现陌生用户进行操作立刻返回登陆界面,并向合法登陆者发出非法登陆提示。CDI程序是一种独立于操作系统存在的网页程序,在系统中与其他功能模块连接通过程序接口,负责对浏览器发射数据判断的请求,如果数据符合发布标准则直接进入发布环节,如果数据还处于动态阶段,则会将数据传输到CDI程序中进行静态处理。数据发布的最终结果会进行分类传输,在显示器上显示发布完成,最终通过远程网络发送到客户端的数据接收端口上,实现矿区水工环地质调查数据发布。
为验证本身设计的系统是否满足矿区水工环地质调查数据发布的需求,设计对比测试实验,对比该系统与传统方式的系统执行时间,验证系统的可实行性。
实验环境选择W10系统的计算机,计算机的CPU为i7-5200,内存为12.0GB,设置编程环境为JUPY not,数据采用某矿山的水工环地质的真实调查数据,采用Adult数据集进行数据整理,调查数据在整理之后筛选出50000条,包含各类型、各种格式的数据。数据集的具体属性如表1。
在设置数据属性时,由于要测试数据发布系统的性能,实验的数据类型要多样化,但是为了实验结果的有效性,敏感性数据在实验数据中的比例趋近百分之五十。
系统的执行时间是判断系统优劣的重要标准,启用系统进行数据发布任务执行,对比文献中系统与本文设计的系统的执行时间,实验结果如图2所示:
图2 系统运行时间对比图
如上图所示,本文设计的系统具有较短的运行时间,因为传统系统为了抵御信息攻击需要考虑诸多因素,对攻击进行类型判断和构造判断才能进行有效防御。因此,运行时间最高可达到200s以上,而本文设计系统的运行时间均衡在150s~160s之间。运行时间稳定且较短,说明系统的整体性能优异。
本文基于大数据环境下的数据发布特征,对矿区水工环地质调查数据发布系统进行重新设计。该系统秉承了传统系统用加密发布代替乱码发布的优势,弥补了传统系统运行时间过长的缺点,为日后的数据发布系统的发展奠定了基础。