铀资源勘查大数据技术研究框架思路

2019-07-13 03:10叶发旺蔡煜琦李瀚波邱骏挺王建刚
世界核地质科学 2019年2期
关键词:铀矿结构化数据挖掘

叶发旺,蔡煜琦,李瀚波,邱骏挺,王建刚

(1.核工业北京地质研究院,遥感信息与图像分析技术国家级重点实验室,北京100029;2.核工业北京地质研究院,中核集团铀资源勘查与评价技术重点实验室,北京100029)

大数据正以一种颠覆性的技术革命影响着世界各个领域的各行各业。铀资源作为国家战略资源,无论是在地质矿产领域还是军事装备领域都具有特殊性。以铀资源勘查为主的核地质领域正积极以大数据应用为契机,开展新一轮的技术创新,逐步形成大数据理念下的铀资源勘查新技术方法,以获得更快、更准、更具高价值的铀资源勘查效果。笔者从铀资源勘查领域的特点出发,对铀资源勘查大数据技术创新研究与应用的框架思路进行了探讨。

1 铀资源勘查大数据的内涵与特点

1.1 大数据 (Big Data)的内涵与特点

目前国内外学者对大数据的定义及特征还没有统一的认识,各行各业也只是跟随使用。麦肯锡咨询公司将大数据定义为一种规模大到在获取、存储、管理、处理方面大大超出了传统数据库软件工具能力范围的数据集合”[1];美国权威研究机构Gartner和百度百科将大数据定义为 “是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”[2];维基百科对大数据的定义是 “所涉及的数据量规模巨大到无法通过人工,在合理时间内截取、管理和处理,并整理成为人类所能解读的信息”[3];《大数据傻瓜书》对大数据概念是 “大数据并不是一项单独的技术,而是新、旧技术的一种组合”[4]。从上述国际上几种比较权威的观点可以看出,大数据的定义中包含了多个层次的内涵,即大数据首先是巨量数据,其次是当前没有或还需要研究的新技术,再次是决策。所以,应该从数据、技术、应用三个层面来全面理解大数据的内涵。

1.1.1 数据层面

是指大数据具有明显的5V特征 (目前说法不一, 但大多倾向于 4V 或 5V 特征)[2,5-6],即大数据主要 “大”在体量 (Volume)、多样(Variety)、 速度(Velocity)、 真实(Veracity)、 价值(Value)5个方面。与以往的海量数据相比,大数据不仅强调数据规模巨大,而且数据内涵与属性更广、类型更多、数据采集速度快速、网络化、时效性高;数据更加真实客观而少被人们主观污染;单个数据价值小,但发现规律和决策后获得价值巨大。从上述数据层面的特征来看,大数据本质上还是数据,是海量数据的发展,是各种类型传感器和计算机、网络、云技术、分布式计算与存储技术的广泛应用和运算能力极速进步而产生的概念发展和取代。

1.1.2 技术层面

是指从数据采集、存贮、管理、处理、挖掘到形成结果的整个过程中涉及的各种技术方法统称大数据技术,是大数据价值体现的手段和前进的基石。缺了数据,技术发挥失去了基础;没有技术,数据则难以上升为认知与规律,实现不了更高的价值。因此,大数据技术是数据与技术的有机结合。大数据时代,数据将与云计算深度结合,实现巨量数据分布式存贮、分布式数据挖掘和智能化处理。当前,与大数据密切相关的技术主要包括:大规模并行处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等[2]。从战略角度上说,大数据的价值不在于庞大的数据信息本身,而在于对数据进行专业化处理,完成数据 “提纯”,从而实现数据 “增值”。所以,数据挖掘技术是大数据技术的关键之关键,是与云计算密不可分的分布式的数据挖掘技术,必须采用分布式架构和依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术等。

1.1.3 应用层面

是指大数据应用,是大数据技术在各行各业的应用过程。其本质是对分布式存储的多源巨量数据通过高性能运算环境,采用一定的数据分析及挖掘方法,获取有价值的信息,尤其是预测信息,最终体现大数据价值。大数据应用涉及数据采集—数据存贮-数据清洗与读取—数据挖掘-高性能计算-发现规律-决策等过程,具体表现为:先用软件处理各种原始数据,并将得到的信息或知识存储在计算机中;然后基于数据编写程序,利用各种高性能计算机对海量信息进行处理和机智能化(机器学习、人工智能)数据挖掘,寻找隐藏在数据中的关联,从而发现未知规律,获取有价值的情报信息,从而进行决策。大数据应用需要人们以创新方式使用海量数据,并采用人工智能技术来处理自然文本和进行知识表述。根据应用的不同层次,大数据应用有互联网的大数据、政府的大数据、企业的大数据和个人的大数据四个应用级别[7],从而实现大数据已经展现和即将实现的美好前景与蓝图。

总之,大数据是一场信息技术革命的新阶段,是发现新知识、创造新价值、提升新能力的新一代信息技术革命。它不是单纯的数据概念,而是巨量数据与一系新技术的结合,是当今世界实现从数据—有用信息—预测的全新思路,是当前关于数据如何采集、存贮、管理、如何数据挖掘,实现更高效预测、获得更高价值的一整套技术方案。因此,大数据是涵盖大数据特征、大数据技术、大数据应用等技术内涵的全新理念 (将来有可能形成大数据理论)。所以,认识大数据不能简单地等同于开放数据,等同于共享数据;也不能简单地将大数据等同于海量数据,因为大数据不仅数量上比海量数据更大、更复杂,而且还包含数据量不断增长的状态、以及从数据中挖掘出有价值信息的各种技术。

大数据理念无不对各行各业的技术创新产生重大而深远的影响,指导各行各业突破新算法、新技术,形成新学科,从而挖掘巨大的新价值,为实现国家、企业更高的经济效益、社会效益、军事效益提供了新机遇。2015年国务院印发的 《促进大数据发展行动纲要》提出各行各业要探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略[8]。铀资源勘查作为国家安全和经济发展过程中有着特殊地位的地质矿产勘查领域,需要在大数据理念指导下,开展铀资源勘查技术创新,逐步形成大数据理念下的铀资源勘查新技术方法体系,从而实现更快更好的铀资源勘查效果和找矿突破,为国家安全战略和经济发展提供重要支持。

1.2 铀资源勘查大数据的特点

铀资源勘查大数据是地质大数据的重要组成部分,是大数据理念与技术方法在铀资源勘查领域的具体实践与应用,是 “经过新技术处理和数据挖掘,可在铀成矿规律和找矿预测获得更强发现力和决策力的巨量铀矿地质信息资产”。它既具有国内外一般大数据的特点,又具有铀资源勘查的特色。

铀资源勘查大数据中的数据是通过各种铀矿勘查技术手段获取的直接或间接反映铀成矿信息或铀成矿过程的各种数据。它具有一般大数据的4V特征:1)规模性:铀资源勘查涉及不同比例尺、不同精度的时空数据,总量巨大。从前述提及的 “无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”[3]这一点来说,恐怕是不言而喻的。当前,全国铀成矿单元有4个成矿域,11个成矿省,49个成矿区带,共有近300多个铀矿床,上万个铀矿异常点[9]。从铀资源勘查大数据之一的遥感数据来看,其数据量就很大。一景空间分辨率4 m的国产高分二号多光谱数据达400 Mb、一景空间分辨率为1 m的国产高分全色波段数据达1.5 Gb;一个覆盖20 km×1.5 km面积的空间分辨率为2.5 m、波段数为64的航空高光谱数据量达3 Gb。2)多样性:铀资源勘查数据包括地质观测数据、地球信息探测数据、实验测试数据等多种类数据。具体类型上有:遥感探测数据、地球物理测量数据、地球化学测量数据、地质矿产调查数据、实验测试数据、地质钻探数据、地质综合编图数据等。数据空间分布上涉及地球地表至地下深部的各个圈层;数据结构上,铀资源勘查大数据包括各种格式的矢量和栅格图件、文档、照片、视频数据等、以及关系数据库、空间数据库和对象关系数据库中的数据,其中既有大量结构化数据,也有许多半结构化、非结构化数据,如野外露头描述数据、钻孔岩心描述数据和各种地质调查、勘查报告,以及大量地质图件、素描和照片等。3)价值性:铀资源勘查各种数据虽然小而碎、有的单个信息价值低,但通过数据分析和数据挖掘,可以发现重要找矿信息,获得高价值。例如通过对航空高光谱遥感数据识别出来的大量矿物填图信息与矿化信息的综合分析和数据挖掘,可以发现铀、金、铜等重要找矿新线索,从而获得高的经济价值。4)高速性:铀资源勘查领域的数据采集通过遥感探测、地质调查、物化探测量、钻探施工、化学分析、人工记录等多种技术手段和科学探测、实验测试方法进行,具有数据采集快速的特点。最突出的是利用卫星、航空等探测技术手段,快速获取高空间、高光谱分辨率的遥感信息、高精度的航空放射性等地球物理信息等。当然,铀资源勘查大数据中,野外实测的 “实体” 数据(都是原始数据,不是 “加工”之后的数据)的比重远比网络世界中通过各种各样模型计算出来或自动记录的数据比重更大。这一定程度上与商业上的大数据的高速性有一定的差异,这是由于地质工作注重野外实践、注重第一手资料采集、以及专业规范管理等特点决定的。

除具有上述一般大数据的4V特征外,铀资源勘查大数据还具有数据密集型的地质时空大数据特点[10]。具体表现在:1)铀资源勘查地质大数据的时空属性。铀矿地质学研究的对象与采集的数据具有空间属性,同时更具有特定的时间性,因为铀矿地质数据都与地质年代相关联,不同地质时代和不同地区的岩石、地层、矿床等具有不同的分布特征和规律;2)铀资源勘查地质大数据的多源、异构、时空性、相关性、随机性、模糊性和非线性等特征。由于铀矿地质对象影响因素众多,空间特征复杂,铀资源勘查大数据存在着 “参数信息不完全、结构信息不完全、关系信息不完全和演化信息不完全”[11]的状况,显示出数据随时空变迁而数据特征各异、多类、多维、多量、多尺度、多时态等特征;3)铀资源勘查地质大数据还有因果性与非因果性的特点。此外,从铀资源勘查大数据的技术特点来看,在数据采集、数据处理、数据挖掘和知识发现等技术方法上也与社会生活和商业活动大数据存在显著差异;在应用实践方面,铀资源勘查大数据主要是为铀矿地质领域的铀资源勘查、铀成矿规律研究、铀矿勘查管理与决策、以及其他相关应用服务。

如前所说,大数据是一场信息技术革命的新阶段。它的出现并存在,代表一个信息时代、一种思维方式和技术模型。这种新思维方式和新技术模型所处理的数据集合 “不是随机样本,而是全体数据”,所容许的数据品质 “不是精确性,而是混杂性”,所揭示的数据内涵 “不一定是因果关系,而可能是相关关系”。这三个特点是长期困扰铀矿地质进行成矿预测、评价、管理、决策等的难题和难点。大数据理论、方法和技术的引进,对于突破采样随机性和样品空间狭小、大量良莠难分的非结构化和半结构化数据无法利用,以及可靠的作用机理、因果关系和动力学模型缺乏,仅凭少量观测数据和固有模式进行判断、 预测等限制, 无疑有极大的好处[10]。所以,大数据理念无疑对地质矿产领域的技术创新提供了更加全面的 “样本”和方法指导,将在促进铀矿地质技术进步和找矿突破方面产生重要而深远的影响。

2 铀资源勘查大数据技术研究框架思路

当前,铀资源勘查领域对时空数据的存贮、管理、分析,主要是基于Mapgis、Arcgis等GIS平台进行的。这些GIS平台多依赖于技术提供商,无法满足大数据条件下的铀资源勘查应用,需要研究开源大数据框架。同时,如前所述,大数据技术是一整套技术体系,没有一种体系架构能完美解决所有大数据问题,需要根据实际的应用进行研究和开发。因此,在构建大数据应用环境时,应采用开放式体系结构的混合平台。据此,为了充分发挥铀资源勘查地质大数据的作用,使其适应分布式计算和高性能计算为主的大数据环境,从铀资源勘查大数据的特点出发,结合一般大数据技术的优势,铀资源勘查大数据技术研究可采取如下框架思路(图1):一是借鉴并采用一般大数据技术[10],二是研发和改进适用铀矿地质的专业大数据技术。下面重点介绍借鉴并采用一般大数据技术来创新研究铀资源勘查大数据技术的思路。

2.1 借鉴并采用一般大数据技术进行技术改造

借鉴并采用的一般大数据技术主要有:大数据的存储管理体系架构和分析处理体系架构,大规模并行处理、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。

2.1.1 Hadoop大数据处理软件框架

Hadoop是当前大数据应用最广泛的开源分布式文件存储系统及并行处理框架[12]其最核心模块包括Hadoop核心模块、HDFS与MapReduce[13]。 HDFS (Hadoop Distributed File System)是一种高可用、易扩展、高性能且容错性强的分布式文件存储系统,其设计本质上是为了大量的数据能够横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件,从而为分布式计算存储提供了底层支持。采用JAVA语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。Hbase是基于HDFS的分布式列簇存储数据库,适用于处理半结构化和结构化数据。Hadoop软件架构为大数据处理提供了强大的基础平台和工具。通过这个平台和工具,从数据采集→数据预处理→数据存贮管理→数据分析/挖掘→结果展现的整个大数据处理流程的每个环节都有相应的工具支持(图 2)[14]。

图1 铀资源勘查大数据技术研究框架思路(据文献[10]修改)Fig.1 The study framework idea of Big Data technology for uranium resource exploration (Modified after[10])

图2 大数据平台处理流程(引自文献[14])Fig.2 Process flowchart of Big Data platform (After [14])

2.1.2 基于一般大数据技术的技术改造

Hadoop为铀资源勘查大数据技术研究提供了强大的一般大数据技术支持。以Hadoop一般大数据技术为基础,可以对铀矿地质领域数据采集方法、数据预处理方法,数据存贮管理方法、数据挖掘方法,数据可视化方法进行改造。改造过程主要是从任务分解、数据分解、以及数据流分解角度,改造各种技术,以适当大数据环境,形成铀资源勘查大数据技术。

1)铀资源勘查数据采集方法。包括数据收集、遥感探测、物探测量、化探测量、水文调查、地质调查、钻孔勘探、以及其他测量。对这些方法,可以在增加批处理功能、自动采集、实时增加等功能。

2)铀资源勘查数据预处理方法。主要有数据清洗、数据转换、数据解析、数据离散等。对这些方法改造,可以增加数据自动检查、批处理、自动数据解析处理、自动数据离散化处理等。

3)铀资源勘查数据存贮管理。为了保证大数据量、不同结构数据的存贮和大数据读取、写入的快速性,数据存贮管理需要在大数据技术软件框架下,利用不同数据模型进行数据存贮管理,以满足不同应用需求。在铀矿勘查领域,大数据类型多样、数据量巨大,不仅涉及结构化、半结构化数据,而且涉及非结构化数据,而且非结构化数据中还涉及文字、图件、视频、模型等。虽然结构化数据可依靠关系型数据库来存贮,但当数据结构变化太复杂时,TB级数据处理速度缓慢;对于非结构化数据,虽然文件系统是主流的存储选择,但是在存取、索引及元数据管理上不是最优。NoSQL非关系型数据库,既能支持灵活的结构和非结构化数据,又能在大数据体量下有更好的可扩展性。同时文件系统也得到了发展,与对象存储相映生辉,能更好地支持管理与分析。正因为NoSQL的技术优势,才成为了大数据条件下数据存贮管理的主要技术之一。当前,NoSQL种类很多,但最主要有Hbase、MongoDB、Cassandra等三种[13]。Hbase正是Hadoop大数据框架中用于数据存贮管理的数据库技术,因此,将Hadoop大数据技术和其他NoSQL非关系型数据库的紧密结合,可以更好地满足铀矿勘查领域巨量、多样等数据存贮与快速读写需要。

4)铀资源勘查数据挖掘技术。铀资源勘查大数据挖掘技术是铀资源勘查大数据技术研究中最重要方面。其内涵是:在铀矿地质时空数据库和数据仓库的基础上,利用统计学、模式识别、人工智能、集合论、模糊数学、云理论、机器学习、可视化等相关技术和方法,以及各种相关信息技术手段,从海量多类多层次的时空数据、属性数据中提取未知的、有用的和可理解的可靠知识,从而揭示出蕴含在铀矿地质科学大数据背后的相关关系和演化趋势,实现新知识的自动或半自动获取,为铀资源勘查预测、发现和评价提供依据。当前,对可用于地质科学大数据挖掘的常用方法主要有基于概率论的数据挖掘方法,基于扩展集合论的数据挖掘方法,基于仿生学的数据挖掘方法,文本数据的挖掘方法,以及可视化法等[10]。其中,基于概率论的数据挖掘方法是最常用的方法,如回归分析法、因子分析法、判别分析法、聚类分析法、证据权重法、趋势分析法、时间序列法,以及克立格分析法等。而诸如模糊数学、粗糙集理论和云模型等基于扩展集合论的数据挖掘方法,人工神经网络法、蚁群算法和演化算法等基于仿生学的数据挖掘方法对复杂地质信息的挖掘很有前景和价值,是需要研究的重要的数据挖掘新方法。同时,文本数据挖掘方法是以非结构化或半结构化的文本数据为对象的挖掘方法,当前研究还不多,也是地质大数据挖掘中非常关键的技术方法。在 Hadoop框架下的 MapReduce、Pig、 Hive、 Mahout、 Graphx等技术支持下,对上述地质科学大数据中的各种数据挖掘方法进行改造,可以创新形成铀资源勘查大数据挖掘技术。

5)铀资源勘查数据可视化。在铀资源勘查过程中,常常需要对地质现象和地质过程进行分析和地质矿产资源预测评价。在分析和评价过程中,对于大量的不确定因素,要依靠研究人员本身的知识和经验进行定性理解、定量估算和关系描述。从数学逻辑角度看,这是一种半结构化或不良结构化甚至非结构化问题,而数据可视化正是描述、表达和理解各种半结构化甚至非结构化问题的关系和模型的最佳方法和手段[10]。因此,数据可视化是铀资源勘查大数据技术研究中的重要研究内容。当前,地质领域,地质时空数据可视化从应用角度可分为表达三维可视化、分析三维可视化、过程三维可视化、设计三维可视化和决策三维可视化等五类[15]。铀资源勘查大数据可视化技术,除对表达三维可视化、分析三维可视化进行改造外,要更加重视大数据条件下的过程三维可视化、设计三维可视化和决策三维可视化技术进行研究,为铀资源勘查大数据挖掘提供更多技术支持。

3 铀资源勘查大数据技术研究关键问题

针对铀资源勘查大数据特点及研究框架思路,铀资源勘查大数据技术研究的关键问题主要有:

3.1 铀矿地质大数据清洗

在铀矿地质勘查过程中,获取数据的手段多样、条件各异。因此,总是存在一些数据质量参差不齐的情况。如果这些质量参差不齐的数据统统进入数据库或数据存贮管理系统,将对有用信息造成严重的干扰,从而影响后期数据挖掘的效率和精准度,进而影响铀成矿预测、铀成矿规律等数据挖掘结果的可靠性和价值。因此,数据清洗技术是铀矿勘查大数据技术研究中最首要关键技术。这一技术主要是对各种铀矿勘查数据进行清洗,包括消除重复数据、消除噪声、遗漏数据处理、数据类型转换、连续数据的离散化、空值的替代、数据子集的随机抽取等,从而把数据处理成适合于数据挖掘的形式,并在数据选择的基础上对挖掘数据作进一步的约简处理,以减少内存资源和处理时间,使挖掘更有效。

3.2 铀矿地质多属性多态数据一体化存贮管理

为了研究铀成矿作用、成矿机理和成矿预测,需要对研究区地上和地下等具有不同时空特点和属性特点数据的一体化采集、存储、管理和处理,以便从系统的角度,进行各种分析;同时,由于地质体、地质结构和地质过程的极端复杂性、不可见性和数据采集的抽样方式,导致出现前述的 “结构信息不全、关系信息不全、参数信息不全、演化信息不全”的状况,从而需要对地质数据进行三维、动态的可视化建模,以便形象、直观地感知地质对象并提高认知能力和水平。所以,研究和开发能够有效支持结构化、半结构化和非结构化数据一体化、静态数据与动态数据一体化的铀矿地质多属性、多态数据一体化存贮管理技术,就显得十分的必要和重要。因为,这一存贮管理技术为实现地质数据的三维动态可视化提供重要支持。

3.3 铀矿地质大数据时空并行分布检索

为了实现铀矿地质大数据的高效管理、调度和应用,还需要发展完善的高效时空索引技术。但在目前的时空数据库中,通常缺失并行时空索引的一体化与时空索引结构并行化,严重阻碍了大数据时代时空数据库中分布式并行缓存机制、并行预调度与调度机制、四维时空数据快速检索调度、大规模时空分析等一系列瓶颈问题的有效解决。因此,在铀矿勘查大数据技术研究中,探索研究和开发时空索引分布式和并行化一体的时空并行分布检索技术,就显得十分关键和重要。从技术上看,国内外提出的分布式并行时空索引(DPSI)多层次理论架构和基于间隔关系算子的并行时空索引(IPSI)方法,突破了高维度下树形索引层次结构的局限性,实现了主从模式下的分布式并行时空索引(MSDPSI),以及对等模式下的分布式并行时空索引(PPDPSI)。这些成果显著提升了分布式并行计算环境下的数据并行时空索引性能,能够为铀矿地质大数据时空并行分布索引技术的研究提供重要技术支持。

3.4 基于铀资源勘查大数据的成矿预测

铀成矿预测是研究铀资源勘查大数据技术的最重要目标。因此,基于铀资源勘查大数据的成矿预测技术是重要的关键技术。国内有不少学者提出了大数据下矿产资源预测思路[16-17]。当前的铀矿预测方法,无论是定性或定量方法,大多是根据典型矿床的勘探资料,从成矿规律研究揭示的因果关系理论出发,抽提出若干个特征性的 “找矿标志”,形成一种 “成因模型”或 “成矿模式”,然后用这种 “模型”进行矿床预测。这种方法一开始是行之有效的。但是,随着浅表的、易于发现的矿床陆续被找到后,这些 “成因模型”的局限性也逐步显露出来[10]。利用这种 “成因模型”在已知矿床范围及外围进行就矿找矿是有效的,但在广阔的未知区找矿,这种方法有时显得无从下手。在这种情况下,追求 “相关关系”而不是追求 “因果关系”的矿床统计预测方法[17]、 多重分析预测方法[18]又被不少研究者所重视。不同物质之间存在着各种各样的相关关系,因果关系只是相关关系中的一种,不是只有因果关系才重要[19],有时除因果关系之外的其他相关关系也很重要;通过其他相关关系的研究和发现也能产生价值。面对找矿的新领域、新类型和新深度,可用于建模的相关知识更加有限,为了发现新的知识,认识新的成矿规律,我们需要使用的是全部的原始记录数据,而不是人为抽取的少量特征数据。所以,大数据应用中,因果分析和相关分析都十分重要[19]。铀成矿预测不仅要对 “成因模型”或 “成矿模式”等因果关系加强创新研究,更要充分吸收模糊数学、粗糙集理论、云模型、人工神经网络法、蚁群算法等数据挖掘新方法,从铀资源勘查取得的原始记录数据出发,创新研究基于相关分析的铀资源勘查找矿预测新技术。这是铀矿勘查领域大数据技术研究的关键之关键。

3.5 铀矿勘查文本数据挖掘

大数据的一个重要特点是非结构化数据越来越重要。在铀矿勘查领域,以往的铀成矿规律分析和成矿预测也主要是利用结构化数据。对描述性的非结构化数据,通常只从中提取少量的 “特征参数”,并由此建立各种认知模式进行判断和预测,非结构化数据的利用很不充分。在大数据理念下,如何利用以非结构化或半结构化的文本数据,进行数据挖掘,发现新知识,提取新规律,为提高铀资源勘查效果是铀资源勘查大数据技术研究中非常重要的问题。因此,铀矿勘查文本数据挖掘技术研究,对铀资源勘查大数据研究非常重要且关键。

3.6 基于大数据技术的铀成矿过程实时仿真

铀矿地质数据可视化技术是铀资源勘查大数据应用中的重要关键技术之一。从应用角度出发,铀资源勘查数据可视化可分为表达三维可视化、分析三维可视化、过程三维可视化、设计三维可视化和决策三维可视化五类[15]。表达可视化是以图形或图像形式在屏幕或其他介质上显示出来,大多数可视化属于这种类型;分析可视化是在可视化环境中进行的各种地质空间决策分析,是空间决策支持认知过程可视化的核心,主要是借助GIS功能开展的,也是铀矿地质勘查中研究较多的可视化;过程可视化是指在体三维环境中,开展各种地质过程的可视化动态模拟,以及地质作用的可视化虚拟仿真,是使三维静态地质模型转变为四维动态地质模型的关键步骤[15],铀矿地质研究中,可视化虚拟仿真,就是要实现铀成矿过程或作用的三维至四维的仿真模拟,这方面研究还很少或刚开始,加强这方面研究,对铀成矿理论创新具有重要的技术支持作用;设计可视化是在体三维可视化环境中进行各种地质工程设计;决策可视化是在体三维乃至四维可视化环境中,进行矿产资源潜力或成矿地质条件评价、矿产资源勘查、开发等多方案比较、选优与制定,是铀资源三维定型、定深、定量预测的关键技术。总之,只有实现了上述各种可视化,才能够进行更好地进行铀资源勘查大数据挖掘。因此,需要努力创新研究与攻关。

3.7 铀资源勘查地质云平台构建

铀资源勘查地质云(铀矿地质云)平台构建,是铀资源勘查大数据技术应用的目标之一,也是铀资源勘查领域进行大数据应用的重要支持平台。它是充分利用地质、矿产、地球物理、地球化学、遥感、水文、环境、灾害、地形、地貌等各种地质调查数据,在研发的各种大数据技术支持下,通过数据采集、数据传输、信息提取、数据挖掘、知识发现等手段,构建的基于铀矿地质大数据的云平台。利用这个平台,实现从铀矿地质数据到信息、信息到知识、知识到智慧的数据开发与信息转换,服务于铀资源预测评价、铀矿地质基础研究、铀矿勘查项目管理、铀矿勘查决策、以及其他需要的应用。铀资源勘查地质云平台的构建,使得铀矿地质专业人才不需太关注内部计算架构就能通过浏览器或者应用程序界面,提交计算任务或者服务请求,从而大大增加铀矿地质数据的使用效率,使铀矿地质数据携带的信息在相关应用领域创造更多价值。

4 铀资源勘查大数据技术研究现状与实施步骤

在地质领域,大数据应用已开展了一些研究,如中国地质调查局已开展了 “地质云”建设[20-23],并在 “地质云”平台的框架下,初步形成了地质调查信息服务集群体系,以充分利用大数据技术服务国家地质公益事业。同时,中国地质调查局已经开始从大数据的角度对典型矿床、重要矿种的潜力评价开展试点示范[24-25]。在核地质系统,现已有一些项目开始涉及大数据技术研究,一些学者也在思考了大数据时代下的铀矿勘查数字化发展[26]。然而,由于铀资源对国家安全和能源的战略地位、以及资料保密等原因,铀资源勘查领域各种数据的存储、共享、复用等还停留在较低水平,铀资源勘查大数据应用研究也才刚刚开始。

大数据应用是一个长期的系统工程,不是一蹴而就的,而是逐步实现的。因此,应本着 “立足现实,着眼未来”和 “从长远和全局着眼,从当前和局部入手”的基本原则进行大数据技术研究和应用。针对铀资源勘查领域的特殊性,铀资源勘查大数据技术研究与应用可分步分阶段来实施。

第一阶段 (2016—2020),全面理解和分析大数据内涵,建立完整的铀资源勘查大数据应用技术体系与技术发展路线图,初步突破铀资源勘查大数据存贮管理技术、用于成矿预测的数据挖掘新技术等关键技术,取得铀资源勘查大数据技术的阶段重要进展;第二阶段 (2021—2025),构建局域网环境下的铀资源勘查大数据应用平台 (铀矿地质云),突破完全适合于大数据环境下的分布式计算、分布式数据挖掘、数据可视化等关键技术,实现铀资源勘查大数据应用示范;第三阶段(2026—2030)系统完善铀资源勘查大数据应用平台,进一步突破智能找矿预测、智能资源评价、三维-四维可视化等关键技术,全面实施铀资源勘查大数据战略,并积极向其他领域拓展,促进核地质行业走向真正的大数据时代。

5 加强铀资源勘查大数据技术研究的对策建议

5.1 加强技术研讨、顶层设计与重点突破

大数据研究和应用是一个系统工程,不同行业不同学者对大数据的理解和认识不一[27],从而影响大数据应用实施的决策。对铀资源勘查领域来说,大数据应用不只是部分科研人员需要思考的问题,也是管理者、决策者需要考虑的问题。通过加强技术研讨,使核地质行业对大数据及大数据应用实施的理解有一个比较清晰、相对统一的认识,从而加强顶层设计和项目规划,项目落实,使铀资源勘查大数据应用研究能够有计划、有步骤的实施。同时,在顶层设计的基础上,需要围绕铀资源勘查及相关应用急需,有针对性地开展重点研究,取得关键点上的技术突破。

5.2 加强大数据与人工智能的结合

大数据技术体系中包括许多新技术新方法,尤其是在信息挖掘和找矿预测方面更是如此。大数据使精细刻画成为了可能,使“智能学习”变成了可能[28],要加强大数据与人工智能的结合[29-30],使铀资源勘查大数据技术研究实现从一般的大数据应用,升级为高度智能化和自主化的系统,创建真正能自主决策、自主行动的智能系统。

5.3 加强铀资源勘查大数据研究的经费投入

在预研、核能开发、集团自主研发费、地勘费等不同渠道项目中,增加铀资源勘查大数据技术研究经费,从不同项目渠道的特点出发,对铀资源勘查大数据技术体系中的不同关键技术、软件、硬件进行研究和开发,形成铀资源勘查大数据技术研究相对稳定的经费投入,促进核地质系统铀资源勘查大数据技术的稳步创新发展和技术突破,并早日进入大数据应用时代。

5.4 加强人才引进与人才培养

每个行业的大数据应用都是一个系统工程,涉及多个学科和多种技术,尤其是计算机、数据库、数据挖掘、数据可视化等技术。相对来说,这些技术是核地质领域人才的弱项。因此,需要加强这方面人才的引进和青年骨干人才有针对性的持续培养,为真正实施铀资源勘查大数据应用提供人才基础。

5.5 加强与行业、国际间的交流学习

相对核地质领域,其他领域的大数据应用研究开始相对更早些,国际上也比国内要早些。因此,需要加强国内外的交流、行业间交流,学习别人的经验及技术,为更好地实施铀资源勘查大数据服务。

6 结论

1)认识大数据的内涵,应该从数据、技术、应用三个层面来全面理解。它不是单纯的数据概念,而是巨量数据与一系列新技术的结合,是当今世界实现数据—有用信息—预测的全新思路。因此,大数据是涵盖大数据特征、大数据技术、大数据应用等技术内涵的全新理念。

2)铀资源勘查大数据不仅具有一般大数据的4V特征,还具有数据密集型的地质时空大数据特点。主要表现在铀资源勘查地质大数据的时空属性、铀资源勘查地质大数据的多元(源)、异构、时空性、相关性、随机性、模糊性和非线性、以及铀资源勘查地质大数据的因果性与非因果性特点等。

3)铀资源勘查大数据技术研究可采取的框架思路包括:一是借鉴并采用一般大数据技术,二是研发和改进适用于铀矿地质的专业大数据技术。铀资源勘查大数据技术研究的关键问题主要有:铀矿地质大数据清洗技术、铀矿地质多属性多态数据一体化存贮管理技术、铀矿地质大数据时空并行分布检索技术、基于铀资源勘查大数据的成矿预测技术、铀矿勘查文本数据挖掘技术、基于大数据技术的铀成矿过程实时仿真模拟技术、以及铀资源勘查地质云平台构建等。

4)大数据应用是一个长期的系统工程,不是一蹴而就的,而是逐步实现的。针对铀资源勘查领域的特殊性,铀资源勘查大数据技术研究与应用应分步分阶段来实施。同时,为了加快核地质系统大数据技术研究,应加强顶层设计、经费投入、人才培养、以及技术交流等。

猜你喜欢
铀矿结构化数据挖掘
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
探讨人工智能与数据挖掘发展趋势
粤北地区花岗岩型铀矿勘查模式分析
铀矿数字勘查资源量估算方法应用与验证
CSAMT法在柴北缘砂岩型铀矿勘查砂体探测中的应用
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
高级数据挖掘与应用国际学术会议