大数据时代铀矿资源预测评价的技术方法探讨

2019-12-02 09:46蔡煜琦虞航李晓翠刘佳林章展铭
铀矿地质 2019年6期
关键词:结构化矿产矿产资源

蔡煜琦,虞航,李晓翠,刘佳林,章展铭

(核工业北京地质研究院,中核集团铀资源勘查与评价技术重点实验室,北京 100029)

随着信息化与网络技术的迅猛发展,大数据时代的来临不仅改变了人们的生活,也改变了人们对人类活动的记录方式,从而出现了海量数据、大数据。基于已有的数据、从数据出发,依靠人工智能方法,运用机器学习、深度学习等大数据技术,从海量数据中提取信息、挖掘有价值的信息一直是科学研究中的核心问题。“大数据”是一种海量数据的集合,也是一种信息资产,需要通过专业化的技术处理方法从海量的数据中挖掘有价值的信息。

地球科学由早期的定性描述到现今的定量分析,从地质与数学结合而成的数学地质到地质与信息技术结合的数字地质,已成为应用信息技术最密集的科学领域之一,被认定为是数据密集型科学[1-2]。地质科学家对地质数据研究的热衷一贯如初,在当今大数据时代背景下,地质数据的集成研究更显得重中之重。因此,为了向国家、政府、企业、学术团体与社会公众提供数据分析、挖掘、组织、管理等服务,“地质云”的构建则势在必行。

矿产资源预测评价是地质学家、资源勘探工作者对地球表面具有经济价值的矿产可能存在的空间位置进行科学研究,开展预测和资源潜力的综合评价,也是指导国家、政府以及行业部门制定矿产资源勘查、开发、保护等相关资源政策的依据[3]。我国于2006年启动“全国矿产资源潜力评价”项目,完成了对全国25 种重要矿产资源进行定性、定位、定量的预测,形成了我国矿产资源预测评价领域的地质数据库,为利用大数据的预测思维和技术体系进一步提升矿产资源预测的准确度与精细化奠定了坚实的基础。

新时期人们对大数据的应用程度提出了更高的要求,如何应用大数据理念和技术手段,对地学领域形成的海量数据有效地组织和使用,科学挖掘有用信息,使其产生更高的价值和效率,并应用于矿产资源的预测评价,更好地服务于社会,具有十分重要的意义。由此,笔者探讨了大数据时代铀矿资源预测评价的技术方法。

1 大数据的概念及特点

1.1 大数据概念

大数据(Big Data)作为当前研究技术最热门的话题,与智能手机、云计算、物联网等概念一样已经广泛渗透到人们生活、科研工作的各个领域。在当今大数据时代,掌握大数据、使用大数据为人们提供了商业机遇和技术 挑 战[4-5]。维克托·迈尔-舍恩伯格等[6]指出:世界的本质就是数据,大数据将开启一次重大的时代转型。大数据作为第四范式,研究领域十分广阔,而大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。对“大数据”的定义,麦肯锡全球研究所给出的是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合[7]。

1.2 大数据特点

对于大数据特点,目前认识不一,但大多倾向于4V 或5V 特征。赵鹏大[1]院士概括为5V,即大数据具有规模性(Volume)、多样性(Variety)、价值性(Value)、高速性(Velocity)和真实性(Veracity)的特点。与以往海量数据相比,大数据体现在规模巨大的同时,更加强调数据的内涵与属性,强调从大数据中发现规律、挖掘信息后获得的巨大价值。

规模性:是指数据的体量,指代大型数据集,其规模一般在10 TB 级左右,甚至更大,达到PB 级的数据量;

多样性:是指构成数据种类多、格式多,包括结构化数据、半结构化和非结构化数据。

价值性:是指数据价值,通过对地质、构造、环境、水文、矿产资源等各种类型地质数据处理与信息挖掘,提取有用信息,实现某种地质服务的目标。

高速性:是指数据处理速度快,采用大数据处理技术可对数据量非常庞大的数据集,做到快速、实时处理。

真实性:是指获取、拥有的数据是否真实、可靠。

2 大数据分析与处理关键技术

大数据分析与处理的关键技术一般包括大数据采集、数据整理与预处理、数据存储与管理、数据分析与挖掘和可视化与应用5个方面[8],其基本概括总结了大数据分析、信息挖掘与处理技术框架及流程。其中数据存储与管理是大数据处理流程中的基础,是开展有用信息提取的保障;如何从海量大数据中挖掘“价值信息”,即数据分析与挖掘是大数据处理流程中的核心,数据可视化是实现对大数据展示和应用的关键。

系统梳理铀矿资源潜力评价工作,利用大数据开展铀矿资源预测评价,可归纳出大数据分析与处理技术流程包括铀矿资源潜力评价大数据采集、数据预处理、数据存储与管理、数据分析与挖掘、数据可视化与应用5个方面(图1)。

2.1 大数据采集

地质数据具有复杂的数据构成,对于地质体及地质体所展示的现象描述一般都由其所代表的部分抽样数据或地质、地球化学、地球物理、遥感等不同专业数据来表征。定量数据包括连续型、离散型、方向型和坐标型等,定性数据包括二态数据、三态数据和多态数据等。

数据采集包括两方面的数据。一是前人研究成果资料,主要是指以纸介质存储的地质调查与科研成果报告、基础地质和专题图件、图片等以及不同格式存储的电子文件;二是指通过正在实施的地质勘查、科学研究等工作,对野外地质调查、地球物理勘探、地球化学测量、遥感解译、室内岩矿分析测试、测井数据和地质专题图件、矿产资源等各类空间数据和属性数据的数字化采集。对于前人工作与研究成果形成的纸介质资料需要进行扫描、矢量化形成电子文档,以备对数据进行预处理。

图1 铀矿资源预测评价大数据分析与处理技术流程Fig.1 Technic flowchart of Big Data analysis and processing for uranium resources prediction and evaluation

2.2 大数据预处理

大数据的预处理是指对收集获取的多源海量地学信息数据进行分类、整理,将包含重复数据的进行排序,合并清洗相同数据。对不同类别的文档按照一定的数据结构进行处理,采用分布式文件系统存储;选择机器学习、深度学习等大数据处理技术挖掘有价值的信息,同时对获取的信息数据进行格式转换,利用分布式数据库对数据进行重新组织构建数据库。根据数据的逻辑结构与大数据缓存技术,开发数据引擎,建立可便捷、高速访问的数据索引文件,供文本数据分析和信息的深度挖掘。

2.3 大数据存储与管理

地质大数据包括结构化的、半结构化的和非结构化的数据,结构化数据可以用二维表格来实现逻辑表达,此类数据的存储与管理相对来说不存在较大的困难。相比而言,现有的非结构化数据种类繁杂(包含doc 和wps 等文档、GIS 矢量数据文件、pdf、jpg 栅格等众多格式),内容多样,且数据量巨大,常以文件目录形式分散存储,文件小而碎。这种碎片化、非结构化的存储方式不仅导致对数据的查询、统计、更新等操作低效,而且更不利于对数据的检索、文献的阅读和信息的挖掘等,从而影响对这些内容丰富的数据共享与应用。因此,建立地质数据库对地质数据有效地存储与管理是构建地质云的基础。

近年来,随着大数据技术的快速发展,不少学者提出了针对海量大数据的收集、储存、管理、分析和共享非结构化数据的有效技术手段,为非结构化数据的存储与管理提供了新的思路。陈建平、崔宁等[9-10]提出利用大数据相关技术,可对非结构化数据进行快速处理,并将其转化成为半结构化数据、结构化数据,从而实现信息提取应用。例如,对图件按图例颜色,或花纹符号进行匹配,对文本类资料不同内容(如构造、地貌等)和段落标记属性。李朝奎等[11]提出在MapGis K9 与Oracle 10G 基础上创建空间数据库的构建的思路,对文档数据采用分类存储方式进行管理,对图件数据采用金字塔索引方式进行存储管理。李超岭、李丰丹等[12-13]提出分布式数据库,将空间数据和非空间数据结合起来,实现了对空间数据和非空间数据、结构化和非结构化的有序化管理,也为大数据信息挖掘奠定了坚实的数据基础。

2.4 大数据分析与信息挖掘

大数据分析与信息挖掘的理论核心就是数据挖掘算法。地球科学领域对矿产资源预测要素的提取得到了研究者越来越多的重视。超级计算硬件、软件的发展,为大数据的分析与信息挖掘提供了有利平台。基于不同的数据类型和格式研发了数据预处理、高维数据降维、机器学习与深度学习等相应的数据挖掘算法。

目前,地质大数据分析主要集中在前处理和检索查询方面,即地质数据库建立阶段,对地质描述、地质数据、地质图表、地质认识等价值巨大的地质综合资料深度分析与挖掘的能力建立还处于探索阶段。然而,地质矿产资源评价、地质环境监测预警、地质灾害预测及防护等重要业务是对地质云服务范畴的进一步要求,因此,基于地质模型、地质理论模型开展地质大数据深度分析与挖掘将是重要的解决思路。

2.5 大数据可视化与应用

数据可视化是需求者对大数据成果展示与应用的根本要求,是对复杂地质现象形象化的展示。大部分地质数据又是一个较为抽象的概念,因此地质大数据可视化技术是地质云易于使用、易于理解、易于被接受的重要解决途径之一。

原始的统计图表、原始的地质图件等一维或二维的表达形式是一种快速认识数据集的捷径,是地质数据可视化的重要手段。但是原始的统计图表和地质图件只能呈现基本信息,隐藏在一维或二维内的三维空间信息不能很好的传达,因此,地质云在数据可视化上必须满足在原始的一维或二维的基础上建立一个立体的、动态的、实时的、允许交互的三维空间信息传达的要求,而长期以来基于虚拟现实技术、3S 技术、数据库技术和三维建模技术等为主建立起的地质模型和地质理论模型是数据三维可视化的重要组成。此外,动画、视频影音等也是对数据加以可视化解释的技术手段。

应用于矿产资源预测评价中对大数据分析,主要是通过从地球科学大数据(含地质、物化探、遥感、水文地质和矿产资源)中挖掘出有用信息,在建立的成矿模式基础上,与成矿要素、预测要素相关联,进一步建立成矿模型或预测评价模型,再通过模型带入新的数据,进而应用到矿产资源的预测中。

3 大数据下铀矿地质云的构建

3.1 地质云构建背景及意义

2008 年和2011 年《Nature》 和《Science》杂志先后出版了“大数据”和“数据处理”专刊,介绍了海量数据对当今社会带来的挑战和机遇,并从互联网技术和网络经济学等领域进行了论述;2011 年,世界著名咨询机构美国麦肯锡公司发布了 《大数据:下一个创新、竞争和生产力的前沿》;2015 年9 月,中国政府印发了 《促进大数据发展行动纲要》,明确推动大数据发展和应用。

我国地质工作者在长期的地质与矿产资源调查、矿产资源评价、地质科学研究与规划制定、地球物理测量、地球化学测量等工作中获取了海量科学数据资料,是一笔宝贵的社会财富,也是我国可以开展地质领域“大数据”研究的数据基础[14]。为实现各类地质、地球物理、地球化学信息数据的社会化共享,挖掘地质、地球物理、地球化学等数据的潜在应用价值,满足不同专业人员和社会大众对地质信息的不同需求,在大数据时代发展的背景下,借鉴大数据技术的思维及数据处理方式,部分学者提出了建立我国的“地质云”[9]。

地质云是基于地质大数据、云计算等现代信息技术、计算机技术,充分利用野外地质调查、地球物理勘查、地球化学勘查、遥感地质解译、矿产资源调查评价、水文地质调查、地形地貌等地学数据,以寻找矿产资源满足国民经济需求,服务经济社会发展为目标的综合性服务平台。

构建地质云可对地表每一点上产生的结构化、半结构化和非结构化数据等数字化地质数据进行信息提取、知识挖掘等,实现对数据的“增值”。地质云构建的意义不仅可用来存储和管理海量的地质数据,有别于以往的数据库,而且可为矿产资源勘查部署、实施找矿突破战略行动提供数据分析、信息挖掘[9]。

3.2 大数据下铀矿地质云构建

地球科学实验学属于数据密集型科学,广泛存在不同类型的数据。数据涵盖基础地质调查、矿产资源勘探、地球物理勘探、地球化学测量、遥感地质调查、水文地质调查、地形测量等各种方面。这些数据往往具有多源性、异构性、时空性、随机性、模糊性、非线性等特征。因此,地球科学大数据涵盖了长期积累的大量的海量地学数据,具有较强的专业性。

铀矿地质云包括铀矿资源勘查开发、科学研究所获得的核心基础数据、成果数据。通过数据的整理与分类,充分利用已有的化学分析、测井等获得的结构化数据,同时对地球科学特有的如矿物、岩石、矿床、岩心照片等非结构化数据利用大数据技术手段进行处理,使非结构化数据转化为结构化数据,从而方便信息挖掘。

铀矿地质云与长期基于地质数据库的铀成矿信息分析不同。针对铀矿地质云中地质大数据所具有的地、物、化、遥等数据的多样性,存在获取的多维数据、结构化与非结构化数据并用等特点,在分析应用、信息挖掘过程中需采用大数据分析的技术方法。另一方面,铀矿地质云的构建与当前主流的物联网大数据分析也不尽相同,几十年来,长期的铀矿地质调查与铀成矿理论与勘查技术研究形成了内容丰富、专业性强的数据基础,随着多年来地质信息化工作的积累,铀矿地质云客观地需要专业局域网的构建、数据共享平台的搭建(图2)。因此,地质云构建紧密围绕铀矿资源管理、铀矿勘查部署决策和服务社会的应用需求。研发的关键技术包括:非结构化数据的信息提取与挖掘分析,结构化与非结构化数据混合存储与管理、大数据共享平台、数据传输、可视化等。

图2 铀矿勘查地质云的构建框架Fig.2 The construction frame of geological cloud for uranium exploration

4 讨论

4.1 矿产预测评价理论

矿产预测基本理论方法的发展与不同阶段的矿产资源评价计划相联系。如20 世纪90年代的全国第2 轮区划工作,赵鹏大等[15]总结了以“求异”作为寻求新矿床的地质异常成矿预测理论,王世称等[16-17]发展了地物化遥综合信息矿产预测理论,朱裕生[18]总结了成矿预测方法。2006 年,全国重要矿产资源潜力评价项目立项,叶天竺等[19]在综合研究国内外矿产预测理论与技术方法的基础上,提出了矿床模型综合信息预测方法体系,完成了全国23 种矿产的潜力评价。肖克炎等[3]根据自然界因果理论、趋势理论、事物信息变化联系性理论,总结出矿产预测四大基本理论。因此,每一次大的矿产资源评价计划推动了新的预测理论发展与技术方法创新。

4.1.1 矿产预测地质模型理论

矿产预测地质模型理论是应用矿床模型进行科学预测,也是地质专家最常用的预测方法,如20 世纪80 年代美国本土资源评价运用麦卡门矿床模型法,并通过特征分析进行定量预测。美国学者Singer 以建立全球矿床描述性模型为出发点,提出了全球“三部式”评价方法。矿产预测地质模型理论符合事物的因果理论,主要是通过矿床学研究查明矿床的形成环境、成因机理,进而提炼预测要素进行科学预测。由于世界上矿床成因复杂,类型多样,一个矿床往往具多成因性,不同的研究者对矿床成因的认识不一致。因此,某一矿床存在多种成因的观点,对使用矿产预测地质模型理论开展预测评价工作提出了挑战,评价会得出多样性乃至不正确的结果。矿产预测地质模型理论在开展预测评价工作时,要始终以模型为样板,基于大数据挖掘有价值的找矿信息,再通过相似类比方法,识别、挖掘多元找矿信息中与模型区最相似的地区和资源潜力[20-25]。

4.1.2 矿产预测相关性理论

矿产预测相关性理论是指围绕整个矿产地质调查评价,基于矿产资源发现与勘查产生的地质、地球物理、地球化学、遥感、矿产等海量的地学数据所隐含的反映矿产形成与矿床类型的直接、间接信息进行预测的理论。相关性分析的主体是预测矿床类型以及该类型矿床产出的空间位置。因此,开展地质、地球物理、地球化学、遥感和矿产等大数据相关性方法研究以获取成矿相关性就显得尤为重要。王世称等[17]提出综合信息矿产预测方法体系,就是充分运用了地质、地球物理、地球化学、遥感和矿产资源等多源信息的融合,其预测思路和大数据分析的相关方法相似。在采用矿产预测相关性理论进行矿产资源预测的难点主要在于地质工作不平衡而导致的信息不对称、矿产成因观点不同而构建的模型不一致以及使用物化遥信息时的多解性。

4.1.3 矿产预测趋势理论

矿产预测趋势理论是指在矿产预测过程中,通过研究矿床的时空变化趋势而进行预测的方法。研究人员在详细分析矿床产出地质背景与成矿特征的基础上,根据矿体在走向和倾向上的变化趋势,进一步预测矿体向深部和边部的延伸情况,从而达到探边摸底,预测找矿方向的目的。由于矿床的形成与产出的地质体在时间、空间上的变化既有随机性,又有相关趋势性,因此,矿产预测趋势理论要求在找矿勘查与矿产预测时,常常通过研究一个地区某矿床形成随时间、空间的变化趋势,总结控制矿床产出的关键要素与成矿规律,再依据变化趋势选择移动平均法、趋势分析法或地质统计学方法开展定量研究。趋势预测理论是大数据相关性理论在空间、时间上的相关性延伸与补充。

4.1.4 矿产预测求异性理论

矿产预测求异性理论的实质是赵鹏大等[26]率先提出的地质异常预测理论,即在某一地区矿产勘查过程中,通过地质、地球物理、地球化学和遥感信息处理,圈定各类地质异常,特别是致矿地质异常来进行成矿预测。求异是在相似类比情况下,通过筛选出矿床定位机制与已知矿床不同的标志,识别未知区与已知矿床不同的成矿信息,或者存在明显的地质形边,异常稳压等特殊地质现象的地质环境,进而推断预测区或其周边存在新类型、新矿种[27]。基于成矿系列理论的成矿预测方法,其实质也是矿产预测求异。

4.2 铀矿资源预测评价技术方法

大数据时代的到来,提升了对数据的存储与管理,比如对结构化、半结构化和非结构化数据的存储和管理;创新了大数据的处理技术方法,开展了分布式计算与大数据一体化等核心技术。因此,在具体应用领域更加强调数据分析挖掘技术和数据可视化技术。随着国内外对大数据存储管理、处理技术方法的不断创新应用,国内地学领域研究者借鉴大数据技术的架构模式,对比矿产资源预测评价技术方法的工作流程,提出了针对大数据的矿产资源预测评价技术方法。

国内研究最具代表性的学者肖克炎研究员、于萍萍博士提出了大数据技术的方法流程、预测方法等。肖克炎等[3]认为前人运用的数字化矿产资源评价工作流程与大数据技术方法流程基本一致,包括6 方面的内容,即:矿产预测地学数据库建立;矿床类型与矿产预测类型划分;成矿要素与预测要素的厘定、信息挖掘与预测要素图编制;成矿模式与综合信息预测评价模型建立;矿产预测区圈定、优选及资源量估算;成矿规律研究与地质找矿勘查部署建议。于萍萍等[28]提出了模型驱动的矿产资源定量预测评价方法,将矿产资源预测评价理论与成矿规律和成矿预测理论相结合,构建找矿预测模型,拓展了定量表征控矿地质因素和找矿标志的新变量。

在大数据思维的影响下,与传统矿产资源预测评价技术相比,大数据时代铀资源预测评价技术方法流程基本保持一致,但在预测评价中应突出铀资源预测评价大数据的构建、大数据的信息挖掘技术、铀成矿模式与预测评价模型三维可视化技术、大数据的平台构建与定量预测。

4.2.1 铀资源预测评价大数据构建

铀资源预测评价大数据构建包括铀资源勘查资料的收集整理、数据的存储与管理以及数据库的建设。

1)资料收集、整理。铀资源勘查涉及不同比例尺、不同精度的时空数据,总量巨大[29]。要系统收集研究区所有地质勘查相关资料信息,包括各种比例尺的地质图数据、铀矿产地数据、铀成矿特征数据、典型铀矿床数据、铀成矿规律研究数据、铀矿床模式、区域成矿模式和预测评价模型资料。铀资源勘查数据类型多,包括地质调查、航空放射性测量、航空电磁测量、放射性水化学、遥感地质解译与异常信息、地球化学测量等面积性调查数据。在资料收集的上,对各类资料进行分类、整理。

2)数据存储与数据库建设。利用Hadoop等大数据处理软件,将非结构化文档大数据进行结构化处理,按照分布式文件系统存储;转换数据格式,并按照分布式数据库要求进行重新组织,构建可高速访问的数据索引层,建立起分布式地学多源数据库(地质云)。

4.2.2 铀资源预测评价大数据信息挖掘

1)大数据清洗技术是铀矿勘查与资源评价大数据技术研究中最重要的关键技术。铀资源预测评价涉及铀矿勘查过程中获取的各类数据,存在质量参差不齐的情况,通过数据转换、数据解析、数据离散等手段,实现铀资源预测评价数据的预处理;再通过大数据清洗技术,消除重复数据、噪声数据,补充遗漏数据,转换数据类型、连续数据的离散化、空值的替代、数据子集的随机抽取等,从而把数据处理成适合于数据挖掘的形式[29]。

2)利用统计学、模式识别、人工智能、机器学习等技术,基于建立的分布式地学多源数据库,从海量多类多层次的时空数据、属性数据中挖掘用于预测与建模的铀成矿有利信息,揭示蕴含在大数据背后的相关关系和演化趋势,进而编制多元信息综合异常分布图,为圈定找矿远景区提供依据。

4.2.3 铀成矿模式与预测评价模型三维可视化

1)基于地学信息数据库、地质信息综合分析与物化遥综合信息挖掘,剖析铀成矿作用及关键控制因素与预测标志,建立铀成矿模式与预测评价模型。

2)在对研究区地质背景与铀成矿特征深入研究基础上,对某一典型矿床或同一类型矿床的成矿作用从四维空间进行的高度概括与总结。预测评价模型是在铀成矿模式基础上,依据主要控矿条件,选择合适的变量类型,构建预测要素(变量)图层结构,并将地质要素与三维GIS 技术结合,通过一定算法(如立方体块)进行赋值,对各个变量进行成矿有利条件的分析与提取,使其成为三维找矿预测模型重要的找矿信息变量。

4.2.4 铀资源预测评价大数据平台构建与定量预测

1)铀资源预测评价大数据平台包括对大数据的管理、数据处理、信息挖掘、预测评价、决策服务等功能,能够实现铀矿地质数据到信息、信息到知识、知识到智慧的数据开发与信息转换,服务于铀资源预测与资源潜力定量动态评价[29]。

2)定位、定量铀矿资源预测评价。在大数据平台上,通过三维空间分析技术对研究区及其深部成矿模型、找矿模型及数学模型深入分析和修正,其后提取并建立预测模型,再选择适合的数学(如信息量法、证据权法)或其他分析方法如深度学习等人工智能技术,对铀成矿有利地段各预测单元所包含的信息数据进行统计处理,计算得到各预测单元的找矿有利度,统计有利度的分布区间,根据其分布特征,选定有利度下限,进一步计算各预测单元潜在资源量,从而实现深部矿产资源的定量评价。

5 结语

1)铀资源预测评价大数据分析与处理流程包括大数据的采集、预处理、存储与管理、分析与信息挖掘以及可视化与应用5 个方面,而分布式计算与大数据一体化等核心技术的应用,提升了对海量的结构化、半结构化和非结构化地学大数据的存储和管理,数据分析挖掘技术和数据可视化技术的广泛应用,是铀资源预测评价的核心内容。

2)在大数据思维的影响下,大数据时代铀资源预测评价技术方法流程基本保持一致,在预测评价中应突出铀资源预测评价大数据的构建、大数据的信息挖掘技术、铀成矿模式与预测评价模型三维可视化技术、大数据的平台构建与定量预测。

猜你喜欢
结构化矿产矿产资源
《矿产综合利用》征稿启事
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
《矿产综合利用》征稿启事
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
盘点2020国内矿产新发现(二)
我国矿产资源保护法律制度完善路径分析
自然资源部发布《中国矿产资源报告(2018)》
哈萨克斯坦矿产资源使用法将作重大修改——哈萨克斯坦《矿产资源与矿产资源使用法典(草案)》解析