基于大数据思维的铀资源样本集合建设方法研究及试验

2020-11-09 06:18李瀚波叶发旺方茂龙余长发杨云汉
铀矿地质 2020年5期
关键词:数据挖掘成矿机器

李瀚波,叶发旺,方茂龙,余长发,杨云汉

(核工业北京地质研究院,遥感信息与图像分析技术国家级重点实验室,北京 100029)

大数据时代到来,促使我们改变铀矿找矿的思维方式。大数据是一种解决问题思路的转变和一系列技术的组合,大数据的精髓在于分析信息时的3 个转变: 数据分析不再依赖随机采样;数据如此之多,不再热衷追求精确度;不再探求难以捉摸的因果关系,转而利用历史数据,分析事物的相关关系[1]。大数据找矿应用的精髓是地质大数据的因果性与非因果性的转换,传统地质科学的研究是一种逻辑因果关系的推理方式,现在正在被大数据技术打破[2]。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想获取的答案。近年来,随着地质数据爆发式增长以及计算机科学技术的迅猛发展,以机器学习为代表的大数据与人工智能新方法、新技术逐步应用到成矿预测领域,目前已有学者利用机器学习方法进行了成矿建模分析[3-8]。

随着铀资源数据获取手段的快速提高,地质、矿产、地球物理、地球化学、遥感等多专业、多领域的调查评价工作为铀资源预测提供了海量数据,在大数据时代背景下要求铀资源预测的思维和方法必须创新和发展。笔者通对比分析现有成功的大数据和智能应用案例后认为,融合多源异构的铀资源数据,建设海量的铀资源样本数据集合,结合机器学习和数据挖掘等技术,分析和探寻铀资源数据中蕴含的隐含信息,在此基础上建模和预测,是铀资源大数据应用的重要方向。而建设铀资源正负样本集合是铀资源大数据应用的基础和重点。

1 大数据思维下铀资源样本集合建设方案分析

1.1 机器翻译的发展历程和智能应用实例

机器翻译即用计算机实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。现今的机器翻译是大数据技术与机器学习技术结合相对成功的案例,通过其发展历程分析,可以拓展大数据思维下铀资源勘查应用思路。机器翻译的发展历程包含3 个阶段[9]:

第一阶段,基于规则的机器翻译。

基于规则的机器翻译起源于1954 年IBM的第一台翻译机诞生,那时的技术主流都是基于规则的机器翻译。即针对每种语言制定一套语言规则,根据规则调整句子结构,对生成的句子进行语法调整,再去字典中查找对应词、片段的意思,重新组成新的句子。因为语言是极其复杂且模糊的系统,不可能穷举出所有规则,该阶段的机器翻译以失败告终。

基于规则的机器翻译实质是一种追求规则和因果关系的思想,即以有限的规则对应自然语言翻译中无限的可能性,注定难以获得成功。

第二阶段,基于实例和语料样本库的机器翻译。

20 世纪80 年代,日本京都大学的长尾真教授提出了基于实例的机器翻译[10]。基于实例的机器翻译方法是一种基于语料库的方法。双语对照的实例库,不需要字典、语法规则库,只要存上足够多的例句,即使遇到不完全匹配的句子,也可以比对例句,只要替换不一样的词翻译就可以。

该阶段不再追求传统的逻辑因果关系和有限规则的推理方式,其思想是以近乎无限的历史语料数据对应无限的自然语言翻译中无限可能性,在机器翻译领域取得了成功。该阶段已经具有了早期大数据应用思维,但缺乏大数据分析和机器学习算法支撑,且语料库数据有限,机器翻译的准确率仍然不高。

第三阶段,基于海量语料库和人工神经网络技术结合的智能机器翻译。

2014 年以来,随着机器学习和深度学习的研究取得较大进展,基于人工神经网络的机器翻译逐渐兴起。其技术核心是一个拥有大量结点的深度神经网络,自动的从海量语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。如Google 机器翻译结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译。

通过分析成功的大数据与智能应用案例可知,海量语料库或样本库与神经网络等机器学习技术结合的方式,是当今有效的大数据和智能应用的方向。地质大数据正在以指数形式增长,只有发展智能数据处理方法才有可能追上大数据的增长速度[11]。铀资源大数据应用可以尝试智能机器翻译应用思路,即建立海量的铀资源样本数据集合,结合机器学习、深度学习和数据挖掘等技术,分析和探索多源异构的铀资源数据的隐含信息,得到规律性认识,建立预测模型,突破传统追求因果关系的思维方式,最终实现铀资源找矿预测的智能应用。

1.2 铀资源正负样本集合建设方案

通过分析成功的大数据和智能应用案例可知,铀资源勘查大数据应用的关键是将海量的铀资源勘查专业领域数据与机器学习、数据挖掘等技术结合起来。其中,建立海量的铀资源正负样本集合,是后期铀资源大数据应用的基础。

随着铀资源数据获取手段的快速提高,铀资源勘查过程中产生了大量多样化、碎片化、复杂的结构和非结构数据。数据类型包括遥感探测数据、地球物理测量数据、地球化学测量数据、地质矿产调查数据、实验测试数据、地质钻探数据、地质综合编图数据等[12]。数据格式包括不同类型的矢量和栅格图件、表格、报告文档、不同类型数据库、岩石光谱、纸质记录、照片、视频数据等。这些数据数量大、种类多、结构类型多样、价值密度较低,具有典型大数据特征。铀资源大数据应用是要解决找矿预测问题,这些数据本身不能直接产生价值,需要与专业应用结合,转化为数据挖掘和机器学习等技术可以处理的数据形式,才有可能发现其蕴含在各类数据中的有价值信息,为找矿预测服务。因此,首先需要将这些多源异构的数据转换为机器学习可以应用的样本数据集。

大数据技术应用的精髓是不再追求因果关系,转而关注事物的相关关系,实现这一思想需要通过机器学习实现。机器学习是通过选取合适的算法,从大量历史数据中自动归纳逻辑或规则,并根据归纳的模型对新数据进行预测,从而实现演绎法向归纳法转换。随着大数据概念的兴起,机器学习中大量的应用都与大数据高度耦合,可以认为大数据是机器学习应用的最佳场景。

机器学习需要大量的含标签样本数据来训练模型,用到的数据应包含“特征”和“标签”两部分信息。其中,特征用来表征事物,并映射出标签的一系列信息,而标签是预测或分类的结果。概括而言,特征是做出某个判断的证据,标签是结论。从可应用于机器学习的样本数据组织方式来分析各类铀资源数据,其中原始的铀矿钻孔编录数据通过数据处理,可以转化为天然包含特征和标签的数据,即钻孔数据既包含特征信息,也包含标签信息。以砂岩型铀矿钻孔为例,钻孔特征包含地层厚度、砂体厚度、泥厚度、砂泥比、底板等深等信息;而标签信息为钻孔的矿化级别,如该钻孔为工业孔、矿化孔、异常孔或无矿孔等。同时,利用机器学习算法进行样本训练,得到一个性能优良的分类器,训练样本应该覆盖实际应用过程中的各个情况,不仅需要获取有矿钻孔的各类信息,无矿钻孔对应的各类信息也至关重要。大量的无矿钻孔可作为负样本参与机器学习建模,可有效提高模型预测精度。

为了实现数据挖掘方法及机器学习预测等铀资源大数据应用,仅使用钻孔数据是不全面的,需要将地质、物探、化探、遥感等与成矿有关的数据转换为可与钻孔标签信息融合在一起的样本特征,即计算地、物、化、遥数据的各类成矿要素信息与钻孔之间的定量关系,将其与钻孔数据的特征和标签融合,形成统一的铀矿数据样本集合进行数据挖掘和分析,在此基础上建模和预测。可以理解为,融合后的钻孔数据不仅包含了有利地层的结构特征属性,也包含了与钻孔相关联的地、物、化、遥数据的特征属性。

把铀资源的原始数据转变为特征的过程在机器学习领域称为特征工程。即将多源异构的钻孔数据、地质数据、物探化探数据、遥感数据及地形、坡度等数据转化为定量的特征信息,与钻孔标签信息整合,建设有标签的铀资源正负样本集合的过程。这些定量的特征信息应尽量全面反映铀矿化或钻孔的各种成矿要素。

2 有标签的铀资源正负样本集合建设试验

笔者以二连盆地哈达图-脑木根地段的钻孔、地质、物化探、遥感数据作为试验数据,研究了不同类型铀资源数据的特征信息计算和提取方法,完成了该地带铀资源数据的特征工程试验,初步实现了可用于机器学习和数据挖掘的有标签铀资源正负样本集合建设。

2.1 基于钻孔原始编录数据的目标地层结构特征计算

试验区的目标地层为赛汉组上段,钻孔的目标地层结构特征信息主要通过钻孔原始编录数据提取。原始钻孔编录数据记录了钻孔所在目标地层的岩性分布情况、分布范围、岩石粒度属性等(表1)。针对目标地层,按照粒度属性分段统计和累加,可以计算钻孔所在目标地层的各类结构特征信息。按照粒度属性不同,可以统计目的层粒度为“砂”、“泥”的厚度和层数,并计算含砂率、含泥率、砂泥比等一系列特征信息(表2),这些特征往往和砂岩型铀成矿具有密切联系。

钻孔数据的标签信息是矿化级别,矿化级别包含工业孔、矿化孔、异常孔和无矿孔。标签为无矿孔的样本即为负样本,其他样本为正样本,同时具有正负样本的集合对机器学习建模准确性及后续的数据挖掘非常有意义。将提取出的特征信息与钻孔数据的标签相结合,可以得到有标签的钻孔正负样本集合。

表1 砂岩型铀矿钻孔原始编录要素Table 1 Original borehole cataloguing schematic table of sandstone type uranium deposits

表2 含标签的钻孔样本数据要素Table 2 Schematic table of Label-containing sample data for borehole

2.2 地、物、化、遥数据的特征计算

实现有标签的铀资源正负样本集合建设,需要将地、物、化、遥等数据提取的特征与钻孔数据的特征和标签集合在一起,才可以开展后续应用,即需要建立地、物、化、遥等数据与钻孔数据的关联。

笔者分析了试验区地、物、化、遥等数据格式,收集的各类MapGIS 图件基本包含了绝大部分特征信息。在进行地、物、化、遥等数据与钻孔数据关联之前,根据实际需要完成一系列的数据预处理,包括不同项目间成矿要素的整合、空间数据要素编辑、成矿要素的抽取、MapGIS 向ArcGIS 文件格式的转换、投影变换等。

随后,分析地、物、化、遥等成矿要素数据的特点和类型,其中物化探数据多以等值线类型为主,可插值为栅格图,读取钻孔处的栅格数值作为特征值,完成与钻孔数据的关联。以二连盆地乔尔古地区航放铀钍比与钻孔关系的特征计算为例,其步骤可简要分解为: 首先,对MapGIS 格式的钻孔与航放铀钍比数据进行投影变换,投影方式为北京54 大地坐标系下高斯克吕格19 度分带,比例尺为1∶1;其次,将投影后的钻孔与航放铀钍比数据统一转换为Shapefile 格式;再次,将铀钍比等值线插值转换为栅格图像;然后,将铀钍比栅格图和钻孔数据图层叠加(图1);最后,使用ArcGIS 软件空间分析中“值提取至点”功能,提取钻孔所在空间位置的航放铀钍比值,并作为特征信息保存。

使用该方法完成了试验区钻孔所在位置的各类航磁、航放数据及地形、坡度数据的特征信息提取,并和钻孔矿化级别标签信息整合,得到相应的有标签正负样本集合(表3)。

地质类成矿要素数据多以矢量格式存在,可以通过各类成矿要素与钻孔数据间的空间距离信息,将地质成矿要素与钻孔数据关联起来。通过GIS 方法可定量计算钻孔和控矿构造、河流相和富铀岩体之间的距离,并作为特征要素进行存储(图2)。使用该方法计算了试验区中所有钻孔与蚀源区、河流相、氧化还原带、已知断裂构造、遥感推测断裂、氡异常等成矿要素的距离,将计算结果作为特征值与钻孔矿化级别标签信息整合,得到相应的有标签正负样本集合并存储(表4)。

梨花的声音怯怯的,好像是谁家的童养媳,小李的眼神却有些热,轻声对着梨花:别有什么顾虑,这只是走个过场而已。梨花对着小李点了点头,脸色依然沉重。老邓狠狠地瞪了小李一眼:什么过场,这是很严肃的事情,是需要人坐牢的大事。小李对梨花伸了伸舌头,再次温和地笑笑。

图1 二连盆地乔尔古地区钻孔与铀钍比的定量关系图Fig.1 Quantitative relationship between boreholes and U/Th ratio in Qiaoergu,Erlian Basin

表3 部分钻孔样本的航放及地形特征要素Table 3 Aeroradioactive and topography feature parameters of some borehole samples

图2 钻孔和控矿构造、河流相和富铀岩体之间的定量关系图Fig.2 Quantitative relationship dirgram between borehole and ore-controlling structures,fluvial facies and uranium rich rocks

二连盆地哈达图地段有标签的铀资源正负样本集合中的共有特征项25 个,包含地层厚度、底板等深、砂厚度、泥厚度、砂泥比等目标地层结构特征,航磁、航放等物化探类、地形坡度特征,铀源、断裂、氧化带等地质类特征。样本集合包含标签项1 个,为钻孔的矿化级别信息(表3,表4)。

该铀资源样本库中共包含样本2 064 个,其中,标签为工业孔的样本数据49 个,矿化孔的样本数据95 个,异常孔的样本数据125个,无矿孔的样本数据1 825 个。

3 铀资源样本数据集合的应用方向展望

海量的铀资源样本数据集合与机器学习和数据挖掘等技术结合,才能实现铀资源大数据的应用,如分析和挖掘铀资源数据的隐含信息,建立模型并预测等。笔者对可能的铀资源样本集合应用方向进行了分析。

1) 运用关联规则等大数据挖掘算法,分析铀资源特征要素组合与铀成矿的关系。

关联规则算法可以计算一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一项重要技术,可用于从大量数据中挖掘数据项之间有价值的相关关系[13]。关联规则Apriori 算法是数据挖掘的关键技术之一,主要用来挖掘数据间的关联关系,通过量化的数字描述要素甲的出现对要素乙的出现有多大的影响。

表4 部分钻孔样本数据的成矿特征信息Table 4 Essential metallogenic features of some borehole samples

对于铀成矿信息数据样本集合,通过关联规则分析,可对成矿要素特征之间的互相关系进行统计和评价,可以计算出某几项成矿要素同时具备时钻孔为有矿孔的概率,即支持度。如通过关联规则分析,当目标地层砂体厚度、砂泥比、铀钍比值在一定数值范围内,钻孔的矿化级别为工业孔的支持度和置信度最高,即这3 种成矿条件同时具备时成矿概率较大。

机器学习是人工智能的核心,是使计算机具有智能的根本途径[14-15]。大数据的核心是预测,是把数学算法运用到海量的数据上,预测事情发生的可能性。针对铀资源预测,可以将有标签的铀资源正负样本集合作为训练数据,特征信息作为机器学习的输入数据,钻孔矿化级别或品位、矿体厚度等标签信息作为输出数据,通过机器学习方法进行建模。模型经调整和测试后可对预测区进行成矿前景评价和优选。

铀资源大数据机器学习与建模应跳出成矿区域的局限,利用不同区域的钻孔、地、物、化、遥等铀资源数据建立样本库,增加不同类型的数据样本。例如,以砂岩型铀矿为研究目标,铀资源样本库中包含如准噶尔盆地、鄂尔多斯盆地、二连盆地、松辽盆地等不同成矿区域的样本数据集合,当样本足够丰富、特征要素足够准确时,使用海量数据建立的机器学习模型,才有可能涵盖砂岩铀成矿条件的各种可能性,则有希望实现铀成矿的智能预测。

4 结论

1) 建立海量的铀资源样本数据集合,结合机器学习和数据挖掘等技术,分析和挖掘多源异构的铀资源数据的隐含信息,建模并预测,是铀资源大数据应用的发展方向。

2) 通过特征工程,整合钻孔、地质、物化探、遥感数据,建立有标签的铀资源正负样本集合,是后期铀资源大数据应用的基础。

3) 本文制作的铀资源样本数据集合,仅针对二连盆地哈达图-脑木根地区,样本数量有限,与海量样本集合相去甚远。后续研究应采用不同成矿区域的铀资源数据建立样本库,不断增加样本数量,才有可能实现铀资源的大数据智能应用。

猜你喜欢
数据挖掘成矿机器
机器狗
机器狗
桂西沉积型铝土矿床成矿规律及成矿模式
探讨人工智能与数据挖掘发展趋势
新疆寨北山铜矿成矿新认识及找矿预测
中非铜钴成矿带矿床遥感特征研究
柴达木盆地北缘锂多金属矿成矿条件及找矿潜力
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
未来机器城
高级数据挖掘与应用国际学术会议