王鹏,黄树桃,邬伦,蔡恒,高敏,王洪斌,王树红
(1.核工业北京地质研究院,中核高放废物地质处置评价技术重点实验室,北京100029;2.北京大学,地球与空间科学学院,北京100871)
多源信息分类与编码方法是在考虑信息本质特征基础上,依据一定原则和方法,对多源信息进行一系列区分和归类,建立一种规则的排列顺序以及分类体系,并将信息对象用便于被计算机和人工识别的符号代码表示出来的过程[1]。在核技术等相关领域,只有把多源信息对象按照一定规则进行分类和编码,实现合理有序的信息化存储,才能高效地对信息对象进行管理。分类编码方法是核技术相关领域数据库建设以及信息存储交换等标准化建设工作的基础,也是最终实现信息共享的必要条件。国际上核产业比较发达的国家,基本已完成地质处置全过程信息数据获取方式研发,并对多源信息数据管理和处理方法有了比较统一的规定[2-4]。
目前在我国核工业产业链中,比如核反应堆工程[5]、 核设施退役[6]等环节, 已经开展了大量有关数据信息分类编码、数据库设计开发等研究工作。但是在核产业链后端,尤其是针对核废物处置阶段的数据管理,目前还缺少统一的多源信息分类与编码体系。因此,为了加快实现整个核废物处置领域数据管理与共享,积极推进核废物处置进程,开展多源信息分类与编码研究是十分必要的。
高放废物地质处置研发过程中的多源信息是处置研发全过程的重要组成部分,这些信息数据资源是保障高放废物地质处置安全的关键。高放废物地质处置多源信息数据具体是指:在高放废物地质处置研发过程中与处置库选址、工程设计、工程建造及处置库运行有关的、反映和描述处置库研究开发各个环节特征及其变化的各类资料和数据,是对废物管理 (社会、经济、环境)、地质屏障(地理、地层、围岩)、地下工程、工程屏障(缓冲回填材料、废物罐)及其附属结构在现场勘查和实验量测基础上的抽象与描述。根据场址特定评价与专业数据处理的要求,其多源信息具有以下几方面特性:
1)空间特性:处置场址信息具有空间特性,是指场址研究对象具有空间位置、形状和大小等几何特征,以及相邻对象之间的拓扑关系。空间位置建立在一定的参考坐标系下,所有的信息都与特定的空间实体相联系,如处置库所选围岩的深度和容量等。
2)时间特性:场址研究对象具有时间特性,其位置、形状和大小都可能随时间变化,只是其中有些变化较快,有些变化较慢而已。处置库选址研究需要对研究对象数据随时间的分布和变化规律进行分析,进而对未来做出预测。
3)尺度特性:处置库选址研究对象不管如何复杂,即使不能用具体的尺度来度量,也仍然是确定的,研究对象的空间数据却往往是不确定的。数据的不完整性表现在描述目标的离散性和时间过程的不连续性,如断裂的长度、深度等。尺度特性与空间分辨率有关,与采样的空间间隔有关,同时与人们观察问题的角度有关,如宏观、细观、微观下对象的形态均有所不同。
4)专题特性:处置库开发研究过程中涉及的专业广,包括处置库场址的地球化学、环境、地理、地质、地球物理、工程地质与水文地质、辐射防护、岩体力学、材料力学、核化学与核辐射工程设计、制图等数据信息,专业的复杂性决定其数据信息具有很强的专题特性。
5)多源性:处置库选址数据量纲不一、定性与定量数据以及文字描述同时并存,各种空间数据获取的方法和手段也多种多样,因而产生了信息数据的多源性。数据来源于不同的研究部门、研究领域、研究区域与不同的层次。
总的来说,地质处置研发过程中的地学数据具有空间、时间、尺度、专业与多源性等特性,是一种复杂的多源信息。因此,对其进行正确的分类是开展后续研发工作的重要基础。
高放废物地质处置信息分类编码除了遵循一般信息分类编码的原则外,还遵循与核技术领域尤其是核废物处置领域基础信息相关的国际或国家标准、面向对象程序设计与兼顾GIS分析的思想以及满足核技术领域信息共享需求等原则。
1)遵循与核废物处置相关的国际和国家标准
目前与核废物处置有关的国内标准的制定尚处于起步阶段,主要实现了对处置库选址阶段数据范围和来源的控制[7]。国际上相关标准较完善,基本可以实现对处置选址、试验、建造及运行全过程的数据范围界定和管理[2-4]。这些国际标准应该作为废物处置领域信息对象分类思想和方法以及最终分类编码实现的主要标准和参考依据。
2)面向对象程序设计与兼顾GIS分析的思想
面向对象设计思想可以实现将信息数据抽象成图形符号库和其他要素对象进行设计,可优化数据库中要素数据的组织结构,增强信息数据对象的可移植性,提高开发设计效率以及最终开发系统的运行速度。在这个过程中,不仅针对废物处置过程信息数据进行分类和编码,还根据信息对象属性特征,设置了特有的标识码,最终能够提高数据检索和设置对象属性的效率,也较为便利的实现后期系统编程。
地理信息系统(GIS)作为基础的空间数据处理技术,能够提供强大的图形数据采集、空间数据可视化和空间分析功能,而且可以将各种信息数据分析与空间地理位置结合起来综合分析,为业务管理部门提供科学的决策依据。同时,分类编码体系有助于实现借助各种空间分析方法对空间数据信息综合管理和开发,同时可以实现对空间实体间相互关系的深度挖掘,最终实现GIS空间分析数据的快速提取和利用,实现对空间要素对象区域内分布特征和过程的综合把握。
3)满足核技术领域相关信息共享需求
目前在发达国家,比如法国、芬兰等,都已经建立了较为完整的核产业链,并针对产业链进行了较深入的数据获取和共享等工作。我国目前核产业链取得的数据管理研究成果基本都集中在反应堆以及核循环领域,针对废物处置等产业链后端的研究尚处于起步阶段,因此,相关的数据管理工作也比较滞后。通过废物处置过程数据分类编码体系的研究与建立,可以加快实现整个核技术领域相关信息的完善和共享,尽快完善我国整个核工业产业链构成。
目前,针对传统领域信息对象进行分类的基本方法已经比较成熟,主要包括线分类法、面分类法和混合分类法。国家相关标准[8]和有关文献[9-10]已经对分类原则与方法进行了详细描述和深入分析。线分类法的实质就是依据信息对象的实质属性特征,按层级进行分类,依次将信息对象划分为相应的若干层级类目,最终形成一个逐级展开、有层次的分类体系,相应的表现形式应该依次为大、中、小类等等。面分类法是根据信息对象既有特征,将其相应的划分为互相没有隶属关系的类组。而混合分类法就是将以上两种分类方法结合起来的方法。
根据传统领域信息分类结果可以发现,两种分类方法都有其优缺点。线分类法可以较清晰地体现不同分类之间的逻辑关系,同时应用便利,比较契合信息处理的传统习惯;缺点是结构一经确定,不易改动,同时如果分类层次过多会导致编码位数冗长。而面分类法的优点是分类结构伸缩性较强,一个分组类目的改变不会影响其他分组,可调节性比较强;缺点是不能充分利用分类结构容量。经过相关领域信息对象分类实践验证,高层次的定性信息分类适合使用线分类法,低层次的属性定量信息分类适合使用面分类法。在选择方法的过程中,需要综合考虑两个方面的因素:一是高放废物地质处置数据来源特征,即不同学科数据及其专业特征;二是相关地理要素的几何特征。
针对高放废物地质处置多源信息对象的分类编码也有助于后期应用系统开发的数据模型基础的实现,其实质就是通过对处置过程中信息要素对象进行抽象汇总以及再组织,并在逻辑层实现分类编码的过程。考虑到本文研究的数据要素对象基本处于定性级别,因此后续数据分类与编码方法以线分类法为主,个别专业数据的细化分类过程中采用面分类方法。
根据高放废物地质处置研发过程中的数据特点,并借鉴前人数据分类方法成功案例,最终形成适用于地质处置过程的数据分类与编码体系,下面着重介绍数据分类编码方法以及相应的命名规则。
根据国家核安全局发布的 《高水平放射性废物地质处置设施选址》导则[7],参考相关的国际或行业标准,并结合后期可预见的数据共享和应用需求,将高放废物地质处置信息对象分为元数据信息、基础地理信息等14个专题门类。在专题门类中,又根据专业数据自身特点及空间数据要素形态特征,继续依次分为若干大类、中类、小类、子类;各类不得重新定义,根据实际需要可进行扩充。分类代码采用8位字符码,分别为按顺序排列的门类、大类、中类、小类、子类。左起第1-2位为门类,用英文字母A-Z表示,为学科专题,如地质GM;左起第3位为大类,在门类基础上细分形成的要素类,用数字或字符表示;左起第4位为中类,在大类基础上细分形成的要素类,用数字或字符表示;左起第5-6位为小类,在中类基础上细分形成的要素类,用两位数字00~99表示;左起第7-8位为子类,在小类基础上细分形成的要素类,用两位数字00~99表示(图1,表1)。
图1 高放废物地质处置信息分类编码结构图Fig.1 Code structural diagram of information classification for HLW disposal
表1 高放废物地质处置信息分类编码Table 1 Classification code of information for HLW disposal
对高放废物地质处置分类信息数据对象进行统一有序的命名,有利于后期多源地学信息数据存储管理和数据交流。在实际数据库建设和数据管理过程中,参照数据库领域相关标准[11],结合多源信息数据库数据管理与应用的特点,制定数据库建设的命名规则,主要包括数据库命名、数据子库命名、数据表命名、重要数据索引命名等。
为了突出地质处置多源信息数据管理,通常以预选区为基础,分类编码体系中的各库即以预选区英文名称命名,例如 “北山预选区”命名为 “BeiShan”,简写为 “BS”。因此,相应的数据子库即命名为BS_××,例如北山预选区地球物理(geophysics)子库即可命名为BS_GP。以此类推,数据子库管理下的数据表,则以GP_××××表示,如 “地球物理子库的测线剖面描述表”即用“GP_Section” 表示。
针对类型繁多的属性数据对象,开展更有针对性的、更为详细的数据编码工作。以现场测试和样品有关数据为例,由于现场测试(包括测试位置和测试内容)和样品有关信息(包括取样位置、样品和室内测试)的重要性、复杂多样性,统一其编号规则有利于后期相关数据的管理和二次提取应用。测线、测点和样品信息的编号均由18位字符 (或数字)组成。
第1位指示版本辨识号,用A~Z表示。第2~3位为标识号,用来区分编码对象,具体是:PT、PL、PP分别代表测点、测线、测面等测试位置的排序编码,LT、LL、LP分别代表测点、测线、测面的实际位置信息编码(第2位的P是测试点线面的指示代码,第2位的L是位置指示代码,第3位的T、L、P分别为点、线、面的指示代码);LS、LW、LG分别代表固液气样品取样位置编码,SS、SW、SG分别代表固液气样品编码 (第2位的L是位置的指示代码,第2位的S是取样样品的指示代码,第3位的S、W、G分别为固体样、水样、气体样的指示代码);第4~5位代表预选区和预选地段代码,其编号原则是分别选用A~Z单个大写字母表示:1)B代表北山预选区:BA代表新场-向阳山预选地段,BB代表旧井预选地段,BC代表野马泉预选地段,BD代表沙枣园预选地段,BE代表算井子预选地段,BF代表其他预选地段 (包括后红泉等其他所有地段);2)X代表新疆预选区:XA代表阿奇山预选地段,XB代表天湖预选地段,XC代表雅满苏预选地段;其他4大预选区代码分别为:A为内蒙古预选区,C为华东预选区,D为华南预选区,E为西南预选区。第6位代表取样来源 (或测试位置)辨识,B代表钻孔内取样或测试,F代表钻孔外取样或测试。第7~8位代表学科专题分类代码,按学科大类编码原则,GM为地质数据子库、BH为钻孔数据子库、HY为水文地质数据子库、GC为地球化学数据子库、GP为地球物理数据子库、BM为基础地理数据子库、RM为岩石力学数据子库、SM为样品数据子库、DC为文档数据子库、PH为图片数据子库、RS为遥感数据子库、MD为元数据子库 (表1)。第9~12位代表数据采集的年份,第13~18位代表数据采集的排列序号(图 2)。
图2 现场测试、样品信息等编号命名规则Fig.2 Coding rule for site test and sample information
通过对高放废物地质处置研发过程中多源信息对象分类编码技术的研究和实现,最终形成了科学规范的、有针对性的高放废物地质处置多源信息分类编码体系。该体系可以满足地质处置研发过程中信息对象的合理组织和优化编码,尤其是在地质处置多源信息数据库建设和管理系统开发过程中,起到重要的基础支撑作用。通过应用实践证明,该分类编码体系为实现高放废物地质处置研发过程中的数据交换与共享奠定了重要基础。