完善地质资料目录数据的工作方法

2020-10-17 14:07张明霞
化工矿产地质 2020年3期
关键词:数据项附图案卷

张明霞

安徽省地质资料馆,安徽 合肥 230000

地质资料是地质工作价值的集中体现,其所承载的信息资源可以长期反复地开发利用[1-2]。随着互联网+地质大数据时代的到来,推进地质资料信息化建设,迅速、有效地为社会提供地质资料信息,充分发挥地质资料在矿产资源保障和地质技术服务中的作用[2-3],是地质资料馆藏机构和地勘单位刻不容缓的重要任务,而建立信息全面的地质资料目录检索数据库正是快捷提供查询服务、全面实现信息共享的前提与基础。

1 完善目录数据的要求

2019年初,自然资源部印发了“关于进一步加强地质资料社会化服务的指导意见”[4],文件在深入推进地质资料信息开放共享方面要求全面公开地质资料目录。随后,自然资源部办公厅下发了任务分工表[5],进一步细化了全面公开地质资料目录的工作任务与完成时间,按照要求,全面公开资料目录包括成果、原始、实物三大类地质资料的案卷级目录与文件级目录。由于原始、实物地质资料是近几年才开始馆藏,数量还很少,公开资料目录的工作主要集中在馆藏成果地质资料[6](以下论述均指成果地质资料)。案卷级目录可在原有目录数据库基础上进行补充完善,文件级目录为新建的目录数据,包括正文、审批、附表、附图、附件、数据库、软件、多媒体等其他九大类[7](2017年以前上述文件归为八大类[6],其中数据库、软件合为一类)的目录。

2 已有目录数据基础

为确保目录完善工作按时完成,必须充分利用现有各类管理系统中的数据库,主要包括目录数据库与涉密数据库。

2.1 目录数据库

该数据库是全国各省级馆藏机构案卷级目录管理的基础数据库,由全国地质资料馆在本世纪初统一部署建设,该数据库数据项侧重于地质资料案卷本身属性,主要数据项[8]16 个(表1)。

表1 目录数据库数据项列表Table 1 List of data items in the directory database

此次案卷级目录完善要求增加两个方面信息,一是地质工作项目(或矿业权)属性,二是资料汇交管理属性,共新增26 个数据项,具体增加详见表2。

表2 案卷级目录中新增数据项列表Table 2 List of new data items in the volume directory

2.2 涉密数据库

该数据库是由涉密清理工作形成[9]。2006年国土资源部与国家保密局下发“关于开展涉密地质资料清理工作的通知”[10],在全国各省级地质资料馆藏机构、地勘单位开展地质资料的涉密清理工作,利用清理登记软件建立地质资料涉密数据库,按件登记。该数据库在案卷级管理基础上扩展到了文件级管理,案卷级包括了目录数据库信息,文件级按照成果地质资料的八大类[6](正文、审批、附表、附图、附件、数据库、多媒体、其他)进行建库。2010年前后各省级馆藏机构均完成了本省行政区划范围内的馆藏成果地质资料的涉密清理工作,建立了涉密数据库。该数据库侧重对各类文件涉密属性的标记[11](表3)。

表3 涉密数据库文件级数据项列表Table 3 List of file-level data items in confidential database

此次完善文件级目录,是在上述基础上,再增加对文件形成属性的描述,包括形成单位、形成人等数据项(表4)。

表4 文件级目录中新增数据项列表Table 4 List of new data items in the file-level directory

需要说明的是,涉密清理工作结束后,一直未开展各省级馆之间清理成果的交换工作,所以很多省级馆对外省行政区划范围的地质资料没有清理成果,涉密数据库里也没有这部分信息。

3 工作方法

3.1 案卷级目录数据完善

馆藏机构现用的目录数据库仅包括部分案卷级信息,由于软件开发时代较早,后期也未进行升级改造,只能利用其另存功能,将目录数据库保存为DBF 文件,再利用数据库管理软件(如Visual FoxPro)将该文件转换成EXCEL 表格,然后直接在该电子表格中补充缺少的案卷级数据项。

3.2 文件级目录数据完善

3.2.1 利用涉密数据库初步形成文件级目录

涉密数据库的八大类表在结构上基本相同,以正文的表结构为例,主要数据项参见表5,另外涉密数据库还有一个案卷级与文件级关联的主表,主要数据项参见表6[11]。

表5中数据项3~8可直接作为正文类文件级目录的数据项,数据项[YDMJ]是涉密清理工作需要设置的,此次建立文件级目录不再保留。

表6中数据项[ZLBH]是地质资料案卷检索的关键字,通过表5 中[ZBID]与表6 中[ID]的关联,即可把导出的文件级目录数据与地质资料案卷对应起来。数据项3~7 是涉密清理工作需要设置的,此次不再保留。

表5 涉密数据库中正文表的数据项列表Table 5 List of data items in the text table in the confidential database

表6 涉密数据库中主表的数据项列表Table 6 List of data items in the main table in the confidential database

涉密数据库的管理平台是SQL Server,因此可以利用SQL Server 2000 的“查询分析器”(SQL Server 2005 以上版本的可用SQL Server Management Studio),通过SQL 查询语句查出各表数据,将查询结果另存成EXCEL 表,形成文件级目录的基础数据表。

下面以在SQL Server 2000平台上导出正文表的数据为例,操作步骤如下:

(1)启动SQL Server→运行[查询分析器]→登录服务器(本机直接用Windows 身份验证);

(2)在[查询分析器]的[对象浏览器]中选择涉密数据库(数据库名:HGICC,图1 中红色(1)所示)→选择[用户表](图1 中红色(2)所示)→选择要导出的正文表(正文表名:dbo.ZLQLDJ_ZW)(图1 中红色(3)所示);

(3)在选中的正文表上点右键,弹出菜单后选择[在新窗口中编写对象脚本](图1 中红色(4)所示)→选择[选择](图1 中红色(5)所示)→出现查询窗口及SQL 语句;

图1 SQL 查询分析器中对象浏览器窗口的操作图示Fig 1 Operation show of object browser window in SQL query analyzer

(4)在查询窗口的SQL 语句中选出要导出的数据项(包括ID、ZBID、XH、ZW_MC、ZW_SMZL、ZW_SMSX、SMYM、ZW_XDMJ,数据项含义见表5 说明,参见图2)→执行SQL查询→弹出查询结果窗;

图2 查询窗口的操作图示Fig 2 Operation show in the query window

(5)在查询结果窗的左上角点右键(图2中红色键头所示位置)→弹出菜单后选择[另存为…]→将结果另存出来,形成EXCEL 表。

用同样方法依次导出审批等其它七类表及主表中的数据,各自形成EXCEL 表。之后,可借助ACCESS 数据库软件的查询功能,建立各类表[ZBID]与主表[ID]的关联查询,形成带[ZLBH](资料编号)的EXCEL 表,初步建立起成果地质资料的文件级目录(数据表)。

在导出各表保存时要注意低版本的EXCEL总行数是65536 行,高版本的(如office2007、2010、2013,、2016)总行数都达到了1048576 行。由于附图文件数量巨大,可能超过EXCEL 的总行数,这时候可以根据[ID]分成几个区间查询,形成几个电子表格,避免数据丢失。在实际工作中建议即使附图文件数未超过总行数,也应将附图拆分成几个电子表格,因为总行数太大的电子表格存贮起来非常慢,直接影响工作效率。一般建议每个表的总行数控制在5~6 万以下,以安徽馆为例,附图文件数量达21.8 万条记录,所以可均分成4 个电子表格。

3.2.2 利用案卷级目录数据补充文件级目录数据

从涉密数据库导出的文件级目录数据有些是简称,如正文表中的正文名称、附图表中的附图名称等[12],这种不完整的信息不利于按文件级公开的地质资料服务,需要将信息补全;另外导出的文件级数据与要求的目录数据还是有一定差距,数据项空值较多,也需要补充。

由于已有的案卷级目录数据项如正题名(也就是正文的名称)、编著者、形成单位、形成时间、审批单位、审批时间均采自该档资料的正文、审批,因此可以利用[资料编号]作为关键字,建立起案卷级目录数据表与文件级正文表、审批表的关联查询,将案卷级目录数据表中的正题名、编著者、形成单位、形成时间关联到正文表里,替换正文表中的正文简名、补充正文表中缺少的编著者(即形成人)、形成单位、形成时间;将案卷级目录数据表中的审批单位(即审批文件的形成单位)、审批时间(即审批文件的形成时间)关联到审批表里,补充审批表中缺少的形成单位、形成时间。

3.2.3 其它数据的采集

除以上可以利用的数据外,其它文件级目录数据均需从地质资料中手工采集。对于已开展图文数字化[13]工作的地质资料,可从附图文件目录(.ml)中采集完整图名、比例尺;对于电子汇交的地质资料,可从早期的电子文件登记表[14]或现在的汇交汇总表[15]中采集完整图名、比例尺、附图规格等相关信息,进一步补充、完善文件级目录数据。

4 结论

通过利用已有的目录数据库与涉密数据库建立起按规定要求公开的案卷级目录与文件级目录数据框架,再根据实际情况进行个别补充的工作方法,一是可以最大限度利用已有目录数据,避免一切从头开始,有效节省宝贵时间;二是转换成EXCEL 表格形式便于录入,只要会简单电脑操作的人员即可参与,解决专业人手不够难题;三是此方法形成的成果可以直接提供信息交换与共享;四是地勘单位均开展了涉密清理工作,从涉密数据库中提取文件级目录数据的方法同样适用于地勘单位。

猜你喜欢
数据项附图案卷
国六柴油车远程排放监测数据项间相关性特征研究*
基于相似度的蚁群聚类算法∗
农业农村部通报2020年渔业行政执法案卷评查情况
非完整数据库Skyline-join查询*
《吉隆县青噶石窟调查报告》附图
基于Python的Asterix Cat 021数据格式解析分析与实现
山西省开展农业行政处罚案卷评查活动
工作广角
大富翁终于露脸了
三把钥匙