珍贵气象档案数字化技术与应用

2023-08-23 04:12鞠晓慧王妍李俊
关键词:迹线海关馆藏

■ 鞠晓慧 王妍 李俊

在气象观测活动中形成的各种原始记录、报表、天气图、整编成果等统称为气象档案。根据中国气象局发布的《珍贵气象档案分级鉴定办法》,观测时间序列长、观测数据完整性好、观测要素种类多的原始观测记录档案称为珍贵气象档案。目前中国气象档案馆保存的纸质气象档案主要为2012年之前各类气象台站的观测记录档案,其中历史最久的档案可以追溯到19世纪。

早在20世纪70—80年代,中国气象局就开展了气象档案保护和数字化工作。截至目前,已经持续开展了地面、高空、辐射、农气等主要气象观测报表的图像扫描和数据录入,建立了丰富的数字化成果。中国气象局还开展了部分19世纪中叶至20世纪中叶器测资料的数字化,建立了部分重点城市气温、降水、气压等基本要素长序列资料,为近百年气候变化研究提供基础数据。

1 珍贵气象档案

中国气象档案馆馆藏的纸质气象档案从时间上可以分为19世纪中叶至1950年和1951—2012年两部分。19世纪中叶至1950年的纸质档案多为孤本,档案非常珍贵,涉及600多个台站。1951—2012年纸质档案涉及2400多个台站,台站年代比较完整,数量庞大,是档案馆的主体档案。1951年前地面各类气象档案的详情见表1。

表1 1951年以前各类地面气象档案

中国近代海关气象档案是1951年以前各类地面气象档案中比较重要的档案之一。清朝海关总税务司从1870年开始在中国沿海各口海关和主要灯塔所在地逐步设立了气象观测站(海关测候所),开展定时气象观测,先后建立的站点有70多个。中国气象档案馆馆藏的近代海关气象档案约有145卷(册)、17万页,涉及66个站点,观测记录30年以上的有40多个,主要有原始纸质海关月总簿(monthly meteorological return)和海关月报表(monthly report)两类。除中国大陆馆藏了绝大部分近代海关气象档案外,海外有少量馆藏,主要是中国海岸气象登记册(China coast meteorological register)(图1)。

图1 中国馆藏与美国馆藏的1894年1月9日台湾安平(Anping)海关气象观测记录(左图:中国气象档案馆馆藏的海关气象月总簿;右图:NOAA图书馆馆藏的海岸气象登记册)

2 数字化技术

2.1 纸质档案修复技术

由于历史久远或保管条件所限,珍贵的纸质档案(如19世纪至1950年的各类气象记录档案)出现了不同程度的发黄、破损、酸化等状况,个别档案破损较为严重,必须对档案原件进行抢救和修复。

对纸质档案进行修复和保护的主要措施有:除尘去污、局部修复、字迹去污、修裱与加固、测酸去酸等。

2.2 缩微技术

缩微技术是在感光材料(通常指胶片)上记录缩微影像的技术过程。缩微技术不是数字化处理技术,但它是以纸质档案为加工对象,是档案异质保存的重要手段。20世纪70—90年代,气象部门利用缩微摄影技术对历史天气图、气象记录报表和解放前部分历史气象记录档案进行了载体转换,数量达10万张(盘),保存在中国气象档案馆延庆分馆。

2.3 纸带穿孔数字化技术

数据纸带是早期计算机的输入输出手段。通过编制好的程序将气象观测资料使用穿孔机穿成数据纸带的过程称为纸带穿孔。纸带穿孔是早期计算机应用的数字化方式。最早使用纸带穿孔技术进行数字化的气象档案主要是国家级台站地面气象记录月报表,包括地面观测的19类要素项目。

2.4 图像扫描技术

图像扫描是使用黑白或彩色扫描仪对纸质气象档案进行逐页扫描,经纠偏、去黑点、压缩等系列操作,保存为TIFF或JPEG文件的处理过程。扫描技术参数的选择决定着扫描质量。因此,在扫描处理过程中要根据档案原件的质量和利用需求来设置扫描技术参数和存储格式。扫描后的图像文件也是数字档案的重要档案资源,用于物联网时代的档案资源共享。

2.5 迹线数据提取技术

与纸质气象报表人工键盘录入不同,自记纸迹线提取基于较为成熟的计算机技术,研制人机交互软件,才可以实现批量规模化处理。自记纸迹线提取软件主要包括图像文件预处理、自记迹线识别、数据提取、标准化数据转换、数据质量控制等技术。在以上的技术处理中,迹线识别和数据提取是关键,决定了提取是否有效以及提取后的数据是否准确。

随着人工智能技术的发展,基于深度学习的图像跟踪技术已应用到达因风自记纸迹线提取软件中,减少了跟踪误差,从而减少了人工核查的工作量,大大提高了数据提取的效率。

自记纸迹线提取时由人工操作提取软件,逐站逐张提取并进行人工干预和修正,提取完一个站所有自记纸后进行数据格式转换和数据保存。为了保证提取数据的质量,需要对提取后的数据进行多次质检和评估。评估不合格的台站需经过整改和重新提取,直至数据合格。图2为一张降水自记纸迹线提取后的回放效果图,提取的逐小时降水数据已标识在图像上。

图2 降水自记纸迹线提取效果(上图:原图;下图:迹线提取后效果图)

3 数字化技术应用

从1979年1月开始,中国气象局启动了气象档案信息化处理工作。2000年之前,以纸带穿孔技术和键盘录入技术为主,目的是获得时间序列较长的历史观测数据,以地面观测数据为主。2000年之后,随着扫描仪的发展普及,同时认识到纸质档案进行双备份的重要性,数字化的技术以图像扫描和数据录入为主,数字化处理从地面资料扩展到高空资料、辐射、农业气象等。近年来,随着计算机图像处理技术的发展,对自记纸图像图形进行自动识别和数据提取成为数字化工作的重点。另外,随着全球气候变化成为热点问题,中国气象局也加强了对馆藏的19世纪中叶至20世纪中叶长达百年的珍贵气象档案的数字化工作。

中国近代以来至1951年各类气象观测档案主要包括:天主教会观测月报和年报,海关总署海关月总簿和月报表,日本在华观测档案,国民政府或一般月总簿、一般月报表、自记纸、出版物以及各类统计表(示例见图3)。这些珍贵档案涉及台站约600个(分布在大约500个城市),观测时间为1841—1950年,但是绝大多数台站观测不连续。由于这些档案来自不同国家或机构、使用不同的观测仪器和单位、采用不同的时制,无论是纸质档案的物理状况还是记录的数据状况都非常复杂,扫描和数据录入的处理难度都比较大。

图3 1951年前珍贵档案数据示例(左图:俄国气象年报记录的北京1872年3月的气象数据;右图:海关月总簿记录的汉口1880年5月的气象数据)

中国气象局在全国范围内选取有代表性的116个城市,对19世纪至20世纪中叶的观测记录档案中气压、降水、气温、风向、风速和湿度等要素数据进行了人工录入,形成了重要的数字化成果。

百年长度的历史长序列是研究长期气候变化的基础。相关学者基于已数字化的百年气温、降水等要素的日值、月值资料,研究得出了中国1841年以来的气候变化趋势和特征,相关研究成果已发表在国内外科技期刊上。在中国近代以来珍贵档案数字化成果基础上,研究气象站建站时间、观测情况及观测资料气候代表性等,从而为中国百年气象站认定工作提供重要依据。在国际合作方面,中国气象局参与了中英合作项目“国际大气环流重建计划(ACRE)”中国子计划,在中国区域18世纪以来早期器测气象资料的挖掘、数字化和应用方面取得了进展,项目成果已应用在20世纪再分析资料(20CR)。

4 结语

中国历史气象档案拯救与数字化工作始于1979年,并在2006年以后快速发展。40多年的工作历程取得了丰硕的成果,基本满足了气象业务、科研和社会各行业对基础气象数据的需求。但是,与中国气象现代化和信息化发展需求相比,与国内档案行业发展水平相比,气象档案数字化还存在一定的差距,主要表现在以下两个方面:一是气象档案信息化程度不够。目前,国省气象档案馆馆藏档案还有接近50%的馆藏档案没有进行图像扫描处理,地面自记纸仅完成了约15%的数据化处理,中国国家级地面站1951年以来的逐小时气温、气压和相对湿度数据序列还未建立。二是多种类、多形式、高质量的历史基础数据集产品研发能力有待提高。需要通过对扫描图像文件元数据整编,实现电子图像文件100%在线访问、检索和应用,从根本上实现对纸质档案的保护和充分利用。

针对以上不足,今后中国历史气象档案拯救与数字化工作有三个重点:一是开展气温、气压和湿度自记纸迹线提取以及近代气象观测以来的重要站点资料的数字化,建立1951年以来国家级台站分钟和小时分辨率历史数据,以及百年气象台站历史气象数据;二是基于数字化原始成果,研制形式多样(例如格点资料、图形产品以及定制产品等)的气候基础数据集产品,满足多个行业部门的应用需求;三是依托数字气象档案馆建设,提高历史气象档案扫描图像成果应用能力,改变传统的纸质档案服务方式,提高档案的应用效率。

深入阅读

吴增祥, 2007. 中国近代气象台站. 北京: 气象出版社.

范邵华, 余予, 鞠晓慧, 等, 2018. 气象资料数字化进展及其应用. 气象科技进展, 8(1): 64-70.

兰平, 2019. 气象档案事业70年回顾与展望. 气象科技进展, 9(4): 67-69.

何溪澄, 冯颖竹, 2017. 《海关医报》与1877—1894年广州气象观测记录. 气象科技进展, 7(3): 71–73.

宋建萍, 何晓, 苏秀梅, 等, 2016. 近代湖北海关气象观测档案初探——以江汉关、宜昌关、沙市关为例. 气象科技进展, 6(6): 71-74.陈永生, 李娜娜, 2017. 中国近代海关档案的分布与现状. 中国档案,(8): 58-59.

鞠晓慧, 马楠, 王妍, 等, 2022. 基于深度学习的气象资料迹线识别.科学技术与工程, 22(21): 9215-9222.

王伯民, 吕勇平, 张强, 2004. 降水自记纸彩色扫描数字化处理系统.应用气象学报, 15(6): 737-744.

Ju X H, Huang S P, Li C J, et al, 2019. Development of the Selfrecording Per-minute Precipitation Dataset for China. Journal of Meteorological Research, 33(6): 1157-1167.

Cao L J, Yan Z W, Zhao P, et al, 2017. Climatic warming in China during 1901—2015 based on an extended dataset of instrumental temperature records. Environmental Research Letters, 12:064005.

战云健, 陈东辉, 廖捷, 等, 2022. 中国60城市站1901—2019年日降水数据集的构建. 气候变化研究进展, 18(6): 670-682.

猜你喜欢
迹线海关馆藏
馆藏
清代海关银锭漫谈
博物馆的生存之道:馆藏能否变卖?
关于未纳入海关统计的货物贸易收支统计研究
外贸企业海关合规重点提示
降水自记迹线及雨量数字化提取质检技术
知还印馆藏印选——古印篇
寻血猎犬复合迹线气味追踪训练
在硬质地面追踪初期如何提高警犬把线能力
清代广东十三行与粤海关