张一博 余清波 王程程 王艳萍
(吉林省气象信息网络中心,吉林长春 130062)
气象历史资料是指通过多种观测和探测技术方法获取到的大气状态及其变化过程的历史记录及其衍生记录。历史气象资料记载着过去天气活动和变化的原始探测记录,对全国气象专业和部门的科学研究、气象业务建设有着深远的影响。数字化是指通过运用计算机技术在目标物上提取出模拟信号转换为数字信号的过程。纸质气象历史资料数字化是指将记载着过去天气活动和变化的原始探测纸质记录转化为可编辑、处理的数据文件的过程[1]。此项工作对纸质气象历史资料的保护有着十分重要的价值和意义。同时还能打破原有记录载体的局限性,为纸质气象历史资料在应用范围和效率等方面提供巨大的改变。
自20世纪60年代开始[2],在吉林全省范围内逐步开展风向风速观测,省内采用EL型电接风向风速计作为主要观测仪器,同时部分站还采用达因风向风速观测仪器,将吉林省近50年的风向风速以自记纸形式保存下来,并形成了珍贵的纸质气象历史资料。但由于年代长,保管条件差,已经出现不同程度的纸张变质、字迹变淡(模糊)等现象[3]。于21世纪10年代初,开始对EL型电接风向风速自记纸进行扫描并逐步开展数字化处理工作。
吉林省气象档案馆EL型电接风向风速自记纸最早观测时间从1969年开始,其中大部分自记纸已有不同程度的变质、笔迹模糊、纸张过度磨损等情况。数字化工作旨在将吉林省共52个风自记观测站1969—2005年共计64.64万张EL型电接风向风速自记纸进行扫描、数字化和质量审核,并最终生成标准的数据集产品,并起到对纸质气象档案保护的作用。
本文将通过对EL型电接风向风速计的自记工作原理、自记纸风向风速提取以及关键难点进行对比和论述,为全省52个EL型电接风向风速自记纸数字化工作的顺利进行和高质量的完成奠定基础。也将为吉林省乃至全国在长时间序列分钟风向风速的研究、气候研究、气象预报、开发利用风能资源、经济社会建设、掌握近代极端事件和提升防灾减灾能力等方面提供强有力的气象科学基础数据[4-8]。
EL型电接风向风速计主要由感应器、指示器、记录器3部分构成,此仪器为有线遥测仪器。通常将感应器放置在室外距地面不低于10m高处,指示器与记录器放置在室内,用电缆与感应器相连接。通常,记录器由6个部分组成,分别是风向电磁铁、风速电磁铁、自己钟、自记笔、笔挡、充放电线路。当控制风向记录的继电器闭合工作时,与风向标所在方位的模块开始工作,控制相应的自记笔开始工作,从而将对应风向记录下来[9]。
EL型电接风向风速自记纸风向自记部分包含8个风向,分别记录在4根平行线(风向基线)上,自上至下依次排序为:S、N、NE、SW、E、W、SE、NW。由此8个风向两两组合形成剩余8个风向:NNE、ENE、ESE、SSE、SSW、WSW、WNW、NNW。这16方位及静风对应的符号记录见表1(风速≤0.2m/s为静风)。
表1 风向符号与度数对照
风速自记部分通常是按照空气行程200m电接1次,风速记录笔与之对应的跳动1次,完成对此时刻的风速记录。以10min为单位,风速记录笔跳动1次,则代表此次记录的风速为0.3m/s;若记录笔跳动2次,则代表此次记录的风速为0.7m/s;若记录笔跳动3次,则代表此次记录的风速为1.0m/s。通常对EL型电接风向风速计所记录风速的小数位只取0、3、7。其计算原理公式为:
式中,V表示此单位时间内的风速;S表示空气行程;a为单位时间内风速记录笔跳动次数;T为单位时间。
通常把因仪器问题造成风速笔尖跳动1次就上升或下降一格,亦或跳动3次上升或下降2格这种现象称之为大跳或迈大步。而处理此类现象的常用方法是根据风速笔尖在10min内所跳动的实际次数计算此时刻风速,而不去考虑跳过的格数,这种处理方法通常称之为“数跳”。
将EL型电接风向风速自记纸用专业设备扫描成数字图像,再利用中国气象局开发的EL型电接风自记纸数字化软件,将已扫描图像上的数据信息转化为可编辑处理的数据文件,再进行人工初次干预审验。最后将修改结果与全国地面气象资料A6文件对比,并依次通过三级检验(分别为公司级质检、省级质检、国家级质检),从而完成全部自记纸提取工作,以确保数据的真实可靠。其技术路线见图1。
图1 EL型电接风向风速计自记纸提取技术路线
根据中国气象局预报与网络司下发的历史气象资料拯救与数字化技术规范中EL型风向风速自记纸扫描要求,采用24位彩色扫描仪,将自记纸扫描成200dpi以上的图像文件。在图像文件处理中,通常计算机会对图像文件内的RGB色彩通道进行提取和对比。而自记纸的图像文件内通常会有大量的蓝色和红色信息,多数红色通道内的信息代表纸上的风向与风速网格,多数蓝色通道的信息代表纸上风向杆、迹线及冗余信息。因此,吉林省在开展扫描工作时,将自记纸保存成300dpi的图像文件,以便在提取工作中提升质量。
人机交互采用人工手动修改的方式,将计算机自动识别与提取中出现的风向杆识别错误及迹线识别跟踪错误加以修正和删除的方法。在提取工作中会出现,人工修改较多的风向杆和风速迹线的情况。一般根据风向杆间最大间距及首根风向杆和末根风向杆间的长度计算风向杆平均间距,并由软件等间距绘制新的风向杆,用于替换修改区域内的错误风向杆,从而实现风向提取过程。以某一时刻的风向是ENE为例,计算机识别出来的代码为00101000,这就实现了计算机风向识别过程。其计算机风向识别对照原理见表2。
表2 EL型电接风风向识别规则对照
在风向提取过程中,风向的准确性不仅仅受到风向杆的影响,同时也受到风速迹线的影响。当某一时刻出现“迈大步”问题时,对应的风向也会出现提取数值不准确的问题,从而影响数据数字化成果质量。
图2为乾安站1989年4月5日的部分自记纸内容,在02时40分—05时出现迹线异常,在没有处理的自记纸中03—05时整点的风向自动判别为静风且05时的风速是000,而全国地面气象资料A6文件中所对应的风向值为缺测,05时的风速是040,与实际情况出现严重偏差。在人工将03—05时的风速迹线标记为异常并做迈大步处理后,03时、04时整点的风向风速调整为缺测,且05时的风向风速是南风040,与A6文件中所记录的信息相符,从而更好地将数据提取出来。
图2 风向数据提取对比(以乾安站1989年4月5日记录为例)
在风速识别提取过程中,也经常出现上文中提到的“迈大步”现象。一般以“数跳”的方式处理这种“迈大步”问题。但对于无法“数跳”时,原则上尊重人工整理时的原始判断,风速参考备注或原人工整理结果,从而确定对风速按比例进行折算处理,其计算公式如下:
式中,ki表示时刻i下的折算系数;Ai表示时刻i下全国地面气象资料A6文件中的风速数值;Wi表示与Ai对应的某一时刻下计算机识别的错误风速数值;k表示抽取的各个时刻计算出的折算系数的平均值;Ri表示通过折算系数计算得到的该时刻修正风速数值。
图3 是扶余站1977年5月1日的部分自记纸内容。在未进行人工干预时,从迹线中所提取的整点风速仅15时和07时的风速与全国地面气象资料A6文件所记录的信息在实际误差允许范围内,可视为正确数据,其余各时刻的数据均为错误数据。在进行人工干预后,共处理14处异常迹线(风速迹线中黄色部分)。在采用“数跳法”处理这14处异常时可以看到,16—19时、23时、02时、03时、05时、09时、12时、13时的整点数据经过订正后与全国地面气象资料A6文件所记录的信息在实际误差允许范围内,可视为正确数据,其余各时刻的数据均为错误数据,并不能作为合格数据使用。在采用“折算系数法”处理上述异常时可以看出整体效果最好,所提出的风速值与全国地面气象资料A6文件所记录的信息相符或在实际误差允许范围内。
图3 风速数据提取对比(以扶余站1977年5月1日记录为例)
图4是乾安站1989年4月1日的部分自记纸内容。在未进行人工干预时,从迹线中所提取的整点风速中13时、18时、21时、22时、00时、08时、11时、12时的整点风速与全国地面气象资料A6文件比对,判定所记录的信息为错误数据。在进行人工干预后,共处理14处异常迹线。在采用“数跳法”处理这14处异常时可以发现,仅00时的整点数据经过订正后与全国地面气象资料A6文件所记录的信息在实际误差允许范围内,可视为正确数据,其余各时刻的数据均为错误数据,并不能作为合格数据使用。在采用“折算系数法”处理上述异常时可以看出整体效果最好,共订正7处异常数值,所提取的风速值与全国地面气象资料A6文件所记录的信息相符或在实际误差允许范围内。
图4 风速数据提取对比(以乾安站1989年4月1日记录为例)
经过上述对比分析,发现用折算系数处理后的数据与实际观测记录上的数值匹配效果更高,故在吉林省内将所有涉及到的迈大步记录均采用“折算系数法”进行处理。
EL型电接风自记纸数字化过程是先将分钟风向风速进行识别提取,再与全国地面气象资料A6文件中所对应的时刻数据进行对比。而A6文件中的整点10min风向风速是通过人工整理,读取EL型电接风自记纸得到的数据信息。实际工作中,所识别出来的风向风速数值与A6文件中记录的数据完全一致或在误差允许范围内时,认为软件中的风向风速无误;若二者之间数据不一致时,需加以人工判别,并保留判别依据,待各级质检人员确认通过。
通过上述对EL型电接风向风速计的工作原理及技术难点对比分析,利用中国气象局下发的EL型电接风自记纸数字化软件对吉林省24个台站30.19万张自记纸进行数据识别与提取,并完成三级质检工作。各站数字化提取质检结果见图5。
图5 各站EL型电接风自记纸提取三级质检成果比例
如图5所示,吉林省24个站的各站数据质量均在99.7%以上,能充分证明该数据数字化成果的完整性和准确性。可为政府及有关科研单位在研究吉林省各地区风向风速及相关气象研究时提供更准确可靠的气象基数据,为吉林省风的研究奠定基础。
本文主要针对EL型电接风向风速自记纸的数字化方法进行探究,结合实际工作中遇到的问题进行技术经验总结。从三级质检反馈的结果上看:
(1)在提取风向信息时,在注意风向杆准确性的同时,也要注意该时次风速迹线提取的准确性,迹线处理的正确与否会直接影响到风向提取的准确性。
(2)在风速迹线提取时,不仅需要保证迹线追踪的准确性,也要将关键难题处理准确,寻求最好的处理办法。在吉林省EL型风数字化提取过程中,通过对比分析可以看出,折算系数法提取出的数据质量优于其他方法,并经过反复检验,数据成果更具有权威性和可靠性。为省内余下28个站的34万余张自记纸数字化提供了宝贵的参考依据和研究基础。
(3)随着气象自动观测业务的广泛开展,EL型电接风向风速观测数据的保存形式也在发生转变,即从原来的纸质资料转变为电子气象观测数据形式。为了使纸质气象历史数据能够更好地与现在的电子气象观测数据相兼容,今后将陆续开展其他各类要素的纸质资料数字化工作。