文/岑瑶
(内蒙古自治区气象信息中心 内蒙古自治区呼和浩特市 010051)
数字化技术[1]是将图片、文字、声音、影像等各种信息,通过一定的电子设备将其转化为“0”和“1”组成的电子计算机语言,进行信息的获得和根据需求的需要的变换处理等的技术。近些年,气象方面的相关专家对数字化图像处理技术在气象领域的应用进行了很多研究:赵晓莉等[2]将数字化中的图像处理技术应用于气象方面的风向自记纸的处理上,提出了一种由风向迹线自动跟踪提取、风向判断等功能组成的EL型风向自记纸图像信息自动识别方法;吴兴洋等[3]利用数字化技术对降水自记迹线及雨量数据进行了提取;赵迦琪等[4]应用数字化技术集成了一个集迹线提取、质量控制、数据集于一体的综合性降水自记纸识别系统软件。
随着数字化图像技术的广泛应用和气象信息事业的迅猛开展,为了满足对纸质气象数据永久性保存的需求,避免因为时间长、年代久远、保存条件差等导致的气压自记纸破损、字迹变淡、变质等现象,急需应用现代化图像处理技术对气压自记纸的数据进行数字化存储。依照之前一些专家的科研研究,自记纸实现数字化一般要经过图像扫描、图像校正、图像识别、数据订正、数据存储的过程,其中图像识别尤其是图像的预处理过程特别关键。本文中主要讨论气压自记纸的图像识别过程。
图像的预处理过程一般包括:数字化处理、灰度化处理、二值化处理、几何变换、归一化处理和图像增强等。自记纸的图像识别过程中常用到的技术是:增强、几何变换、二值化。
数字化通常是指:将人们通过扫描或拍照等方式得到的原始图片通过一些既定的方法比如采样、量化等,将其在M×N点阵上进行数据化,转化为计算机能够进行读取和处理的形式的一种方法。图像数字化实际上也是一个在空间坐标和幅度上对采集的原始图像进行离散化处理的过程。
图像的几何变换实际上是其的空间变换[6],由于人工采集或者是采集仪器等的原因造成采集到的图像存在失真、偏移等现象,需要通过空间变换的方式如平移、旋转、缩放等对其进行一定程度的处理,以修正由于人工原因(成像角度的设置)和采集装置(镜头等)而造成的图像的误差。
图像的二值化处理通俗的来讲就是将图像上的每个像素点的灰度值转换为纯黑或是纯白来表示,也就是将人们采集到的图像通过二值化转换为由黑白两种颜色构成的图像。在对图像进行数字化处理的过程中,对其进行二值化的处理特别的关键,是实现图像自动化识别的重要环节之一。首先,对图像进行二值化处理可以将图像转化为纯色的黑白图像,使图像所包含的信息更加的清晰,感兴趣的区域更加明显分辨。要想将得到的彩色图像转换为二值化图像,首先需要将其处理成灰度图像,常用的算法如下:
图1:气压自记纸处理流程图
r=g=b=0.30r+0.59+0.1b
r,g,b表示彩色图像的R,G,B分量的数值。
一般为了能够获得满足识别要求的满意的二值图像,通常结合图像分割技术中较常用的阈值分割技术,对其进行图像包含主要信息的目标区域与背景的分割。这种方法计算简单而且易于使用,可以用封闭、连通的边界有效的分割出目标区域。
通常对于人的肉眼来说,想要从一幅不是很清晰的图片中找到自己想要的信息还是比较容易的,但是同样一件事要是交给计算机的话,就没有想象中的那么简单了。为了能够让计算机比较精准的定位到我们的感兴趣区域,需要对采集的图像进行一系列的预处理。图像增强是一种提高获取的原图像显示效果和视觉感觉的使图像变得更加清晰的图像处理技术。其一般可以针对图像的使用场景和用处来有效的增强其所包含的感兴趣信息,针对性的凸显图像中某些有用的整体或部分特征,使原图像的质量得到进一步的提升,信息量得到进一步的凸显。
图2:坐标变换
图像增强算法一般由直接增强的空间域法、间接增强的频域法和小波域法组成[7]。空间域法是直接对图像所包含的像素进行增强的一种算法。比较常用的有空间域法中的与灰度相关的灰度变换方法、与对比度相关的对比度增强法和用于去除噪声的中值滤波,小波域中的与时间和频域有关的小波变换。小波变换是对傅里叶变换进行优化的一种方法,将其得到的频谱扩展为了时频谱。频域法是从信号的组成方面考虑对信号进行增强的一种方法,通过设定一定的频率值点来选取需要的感兴趣信号。
如图1所示,气压自记纸实现数字化一般也要经过图像扫描、图像校正、图像识别、数据订正、数据存储的过程。其过程一般是:首先,通过人工手动的方式利用扫描仪将气压自记纸扫描成统一大小的图片。由于人工手动的方式难免在扫描的过程中出现扫描图片歪斜的现象。自记纸本身也存在着变质、字迹模糊和变淡、浸墨等现象。上述的这些现象都需要在对图像进行预处理和识别的时候进行处理。对于通过识别提取的数据还需要进行数据的对比和误差分析,最后进行数据的订正得到指定格式的数据集。下面重点介绍一下图像识别部分。
由于图像是通过人工手动的方式批量进行扫描的,难免因为人为的因素、外部的一些干扰因素,如扫描仪、灰尘等造成得到的扫描图像出现图像不完整或干扰彩线、或因为图像破损扫描的黑色部分。故需要对图像进行完整性的检查,对不完整的图像进行重新扫描。
通过扫描仪得到的图像,有些虽然是完整的,但是难免会出现位置偏差、清晰度不够、颜色和亮度存在偏差等问题的图片。这样,就需要对其进行图像的校正。如果图像是出现位置偏差,需要对其位置进行校正调整;如果是清晰度不够,略显模糊,需要对其进行图像增强处理;如果是颜色和亮度的问题,则需要对其亮度、曝光度、对比度等指数进行微调。
在对气压自记纸进行处理时,先对图像进行二值化处理,将图像处理成易于识别的黑白图像:图像的背景为白色,气压曲线为黑色。阀值的确定,是按照文献[5]所得出的具体取值进行选取的,采用了硬阀值法,阀值设为128。
气压自记纸在扫描和数字化的过程中常受到采集、成像设备和外部由于不可抗原因存在的一些干扰因素的影响,有些自记纸本身就有人工记录的痕迹也会对图像造成一定程度的影响,所以图像去噪对于自记纸的识别也是特别的重要。常用的去除图像噪声的方法有:均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤波器、小波去噪等方法。针对本文的气压自记纸图像特点,选取中值滤波器进行图像去噪。
对气压自记纸进行上述步骤的处理后,可以从图像中的黑色气压线来提取其坐标值,然后进行坐标转换将坐标值转换为气压与时间的刻度值。
在气压自记纸处理中,默认气压为100hpa的刻度线为Y轴,任意时间刻度线的切线为X轴,时间刻度是一系列沿着横坐标连续变化的弧,弧的曲率半径为R=140mm。自记纸图像经过扫描可得到任意时刻气压值点的直角坐标,在上图中,B为任意时刻的点,其横坐标为Bx,纵坐标为By,横坐标为具体的气压值,纵坐标为时间刻度,因为时间刻度为弧线,因而B点的纵坐标并不是其真正的时间刻度坐标,必须要进行转换。根据图2所示,B点的时间刻度坐标Bt 可由以下公式得出:
所以,B点在X,Y轴上的实际坐标为(Bt,By),根据纵坐标像素值所对应的时间序列,横坐标像素值所对应的气压序列,就可以计算出B点所对应的时间刻度和气压刻度了。
随着数字化图像技术的广泛应用和气象信息事业的迅猛开展,为了满足气象方面的业务需求,将数字图像处理技术应用于气象业务的相关方面进行图像处理,能够使气象数据更加准确精细,更有利于其在气象服务中的应用。本文将数字图像处理技术应用于气压自记纸的数据数字化存储中,可以极大地避免因为时间长、年代久远、保存条件差等导致的气压自记纸破损、字迹变淡、变质等现象造成的数据丢失和不完整,可以进一步进行细致的研究进行业务化的应用。