涂爱琴,陈庆亮,于 帅,张玉洁
(1 中国科学院合肥物质科学研究院 安徽光学精密机械研究所,中国科学院大气光学重点实验室,合肥 230031;2 中国科学技术大学研究生院科学岛分院,合肥 230026;3 山东省气象防灾减灾重点实验室,济南 250031;4 山东省气象局大气探测技术保障中心,济南 250031)
随着以深度学习为代表的机器学习算法取得突破,人工智能(AI)呈现了加速发展的态势[1]。由于机器学习在计算效率、准确性、可移植性、协同性、灵活性和易用性等方面具有较大的优势,近年来已在气象领域获得广泛应用。在地面观测上,朱磊等人[2]提出了一种基于小样本学习的地面结露结霜现象检测方法,田治仁等人[3]发明了基于图像的雾浓度等级判别方法,黄小玉等人[4]建立了冰雪天气现象的识别模型。在天气雷达观测上,主要开展了异常回波识别、雷达回波外推、水凝物相态识别等应用研究[5-14]。在数值天气预报上,从数据预处理、数据同化到预报和预测后的处理和校正,都已经进行了机器学习算法的应用研究[1,15-18]。此外,人工智能技术在强对流天气的监测和预警[19-21]、卫星资料的应用[22-24]、气候预测[25]和农业气象[26]等方向也都取得了系列研究成果。
综上所述,目前人工智能技术在气象领域的应用主要集中在气象观测、数值天气预报、强对流天气识别预警及卫星资料应用四个方面,但是在气象装备保障方向的应用还尚未开展。论文举例分析了人工智能技术在气象装备保障中的应用场景,并依托百度EasyDL 开发平台建立实验模型,对应用效果进行验证。
EasyDL 是百度推出的人工智能开发平台,内置百度超大规模预训练模型和自研AutoDL 技术,只需少量数据就能训练出高精度模型,适用于AI 零算法基础或追求高效率开发的用户。根据应用场景及深度学习的技术方向,EasyDL 产品可分为6 大类,分别是:EasyDL 图像、EasyDL 文本、EasyDL 语音、EasyDL OCR、EasyDL 视频和EasyDL 结构化数据。其中,EasyDL 图像定制基于图像进行多样化分析的AI 模型,实现图像内容理解分类、图中物体检测定位等,适用于图片内容检索、安防监控、工业质检等场景;EasyDL 文本基于百度大脑文心领先的语义理解技术,提供一整套NLP 定制与应用能力,广泛应用于文本分类、文本实体抽取、情感倾向分析及短文本相似度分析等场景;EasyDL 语音定制语音识别模型,适用于数据采集录入、声音分类等场景;EasyDL OCR 定制化训练文字识别模型,结构化输出关键字段内容,适用于证件照电子化审批、财税报销电子化等场景;EasyDL 视频定制化分析视频片段内容、跟踪视频中特定的目标对象,适用于视频内容审核、人流/车流统计、养殖场牲畜移动轨迹分析等场景;EasyDL 结构化数据旨在帮助用户通过机器学习技术从数据中发现潜在规律,从而对未来的变化趋势进行预测,包含表格数据预测和时序预测两个细分产品,适用于交通流量预测、价格预测等场景。
每年汛期结束后停止非称重降水观测,维护人员要给雨量筒加盖保护设备;汛期开始前则要揭开雨量筒盖,利于后续的降水观测。目前区域站维护业务大多采取了外包服务,因此对外包公司是否及时进行了加/揭盖维护需要开展业务检查。由于区域站场地分散,一般采取抽查的方式,不但不能实现普查,且耗费的人力财力巨大。在业务场景安装监控摄像头,采用定时抓拍或手动抓拍方式采集雨量筒图片,建立雨量筒加/揭盖检查模型,就可以实现区域站雨量筒是否加盖和揭盖的智能检查,提高业务质量。雨量筒有无加盖检测图像如图1 所示。
图1 雨量筒有无加盖图像Fig. 1 Pictures of rain gauge with or without the cover
当雨量筒中出现树叶等异物时,常常会影响观测结果的准确性,如带来延时降水、降水偏小和无降水等情况,给气象服务造成困扰。因此每当预报有天气变化过程时,保障人员需要在过程前巡查和维护雨量筒;气象服务人员则需要在过程结束后制作雨情报告等服务材料时,甄别数据的真实性,并将存疑的站点数据剔除掉。前者成本高、效率低,后者难度大、易出错。在业务场景安装监控摄像头,建立雨量筒有无异物检查模型,当预报有天气变化过程时,保障人员抓拍现场图片并自动识别雨量筒有无异物,随后仅对识别结果为有异物的站点进行维护,能大大降低维护成本。当雨情出现后,气象服务人员在制作服务材料前抓拍现场图片,并自动识别雨量筒有无异物,将模型识别为有异物的站点数据剔除掉,能确保材料的准确性,有效提高服务质量。雨量筒有无异物检测图像如图2 所示。
图2 雨量筒有无异物图像Fig. 2 Pictures of rain gauge with or without foreign matters
当观测设备出现故障的时候,常常会在观测数据上有所体现,如缺测、跳变、数值偏低或偏高等。因此对观测数据进行监控能够实现对气象观测设备故障的监控。通过数据监控设备运行状态的常规方法是设置阈值来检验观测数据是否正常,但是阈值设置不当会影响监控方法的准确性,且阈值检测是单点检测,因观测环境等因素引起的单个数值跳变容易引起设备故障的误判。
另一方面,当观测数据出现缺测和跳变等异常时,其观测产品、如时间变化曲线等也往往出现异常,如图3、图4 所示。图3 是正常和典型故障下气溶胶观测数据时间变化曲线图。图3(a)中,PM2.5观测值长时间大于PM10 观测值,是典型的倒挂故障;图3(b)中,PM2.5 值一直没有变化,是恒值故障;图3(c)是正常的曲线图。图4 是正常和典型故障下土壤水分观测数据时间变化曲线图。图4(a)是正常曲线;图4(b)表示20 公分传感器附近有个菜根引起数据跳变;图4(c)表示10 公分传感器故障导致数据偏小且跳变。鉴于正常曲线和典型故障曲线的明显区别,将观测数据按模板制作成数据产品,随后应用基于深度学习的图像识别技术,建立设备故障智能监控模型,可对设备的运行状态进行实时监控和预警。
图3 正常和典型故障下气溶胶观测数据曲线图Fig. 3 Curve of aerosol observation data under normal situation and typical faults
图4 正常和典型故障下自动土壤水分观测数据曲线图Fig. 4 Curve of automatic soil moisture observation data under normal situation and typical faults
使用EasyDL 平台建立AI 模型的步骤如图5 所示。在建模之前,需要有效分析和拆解业务需求,然后选择合适的产品类型。如,针对雨量筒有无异物检查的业务需求,可以通过EasyDL 产品中的图像模型进行判断;针对预测备件消耗数量的业务需求,则可以通过EasyDL 产品中的结构化数据来进行建模预测。有的业务需求含有多个业务功能,且每个功能适用的产品不同,这时就需要对业务需求进行拆解,并针对每个业务功能分别建模,综合应用多个模型来满足业务需要。
图5 AI 模型建立流程Fig. 5 Flow chart of AI model establishment
研究可知,基于EasyDL 平台开发,确定了产品类型就相当于确定了算法,因此接下来需要进行的就是数据收集工作。采集数据后,可以通过EasyDL在线标注工具或线下利用其他标注工具对已有的数据进行标注。如上述雨量筒有无异物的模型,需要将采集图片按照有异物和无异物两类进行分类标注。
数据准备好后,在EasyDL 平台根据向导填写模型名称、应用场景和功能描述等信息创建模型。模型建好后加入数据集进行训练,根据数据集大小及训练环境等因素,模型训练时间从几分钟到几小时不等。模型训练完成后,百度平台自动生成了评估报告,查看评估报告初步了解模型的效果。为了进一步验证模型效果,可以通过平台提供的校验功能,对模型效果进行测试。测试结果可用的模型就可以申请发布,并在业务系统的运行中调入使用;测试结果不理想的模型则需要增加数据集继续训练,直到测试结果可用后发布。
论文基于百度EasyDL 平台的图像分类产品,通过在区域站安装摄像头,采集了区域站雨量筒图片500 张,训练了雨量筒是否加盖和雨量筒是否有异物两个模型。通过中国气象局气象探测中心开发的数据质量控制系统-天衡,采集了气溶胶质量浓度时间变化曲线图片150 张,训练了气溶胶观测设备故障识别模型。
3 个模型的检测效果见表1。表1 中,准确率是指正确分类的样本数与总样本数之比,越接近1、模型效果越好。就某类别而言,精确率是正确预测为该类别的样本数与预测为该类别的总样本数之比,指标越高、误识别率越低;召回率是正确预测为该类别的样本数与该类别的样本数之比,指标越高、漏识别率越低;F1-score是精确率和召回率的调和平均数,其值越高、模型效果越好。
由表1 可以看出,雨量筒是否加盖和是否有异物的识别模型效果较好,准确率达到或接近100%,而气溶胶观测设备故障识别模型由于设置的故障分类较多,训练的图片样本数量又偏少等原因,准确率偏低,模型需要进一步优化。
表1 模型效果评估表Tab.1 Evaluation sheet of models effect %
(1)百度EasyDL 开发平台提供了包括数据清洗、数据标注、训练任务配置和调参、模型效果评估和模型部署等一站式服务,具有广适配和高精度等优势,平台设计简约,容易理解,适用于零基础气象业务人员开展人工智能技术的应用研究。
(2)随着深度学习算法的突破,人工智能技术在气象领域的应用也在飞快发展。在观测保障上,除了智能观测方面的应用,人工智能技术未来在观测业务质量检查和智能保障方面也将会得到大规模应用。如应用图像分类和物体检测技术开展观测环境的监控和预警,应用异常观测产品识别方法开展数据质量控制和设备故障监控工作,应用时序预测模型开展备件消耗数量预测用于备件储备指导等。
(3)基于百度EasyDL 平台训练的雨量筒是否加盖、雨量筒是否有异物和气溶胶观测设备故障识别模型验证了深度学习技术应用于气象装备保障领域的可行性。此外,前2 个模型的精度已经达到业务使用的要求,第3 个模型仍需要积累数据做进一步的优化。