姚 瑶,黄治勇,陈笑笑,刘晓晨
(中国气象局气象干部培训学院湖北分院,武汉 430074)
人工智能(Artificial intelligence,AI)是研究使用技术开发、模拟和扩展人的智能的理论与方法等的一门学科。AI 被认为是引领未来的战略性技术,成为世界主要发达国家研究和角逐的热点[1]。AI的结构化层次从下往上依次是基础设施层、算法层、技术层、应用层,算法层是AI 的核心。常用的机器学习算法有人工神经网络(ANN)、逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、梯度提升决策树(GBRT)等。
气象观测、预报、服务与科研的基础是多种类、长时间尺度、大空间尺度的观测数据。因有对数据的快速处理、训练与分析等优势,AI 技术在气象行业的应用面广,具有极大潜力。早期AI 技术在气象中的研究以开发专家系统较多,诸如美国的强对流天气预报系统ITWS、长江中下游、北京地区暴雨预报专家系统等[2];也有开发气象智能数据库系统和利用算法识别卫星云图[3]、提取信息的研究[4]等。由于计算机硬件条件与算法的限制,早期应用进展较为缓慢,直到相关技术飞速进步,气象领域内的AI 研究也得到迅速发展。2012 年后,日本、德国、英国与美国等陆续提出发展AI 的举措[5],气象公司引入AI 技术起步较早。2017 年,中国国务院发布《新一代人工智能发展规划》,确立了中国新一代AI 发展“三步走”的战略目标[6],自此,国内的人工智能研究开始迅速发展,AI 技术与气象学的交叉应用也获得了广泛关注。
科技文献是评价科研创新能力的主要指标之一[7]。文献计量学可以通过文献体系和计量特征来定量、定性的评价某研究领域的研究趋势与水平。科学知识图谱分析能够通过聚类分析和可视化手段,定量直观地描述文献资源,挖掘和分析科学技术知识成果及相关关系[8]。中国知网(CNKI)和Web of Science 是相对权威的文献数据库,其收录的文献较为全面;美国气象学会(AMS)创立于1919 年,是世界上最大和学术成绩最显赫的专业学会之一,从AMS 的数据库中分析文献,可以从一定程度反映气象学科中的热点问题。Citespace 软件用于构建和可视化文献计量网络的软件工具[9],利用Citespace 软件分析上述数据库中有关人工智能在气象中应用的研究文献,可以对热点与趋势进行分析与可视化。
采用CiteSpace Ⅴ(5.7.R2)软件分别对中国知网(CNKI)、Web of Science(WOS)与美国气象学会(AMS)数据库中所选的文献进行计量分析。
在文献计量学中,H指数、被引频次和中介中心性等概念均可有效反映文献的重要程度,本研究采用这些指标来定量评估各类文献及其反映的研究趋势的重要程度与时间特征[10]。
中文文献以中国知网为数据源,在气象学库中对包含有“人工智能+大数据+云计算+机器学习+深度学习+强化学习+神经网络+支持向量机+决策树+贝叶斯”主题的论文进行筛选,被核心期刊收录、公开发表在期刊的中文文献共1 006 篇。
英文文献以Web of Science 核心库为文献信息获取平台,布尔运算检索公式为,TS=“artificial intelligence”OR“big data”OR“cloud computing”OR“machine learning”OR“deep learning”OR“neural network”OR“support vector machine”OR“decision tree”OR“bayesian”,学科类别限定为“Meteorology Atmospheric Sciences”,文 献 类 别 限 定为“article,proceeding paper”或“review”,去重复后共检索到4 819 篇相关文献。
AMS 的数据库包含Journal of the Atmospheric Sciences、Journal of Applied Meteorology and Climatology 等大气学科中影响力极高的期刊,检索条件与Web of Science 一致,共检索出302 篇文献。
中英文献检索及引用信息检索时间均为2000年1 月1 日至2021 年7 月31 日。
2000—2021 年,CNKI库研究气象与人工智能的核心期刊文献共1 006 篇,其中2000 年有12 篇。2000 年,Jin 等[11]在WOS 发表了相关论文,以南京和杭州1905—1995 年的年平均气温为背景,采用平均母函数和人工神经网络相结合的方法,建立了长江三角洲地区1996—2005 年的年平均气温预测模型,取得了较好的预测效果。
中英文文献发表量呈上升趋势,斜率逐年增大。2000—2005 年CNKI 核心期刊库中收录的文章数量在20 篇以下;2005—2012 年在50 篇以下;2019 年达106 篇;2020 年为114 篇,占总发文量的11.33%;截至2021 年7 月31 日,2021 年已经发表相关文献76篇。2000—2004 年WOS 库文章数量均在60 篇左右,2005 年开始增加,2019 年突破500 篇,2020 年达765 篇,占总发文量的15.87%。截至2021 年7 月31日,2021 年发文量已达609 篇。中英文献的年际特征与人工智能技术发展的3 次技术浪潮时间有着良好的对应关系。AMS 数据库中的文献发表趋势与其他2 个数据库基本一致,均为有波动地逐年增加,但增速(趋势线斜率k=0.8)相对CNKI(k=4.25)要平缓(图1),这可能与国外人工智能发展起步较早有关。WOS 库中年发文量的斜率最大,为27.412,这代表人工智能的学科交叉研究成果增加较快,已成为世界范围内气象学者的研究热点。
图1 2000—2021年3种数据库气象与人工智能文献发表情况
统计WOS 核心库源文章作者的国籍发现,美国发文量占据第一,达1 651 篇;中国的发文量第二,共998 篇,其次分别为英国、德国、法国与加拿大等国。中国与美国的发文量占据总发文量的54.76%,是研究人工智能与气象学科融合方向文献产出最多的2 个国家。
气象数据是交叉研究人工智能技术与气象中观测、预报、服务与科研的基础,研究结果可有效应用于业务。WOS 核心数据库中2000—2021 年发文机构分布见表1。由表1 可知,发文量排名前6 的机构分别为中国科学院、法国国家科学研究中心、美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、美国加利福尼亚州大学和美国国家大气研究中心(NCAR),中国的发文量最多,但与法国与美国相比,被引频次较低,H指数为32,NOAA 发表的文献H指数最高,为47,平均被引频次为45.65。NCAR 的平均被引频次最高,为62.96。
表1 WOS 核心数据库中2000—2021 年发文机构分布
CNKI 库中,南京信息工程大学、解放军理工大学和国家气象信息中心、中国科学院大学与中国气象局发文量最多。其中南京信息工程大学的发文量最多,为149 篇:人工智能机器深度学习方法在厄尔尼诺-南方涛动(ENSO)预测研究领域取得重要进展[12,13];智协飞等[14]基于神经网络的滑动训练期超级集合预报方法对地面气温有较为准确的预报效果;陈法敬等[15]利用贝叶斯输出处理器建模,对NCEP 集成预报的各个成员对2 m 温度的贝叶斯概率预报融合,将集合预报不确定性定量化为一个集成贝叶斯概率预报,从而实现集合预报的概率化。统计南京信息工程大学2000—2021 期间发表被引量前20 的文献发现,主要以利用各类算法改进集成预报(6 篇)、基于遥感资料和神经网络算法反演地面温湿度或大气温湿度廓线(7 篇),涉及雷暴预报、青藏高原积雪识别、降水或温度等气象因子预报、霾预报和台风灾害损失预测等。用到的方法以BP 神经网络及各种订正的神经网络模型为主(12 篇)。BP 神经网络具有很强的非线性映射能力与自适应学习能力,加之结构简单、状态稳定、计算条件易于满足,在网络理论与应用方面已经较为成熟,实现相对简单,成果较多。
解放军理工大学研究学者对支持向量机、贝叶斯算法和神经网络等在热带气旋[16]、雷暴[17]、云量[18]、能见度强度[19]、副高[20]等多种气象因素预报中的应用有较多研究。有关人工神经网络的研究在2008 年最多,前后保持每年1~2 篇的发文速度。
国内人工智能与气象融合方向的研究主要来自气象专业排名靠前的院校与机构,与美国等国家相比起步较晚,加上受算法发展的限制,突破性的研究较少。人工智能、大数据等技术的飞速发展为提升气象观测、服务与预报的准确性带来了极大的发展空间。
2.3.1 CNKI 数据库关键词突现结果与分析 CNKI数据库突现词见表2。由表2 可知,气象类关键词为参考作物腾发量(2008—2011 年)、气候变化(2014—2017 年)和能见度(2018—2019 年)。
表2 CNKI数据库关键词突现词
陈志军[21]以各“五年”计划期末全国粮食总产与影响因子集为训练样本,将人工神经网络理论引入灌溉宏观发展战略研究领域,建立了灌溉需水量预测人工神经网络模型;霍再林等[22]利用BP 神经网络与气象要素,可以较好预测河套蒸散;陈博等[23]利用BP 神经网络对实测气象要素和蒸散值进行拟合,误差较小,Nash-Sutcliffe 效率指数为0.865;利用人工智能方法预估蒸散的研究在2010 年前后为热期。
气候变化的研究方向广泛,利用AI 先进技术,可以实现多种气候要素的预测。李克让等[24]利用人工神经网络方法模拟气候变化对土地覆被变化特征的影响,利用NDVI 与区域气候温度与降水之间的关系,建立了区域气候-土地覆被变化特征量的ARX 型人工神经网络预测模型,在绝大多数区域能较好地预测植被指数变化趋势。对于此类气候变化对土壤覆被[25]、气候系统脆弱性[26]或保护动植物生存繁育的影响等研究,由于互相作用多为复杂的非线性关系,且权重、标准不一,建立普通数理模型要解决量纲统一等问题,人工神经网络对此类研究具有一定优势。在气候变化及其时空特征分析的研究中,自组织特征映射模型(SOFM)方法可以避免主观分类以及插值产生的误差问题,但是其完全基于数据的特性,后期分析要结合实际对分类进行筛选和判断[27]。大数据技术可以高效整合海量庞杂的观测、模式数据,数据质量数量的提高,为气候、生态的观测预测提供了技术支持[28]。利用主成分分析(PCA)和支持向量机(SVM)构建降尺度方法,可以有效减少降水预报的误差,准确反映月降水的变化特征,结合全球环流模式Had CM3 大尺度气候场输出的降水值,可以对未来降水进行预测[29]。
气象中主要的研究方向有地基、空基、天基等资料的探测、天气预报、气候预测与新技术应用等,人工智能技术在各方面均有涉及。随着城市建设及人们对健康生活的重视,用人工智能方法在内的多种方法追踪、霾预报等研究在2014 年后开始增多,并且成为研究热点。白永清等[30]研究利用BP 神经网络可以得出较为准确的大气能见度预报。李柞泳等[31]利用雷达回波资料和BP 神经网络方法对雹云进行识别,有效降低了冰雹的漏报率。利用卷积神经网络也可以对积雪的图像进行有效识别[32],提取积雪的图像特征;中分辨率成像光谱仪(MODIS)是遥感观测的重要途经之一,MODIS 资料中积雪与云的特征较为相似,在研究时要对其进行分辨。张永宏等[33]构建了一种降噪自编码神经网络模型,建立雪粒径与复杂地形、土地覆盖类型之间的复杂映射关系,实现云下积雪参数的补全,提高积雪产品的覆盖面积,去云手段的精度超过86%。
气象资料是研究的基础,针对缺测的数据,李世萍等[34]利用BP 神经网络来优化观测资料,取得了良好的效果。
支持向量机、随机森林和决策树(包括梯度提升决策树)等,都是机器学习算法的重要组成,和气象领域结合的探索开始较早。支持向量机在降水[35]、短期气候[36,37]和天空云量[38]等预测中均有较多研究。随机森林算法是一种基于回归与分类树的机器学习算法,预测精度高,且不易产生过拟合。与神经网络、分类回归树和线性回归相比,随机森林的表现更为稳定,对噪声和异常值也有很好的容忍性,在林火[39]、径流[40]、干旱[41]、空气质量[42]等多种预测中取得了有效成果。
人工智能技术在气象领域应用最多的是人工神经网络(后简称神经网络),包含BP 神经网络,rbf 神经网络和小波神经网络、卷积神经网络等。神经网络现已发展出了上百种模型,在模式识别、自动控制、信号处理等方面具有广泛的应用[43],大多神经网络是生物网络的简化形式,对于数量巨大和复杂的任务功能有所限制。2006 年,Hinton 等[44]提出深层神经网络,深层模型在特征提取和建模上相对于浅层网络模型具有极大的优势,神经网络的研究开始向深度学习算法的方向发展,已成为人工智能领域的新热点。卷积神经网络由于其较强的泛化能力和自动提取特征性质,是其中应用较多也极具潜力的一个分支[45],例如使用深度学习算法与卷积神经网络从遥感数据中获取降水量[46]、对森林火灾敏感性建模等[47]。
2.3.2 Web of Science 核心数据库关键词统计与分析WOS 数据库突现词结果见表3。由表3 可知,最新的技术热点以大数据、卷积神经网络为主,研究内容以气象风险评估和生态系统脆弱性评价等为主。随着对高空间、时间分辨率天气监测的需求提升,海量观测数据涌进,加上高分气象卫星和数值模式所得数据,真正进入了气象大数据时代。大数据为气象预报与科研提供了基础,但是数量级别经常达到PB、ZB 级别,合理高效地管理、应用大数据,诸如气象大数据云平台归档系统[48]等平台的搭建就成了重要技术目标。
结合灾区的经济密度、人口密度和抗灾能力等,提前对气象灾害可能造成的损失进行预估的措施即为气象风险评估,在国内外利用BP 神经网络[49]、随机森林法[50]、支持向量机[51]、贝叶斯网络[52]等进行气象风险评估也是研究主要方向。Li 等[52]将频率比方法与使用径向基函数内核的支持向量机相结合,估算了马来西亚的白沙罗何的洪水概率指数,这一研究成果的被引频次为120。
AMS 数据库中突现关键词较少,分别为变化、同化、神经网络、降水和天气,这与文献样本量较少有关。
2.3.3 关键词共现图谱分析 人工智能技术在气象领域应用的关键词共现网络见图3。关键词是论文研究内容的高度概括,图中节点的相对大小可以代表词出现频率的高低。中介中心性值用来表征节点重要性的指标,中心性越大,其影响力往往越大[54]。分析CNKI数据库中选取的所有文献的关键词,共有12 个出现频次较多的关键词,以神经网络、BP 神经网络和深度学习等集群最为显著;这其中有5 个关键词的中介中心性大于0.1(即图谱出现紫圈的词),神经网络的中介中心值最高,为0.39,其次分别为BP 神经网络(0.33)、人工神经网络(0.24)、支持向量机(0.17)和深度学习(0.11),这说明上述词为中国气象学者研究人工智能技术的关键着手点。对CNKI数据库中文献进行聚类的轮廓值S值为0.93,这表明聚类是高质量的;模块值Q为0.71,远远大于0.3,说明关键词显著,可以很好地反映人工智能技术在气象领域应用的趋势分布。深度学习方法虽然才开始兴起,但CNKI 数据库的中介中心值达0.11(排名第五),出现频次极靠前(图3a)。
图3 人工智能技术在气象领域应用的关键词共现网络
WOS 库数据分析结果也反映出深度学习的内容从2018 年开始暴发式增长,对作物产量、降水温度等气象因子预测等方面有较多应用,说明这一研究方向是AI 在气象应用中的关注点集中所在。相对于中文文献,WOS 数据库中的研究方向较为广泛,各关键词的中介中心性均小于0.1,最大为神经网络(0.08),世界范围内AI 结合气象的方向总体比较广泛,基于神经网络的研究方向较繁杂。Q值为0.37,S值为0.70,聚类结果显著。
AMS 数据库中的文献分析结果(Q=0.54,S=0.83)有12 个词频较高的关键词,其中4 个关键词的中介中心性大于0.1,分别为模型(0.41)、算法(0.25)、预测(0.24)和气候变化(0.15)。
综合分析3 种数据库中关键词的词频,WOS 和AMS 数据库中模型、预测与神经网络的出现频率最高,CNKI 中神经网络、BP 神经网络和支持向量机出现的次数较多,神经网络为国内外学者研究人工智能技术在气象中应用的首要方法。
本研究发现,结合气象与AI 方向的研究文献发表数量增幅较大,说明人工智能技术应用为气象领域内的热点问题;中国对人工智能技术在气象中应用的研究起步较早,但在第三次技术浪潮的人工智能热中,中国总体较美国、德国等起步略晚,发表文献数量虽多,但相对缺乏高被引频次的研究结果。
广泛的研究仍多沿用神经网络、支持向量机等方法来订正数据、识别卫星或雷达图像等,或对气温、降水等气象因子进行预测,人工智能技术在气象领域占据绝对优势或取得突破性进展仍然需要一定时间;深度学习方向已成为全世界气象领域的研究热点。