□郑茹楠 王亮(新乡水文水资源勘测局)
深度学习在水文工作中的应用探讨
□郑茹楠 王亮(新乡水文水资源勘测局)
深度学习作为人工智能的主要分支,是一种利用大数据进行训练,不断地通过正反馈来优化结果的方法。随着互联网和物联网的发展,大数据以及数据挖掘技术已经成为了新的经济增长点。可以说,数据就是未来的石油,而深度学习等方法就是开采石油的工具。水文工作每年都会采集到大量的数据,能否更好的利用这些数据,使水文工作更加高效,为社会产生更多的价值,文章从应用层面做出了一些探讨。
人工智能;水文信息化;水文预报;水文资料整编
随着国务院下发《新一代人工智能发展规划》,人工智能正式上升为国家战略。在这个数据时代的大浪潮里,数据成了衡量一个组织财富的标准,但只有数据还是没法发挥它应有的价值,只有通过数据挖掘,才能变数据为黄金。
深度学习和机器学习类似,是一种基于概率论不断递归,从而寻找最优解的分析方法,它在搜索技术、数据挖掘、机器翻译、自然语言处理、人脸识别、语音、推荐和自动驾驶,以及其它相关领域都取得了很多成果。由于算法和计算能力的突破,以及数据量的暴增,深度学习已经成为了人工智能领域最主要的实现方法,这里的数据不仅仅只是数字,还包括图像和声音等。
水文站网近年来通过开展水位、雨量、墒情等自动监测,安装了大量的仪器,加上历史记录的资料,已经产生了海量的数据库。通过分析处理这些数据,可以为水文信息化和社会经济发展提供强有力的技术支撑,凸显“大水文”的发展理念,取得社会效益和经济效益。
水文系统下属有水文站和委托观测雨量站,这些委托站数量众多,而且有些地处偏僻,无法经常去检查。自记雨量器需要按时清洗和维护,如果承水口堵塞或没有清洗干净,会造成雨量数据不能准确传递的问题。
采用深度学习的方法,可以安排当地观测人员,按时用手机对雨量器进行拍照,包括承水口、集水斗、滤网,以及雨量器外观等。通过安装GPS拍照软件,照片会带有拍照时的经纬度和时间信息,之后把图片发给服务器。在终端对图片进行处理,对那些没有清洗干净的图片做出标记。经过算法对这些大量带有标记图片的学习,可以训练出一个模型,使用该模型可以自动准确区分出那些没清洗干净的雨量器图片,并通过经纬度显示站点信息。
在水文资料整编工作中,要把大量手写的数据录入电脑,包括降雨量、水位等。这样重复性的工作可以通过拍照或手持式扫描仪来将这些手写数据变成图片,然后经过深度学习的方法,识别出这些图片并生成数据输入电脑。这样整编人员就可以在此基础上提高效率,只需要校对这些数据即可。
水文工作大多使用网格图纸记录水文曲线。然而纸质材料由于保存不当等原因会造成损坏、污染等问题,容易对所承载的信息造成损失,且纸质材料不易于信息的交换和传递,更可能埋没了海量信息中可能隐藏的、有待发掘的知识。因此有必要对这些纸质资料进行数字化。利用图像处理的方式将这些信息采集并建立数据库,将避免大量的手工重复劳动,也能高效精准的对这些信息进行录入。
水文预报是防汛工作的前提,也是水库调度兴利的重要手段,相关的模型方法有很多,反映了水文学的一些规律,但由于人类对流域水文气象规律认识有限,自然界规律又复杂变化,所以难以全面反映客观规律。
深度学习方法经过这些年的发展,从简单的线性网络到CNN,再到RNN和现在的GAN,经过了几次迭代。目前在水文预报领域,存在着随机森林、聚类、贝叶斯分析、SVM等机器学习方法,这些方法从挖掘历史水文数据入手,建立水文模型,从而提高预报的准确度。
然而传统机器学习的方法,在数据量较小时比较有效果,但当遇到海量数据,该方法就会进入一个平台,再怎么优化也提高不了。深度学习就是针对这种情况,只要建立合适的模型,数据量越大它的结果越好。当历史数据丰富的时候,就可以将数据之间的物理关系用统计关系表达出来,不需要物理模型那么多严格的分布参数来描述流域的下垫面情况。
水文预报可以看作是动态物质在固态路线上流动的问题,同样的例子还有交通疏导、电网的改善等等,都可以运用这种基于马尔科夫链的解决方法。杭州开展的智慧城市工程,就是通过让摄像头和红绿灯连接起来,收集实时的数据,用机器智能算出哪里会堵车,哪里有救护车几点几分要到下一个路口,能够自动分配红绿灯的变化,改善交通拥堵,以及增加挽救生命概率。
但这种方法进行水文预报也有一些不足,当历史数据不足或流域状况改变导致历史数据的模拟意义下降时,就会减少它的适用性。
水质指标是是用于评价一般淡水水域特征的重要参数。可以根据这些参数对水质的类型进行分类,对水体质量进行判断和综合评价。传统的现场取样,需要耗费人力物力,还要使用化学滴定等方法获取数据,存在速度慢、容易混淆水样的麻烦。
水质在线自动监测系统是一个以在线分析仪表为服务目标,以提供具有代表性、及时性和可靠性的样品信息为核心任务,运用自动控制技术、计算机技术并配以专业软件,组成一个从取样、预处理、分析到数据处理及存贮的完整系统,从而实现对样品的在线自动监测。可以监测水温、溶解氧、PH值、浊度等,并可传回现场图像。这些实时性数据经过算法的训练,能够自动鉴别出水质情况并做出分类。
NLP自然语言处理是一门研究如何让机器理解人类语言、写出人类文字的学科。基于递归神经网络的NLP模型,只需要喂给它大量的文字段落,它就会用递归神经网络分析段落,寻找出字与字之间的关系。
目前深度学习的方法对于文学类文章还没法做到很好的生成,但对于固定格式的内容,可以做到自动生成。今天美国很多媒体的财经新闻,尤其是对公司财报的评述,其实已经是计算机产生的了。计算机根据很多过去已有的文章,训练出相关的模板,然后每次从最新的信息中读取数据,合成一篇文章。当然,这样合成的文章读起来未免生硬,在发表前还是要经过润色处理。
水资源公报每年都要做,而且内容格式大体变化不大,那么利用每年收集到的水文数据就可以自动生成水资源公报等内容。
数据要利用就要保证数据的共享,和数据格式的统一,不同部门的数据通过共享,能够产生1+1>2的作用,这就是数据的平台化。这方面可以举个例子,比如共享单车,通过跟踪它们的运动轨迹,能够得出从某个小区到某个地点骑车的人多的数据,这些数据不单单可以用来改进单车的运营,还可以让公交公司拿去改进他们的路线。
机器智能和传统的编程方法有着根本性的不同。过去的方法是通过原理找方法,从而得到结果,这是因果关系。但深度学习是先给出一个结果,然后从结果出发去找方法,这是相关性,新的方法产生新的思维方式。影响世界的变量太多以至于无法用数学模型来描述,机械论已经无法对未来进行预测。用不确定的眼光看世界,再用信息来消除这种不确定性,是大数据解决智能问题的本质。
香农的“信息熵”将世界的不确定性和信息联系在了一起。这个建立在不确定性上的理论,正是今天人类研究大数据和机器智能的基石。
人工智能是新一代技术革命的焦点,它并不是用机器来取代人,而是用机器来辅助人,去做人做不到的事情。从历史上看,每一轮科技革命和产业变革都会引起国家间、企业间综合实力的此消彼长,找准发力点,才能下好先手棋。
近年来,欧美等国家的学者将传统水文学和人工智能相结合,诞生了一门新的学科—水信息学。随着科技的进步,数据量的增长、智能算法的发展和水文学科的进一步完善,深度学习等数据挖掘技术会更多地应用于水文领域。
[1]张弛.数据挖掘技术在水文预报与水库调度中的应用研究[D].大连:大连理工大学,2006(3).
P338+.9
A
1673-8853(2017)11-0029-02
2017-9-28
编辑:刘青