可视化数据挖掘在水利工程管理中的使用

2015-12-26 11:33汪福成

环球市场信息导报 2015年39期

文|汪福成

可视化数据挖掘在水利工程管理中的使用

文|汪福成

水利工程作为基础设施，随着我国经济的快速增长和人口的不断增多，水利事业已经成为我国国民经济中的命脉和基础产业。怎么样做好农田水利工程管理，保证水利工程发挥重要作用，是摆在每个水利人面前的一个重大课题。

水利工程建设是国家基础性建设项目，是真正为人民服务的一项民生工程，水利工程能有效控制和调配自然界的地表水和地下水，在灌溉排涝，工业生产，泄洪防灾和运输等方面发挥了重要作用，具有社会服务性和经济效益性的特点，是新形势下开展的一项事关广大人民群众切身利益的重要建设项目。但是水利工程作为一个庞大的水利工程体系，需要投入大量的人力物力进行有效的管理，才能让水利工程持续健康快速的发展进行。如何做好管理，直接影响着工程的投资效益与安全运行。而由于水利工程管理有其自身的特殊性、复杂性，在工程管理过程中仍出现了一些问题，这就需要我们借助现代化的信息手段来辅助进行决策与管理，利用可视化数据挖掘技术在农田水利工程管理中的应用。

可视化数据挖掘技术认识

数据挖掘和可视化是信息社会发展的趋势，可视化是使用计算机图形学和图像处理技术来表征数据，把隐藏在大量数据中的信息以更加直观，同时容易领会的图像方式进行表达，达到更加快速获取信息的目的。数据可视化是对大型数据库以及数据仓库里的各类数据用图形图像方式表示,当做一种表示工具,如解析复杂结构的数据或者是生成最初的视图，以及显示分析结果，并作为数据分析过程中非常重要的阶段。数据挖掘就是从数据库的大量的数据中提取或“挖掘” 隐含的、未知的并且具有潜在价值的信息过程。例如我们可以采用数据挖掘的方法分析河道河情、水土保持、河道险工、水量调度、防洪和实时雨水情等方面的发生变化情况，总结其一般的发生变化规律，从而利用数据挖掘发现的信息采取相应的措施，更好地发挥水利工程的效益，为水利工程的管理提供决策依据。

可视化数据挖掘的过程是一个长期反复的过程，对于挖掘需要探索的问题通常是没法预知最后结果的状况下，预见探索问题可以很好避免数据挖掘的盲目性，更好的提高成功效率。达到事物飞本质，使得问题的解决方案更加趋于最优化，可视化数据挖掘过程包括4个方面，一是对数据库里的数据进行选择。选择查找全部与业务目标相联系的内部与外部的数据信息，并从中选出能够用于数据挖掘的信息。二是对被选择的数据进行预处理形成格式化数据。三是对格式化的信息进行挖掘。四是吸收其中有用的知识。

可视化数据挖掘在水利工程管理的使用

水利工程在快速的建设中，水利工程管理系统也在不断增多，水利工程信息化成为当今水利工程的发展方向。但是水利工程信息系统还有很多缺陷，在提供服务方面只是业务性方面，对于管理决策很少涉及。尤其是水利工程数据化管理更快的向现代化方面发展，存在着大量的非空间数据和空间数据，空间数据包括地图、预处理过的遥感图像、视频等数据。在对于这些数据，人们往往处理不到位或不能及时。尤其是在空间类型数据方面。他们虽然知道这些数据中存在了大量的有价值的信息，但是却不能有效的将它们合理的利用。而在水利工程建设和管理中，影响决策的数据来源是各种类型，包括气象数据库、蓄雨情和水情数据库、滞洪区空间分布式社会经济数据库和水旱灾情数据库等丰富多样的数据，传统的信息数据收集处理，已经不能解决复杂的问题。作为可视化数据挖掘技术应运而生，可以从海量数据中挖掘出有价值的、潜在的信息知识。而不同数据的收集与整理就必须依赖于建立完善的数据库，所以对于水利工程而言，数据库可以建立水文、实时雨水情、河道险工、河道河情、水量调度和防洪工程等，并选择合适的可视化数据挖掘方法，才能选择有用的数据。

实例分析：农田用水情况，获取农田用水需求

聚类就是将输入的无任何类型标记的离散且无明显规律而言的数据，按一定的规则划分为若干个类或簇，同一个类或簇中的数据对象有很大的相似性，而不同簇间的对象有很大的相异性，聚类可以强化人们对数据的认识能力。聚类分析的方法把我县不同农田用水情况进行分类，然后对不同类型的农田用水地方提供不同的服务，这样可以更好的管理农田用水的使用情况，同时还给有特定农田用水者提供专门的服务。下面根据一些农田用水多少的数据进行了具体的挖掘实验，实现了聚类分析在农田用水数据管理方面的应用。

数据准备阶段。本文将做的是一个简单的数据挖掘分析，分析近三年我县农田用水情况，所以我们要先做一下数据的预处理，把在这三年之前的农田用水情况弃掉不用，原因是我县农田用水情况变化会很大，所以近两年的数据更具代表性，用来进行分析也会更加贴近我县农田用水的真实需求。

对数据进行聚类。我们将使用k-means算法对第一步中清理出来的数据采取聚类挖掘，设置聚类个数为三。代表把我县农田用水情况一共分成3个大类，一类为频繁农田用水地方，一类为普通农田用水地方，一类为偶尔农田用水地方．分类好了以后，我们就可以针对不同的农田用水提供不同的、更加符合农田用水需求的、个性化的服务了。然后是进行三个步骤对收集的数据进行聚类分析：（1）把目标对象划分成n个非空子集（聚类）；（2）对每个聚类中所有点的坐标计算平均值，然后把平均值作为每个聚类的中心；（3）对每个点到聚类中心的距离计算分析，并把每个点聚类到离该点最近的聚类中心的聚类中去反复执行（2）、（3），直到聚类中心不再进行大范围移动或者聚类次数达到要求为止。

挖掘统计结果分析。对于挖掘出来的农田用水地方，第一类频繁农田用水地方可以适当的增加其供水上限，更好的满足该地区农田对水的需求；对于第三类偶尔需要农田用水地方，则可以采用其他的挖掘方法，研究他们的农田用水少的原因和该地区的地理优势，从而相应地改善该地区的地理环境，达到创造更好的地区优势。这样把农田用水分类之后再进行数据分析，可以更加精确地挖掘出不同农田用水地方的不同需求，可以给不同需求的地方提供具有个性化的帮助。

（作者单位：民和县水利局）