恰当的水务大数据才符合数据挖掘的需求

2019-02-13 07:32张俊杰
城乡建设 2019年2期
关键词:体量水务选型

■ 张俊杰

近年来,大数据快速兴起。它和人工智能、云计算一起,成为智慧水务技术创新的一种标志。但是能够正确理解、认识、应用大数据,把大数据挖掘真正应用于生产经营和产销差控制中的,却寥寥无几。原因是人们对大数据的认识还停留在简单、肤浅的概念上,根本就没掌握大数据的精髓和本质。大数据本质是为了获取规律和见解,与获取收集的数据量无关,与数据是否恰当、正确有关。因此,非常有必要对大数据的恰当性和正确性进行探讨和研究,以便为未来大数据的挖掘和应用提供一种崭新的视野。

一、问题和现状

大数据(big data)是一个宽泛的概念,大数据不是数据大,这一点是公认的。大数据本质和精髓在于价值,而不是体量和规模。因此,辩证地看待大数据的体量才是科学的。就水务行业而言,大数据存在着数据体量不够大、数据冗余、数据品质差等诸多问题。因此,有必要对当前水务大数据的现状进行分析。

(一)数据体量不够大

图1 水务大数据架构图

不论从产销差控制与管理,还是从智慧水务角度看,水务大数据体量都不够大。首先,对水务大数据理解和认识上就有偏差,总以为水务大数据就是水务行业本身产生的大数据,这显然是欠妥的。从狭义上讲,水务大数据是指水厂、生产、调度、管网、客服、营业、施工、检漏、抢维修、物资采购等部门,通过调度系统、压力监测系统、GIS 管网系统、DMA分区计量系统、ERP 资产管理系统、客户服务系统、营销系统以及人工台账等各种途径,采集的实时数据,人工数据、电子报表数据集成的海量数据。

从狭义上看,只有少量数据是实时的,只是为满足某项业务需要,缺乏统一的规划和设计,数据类型复杂、多样存在着很大的局限性,难以满足和支撑数据挖掘、应用、决策的需求,导致了数据丰富,知识和信息贫乏的尴尬局面。

从广义上讲,水务大数据除了水务生产经营过程中产生的海量数据外,还应包括与水务大数据紧密关联的行业、领域以及企业内部行为产生的大数据。诸如:电力、燃气、污水、酒店、GOOGLE、高德、百度卫星地图以及年龄结构、区域消费水平、气候环境、居民生活习惯、消费行为产生的海量数据。

图2 外部大数据架构图

从广义上看,外部数据是满足了水务大数据“大”的概念,补充和支撑了水务大数据的挖掘、应用的需求,甚至对数据挖掘、转化商业价值起着决定性的作用。例如,普查燃气和电力数据地址和用气量、用电量,对分析客户用水量就有着很强的借鉴作用;打击违章用水,可通过用户用水量和排水量对比直接确定其是否存在违章用水等等。说明外部数据对水务大数据挖掘、应用极其重要。

(二)数据冗余严重

大数据的冗余和浪费是大数据挖掘中常见一种现象,是阻挠和影响数据挖掘的一种因素,造成了数据和时间、精力的浪费,甚至有时候还会走弯路,受大数据的体量“大”的拖累,导致无法从大数据中挖掘出规律,进行决策。海量数据的冗余根本原因在于盲目追崇大数据,刻意在数据采集端、系统设计、开发上夸大了大数据作用,却把大数据本质抛诸脑后。诸如:DMA分区计量系统、管网压力监控系统以及大表远传系统等诸如此类信息系统,把正常半小时、每小时采集、发送1次非要设计为每分钟采集1次,盲目追求数据集量级,结果导致了海量数据冗余,给数据挖掘人员增加了苦恼。既造成数据浪费,又造成数据采集端电池能耗高。总之,大数据挖掘不应取决于数据量级,而应取决于数据恰当和正确。

(三)大数据品质

大数据的品质是大数据挖掘最大的拦路虎。原因如下:一是数据采集方式多样,受各种设备、通讯、人为因素的影响,数据失真度,正确性、品质太差。诸如通讯中断、解析错误,仪表故障、人为失误、修正、篡改等等,这些因素都是导致数据品质差的主要因素。二是数据管理跟不上,总以为数据采集到了就可以挖掘,实际上这是极其错误的。基于以上两种因素,数据品质即正确性才是大数据真正所需要的。数据体量再大,倘若品质太差,冗余太多,就不具挖掘价值。因此,数据品质才是大数据挖掘的灵魂。只有从数据采集端到数据管终端全寿命跟踪管理数据、严控数据质量,在数据管理端实时数据审计和跟踪,才能保障数据的品质。

二、恰当正确的数据

(一)何为恰当正确的数据?

恰当正确的数据是指数据集的体量要适当,能够充分满足数据挖掘的需求,且数据品质即数据要可靠真实,能够代表事物发展的真实属性和特征,能够保证从大数据挖掘中寻找到规律和见解,并准确地应用到生产经营中,为决策分析,预测未来提供目标和方向。

(二)如何选择恰当正确的大数据?

对数据挖掘人员来讲,如何从海量数据中选择恰当、正确的数据用于挖掘分析这是个难题。因为,根本无法得知多少量级的大数据才能满足挖掘的需求。从以往对水务大数据挖掘经验看,除了正常归类、清洗外,仍有一定规律可循。首先,根据挖掘对象和应用,选择数据集的体量。其次,坚持数据量级从小到大的原则。假设一个或几个数据能代表和反映事物本质就选择一个或几个数据集。倘若无法满足挖掘需求,则可以逐级提升数据的量级直到能满足挖掘需求。最后,在数据采集端要控制和减少冗余数据产生的根源。比如,压力监测数据每小时数据体量就可以满足日常监测和数据挖掘需求,就没必要设置成每1分钟采集1次,人为造成海量冗余数据的产生。

(三)怎样应用恰当正确的数据?

应根据挖掘的对象和目的选择适当的大数据体量。有的需要几TG,有的则需要几十K、上百K数据即可。例如:客服系统数据、表具尺寸选型等挖掘则数据体量越大越好,而压力优化则要根据压力波动情况而定。大数据挖掘应用如图3所示。

图3 大数据挖掘应用图

三、案例分析

(一)压力数据挖掘

为了充分证明恰当、正确数据才是大数据挖掘所需要的。在这里,以某市最不利点的压力数据挖掘应用为例。为了便于挖掘、分析,从压力曲线中找到最不利点压力的变化规律,数据挖掘人员采用12个月、连续24小时的压力数据,结果发现数据量太大,压力曲线毫无规律可循。最后,决定以供水高峰2018年10月压力数据为样本。最不利点测压点数据如图4所示。

图4 2018年10月二路车总站的圧力曲线

从上面压力曲线可以看出,压力曲线变化杂乱无章,毫无规律和特点。即使在波峰06:0~09:00和波谷23:00~05:00时段的波峰、波谷压力曲线都无规律可循。这还是采用每小时的压力数据。倘若大数据挖掘、分析采用5分钟、15分钟的压力大数据分析,压力曲线的波动、变化更大,更难找出规律。可见,大数据不是数据大,更不是每种数据都需要海量数据,有价值数据够用即可。

为了进一步挖掘、分析最不利点管网压力变化的规律和特性,大数据挖掘人员对海量的压力数据进行了拆解,缩短了压力数据的周期,采用了上、下半月分析的思路,结果上、下月的压力曲线呈现了明显的规律和特点,波峰、波谷的压力变化显露无疑。上半月压力数据挖掘分析曲线如图5所示。

图5 2018年10月上旬最不利点二路车站圧力曲线

从上半月的压力大数据挖掘曲线看,每天24小时的波峰、波谷供水时段与水厂调压时间完全匹配。其中,波峰供水时段06:00~09:00和17:00~21:00,水厂多开一台机组增压;反之,波谷时段夜间22:00~05:00时段,水厂关停一台机组或变频调压。另外,下午13:00~15:00花园路泵站高位水池进行补水,导致13:00~15:00的管网压力下降。可见,供水、用水和压力变化规律和特点是完全一致的。下半月压力数据挖掘分析曲线如图6所示。

图6 2018年11月下旬最不利点二路车总站圧力曲线

通过上、下月测压点压力曲线对比,波峰、波谷以及波峰、波谷以及13:00~15:00增压站补水引起的管网压力曲线变化趋势完全吻合。

(二)表具尺寸与选型

表具尺寸与选型对新装水表是十分困难的,但对于在服役的水表进行大数据挖掘分析却是可行的。计量人员可通过大数据跟踪、分析用水规律和特性,结合水表特性参数进行分析和优化。以DN80mm垂直螺翼远传水表为例,从营业系统统计报表显示数据,全年平均月用量为20865m3/m,平均小时流量为28.98m3/h,最大流量为41.67m3/h。查询某品牌的DN80mm垂直螺翼水表的流量参数,常用流量Q3为63m3/h,过载流量为78.75m3/h。如果根据表具尺寸与选型公式0.2Q3~1.5Q3选型,显然表具口径是合适的。

为了进一步挖掘分析,保证选型准确性,采用远传大数据进行跟踪和分析,按照恰当、正确大数据挖掘的原则,从远传系统中采样了200个小时的流量数据,结果发现最大流量为为40.71m3/h,最小流量为0m3/h(系统故障),实际上最小流量为7.9m3/h,很显然也满足尺寸与选型公式0.2Q3~1.5Q3的要求。一段时间远传流量数据图如图7所示。

图7 一段时间远传实时数据曲线分析

对全年每小时采样数据进行清理,剔除掉故障时段数据,进行进一步挖掘分析,结果发现,在全年运行时间范围内34小时超多了常用流量63m3/h,2个小时超过了过载流量为78.75m3/h,最高流量达到了118.8m3/h。根据表具尺寸选型优化公式0.2Q3~1.5Q3计算,显然最大流量超出了1.5Q3,选型不合理。按照表具尺寸选型公式,应该上浮一个等级。可见,一年的大数据即可满足表具选型优化的要求,没有必要对2以上的数据挖掘分析。

从表具尺寸与选型案例看,显然需要大数据量级更大一些,才能满足表具选型的要求。可见,大数据量级大小跟挖掘对象和需求有关,受大数据品质影响,而不是由大数据本身来决定。

通过正、反两个案例分析和论述,证明大数据挖掘应根据挖掘的对象,需求、数据品质选取。

由此可见,恰当、正确的数据比数据量级更为重要。只要数据的体量、品质能够满足数据挖掘应用,满足寻找规律和商业价值就是当之无愧的大数据。数据挖掘人员要走出“大”的误区,避免受“大”的拖累。只有满足挖掘对象和需求的恰当、正确、有价值的数据才是真正的大数据技术。大数据技术本质在价值,而非量级。

猜你喜欢
体量水务选型
智慧水务在大港油田水务供水管网漏损控制方面的运用分析
不锈钢二十辊冷轧机组横切剪的选型计算
关于高层建筑结构选型设计的初步探讨
明年目标1.5个亿?!这家体量过亿的动保企业正在谋划什么?
昆钢铁路内燃机车选型实践与探索
砳建筑:在“鹅卵石”体量中实现绿色节能办公
产品选型
年度增长37%,体量达1.2亿! 这家资深动保专业户是如何“玩转”市场的?
富阳:启动智能水务
打造体量感的裤装2016春夏女裤流行前瞻