供水企业数据字典建立方法的探讨

2020-08-25 13:41魏晓婷张雅琪
天津科技 2020年8期
关键词:数据项字典供水

崔 鸣,魏晓婷, ,张雅琪

(1. 天津泰达水业有限公司 天津300457;2. 天津泰达津联自来水有限公司 天津300457)

0 引 言

在工业4.0时代,智慧水务建设是传统供水企业升级为一体化管理水务企业的重要工具和手段,是在数字经济环境下转变传统供水企业发展方式、实现科学发展的重要途径。智慧水务的支撑技术包括物联网、云计算、人工智能、大数据分析和应用。其中大数据分析和应用是通过对海量的生产经营数据进行分析挖掘,找到客观规律并建立数学模型,通过预测未来趋势及行为,做出准确应对和科学决策的一种技术。

要做好大数据分析应用工作,就一定要关注最基础和最核心的因素,就是数据。在多数供水企业中,“数据即资产”已经被广泛认知。很多供水企业开始重视数据资产管理,将挖掘和释放数据价值、扩展数据应用和服务作为创新发展的驱动力。但是并非所有数据都能成为资产,如若没有合适的数据资产管理体系和架构作为保障,再多的数据对于供水企业来说也只是垃圾和负担,无法提供有效的决策和数据服务。目前,很多供水企业下大力量关注智慧水务项目建设,但是在数据管理方面缺乏重视,存在着数据架构失控、元数据管理混乱、数据标准缺失、数据质量参差不齐、数据增长无序、数据安全等问题,而供水企业数据字典的建立,可以称作是数据管理中基础的基础。如果说语言是人类世界沟通的方法,数据字典则是数据世界沟通的语言,任何数据都需要通过看得懂的方式表达出来,只有看懂数据表达什么意思,才有基于数据分析和创造的可能,才能实现数据知识的传承。在目前多数供水企业中很少见到建立数据字典并开展研究和建立的报道。天津泰达水业有限公司2019年开始立项组织公司数据字典的建立和研究工作,本文从供水企业数据的特点和分类、供水企业数据字典建立的方法路径等方面进行探讨研究。

1 供水企业基础数据的特点和分类

对于常规的制造类企业而言,生产的核心是产品,经营的核心是用户,因此制造类企业数据字典的编制是围绕着产品和经营的。就产品而言,将产品全生命周期有关的描述用来定义产品的各个特性,按照一定的逻辑关系进行分层式的树状结构分类,并按照标准规定的格式进行描述,形成产品及相关零件的数据字典。也就是说,制造类企业产品的数据字典是由产品族分类树、产品族描述、产品族特性描述 3部分组成[1]。

依此类推,经营类数据字典则是按照经营渠道支撑、业务运营支撑(BOSS)、客户关系系统支撑(CRM)以及公共资源支撑4方面展开和描述。

对于供水企业,生产的核心产品是水,非常单一;经营销售受到地域许可的限制,更侧重于提供服务而不是营销。这 2个特点使得供水企业的数据字典与制造类、经营类企业差别很大,很难套用某种通用化的模式来对供水企业数据进行描述。

供水企业是以提供优质、稳定、高效、安全供水保障为目标的企业,核心业务是制水生产、水质安全、管网输配、客户服务 4大体系。对应的数据信息体系为生产工艺数据体系、水质监测数据体系、调度与管网运行数据体系、客户服务数据体系。供水企业数据字典也是围绕上述4个数据体系而编制。

2019年 12月 1日正式执行的 CJ/T 541—2019《城镇供水管理信息系统 基础信息分类与编码规则》把城镇供水基础信息分为基础信息、供水单位、供水水厂、供水建设等 8个大类,每个大类之下展开多个中类,如在城镇供水单位基础信息分类中划分了28个中类项,在供水水厂基础信息分类中划分了11个中类项[2],等等。

对于一个供水企业而言,数据字典是为企业本身大数据应用服务的,不需要分类太多,前述的供水水厂、水质监测、管网调度运行、客户服务 4个大类基本可以涵盖。在《城镇供水管理信息系统基础信息分类与编码规则》中提供的均属于基础数据信息,而在供水企业的实际运行中还存在大量的管理流程和管理信息,例如水厂和管网的巡检流程、维修工单流程等,客户服务的报修服务流程、水表校验流程等。不同的供水企业都有各具特色的管理,因此针对管理信息的数据字典编制和分类并没有统一的模式。

2 供水企业数据字典建立的方法

天津泰达水业有限公司数据字典编制工作小组根据自身企业的特点,经过反复论证,决定采用自顶向下设计、逐层展开细化的方法,以 4大类别基础信息作为块结构、以业务流程作为线结构铺开数据项,再分专业、分组进行特性描述和引用导引描述。具体采取以下几个步骤。

2.1 步骤一

依照公司的管理体系制度、管理程序,全面梳理业务流程和数据报表。经过梳理,公司共有 26类、108项管理流程,如表1所示。

表1 天津泰达水业有限公司业务流程和数据报表Tab.1 Business process and data report of Tianjin TEDA Water Industry Co. , Ltd.

在公司现行 97项管理制度和管理程序中,共提取和梳理出 295个数据表格,其中包括流转工单类157个、数据表格类38个、标准与台账类36个、制式报文类 59个、其他 5个。在上述 295个表格中可提取的数据项约2700多个。

2.2 步骤二

工作组成员分工到水厂、管网、水质、客服等部门进行各个分块基础数据的采集。

以水质基础数据采集为例。首先依据CJ/T 4741—2015《城镇供水管理信息系统 供水水质指标分类与编码》的规定,从 6大项、20个分项、595个水质指标中,选取公司三级检测体系中具备检测能力和国标要求的指标。例如在放射性指标大类中有9项指标[3],我公司在日常检测中需要用到其中总α 放射性(Gross alpha particle activity)和总β 放射性(Gross beta particle activity)2项指标,就把这2项列入到数据字典中。

其次是根据目前三级检测体系中所执行的原水检测、出厂水检测、管网水检测、二供水检测等所检测的项目、方法,以及关联的试剂、仪器、危化品等,分门别类列入数据字典条目。

通过以上2个步骤,已经搭建好天津泰达水业有限公司的数据字典基本架构,完成了从上到下设计、细化和展开的任务。

2.3 步骤三

唯一性校核。基础数据项的编制是需要具备唯一性、合理性、可扩展性、简明性等若干原则的,而唯一性是最基本的原则。例如在管网上安装的阀门就有多种称呼,有称作腰闸的,也有称作闸阀的;一个居民小区往往也会有不同的俗称,比如某小区正式的名字叫某某家园,可是很多小区业主和物业公司均称呼为某某二期。这类对同一个事物进行不同的称谓是数据字典编制中最应该避免出现的,因此一定要进行唯一性校核。

2.4 步骤四

特性描述。特性描述相当于编篡字典的词条说明,其工作量最大、专业性最强。

2.5 步骤五

引用导引描述。这也是专业性和难度非常大的工作。例如对于一项水质指标的检测可以有几种不同的方法,这就需要对这个数据项的引用部分进行导引描述,或通过链接的方式便于使用者迅速查询到相关的条目。引用导引描述按照数据的不同类型,可分为流程导引描述、方法导引描述、属性导引描述等。通过上述步骤形成的数据项表格基本如表2所示。

表2 数据字典数据项表格Tab.2 Data item table of data dictionary

3 体会和结论

通过天津泰达水业有限公司数据字典的编制方法设计和实施体验,有3点体会和结论:

① 供水企业如果步入智慧化发展的道路,大数据采集、大数据分析和数学模型建立是必经之路,而数据字典的建立是绕不过去的门槛。

② 智慧水务建设不是单靠投资就可以建成的,供水企业必须拥有一支与智慧化运行管理要求相适应的综合技术管理团队。而供水企业自主编制数据字典,是培养技术人员熟悉基础管理的重要手段。

③ 数据字典的编制是需要投入一定的人力和精力的基础性工作,不像工程建设那样容易得到明显的效果,更加需要供水企业领导层的关注和引领。

猜你喜欢
数据项字典供水
美国供水与清洁基础设施不足造成每年85.8亿美元经济损失
各地完成农村供水工程建设投资466亿元 农村水利建设再提速
国六柴油车远程排放监测数据项间相关性特征研究*
基于相似度的蚁群聚类算法∗
四会地豆镇加快推进农村集中供水全覆盖
毗河供水一期工程
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
字典的由来
大头熊的字典