Isaac Sacolick
Dataops团队将帮助我们充分利用数据。以下内容为我们展示了人员、流程、技术和文化是如何整合在一起的。
你是否注意到大多数企业都在尝试着利用自己的数据做更多的事情?
企业正在大力投资数据科学项目、自助式商业智能工具、人工智能项目等以提升由数据驱动的决策工作。其中,部分企业通过将数据可视化嵌入到Web和移动产品中,或者从传感器(物联网)、可穿戴设备和第三方API收集新型数据的方式开发面向客户的应用程序。还有部分企业正在利用来自文档、图像、视频和口语等非结构化数据源的信息。
围绕数据和分析的大部分工作都是从中获取价值。这包括用于决策的仪表盘、报告和数据可视化,由数据科学家创建的用于预测结果的模型,或整合了数据、分析和模型的应用程序。
基础数据运营工作(即Dataops)需要在数据做好供人们分析和格式化写入应用程序以提供给最终用户的准备工作之前完成。但是这些工作的价值往往会被低估。
Dataops包括汇集、处理、清理、存储和管理数据的所有工作。为了描述数据集成、数据处理、ETL(提取、转换和加载)、数据准备、数据质量、主数据管理,数据屏蔽和测试数据管理等不同功能,我们使用了一些复杂的术语。
就像汽车并不仅仅是各个零部件的总和一样,Dataops也是了如此。Dataops是数据管理实践中一个相对较新的总称,其目标是使数据用户(包括管理人员、数据科学家、应用程序)能够成功地从数据中获取业务价值。
Dataops如何与其他技术实践协同工作
Dataops汇聚了众多灵活工作方法的诸多特点,推动了数据处理指标和质量的迭代改进。与此同时,它还具有devops的优点,尤其是在自动化数据流方面,能够更为频繁地调整数据处理功能,在响应数据运营事件时可缩短恢复时间。
Dataops甚至还发布了一个DataOps宣言,其中包含了20项原则,涵盖了文化(不断满足客户)、团队动态(自发组织、每日互动)、技术实践(创建一次性环境)和质量(监控质量和性能)等众多方面。
你可能想知道为什么需要这一术语。答案是它们简化了语言并针对关键业务功能定义了角色,这样有助于推动投资,调整团队,围绕业务目标确定优先事项。更好地理解这一新术语的方法是围绕人员、流程、技术和文化进行定义。
Dataops对人员的分类
在人员方面,有几个与Dataops相关的角色:
客户是所生成的数据、分析、应用程序和机器学习的直接受益者。他们可以是实际的产品客户,或使用服务的客户,也可以是企业内部的客户,例如使用分析进行决策的高管和领导者,或者作为业务流程的一部分而使用数据的员工。
数据最终用户包括数据科学家、仪表盘开发人员、报表编写人员、应用程序开发人员、公民数据科学家,或是使用数据并通过应用程序、数据可视化、API等工具提供结果的人员。
直接从事数据运营的人员,包括数据库工程师、数据工程师、管理数据流和数据库工具的开发人员。
负责数据质量、定义和链接的数据管理员。
企业所有者通常是数据服务的购买者,他们会围绕采购、资金、创建策略和处理(数据供应链)做出自己的决策。
定义数据流、开发和操作流程
Dataops有许多流程和规则,它们的成熟程度和投资在很大程度上依赖于业务需求的性质、数据类型、数据复杂性、服务级别和合规性。
一方面,Dataops代表从源到传递的数据流。这是通过Dataops开发和操作流程管理的制造流程。数据流或数据管道的开发可以基于不同的数据集成技术、数据清理技术和数据管理平台。这些流程不仅可以引入数据,还可以为数据管理员提供工具,以管理数据质量和数据规则中的例外情况,启用数据志和其他的元数据功能,以及执行数据归档和删除程序。
Dataops的第二个方面是开发过程,通过该过程可以維护和增强数据流的各个方面。开发过程包括几个阶段:沙箱管理、开发、编排、测试、部署和监控。其中,编排、测试和部署阶段类似于devops CI/CD管道。
Dataops流程还涉及操作和管理基础设施。与devops一样,这项工作中的一部分与管理生产数据流,确保可靠性、安全性和性能密切相关。由于数据科学工作流程具有很大的易变性,尤其是机器学习,因此开发出可扩展性、高性能和数据科学环境以支持不同工作负载也更具挑战性。
Dataops技术的前景
Dataops涵盖了大量的数据编排、处理和管理功能,所以很多技术都适用这个术语。此外,由于许多企业正在投资大数据、数据科学和机器学习,因此厂商在这一领域内展开了激烈竞争。
亚马逊网络服务(AWS)拥有普通的关系型数据库、文档存储和键值数据库等7种类型的数据库。Azure也提供了多种类型的数据库。
大量工具集都集成了数据并创建了数据流,包括数据集成和数据流。数据流中又存在数据质量与主数据管理。
许多工具与Dataops的开发、数据科学和测试密切相关。虽然许多组织机构使用的是Jupyter,但是数据科学工作存在其他选项。例如进行测试可以考虑Delphix和QuerySurge等工具。
Alteryx、Databricks、Dataiku和ai可提供端到端的分析和机器学习平台。这些平台融合了数据集、数据科学和devops功能。
其他工具可处理数据安全性、数据屏蔽和其他数据操作。
竞争正在推动数据库文化
应用程序开发团队和运营团队之间的矛盾催生了devops,前者为了加快流程不得不频繁发布代码,而后者为了确保可靠性、性能和安全性会很自然地放慢速度。devops团队很好地调和了这一矛盾,促进了对自动化,如CI/CD、自动化测试、基础设施即代码以及集中监控的投资,帮助弥合了技术隔阂。
Dataops是另一个新生事物。数据科学家、仪表盘开发人员、数据工程师、数据库开发人员以及其他工程师可共同致力于数据流和数据质量。除了管理版本发布的速度以及基础设施的性能、可靠性和安全性之外,Dataops团队还可以提升数据、分析、机器学习模型和数据交付的竞争价值。
竞争价值取决于整体分析工作的可交付成果和Dataops 团队解决复杂数据处理的方式。数据在数据流中的运行速度有多快?支持多少数据量和什么样的质量等级?团队集成新数据源的速度有多快?数据库平台是否能够支持不断增长的各种数据建模需求?
这些只是Dataops 团队必须解决的一些问题和性能指标。随着越来越多的组织机构通过数据和分析投资来获取业务价值,这也对Dataops 实践和文化提出了相应的需求。
本文作者Isaac Sacolick为《推动数字化:通过技术实现业务转型的领导者指南》一书的作者。该指南介绍了许多关于敏捷性、devops和数据科学的实践,对成功的数字化转型计划具有重要的指导意义。
原文网址
https://www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html