Isaac Sacolick Charles
与今天相比,10年前建立数据战略要相对容易一些。那时,数据库专家们争论着甲骨文、微软和IBM关系数据库的功能和性能,还针对是否使用MySQL和PostgresSQL等开源数据库展开了辩论。少数企业研究了NoSQL数据库,这包括来自MarkLogic、MongoDB和Apache Cassandra等公司的文档存储、键值数据库和列式数据库等技术。在企业系统之间移动大量数据的企业投资于ETL(提取、转换和加载)平台,而少数企业则投资于数据质量或者主数据管理解决方案。
而发展到今天,首席信息官认识到数据和信息是21世纪的真正宝库。拥有多样化的数据管理选择、可靠的数据操作实践、主动数据治理、高级分析、公民数据科学计划和成熟的机器学习能力等,都是实现具有竞争力和差异化的业务能力所必需的。
前不久,我参加了在纽约举行的Strata数据大会,想要了解一下首席信息官们在制定和执行全面数据战略时所面临的新机遇、趋势和挑战。
在开幕式的主题演讲中,Cloudera公司的首席营销官Mark Hollison引用了《哈佛商业评论》最近进行的一项研究,非常清楚地证明了这些挑战。这项研究的一个关键发现是,“69%的受访者说,他们的企业需要全面的数据战略,以便在未来3年内实现其战略目标,而只有35%的受访者说,他们企业的分析和数据管理能力正在朝着这些目标前进。”
这说明了对数据和分析的业务期望越来越高,而底层实现却越来越复杂,这其间有很大的差距。首席信息官们如果想缩小这些差距,那就应该在他们的数据战略中考虑Strata数据大会重点介绍的以下5种技术能力。
据同一项调查,51%的受访者计划在其数据战略中使用多个云,只有12%的受访者将75%以上的数据放在公有云上。将数据整合到集中式数据仓库或者数据湖的策略似乎已经过时了,而新现实是,首席信息官必须能够管理、集成和共享存储在多个公有云和私有云中的数据。
好消息是,Cloudera数据平台、SAP数据汇集和InfoWorks DataFoundry等平台能够帮助数据部门管理、集成和治理对存储在不同大数据引擎和不同云上的数据存储库的访问。
我曾与InfoWorks首席执行官Buno Pati讨论过怎样在多云环境中处理数据。他告诉我,“为企业数据处理和编排打好健壮而又灵活的基础是任何现代企业数据战略成功的关键所在。这些系统必须能够帮助企业快速启动新的分析应用实例,最大限度地减少对非常专业化人才的依赖,并无缝地穿越具有各种执行引擎和存储系统(例如,Hadoop、Spark和云基础设施)的混合云和多云环境。”
首席信息官们可以使用袖珍字典来帮助定义越来越流行的所有大数据平台。尽管大数据平台早期大多使用了Hadoop,而当今的企业则采用了多种平台,包括Apache Spark、Apache Hive、Snowflake,以及AWS、Azure和谷歌云平台支持的多个数据库,等等。
使用多个大数据平台给首席信息官们带来了巨大的挑战,这是因为很难找到擅长数据和分析的技术人员,而且管理多个平台也增加了操作和安全的复杂性。
虽然很多企业会整合到较少的数据平台上,并将其作为一种战略,但他们也必须考虑服务、工具、合作伙伴关系和培训,以便在多个数据平台之间提供更好的支持。
由于大型企业不太可能把数据集中在一个数据仓库或者数据湖中,因此建立数据目录的必要性在战略上就变得更加重要了。
数据目录有助于最终用户搜索、识别和了解更多可用于分析、机器学习实验和应用程序开发的数据存储库。数据目录还提供了一个中心点,用于管理访问策略、发布数据源的状态,还支持最终用户与领域专家之间的协作。
Cloudera、SAP和Infoworks都具有数据目录功能,作为其产品的一部分。
10年前,争论的焦点在于是否投资ETL平台,然后是投资于哪一个,而今天的问题则是更广泛和更具战略性的。这是因为今天的数据集成涵盖了比ETL支持的批处理功能更广泛的应用情形。当今的很多企业有:
·物联网和其他实时数据处理的数据流需求,通过Apache Kafka、Apache Spark等平台和VantIQ等事件驱动的架构来满足。
·文档和其他非结构化数据处理需求,通过MarkLogic数据汇集平台或者文档存储(例如,Apache Lucene、Apache Solr和MongoDB)来满足。
·数据科学家和业务分析人员的数据准备需求,使用Tableau Prep、Alteryx Designer和Trifacta Wrangler等工具来满足。
·API与SaaS平台和企业数据源的集成需求,通过Boomi和MuleSoft等平台进行优化。
·提高数据质量和创建主数据源的需求,这些主数据源是使用Informatica、Talend、IBM、Reltio、Tamr等其他平台创建的。
然而,没有一个通用的平台可以支持所有这些应用情形。此外,通过为作业选择合适的工具,可以更有效地实现数据集成,并提供更可靠的支持。这可能意味着,希望能满足多种数据集成需求的企业将不得不通过几个数据集成平台才能获得成熟的功能。
虽然首席信息官、首席信息安全官和首席数据官更希望在采用新业务功能之前先进行数据治理,但这是一种不现实的战略。需要进行分析以实现数据驱动决策,并获得更多竞争优势的企业必须快速行动,把治理做为先决条件,但在进行这方面的尝试时会遇到阻碍。
对于那些负责保护企业数据资产、隐私政策和机密信息的高管来说,这确实是个棘手的问题。
然而,首席信息官和首席数据官有可能在采用新工具、功能和数据源的同时实施数据治理。这要求引进人才,以了解接受投资平台的数据治理能力,并建立引入和管理数据源更改的程序。
如果没有这些规则,首席信息官们将会面临数据债务,类似于技术债务企业随着时间的推移积累起来的债务。
好消息是,首席信息官们将在面向企业的成熟数据平台上获得数据治理能力。然而,拥有技术能力只是一个开始,首席信息官還需要技术人才、培训计划和变革管理实践,以使业务部门理解并遵守数据治理。
我不太喜欢“数据就是新油田”这种比喻,但不妨先这样想。石油公司不仅购买钻机,还神奇地拥有端到端的机制,可以高效地找到油田,并将石油运往炼油厂。这不是那么简单,同样的,数据管理、分析和机器学习也不是那么简单。
然而,只要企业负责任地投资于满足其应用情形的平台,投资于人才,并在数据集成、管理和治理方面完善其实践,这一切也并非难事。
Isaac Sacolick是《数字化驱动:通过技术进行业务转型的领导者指南》一书的作者,该书涵盖了很多实践,例如敏捷、开发运维和数据科学等,这些都是成功实施数字化转型计划的关键。
原文网址
https://www.cio.com/article/3441780/5-technical-capabilities-required-in-modern-enterprise-data-strategies.html