数据科学对创新的挑战:从大数据到价值主张

2020-04-24 03:41范群林潘双燕谢小玲
沿海企业与科技 2020年1期
关键词:数据源应用程序阶段

范群林,潘双燕,谢小玲

一、引 言

目前,企业在分析“大数据”以释放潜在的巨大商业价值方面正在付出很多努力[1-2]。新的数据源不断发展,存储和分析大型数据集的新技术使许多新的应用程序成为可能,但任何一个大数据应用程序的确切商业价值通常都不清晰。从实际角度来看,企业仍然很难有意义地使用数据,或者缺乏使用大数据的能力。不同类型的分析问题出现在组织环境中,具体取决于起点是否来自仅缺乏必需技能或能力的部门的确切请求(如机器学习),或者说起因于处理大数据的主要兴趣(如缺乏自己的基础设施,缺乏系统经验)。到目前为止,尚缺少清晰的数据价值生成战略和流程。

许多文献都针对技术和方法的实施,大数据的转变力量[3],通过构建分析能力来提高公司绩效[3-4],或者解决其他管理问题[1][5]。较少涉及从第一个想法到现成分析应用程序或构建分析能力的转换过程。本文试图弥补这个差距。

分析举措有几个独特的功能。首先,需要一种探索性的方法,分析时并不像其他项目那样具有特定要求,而只是一个想法或数据集。为了评估贡献,应用构思技术和快速原型设计。这一探索在发展共同理解和将大数据计划作为战略方向发挥着重要作用。其次,处于早期阶段的分析项目必然会在不同利益相关者的利益、能力和观点之间形成复杂的相互作用。学习是这些项目中不可或缺的一部分,通过分析建立经验和能力。最后,分析项目与现有信息技术(IT)基础设施并行运行,并提供简短的脚本或战略见解,然后安装在大型IT 项目中。由于缺少端到端的目标,数据不仅要被提取、转换和加载,还需要被识别、分类和部分结构化。因此,需要建立一个价值生成的一般过程来指导分析项目并解决这些问题。

本文提出一个准确的配置和一系列指导大数据分析项目的步骤。与传统分析项目相比,大数据分析项目缺乏具体要求和项目目标,这使得构建分析流程变得非常具有挑战性。因此,线性创新过程可以作为参考[6]。正如Braganza(2017 年)所描述的那样[7],为了使大数据能够在一个组织中成功地整合和实施,需要清晰且可重复的流程。尽管如此,每个分析计划都不尽相同,并且流程需要一定灵活性。不幸的是,现有研究文献很少将分析过程中的挑战与创新管理的概念结合起来。实际上,将创新管理的概念整合起来可以指导制定数字战略的分析工作,组织的锚定分析单元及其功能,设计分析组合以及基本工作原理(如快速原型设计,构思技术)。

因此,本文将集中讨论组织在实施大数据分析的实践话语和工作中可以从创新管理中学到什么。引入创新过程分析来指导从构思到价值生成的过程。强调在这个过程中以及不同的切入点都面临挑战。因此,本文根据不同行业和领域的经验和见解,为获得成功实施分析解决方案提供建议。

二、大数据和分析

在此,我们将讨论分析价值链的基本角度(图1):数据,基础架构和分析,以及作为驱动程序的业务需求。价值是通过分析特定环境中的数据产生的,问题陈述与推动创新需求、业务需求相关。除了在进行数据和项目分析方面具有专业知识之外,这个过程还需要一个工作基础设施,尤其是当分析的数据量,生成速度或各种数据超过特定限制时。下面详细地描述三个技术角度。

图1 数据、基础架构、分析和业务需求的框架

(一)数据

大数据通常以数据量,速度(数据生成速度)和各种数据类型的多样性来定义[8-9]。大数据描述了传统数据管理技术难以处理的大小的数据收集。虽然大数据的许多定义集中在涉及可用数据规模的数量方面,但大数据特别带来了异构格式和广泛的可能数据源。示例是结构化数字数据或非结构化数据,如文本、图像或视频。这种多样性和广泛的数据来源提供了许多创造见解的机会,而且数据创建的速度能够快速了解正在进行的开发。

近期的技术发展(例如云计算,大数据架构)使数据能够被大规模地分析和存储。对于许多(新)类型的数据,其确切的商业价值目前尚不清楚,需要进行系统探索。可用的数据通常是混乱的,甚至在清理时也可能太复杂而难以理解,即使是专业数据科学家也伤脑筋。当然,数据的贡献是特定于上下文的,并且在业务案例和应用程序中各不相同。一个关键挑战是确定最符合业务需求的数据。

(二)分析

数据科学关注数据中的知识生成。数据科学以不同的定量方法探索数据集[10-11]。不同学科(如统计学、经济学或计算机科学)的方法可以用来识别模式、影响因素或依赖关系[12]。与商业智能相比,分析不仅是描述性分析(基于SQL),而且通常具有预测性组件。应用哪种方法取决于具体案例[13]。如分析数据受到公司内部政策以及各国法律限制。数据质量和可靠性是进一步的问题。数据理解和领域知识是分析过程中的关键先决条件[14],特别是在进行模型假设时。关于数据分析,组织主要有以下机会:

内部数据的改进分析:如通过附加数字预测增强基于专家的计划方法。这些方法建立在商业智能系统等现有数据库基础上,并为公司内部流程提供新见解。

数据集的新组合提供了新的见解,例如利用组合传感器数据和用户配置文件。

打开新的或(迄今为止)未使用的数据源,如网站公开数据以确定产生新见解的潜力。但是上下文或应用程序是使用数据所必需的。比如用于市场观察的社交媒体数据[15]。然而,分析的核心是解决指导性问题,并讨论本文后面的业务需求、数据源和分析之间的匹配实现。

(三)IT 基础架构

与成功实施分析相关的是IT 基础架构的适应性,以嵌入分析解决方案并整合不同的数据源。IT基础架构的核心层如下:

数据提取层:该层涵盖从源系统到分析环境的数据传输。因此,需要定义工具集和相应过程。传统的提取、转换、加载(ETL)工具和关系数据库与Hadoop/大数据设置相结合,特别是结构较少,数据量较大或流式传输的情况。分析用例建立在从数据仓库到完全非结构化数据的数据上,这挑战了传统架构,并且需要适应性方案。要整合哪些数据源取决于特定的应用程序。

数据价值探索层:根据业务需求和相应用例,对数据进行调查、测试和抽样。根据复杂性和业务问题,开发适当的分析方案。通过使用先进的分析和集成(例如R 或Python 插件)方法,可以对基于联机分析处理(OLAP)模型的业务和探索性分析进行补充或扩展。

数据消费层:根据业务系统需求,进行数据报表展现、数据可视化、即时查询以及数据分析等功能的呈现。例如数据结果的可视化,最终用户无需深入的技术理解即可使用数据或服务(例如用于自助式商业智能)。

现代方法需要适应性强并能够根据不同需求和数据源进行扩展的结构。必须考虑诸如系统性能、成本效率和整体企业基础架构战略等因素。

三、从数据到价值:将理念转化为应用

组织仍然努力使用有意义的数据,但缺乏正确的能力。分析项目中的关键挑战之一是确定业务需求和指导性问题。原则上,不同类型的分析问题出现在组织环境中,从仅缺乏特定功能的精确请求到处理大数据的主要兴趣(如没有自己的基础架构,基于专家的方法)。这种方法意味着分析过程和不同创新路径的不同起点,本文后面将对此进行介绍。

(一)什么是起点?

每个分析计划的起点各不相同[16]。根据上面所提四点,每个分析的“最先进”需要分别评估成熟度:

1.业务需求:从案例到案例,问题描述和范围精度各不相同。在某些情况下,指导分析阶段的主要问题和范围非常精确,对于其他情况下需要在此过程中制定和完善。

2.数据:项目中要使用的数据可以被定义。数据的大小和质量基本上决定了进一步过程的进展。参数可以是结构(即,预处理努力)或数据集的大小(例如,一个CSV文件或大型数据库)。

3.分析:应用哪些方法因案例而异,因此必须进行测试和探索。

4.基础设施:业务部门(如自己的数据仓库、报告系统)或自身(人力)资源和能力的当前(技术)状态是分类请求的另一个重要方面。

参考分析请求的成熟度级别,可以对这四个角度进行不同评级。根据我们的经验,可以区分代表不同成熟度水平的三种情景,见图2。

图2 对分析请求进行三个成熟度级别的分类

(1)在情景1 中,数据分析受到明确要求的激励,如在推出新产品期间的市场观察。需要确定适当的数据源。缺失的数据意味着无法定义精确的分析,也不存在现有的基础设施。需要确定与哪些数据来源相关,哪些问题可以在此基础上解决。然后,应用不同的数据分析方法来产生新的见解。

(2)在情景2 中,数据来源和基础设施明确界定,具体问题需要确定。一种应用是评估迄今为止尚未经过专业分析的特定数据源的贡献,如机器学习。如业务单位有一个内部数据库,考虑新方法,并希望通过添加预测组件来进一步开发商业智能系统。这种情况下,范围比第一种情况更清晰,并且可以立即开始探索性数据分析。

(3)在情景3 中,有一个精确的分析问题需要专业化。第一份草案显示了有希望的结果,并且解决方案可以作为下一步升级,需要制定决策的指南。

这三种情况是分析项目的示例性起点。以下部分描述对创新过程的影响,并概述不同的挑战和障碍。

(二)分析过程

要通过分析取得成功,从数据到价值的过程必须结构化,以便与现有组织相结合。如Braganza(2017)[7]研究了大数据举措中组织资源的管理。他们强调系统化方法和流程对大数据操作的重要性。有关分析过程的相关研究工作侧重于服务设计[17],或专注于分析数据的方法[18]。Braganza(2017)[7]介绍的这一过程过于线性,不能解决数据分析和利益相关者话语的系统复杂性问题。为了解决这些问题,构建分析过程可以与经典的线性创新过程联系起来[19-20]。

为了引导分析过程从构思、范围确定和识别数据集到价值生成,本文引入了一个四阶段过程,以经典创新漏斗为出发点,将这一概念转移到分析的背景下。这个过程分为四个部分:(1)创意概念;(2)概念验证(PoC),以测试这些想法;(3)成功的PoC得到实施和测试;(4)它们成为产品或服务。根据第一个想法或要求,该流程将被初始化,而每个阶段内的想法或项目的数量会减少。每个阶段都有任务以及需要通过的障碍或过滤器,以便在过程链中继续执行。

上面描述的三种情景在成熟度方面的评估是不同的。情景1 处于创意产生的非常早期阶段,需要解决许多未解决的问题。情景2 则更加具体,解决了比情景1 更多的问题。然而,在开展PoC 之前,需要先提出问题。方案3 建立在正在运行的系统上,因此它处于测试和运行阶段(阶段3)。对于每个阶段都会出现不同的挑战。虽然相关工作强调数据相关挑战,如数据采集、清理或聚合[21],但这项工作关注流程挑战。

1.阶段一:创意

定位分析项目始于一个构思阶段。在这里,关键的挑战是收集想法并讨论相关的业务问题[22]。构思思想在发展共同理解、挑战现有假设、定位大数据举措以及确定可通过分析解决的问题方面发挥着重要作用。如设计思维被用作解决问题的系统方法[23],并支持结构化的构思过程。收集业务单位的问题并与分析范围(如技术可行性、输入参数和方法要求)相匹配。构思阶段是迭代的。最初,总体项目目标指导第一轮创意,旨在总结当前业务部门的挑战和需求。这与确定适当的数据集一致。然后,这些创意的可行性必须由专家检查,然后选择创意进行原型设计。

从组织角度来看,所有层级决策者的参与是必须的。高层管理人员需要解决利益冲突并产生紧迫感,中层管理人员需要从日常工作解放专家来进入他们特定的角色,而专业知识的操作专家是详细指导问题的关键,并检查可行性。

择优一个投资组合来选择PoC 阶段考虑的想法。创新组合为判断创意可能产生的影响提供了连贯的基础[24]。他们将想法分为不同的领域并指出优先考虑哪些想法。对于如图3 所示的示例性情况,根据三个类别对可行性(x 轴),价值创造(y 轴)和总体相关性(节点的大小)进行评估和评价。可行性包含诸如数据可用性、访问数据的时间或预期的任务复杂性等方面。价值创造解决了预期的商业价值,并强调预期贡献高的想法[25]。整体相关性被用来强调哪些想法预计会对手头的问题产生更大影响。所以,想法3 具有很高的预期可行性,但创造的价值预计很低。相比之下,想法4和想法8对价值创造的期望很高,因此在下一阶段应该优先考虑。

图3 选择想法的投资组合

图4 分析过程

除了基于投资组合的选择过程之外,想法在第一阶段被过滤,如因为没有可用的数据来解决问题或者访问被拒绝(如内部政策,法律限制),所以必须首先提出数据(如实施额外的传感器)。因此,需要确定适当的数据源,并授予访问权限,以便对业务需求和数据适用性进行可靠而有效地评估。作为一种组织障碍,需要正确地选择专家并将其从日常工作中解放出来,以便他们专心分析项目。在构思过程中,创造力与专注力之间的正确平衡非常重要,并弥合不同知识领域之间的差距以提出恰当的问题。

第一阶段的结果是提出想法和检查问题的数据来源。需要对问题或想法与数据源进行映射。在第一阶段,需要能力强的辅导员来指导整个过程。另外,具有有条不紊的专业知识来检查所考虑的想法的技术可行性以及商业理解也很重要。这些想法和数据只是讨论,没有检查发生。检查在下一步中完成。在这个早期阶段需要澄清的另一个问题是数据安全性和数据保护。每个国家都有单独的法规限制分析。

2.阶段二:概念验证

为了测试这些想法,原型被构建并且PoC 被执行。PoC 是对数据集的第一次检查,以查看是否可以根据可用数据回答提出的问题。图4 描述了这个阶段:根据前一阶段定义的范围,必须授予对数据的访问权限,对数据进行探索和分析,并最终传达结果。

这个阶段二以项目目标或问题描述(业务需求)开始。传统的IT 开发始于需求,而分析通常是以探索的方式开始使用数据集和假设。具体要求在分析过程中生成。因此,PoC 阶段只能从数据开始或数据可用时开始。获取数据或从现有系统中检索数据是PoC 的第一步。在这里,需要检查访问障碍,如法律问题或组织限制。因此,例如根据数据类型(如个人数据、机器数据、市场数据),分析应该符合这些限制。

接下来将探索这些数据,以便更深入地了解。在这里,数据被转换成适合进一步分析的格式。这一步包含数据准备和清理,并进行第一个描述性分析。然后在建模阶段分析数据的模式和依赖关系,以回答提出的问题。同时,测试不同的方法和算法,并在变量选择、模型选择、模型适应和验证的迭代过程中验证结果。最后,交流结果。PoC 首先定位数据潜力,重点在于优势和劣势。可能的结果是不同的建模技术不能提供有效结果,数据质量不允许建模,或者没有足够的数据用于重要的语句。这最终是规划和沟通下一步以及协调进一步行动的基础。

关于结果的呈现,可以使用不同的可视化技术,如Tableau,QlikView 或不同的开源平台等工具。特别是要开发对数据的理解,描述性数据分析是有帮助的。尽管如此,高级分析的许多模型和技术都能提供无法通过直观可视化捕捉的数字。PoC 的持续时间可能只有6—8 周。除了访问必要的数据或从相关数据源提取数据之外,此阶段的关键挑战还包括数据质量、数据所有权和数据理解。更多的障碍是清理数据并将其转换为可处理的格式并应用正确的模型。此外,业务理解对于从数据中获取有价值的见解并实现不仅合理而且与业务相关的结果而言至关重要。另一个问题是缺乏分析经验和实施结果所需的敏捷性差。

3.阶段三和阶段四:操作化

阶段三和阶段四是将PoC 结果集成到专业的IT基础架构中。原型结果需要准备好运行并转化为应用程序。要回答的主要问题是:模型是否可扩展,迄今为止取得的成果是否适用于更大的数据集?操作时必须作出调整,以便由IT 服务组织维护最终的应用程序,而不需要数据科学家的持续支持。并且必须建立基于事件或基于时间的数据流,并与最终应用一起,与遵从性、安全性和数据隐私要求保持一致。另外,事件处理和应用程序变更的测试管理和服务级别协议需要商定,以及产品和组合管理功能,以防工具或应用程序意图承担战略性的长期角色。如障碍包括所需的预算,过于复杂的测试、标准和合规性。而IT 管理的整合和IT 部门的任务分配是另一个问题。这涉及从敏捷的迭代工作模型转换到稳定的操作并扩展分析模型并将其转换为可维护的代码。一般来说,将PoC 原型转换为专业基础设施需要付出巨大的努力。如在运营过程中的进一步障碍是,建立支持和服务管理功能,实现用户群的接受,开发适当的培训概念,以及传递维护、测试和开发应用程序所需的知识。

四、讨论与结论

组织通常面临的挑战在于从大量可用数据集中为价值生成定义策略。本文讨论了如何从数据中检索价值,并介绍了分析项目遵循的系统化流程。首先,描述了创造价值的基本要素:业务需求、数据、基础架构和分析。然后,描述了从构思到市场准备应用程序的过程。根据项目的成熟状态,可以在不同阶段进行输入。描述了这个过程的四个阶段重点和具体障碍。该模型面向分析过程的阶段模型[19],旨在构建和系统化探索性分析方法。

分析和大数据不仅是一项技术挑战,而且会影响整个组织及其流程。为了成功进行分析,不应该花费更多的精力去构建复杂的模型,而是将结果集成到现有(技术)基础架构和流程中。对于专业化的原型,结果必须被接受和理解,并且业务部门应该持续参与该过程。此外,专业人员和技能是必要的:不仅需要具备机器学习和统计建模能力的数据科学家(Mikalef et al.,2017),还需要IT 专家和业务理解。此外,如果将分析整合到技能和能力的总体框架中,并且分析计划嵌入到业务应用程序中,则只能从数据生成价值。

在构建分析功能时,本文结果可以转移到具有不同规模和经验水平的组织。本工作描述的过程通过分析项目来指导,并说明与已知IT 管理方法的区别。本文主要讨论分析创新的含义,概述了一种数据驱动型创新的方法,这项工作有助于数字创新管理的演变[26]。未来工作应该检查组织分析的决策。这涵盖角色和责任、团队结构;主要分析团队或组织中分析单位的组织嵌入等方面。这项工作的结果应该与分析能力的研究联系起来,这些分析能力通常按照管理、技术和人力能力的维度进行分类[4][27]。在整个过程中,正如本文所介绍的那样,分析的理解变得更加清晰。因此,应该检查它对组织学习、技能开发、建立共识和构建分析能力的贡献。根据Davenport 和Harris(2007)的说法[5],这种分析学习过程需要大约18—36 个月的时间。从技术角度来看,特别是将分析解决方案整合到整个IT 环境中,原型的专业化和既定流程的变化仍然充满挑战。

猜你喜欢
数据源应用程序阶段
关于基础教育阶段实验教学的几点看法
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
删除Win10中自带的应用程序
谷歌禁止加密货币应用程序
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法
大热的O2O三个阶段,你在哪?
两岸婚恋迈入全新阶段
分布式异构数据源标准化查询设计与实现