王秉
关键词: 数据; 智能; 数据智能; 大数据; 人工智能
DOI:10.3969 / j.issn.1008-0821.2023.04.002
〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 04-0011-06
近年来, 随着大数据和人工智能行业的快速发展及其广泛融合应用, 如何真正从数据中形成智能从而使数据在实际应用中最大释放数据价值, 成为了大数据和人工智能领域的重要研究和实践课题[1] 。在此背景下, 数据智能概念由此诞生, 并已发展成为学术界和实践界的一个热词[1-3] 。与大数据和人工智能概念相比, 数据智能是一个更为年轻的新概念[1] 。基础不牢, 地动山摇。从研究逻辑角度讲, 准确定义数据智能和明确其基本内涵是开展数据智能研究与实践的逻辑起点和理论根基所在。但令人遗憾的是, 由于数据智能是一个新概念, 业界对其使用较为随意, 多停留在简单应用探讨层面, 对其理解和认识尚较为肤浅或片面, 缺乏对数据智能的基本理论问题的解释, 特别是缺乏对数据智能的准确定义和基本内涵的深度诠释。可见, 亟待明确数据智能的定义和基本内涵。鉴于此, 本文在梳理现有数据智能概念的典型认识的基础上, 提取关于数据智能概念的共性认识, 并提出数据智能的定义。在此基础上, 提出数据智能的构成要素, 并解释数据智能的多重含义。
1数据智能概念的典型认识梳理
目前, 尽管尚缺乏对数据智能的准确和统一定义, 但已有关于数据智能概念的部分界定。本文整理归纳现有的具有代表性的关于数据智能概念的认识, 具体如下。
1) Zhang L[2] 指出, 数据智能是指数据驱动的分析和相关应用, 这意味着数据类型、如何收集和处理数据以及如何使用数据都是数据智能的主要内容。
2) 根据百度百科[3] , 数据智能是指基于大数据引擎, 通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘, 提取数据中所包含的有价值的信息和知识, 使数据具有智能, 并通过建立模型寻求现有问题的解决方案以及实现预测等。
3) 根据2018 年10 月TalkingData 联合中关村大数据产业联盟、中国国际大数据大会组委会在第五届中国国际大数据大会上发布的《2018 年数据智能生态报告》[1] , 所谓数据智能, 是指在机器学习、分布式计算等技术发展的基础上, 数据逐渐呈现出高维度、高阶态和异构性的形式, 能够对海量数据进行分析、处理和挖掘, 并且通过建模与工程等方式来解决实际预测问题, 最终实现决策的行动。
4) 根据MBA 智库·百科[4] , 数据智能是一个跨学科的研究领域, 从数据中提炼、挖掘和获取具有揭示性和可操作性的信息, 从而为人们在基于数据制定决策或执行任务时提供有效的智能支持。
5) 基于管理的视角, 吴俊杰等[5] 认为, 数据智能是通过大规模数据挖掘、机器学习和深度学习等预测性分析技术, 对现实应用场景的内外部多源异质大数据进行处理和分析, 从中提取有价值的信息或知识, 并用于提升复杂实践活动中的管理与决策水平。
6) 詹青龙等[6] 指出, 数据智能是利用分析工具和数据挖掘等智能技术对收集的海量数据, 加以智能化分析与处理, 将数据转化成可操作的信息,发现洞见和趋势, 从而改进决策与管理的一种方法。
7) 根据Media Update(它是一份国际化的在线出版物, 专门报道与南非媒体、营销、公共关系和社交媒体行业相关的最新新闻和信息)从企业角度对数据智能的理解[7] , 数据智能是指通过收集与分析海量数据用以发现数据所蕴含的趋向和意义的过程, 这些洞见有助于企业识别市场中的机会。
8) 根据Sisense(它是一个知名的国际化商业智能平台)对数据智能的理解[8] , 数据智能是使用方为了更好地理解所收集的信息以改进其服务或投资而使用的所有数据分析工具和方法。
9) 根据首届数据智能与安全国际会议(Inter?national Conference on Data Intelligence and Security,ICDIS)的会议介绍信息[9] , 数据智能是指运用各种人工智能技术处理数据, 它特別强调数据的使用和与数据的交互, 它的目标是将数据转化为信息,然后再将信息转化为知识。
10) Wu B 等[10] 指出, 数据智能是一个跨学科研究领域, 结合了大规模数据处理、数据挖掘、机器学习、人机交互、可视化和其他技术, 它从数据中抽象、挖掘和获取具有揭示性和可操作性的信息, 从而为人们基于数据做出决策或执行任务提供有效的智能支持。
11) Wu D D[11] 指出, 数据智能是对各种形式的数据进行分析, 以便公司可以使用这些数据来扩展其服务或投资。
12) 刘昕等[12] 提出数据智能就是平行数据。所谓平行数据, 是指智能数据集, 它由实际数据与虚拟数据构成, 根据实际数据经计算实验产生虚拟大数据, 虚拟大数据由相关问题期望的解决方案引导, 聚焦生成小数据、小知识, 该小数据具有智能,直接面向解决实际问题。
2数据智能概念的共性认识提取及数据智能定义的提出
通过分析归纳上述关于数据智能概念的现有理解, 可总结提出关于数据智能概念的一些共性认识, 这可为提出数据智能的定义提供基本的逻辑思路和依据。概括看, 现有的关于数据智能概念的典型认识的共性特征主要体现在对数据智能的生成路径、逻辑起点、基本指向、价值生成与释放本质四大方面。
1) 数据智能的生成路径基本遵循“从数据中找到关键有用信息, 从而使数据具有智能”。其中, 数据是符号的集合, 是表达客观事实的未经加工的原始材料, 可回答“有什么”, 但它本身是没用的[13-15] 。信息是被赋予意义和目标的数据, 对于信息用户而言, 旨在找到对其有用的关键信息(一般指对决策有用的信息, 它包括信息链中的知识和情报[13-14] ), 即在对数据进行综合、分析和提炼的基础上获得判断、理解与预测, 可回答“是什么(如谁、何时、何地与多少等问题)” “为什么” 与“怎么办”[13-15] 。智能是合理地运用关键有用信息并进行正确判断和最佳决策的能力。数据智能概念的现有认识基本以数据为基础, 按照由数据到关键有用信息的转换, 以期从数据中分析、提炼、发掘和获得具有揭示性与可操作性的信息, 把大量的杂乱数据提取为少量的关键信息, 把无用的数据变成有用的信息。同时, 数据智能是关键有用信息与智能的集合体, 二者相辅相成。可见, 得到关键有用信息是数据智能的初始目标, 实现智能(即“使关键有用信息在决策中释放价值”)是数据智能的终极目标[1] 。
2) 数据智能的逻辑起点是数据。根据上述对数据智能概念的各种认识, 数据智能离不开数据这一底座, 数据是生产数据智能的基础原料。形象地讲, 若将数据智能视为“矿产品”, 那么数据就是“原矿” (需说明的是, 数据和矿产的性质存在差异, 如矿产属于不可再生资源, 而数据属于可再生资源)。从数据的角度看, 数据智能的影响因素主要是数据的质和量两大方面。其中, 借鉴矿石品位(矿石品位指单位体积或单位重量矿石中有用组分或有用矿物的含量)的概念, 数据的质可用数据品位来衡量。所谓数据品位, 是指单位数量的数据中有用信息(即“数据智能”)的含量, 即数据品位(用百分比表示)= 数据智能/ 数据总量。数据品位是衡量数据经济价值的主要指标, 它直接影响数据分析挖掘效率。数据品位的主要影响因素包括数据的准确性、多样性、及时性与应用场景范畴等, 提升数据品位的关键在于降低数据冗余(它是数据总量与数据智能的差值)。需注意的是, 数据品位概念是相对的, 随着人类对数据需求的不断增长和数据分析挖掘技术条件的不断改善, 以前低品位的相对无用数据也可成为高品位的有用数据。同时, 数据的量是数据智能的基础性影响因素, 拥有丰富的数据资源是挖掘和获取数据智能的基础。在当今大数据时代, 数据的量呈爆发式增长, 数据智能获取起决定性作用的往往并非是数据量, 而是具有高品位的数据。例如, 目前, 由于很多组织的数据管理和分析挖掘能力不足, 导致它们已陷入“有用的数据智能缺失, 无用的数据泛滥” 的困境。
3) 数据智能的基本指向是支持和服务现实场景中的管理活动。数据智能的重要目的是从数据中寻找对管理有用的规律信息, 找到能指导管理实践的原则和方法, 这是数据产生智能的主要途径[5-6] 。也就是说, 数据智能的基本指向是为管理活动提供有价值的信息支持和服务, 特别是获得科学准确的预测与决策, 它是直接针对管理问题和降低管理活动中的不确定的信息, 从而提升管理和决策水平[5-6] 。与一般的数据分析挖掘相比, 数据智能的核心目的是支持预测、决策与执行等管理活动, 而非分析挖掘或者可视化展示。可见, 数据智能以数据为输入, 以预测结果的产生、决策的制定和管理实务为输出。也就是说, 数据智能一定是为了给管理人员提供洞察、预测、预警和决策等管理业务支持和服务, 让数据在管理中发挥价值。因此, 数据分析挖掘需面向现实场景和问题, 使用数据抽象出现实场景和问题之中的隐性关系, 并形成关系发展的洞察、预测与预警等, 进而指导决策和执行活动。因而, 数据智能的初始产品的呈现载体是洞察、预测与预警等, 它们是具有可行动性, 是可以转化为数据智能的最终产品(即决策)的。简言之, 数据智能面向现实场景中的管理, 是实实在在能够帮助和支持解决现实场景中实际问题的。可见, 基于数据智能的管理结果就是衡量数据智能价值的直接指标。需注意的是, 实践性是管理的本质属性, 管理需面向具体现实场景才能开展并产生价值, 同样,支持和服务管理的数据智能的产生和价值发挥亦需依赖于某一应用场景, 否则, 数据智能本身是泛化的, 是难以与现实问题相互联系和对应的, 是难以在现实管理中应用落地和发挥作用的。
4) 数据智能的价值生成及释放本质是挖掘和释放数据的价值。数据智能源于数据, 它注重和强调如何从海量、结构类型多样的数据中获取、处理、挖掘、分析与提取真实且有价值的辅助管理活动的依据, 即对管理有用的信息资源。可见, 数据智能的价值源于数据本身的价值, 从数据智能活动过程角度看, 数据智能本质是一个不断挖掘和释放数据的价值的过程。换言之, 数据智能旨在激活“沉睡的数据”, 释放数据服务管理和提升管理水平的价值, 从而呈现数据的巨大力量。因此, 若想更多地挖掘和释放数据的价值, 就需从数据中获取更多的数据智能。换言之, 从数据中获取的数据智能的量与数据价值的挖掘和释放量成正相关关系。这里, 借鉴一般的冰山模型, 构建数据冰山模型,如图1 所示。根据图1, 水面上的“冰山” 部分属于“看得见” 的数据智能, 水面下的“冰山” 部分属于隐藏着的大量“看不见” 的数据。根据数据冰山模型, 提出在数据中获得更多数据智能的3种基本策略。一是“冰山” 上浮策略, 通过扩大数据开放范围, 扩大数据的应用和服务场景; 二是“水面” 下移策略, 运用相关技术过滤和清晰冗余数据与噪声数据, 提高数据品位; 三是“浮冰”融化策略, 主要通过提升数据分析挖掘技术水平和能力来实现。
综上所述, 提出具有普适性和概括性的数据智能的定义。所谓数据智能, 是指针对某一现实场景从数据中分析提取对管理有用的信息, 并用于服务和支持管理的能力。显然, 该定义完全符合上文提出的数据智能的生成路径、逻辑起点、基本指向,以及价值生成与释放本质。
3数据智能的内涵
3.1数据智能的构成要素
根据上述数据智能的定义, 可提出构成数据智能的四大核心要素, 即场景、数据、分析与管理。关于数据智能的四大要素的含义, 上文已穿插做详细解释, 这里仅进行扼要解释。其中, 场景指数据智能的应用或服务的场景, 场景来自实际的管理业务和情境, 应以管理需求为中心, 根据管理需求,将各个管理需求点场景化, 即做好数据智能应用的场景化。数据是指表达场景事实的符号集合, 包括来自场景内部和外部的数据, 它旨在以数字化为基础, 把场景数据化。分析是指数据分析, 它的主要手段和工具是数据模型与算法。所谓数据模型, 是指将实际场景的管理问题转换为数学问题, 数据智能分析服务平台一般具有一个或多个成熟的数据模型, 它们可根据不同场景快速配置和适用。所谓算法, 是指求解模型的方法, 它可根据管理结果反馈不断进行优化迭代, 即“算法的自我进化”。管理是数据智能的应用和服务目的, 即改进和提升管理水平。
数据智能的四大核心要素之间相互影响, 数据是数据智能生产和应用的基础原料, 场景是数据智能生产和应用的载体, 分析是数据智能生产的路径和手段, 管理(支持、服务和改进管理)是数据智能生产和应用的目标。基于此, 构建数据智能要素的四面體模型, 如图2所示。
3.2数据智能的多重含义
根据数据智能的定义, 本质上, 数据智能属于一个总括性的术语, 具有多重含义。换言之, 可从不同维度出发回答“什么是数据智能” 这一问题。这里, 分别从思维、产品、过程、能力与工具技术的角度出发, 对数据智能的含义进行多维度解析。需说明的是, 这里分析数据智能的含义的各个维度是相互并列的关系。
1) 数据智能是一种思维: 数据智能是一种新思维。第一, 数据智能是一种数据化思维。在数据智能这一概念未诞生之前, 运用数据并不擅长解决需要人类智能来解决的问题, 但有了数据智能这一概念后只要换个思维便可解决这一问题, 其核心就是变人类智能问题为数据智能问题, 即把诸多智能型的问题转化成数据智能的获取和利用问题。第二,数据智能是一种数据智能驱动思维。数据智能概念的提出, 实现了数据驱动思维的升级, 即数据驱动的本质是数据智能的驱动。第三, 数据智能是一种精准思维, 它旨在找到对管理关键有用信息, 从而支撑实现精准管理。
2) 数据智能是一种产品: 数据智能的主要属性是价值性和可用性, 即数据智能是一种具有价值的可用产品。数据智能作为一种产品, 是根据某一现实场景的管理需求生产出的可操作输出, 是数据经分析处理生产出的产品, 它对管理具有直接或潜在的洞察和意义, 可识别出管理的机会、挑战、优势与劣势, 并提出相应的管理新见解和新对策[5-6] 。简言之, 数据智能是经过处理的数据产物, 是针对现实问题的预测结果和解决方案。
在现实中, 数据智能产品的表现形式有数据可视化产品、分类聚类产品、推荐引擎产品、指标体系产品与自动化运维产品等。数据智能产品是数据智能的媒介和呈现载体[1] , 好的数据智能产品至少应具备4 个基本特征, 即满足管理的需求、好的品质(如质量、功能与服务等)、好的体验和经济实惠。数据智能作为一种产品, 表明数据智能具有显著的经济价值。同时, 要提升数据智能产品的经济价值, 还需考虑数据智能产品的成本(包括生产成本与使用成本), 合理的成本是生产和使用数据智能的基本考量之一。
3) 数据智能是一种过程: 数据智能涉及一系列环节和活动, 可将它视为一种过程。就这一过程而言, 它具有多维含义。第一, 从信息链角度看,数据智能是通过数据收集和分析挖掘获取可操作性和有用的信息的过程, 即它是使数据具有智能的过程。第二, 从管理角度看, 数据智能是管理场景和问题数据化的过程, 是运用数据智能驱动管理过程。第三, 从工作业务角度看, 数据智能是数据工作业务与管理工作业务不断实现有机融合的过程。第四, 从投入产出角度看, 数据智能是利用数据输入实现预期管理成效和结果的过程。概括看, 数据智能作为一种过程, 它是上述4 种过程的集合体。
4) 数据智能是一种能力: 从数据角度看, 数据智能是一种挖掘和释放数据的价值的能力, 是一种数据分析挖掘能力(即算力)。从管理角度看,数据智能是一种分析和解决现实管理问题的能力(如对管理的理解和洞察), 是一种基于数据做出预测、决策或执行管理任务的能力。综合数据和管理角度看, 数据智能是通过梳理数字化要素, 找到对管理有用的关键信息, 合理地应用关键有用信息进行正确判断决策的能力, 并结合现实场景与实际管理要素使数据的价值落地生效。
同时, 数据智能作为智能的一种, 它具备智能所具备的一般能力, 主要包括感知能力、记忆和思维能力、学习和自适应能力, 以及决策能力[16] 。一是数据智能具有感知能力, 即具有全周期、全领域、全时空的状态感知能力, 这是产生数据智能的前提与必要条件; 二是数据智能具有记忆和思维能力,即它可存储感知到的数据并可借助思维(数据模型与算法)通过数据分析挖掘和关联产生关键有用信息;三是数据智能具有学习和自适应能力, 即通过与管理场景的相互作用和反馈, 持续感知、同步分析、自我学习, 并产生新的数据智能, 使自身能够适应环境变化; 四是数据智能具有行为决策能力, 即对外界的刺激作出反应, 实时为管理活动提供相应的信息支持和服务, 实现自动决策与精准执行。
5) 数据智能是一种工具技术: 首先, 数据智能是一种数据驱动的智能管理工具与技术, 它可将数据转化为支持和服务管理的关键有用信息, 可帮助显著提高决策水平与管理能力。其次, 数据智能是使用方为了有效地理解和使用所收集的数据以改进其管理而使用的所有数据智能分析工具和技术。数据智能分析工具和技术是大数据技术工具与人工智能技术工具的融合, 即主要利用人工智能的算法和技术对大数据进行挖掘分析[1] 。数据智能分析工具和技术往往由一系列大数据和人工智能技术组成, 主要包括大规模数据处理、数据挖掘、机器学习、人机交互、可视化和其他技术工具。在现实中, 数据智能技术工具通常集中在一个技术工具平台(即数据智能平台), 它的功能是收集、存储和调用数据库(面向特定场景和管理问题的数据集)、数据模型与算法等[1] 。
4结语
数据智能作为近年来学术界和实践界的一个火热的新概念, 是大数据和人工智能的深度融合与升华的新产物, 是大数据和人工智能领域的重大前沿课题。令人非常遗憾的是, 尽管近年来数据智能概念已得到高度关注, 但研究者和实践者对数据智能的基本理论问题的关注与重视不足, 导致数据智能研究与实践工作缺乏理论基础, 且有误入歧途的巨大风险。学术界作为理论研究的主力军, 亟待回答数据智能的基本理论问题, 对夯实数据智能理论基础做出应有的担当和贡献。针对数据智能的最基本理论问题(即何为数据智能), 本文在梳理现有的数据智能概念的相关认识的基础上, 提取关于数据智能概念的共性认识, 提出数据智能的定义, 并基于此阐释数据智能的内涵, 以期夯实数据智能的理论根基, 及时弥补目前数据智能基础理论研究所存在的缺失。
笔者在涉猎数智和安全的交叉研究时, 数据智能作为一个基础性概念, 愈发认识到了明确数据智能的基本定义和内涵的紧迫性与重要性。本文是笔者通过大量文献、实践调研总结和长时间思考撰写完成的, 相信本文探讨是数据智能相关研究者和实践者所期待的内容, 可为当今如火如荼的数据智能研究与实践工作助一臂之力。当然, 数据智能是一个新概念, 其内涵和外延是不断发展变化的, 且不同学科领域或行业背景对其理解存在差异, 本文仅算是数据智能的定义与内涵方面的一篇抛砖引玉之作, 部分观点或认识尚不够深入成熟, 恳请各位读者和同仁进行批评完善和交流讨论, 共同为推动数据智能理论研究和实践应用贡献智慧。当然, 需明确指出的是, 实际上, 数据智能与数智技术、数智赋能、数智时代、数智环境等诸多概念密切相关,若是将数据智能概念展开分析极为复杂, 不是一篇研究能够解决的问题。正因如此, 考虑到研究的针对性和深度及限于篇幅, 本文不涉及对数据智能与上述相关概念的联系讨论, 仅单纯从数据智能这一术语本身出发去解读数据智能概念, 数据智能与上述相关概念的联系研究希望相关同仁或筆者有机会将另外撰文专门讨论。