郭朝晖
(优也信息科技有限公司,上海 201209)
随着数字化技术的推进,我们逐步走入了工业大数据时代。对这个概念,人们往往既熟悉又陌生,既对未来满怀期待,又对现实充满困惑。
全文结构安排如下。第一部分讨论工业大数据的背景与意义,必须跳出大数据技术本身,从智能化的视野看问题,才能看到完整的意义。第二部分阐述工业大数据的概念,不仅要看到工业大数据“新”在何处,更要与推进智能化的意义和工业的特点相结合。第三部分分析工业大数据的优势,也就是通过工业大数据促进知识获取、推动智能化。第四部分采用工业大数据推进业务创新时的定位与策略。第五部分阐述工业大数据的价值创造与企业管理之间的关系。
很多工业大数据的文章介绍的是数据分析。但是,如果只是从这个视角看问题,就会是管中窥豹,看不到它对人类未来的意义和价值。
摩尔定律延续了50年,成就了今天的大数据。但数据量本身并没有多大的意义,它的作用在于推动人类走向智能社会,改变着人类认识世界、改造世界的方式[1-4],甚至把人类带入新的文明阶段[5]。
从数据、信息、知识、智慧(data、information、knowledge、wisdom,DIKW)体系理论中,我们可以看到从数据到智能的逻辑关系。这个理论的基本思想是:数据之间的关联形成信息,信息中的关联蕴含知识,知识的综合运用形成智慧。可以说,大数据是走向智能社会的基础。
智能制造成为当今的热点,体现了这个理论的预见性。目前阶段,汉语中的智能制造一般对应英文中的Smart Manufacture。它强调的是通过信息感知、基于知识的决策和执行过程的统一,实现对系统内外部变化的快速响应。智能制造的主流流派,几乎都体现这种思想[6-9]。在笔者看来,智能的本质就是感知、决策、执行的统一[10]。
人工智能(artificail intelligent,AI)是近期的科技热点之一。大数据对推动人工智能起到了关键作用。但是,当前主流的智能制造一般不能理解为人工智能技术在工业界的应用(即intelligent manufacture)。智能制造目前的重点是感知和处理信息能力的提高,未必涉及到特殊的认知过程或复杂的逻辑推理,因此未必与AI技术相关。比如,有些所谓的“智能家电”,只不过是有了远程遥控能力。从这个角度理解智能制造,能够看到的机会要比AI的应用广泛得多[6]、也更容易落地。
智能决策的逻辑可能很简单,但却能让决策的精确性上升,实时性更强、成本也更低,让智能化具有真正的价值。智能制造的时代机会首先应该归结于信息获取和传播能力的增强,而不是某些学术理论的产生。其中,互联网能够成为工业智能化的重要推手,就是因为它能促进信息感知能力的提升。
理解智能制造的关键之一是理解人机关系。通用电气的工业互联网白皮书[8],强调了重构人和机器的边界——在数字化、网络化的背景下,重新思考人和机器如何分工、促进业务活动的创新。从这个角度看,“智能化”的操作性很好,在信息获取、知识获取、决策、执行等环节都可以有新的人机界面和业务模式。比如,寻找信息或知识时,可以让机器自动去找,也可以人机协同去找。利用知识或信息时,可以是机器自动地应用,也可以让机器处理后推送给人类[11]。只要能够充分发挥信息、通信和技术 (information communication technology,ICT),ICT带来的优势就是值得鼓励的。
在业务创新方面,需要有丰富的想象力。既不要将大数据工作局限于从数据中发现知识,也不要将智能化理解为机器代替人类工作或决策。总之,要避免因眼光的局限而漠视创新的机会。
用数据帮助人类决策的意义非常巨大:不仅可以提高决策质量,还能借助互联网让决策者远离现场,让决策的效率大大提升。这不仅能促进人类智力的共享,更能有效地提升企业的管理能力。而管理能力提升带来的价值,是不可估量的。总之,工业的智能制造是ICT技术发展带来的机遇。
智能决策可能不需要复杂的逻辑,但却一定需要专业化的知识。大数据的本质优势是其有利于知识和信息的获取。从这个逻辑,我们可以看到工业大数据对于工业的价值。为此,应该从知识的角度,讨论工业大数据的特点和要求。
事实上,大数据在获取知识和信息获取方面具有天然的优势:人类的一切知识来源于历史,大数据有条件更加完整全面地记录历史。我们需要从这个方面去分析大数据在知识产生和应用方面的特点[11]。
在互联网领域,“大数据”一般指PT级别以上的数据。这个定义的依据是:数据规模大到一定程度,针对存储、检索等过程的传统处理方法就困难了。人们经常提到大数据具有价值(value)、大量(volume)、高速(velocity)、多样(variety)“4V”特征,就是针对数据处理困难提出的。这些特征,让大数据区别于以往。
在工业界,数据的结构和相互关系特别复杂。在数据规模远远不到PT级别时,很多数据处理方法就不合适了。针对这种情况,国外有学者提出,大数据的概念不必纠结于数据规模。凡是遇到传统数据分析方法无效的数据集合,都可称为“大数据”。根据这种思想,文献[12]将工业大数据定义为“工业数据的总和”。
然而,对应用大数据的企业来讲,人们关心的是大数据能为企业带来什么价值,而不是数据处理时遇到什么困难。所以,我们需要换个角度理解大数据。有人指出:在大数据时代,研究的是相关关系而非因果关系,简单算法胜过复杂算法[2-4]。从这个角度我们可以看到:大数据时代更容易获得知识或者模型。这个角度对企业是有吸引力的。
然而,对于这种说法,工业界却传出了不同的声音。工业界对分析结果的可靠性要求往往很高。大数据必须能够帮助人们获得可靠的信息或者知识。仅凭相关性是不够的,而是必须有因果性的支撑。
事实上,工业对象或过程往往可以看成复杂的系统。要素众多、控制回路众多、相互关系复杂。这时,相关性与因果性往往并不等价、甚至趋势相反。
为此,在分析工业数据时,肤浅和片面的分析往往是有害的。为避免这种现象,数据本身必须准确记录系统中诸要素的关联关系,完整地记录系统的状态和运行轨迹。例如,进行产品质量分析时,需要把各个生产工序中的人员、物料、工艺、设备、质量等信息与对应的产品关联起来,并记录准确的时间参数,以便追溯事件之间的因果关系。要做到这一点,自然会对数据的采集和存储能力产生较高的要求。
过去,由于数据存储成本高,企业往往只能挑重要的记录、不得不丢失一些数据。由于网络的应用不普及,数据的记录往往是碎片化的。由于这方面的原因,数据的完整性往往不够,导致数据的分析价值不大。在大数据时代,数据采集和记录的完整性、实时性显著加强;在推进智能制造的过程中,信息集成的能力大大加强,也为数据质量和数量的提升创造了很好的条件。这应该是工业进入大数据时代区别于以往的一个重要特征。
DIKW体系启发我们:大数据的划时代意义在于促进知识的获取。本文在参照有关观点的基础上[3-4],将工业大数据的相关优势归结为以下三个方面。
第一个优势是“不纠结于因果”。本文的这种提法区别于互联网领域的“是相关,不是因果”,以及工业工程师强调的“必须是因果”。其具体含义是:从大数据中提炼的工业知识,要以因果关系存在为基础;但应用知识时,不必按照科学机理的逻辑去计算。这个逻辑并不奇怪:工业界常用的试验结果符合因果关系,但试验的具体数值却不是按照因果逻辑计算得到的。同样,通过规范数据分析逻辑,可以让工业大数据像“试验数据”一样有用。“不纠结于因果”让知识获取变得简单,也能让知识获取的范畴拓展到“感性知识”和“经验知识”。
第二个优势是“样本=全体”。具有这个优势时,当前发生的问题,可以从历史中找到答案,只要找到并模仿过去成功的做法就可以了,而不必建立复杂的模型。故而,大数据背景下,简单的算法可以解决复杂的问题。笔者认为,从应用的角度看,大数据的优势不在“大”,而在“全”。“大”会增加计算机处理的复杂性,而“全”则保证了知识的存在性。
第三个优势是“混杂性”。如前所述,可靠性是工业界追求的一个重要目标。具体到建模过程中,就是对“泛化性”的要求高。数据的“混杂性”强时,可以找到多个角度的印证逻辑,提高分析结果的可靠性,也为“不纠结于因果”提供了条件。当前,做到这一点的前提,是前面提到的数据完整性。
由此可见,以上三个优势都体现在知识获取。而这个优势的价值,又进一步体现在对智能化的推动。然而,大数据的这些优势并不是天生存在,而是要人去创造。
“世界上没有两片完全一样的叶子”。世界上每个具体问题都是独特的。谈到“样本=全体”时,必然涉及到个性与共性的关系。所以,要借鉴过往的经验,前提是要进行抽象、归纳、总结。但这往往是人类才能做的事情,至少需要人类告诉计算机怎么做。从这个角度讲,大数据的应用也需要人机界面的创新。
大数据记录的数据毕竟属于过去,未来可能是不同的。具体应用时,不能过度依赖于“样本=全体”的假设。在可靠度要求较高的场景,业务系统有后备的办法来应对新问题。总之,要发挥大数据的优势,又要避免可能带来的风险。
再如“不纠结于因果”的前提是能够保证因果。但是,单凭数据的分析结果是无法保证因果的。因果关系一般只能是具有专业知识的人用自己的领域知识去保证。
另外,大量工业数据常常来自个别的“工作点”附近。数据量虽然很大,但相似度大、信息含量低而噪声干扰相对大。要解决这个问题,不仅要综合分析各个工作点的特点,而且还要把生产数据和试验数据结合起来,而不局限于生产数据本身。
从企业的角度看,大数据重要的用途是促进企业的业务创新[13]。为此,需要思考大数据技术与业务对接的问题和方法。
建立大数据系统时,其功能定位往往与传统的信息或控制系统有所不同。在过去的系统中,数据是用来支撑基本的业务活动的。业务活动结束后,数据也就基本没用了。而大数据往往是在产生数据的相关业务场景结束之后才被使用的。故而有人称之为“二次应用”。
二次应用当然也要服务于现实的业务。但是,二次应用一般不是业务运行所必须的,而是为了让业务做得更好——可以发现过去业务中的问题和缺陷,也可以从过去的业务中找到好的标杆,还可以从过去的业务中发现规律、进行进一步的优化。所以,大数据与“优化”工作有着不解之缘,能让优化成为一种常态。
很多文章只强调从大数据中发现信息或知识。事实上,大数据还可以用来直接承载知识本身。换句话说:有些知识的承载也需要大数据才能做到。
复杂产品的设计数据、指导工作的操作动画、设备的标准状态等都可能需要很大的数据量来存储和处理,都需要大数据技术。例如,有家广告设计企业,为了处理产品的设计数据,每天用电量就高达10万元。用大数据承载这样的知识,便于知识的重复使用,进而促进业务活动的创新和再造。
大数据技术常被用来进行业务的创新。这时会遇到一个矛盾:业务创新的逻辑是“先做成、后做好”,然而,前面强调二次应用,指的是大数据主要用于“做好”的优化阶段。为了解决这个矛盾,新的业务逻辑必须提前考虑清楚,必须考虑大数据条件不成熟时的托底办法,逐步过度到“做好”的阶段。当然,理想的情况是:原有业务的需求升级,自然地将数据处理技术推进到大数据阶段。石家庄的天远公司就是这样。
另外,所谓的“做好”包括多个方面:质量更好、速度更快、成本更优,而不仅仅是决策质量更好。比如,知识和信息的重用,就可帮助人们做得更快、成本更低。不要一味地强调“决策质量更优”。如果仅仅局限于优化决策质量,就可能会失去很多创新机会。
理解了智能制造和大数据的原理和意义,具体应用中也会遭遇各种困惑。典型的困惑往往是如何为企业创造价值。任何技术都是需要成本的,很多技术带来的价值不足以抵消成本的付出。只有将技术应用在合适的场景、解决合适的问题,经济性才会好。所以,人们在技术经济性的困惑,本质上就是找不到合适的场景。
经过笔者的调查,通过智能化、大数据的手段提升企业的管理水平,价值潜力是非常巨大的。管理不当造成的损失,一般占到企业成本的10%~20%。这些就是管理水平提升的潜力所在。在我国,管理水平低常常是制约企业产品质量提升和技术发展的瓶颈。
恩格斯说:“何一门科学的真正完善,在于数学工具的广泛应用。”换个角度看:如果企业的管理不能完善到一定的程度,数学的用处就不会太大。所以,并非所有的企业和部门都适合推进大数据,选择用户和场景是非常重要的。
要对管理进行“优化”,就要找到管理中的漏洞和不足。但是,管理漏洞往往是“隐藏的”。所以,我们需要进一步能分析:什么原因导致这些问题被隐藏起来。在笔者看来,问题隐藏的原因大体上可以分成以下三类。
①没有量化的数据、更不能实时地得到数据。
②问题涉及到多个部门,信息没有集成起来。
③涉及到局部利益或责任,有意无意地掩盖问题。
ICT的机遇在于解决这些问题、实现透明化,以提高管理水平。具体地说,广泛地推动数字化,可以帮助人们解决第一类问题;推进互联网的应用,可以解决第二类问题;用数字化实现业务过程和价值损失的透明化,可以用来解决第三类问题。
解决这些问题时可能涉及复杂的逻辑。但是,只要人类能把问题和逻辑说清楚,机器就不嫌麻烦。这其实就是智能化的优势。而用数据帮助人类实现知识的数字化,又让我们看到了人机界面的创新和大数据的优势。
大数据应用的效果关键在经济性。而经济性的关键,首先在于业务问题本身的价值,其次是技术线路是否可行。为此,推进大数据应用的时候,建议用“以终为始”的工程方法。
所谓“以终为始”就是在项目开始时,先找出有价值的问题、确定解决问题的基本思路。也就是先明确业务目标和技术线路、确定技术和经济的可行性,并在此基础上探索数据处理的方法。这时,探索数据处理方法的目的,是为了得到更好的效果,而不是去验证技术线路是否可行。这样做可以把最大的风险放在前面进行研究,避免项目做完后的功亏一篑。
要做到这一点,首先要充分理解业务需求,其次要研究专业技术人员分析问题、解决问题的逻辑。这个逻辑通顺之后,再把它转化成数据处理问题。经验表明:绝大多数的管理问题,人类是能够找到可行的思路的;同时,如果把这些思路转化成计算机处理的问题时,效果往往会更好。
最后需要指出的是:采用计算机处理数据的目的之一,是降低人类处理信息的复杂程度、提高劳动效率和质量。所以,人类关心的不是原始数据,而是重点的业务信息。比如,不是看压力、温度、流量,而是设备是否正常、操作是否规范。只有提高了管理者的劳动效率,才能有效地提高管理水平。
概念的提出不是为了标新立异或者追赶潮流,而是为了帮助我们发现新机会、解决新问题、创造新价值。为此,我们不仅要看到大数据时代的麻烦和挑战,更要看到大数据带来的机会。要善于发现机会,还要善于抓住机会、创造机会。
从未来看现在,大数据的机会来自于智能化的推进。大数据的概念和优势也要围绕着这个要点来考虑。
具体应用时必须明白:技术的应用效果不是技术本身所决定的,而是要结合实际的应用场景。抓住机会的前提是理解企业的文化、管理现状和业务痛点,不要单纯从技术层面看问题。