要理解工业大数据,笔者认为,可以从下面几个数字入手。
一个目标
一个目标就是提升智能化的水平。很多专业人士谈到大数据,往往局限于各种数据的分析及其算法。如果视野仅仅局限于这个层次,那么,就难以看到大的机会。在笔者看来,大数据时代的机会就在于促进智能化水平的提高、带领工业界进入智能时代。换句话说,如果不与各种智能化工作联系起来,就可能失去大数据时代的机会。
要认识这种机会,就需要正确把握智能化的含义。什么是智能化?智能化就是通过数字化和网络技术提升信息获取或决策的能力。而决策的主体可以是机器,也可以是人。我们知道,大数据促进了机器学习技术的发展,推动了新一代人工智能(AI)的发展。但智能化的内涵应该远大于人工智能(AI)。只有认识到这一点,才能看到更多的机会和可能。
从某种意义上讲,智能化就是人机工作界面的改变,是借助ICT技术(信息通信技术)实现业务活动方式的创新。在信息获取、知识获取、决策、执行等环节,我们都可以采取新的工作方式。比如,在信息获取方面,当数据太多太散时,可以让机器去查找信息;数据组织得好时,就可以让人去查找信息。还比如,在知识获取方面,可以用人机协同的方式获取知识,也可以让机器自行去获取知识。
可以说,在智能化方面,我们要有想象力,不要局限于从数据中发现知识。比如,实现机器“用”知识推动设备智能化,或直接为人类提供可用的知识。现在,知识的人类用户可以是工程师,也可以是消费者。因此,工业大数据技术落地的前提常常是具体业务牵引,即所谓“先有需求,再找方法”。
一个基础
一个基础就是数据的完整性。无论是工业产品还是车间、工厂,工业对象往往被看成一个复杂的系统。当我们用数据来表征系统时,数据的完整性和相关性都特别重要。毕竟不完整的数据和不相关的数据可能会得出错误的分析结论,而工业对象都追求高度的可靠性,对错误的容忍度很低。宝钢老专家王洪水认为,用数据记录生产过程时,“要向录像机录像一样”把数据收集起来,不要有断点。这是实践中行之有效、正确的指导思想。笔者还见过有人在研究钢铁材料成分与力学性能之间的关系时,把包括微合金钢在内的多种钢种混在一起,却只考虑了C、Si、Mn、S、P等所谓的“5大元素”。这时得到的结论自然就是错的。过去记录数据时,由于存储成本高,往往“挑重要的记录”,导致记录的信息碎片化。现在数据存储成本低,可以记录的数据多了,但是,若数据之间的关联性没有被记录下来,则数据照样是没有价值的。
二次应用
在多数业务系统中,数据在业务活动中产生,业务活动结束后,数据也就基本没用了。而大数据的重要用途往往发生在业务场景结束之后,故而称之为二次应用。二次应用的价值在于:用过去产生的数据让现在的业务活动做得更好。
大数据的一个重要用途是促进企业的转型升级、业务活动的创新。然而,创新的成功逻辑往往是“先做成、后做好”。强调二次应用,指的是把大数据应用于“做好”的优化阶段。在笔者看来,大数据对如何“做成”业务是没有责任的。因为没有“先做成”的业务逻辑,大数据也就没有办法落地。强调这一点的原因是:把两个困难混在一起,可能就做不成事了。“做成”的业务逻辑必须单独考虑、提前考虑,大数据只是让业务“做得更好”而已。而“做好”则包括多个方面,如质量更好、速度更快、成本更优,而不仅仅是决策质量更好。比如,重用知识和信息可以使人们做事的速度更快、成本更低。对于“做好”,不要一味地强调“决策质量更优”,如果仅仅局限于决策质量,则可能会失去很多创新机会。
两种承载
大数据是数据(Data),也必须是信息(Information)。两者的差别在于:数据之间有了联系才能构成信息。强调这个观点的目的在于:不要碎片化地收集数据,而是去收集有联系的数据、收集数据之间的联系,且最好是完整的信息,而不是破碎的信息。大数据不仅可以用来承载信息,而且可以用来承载知识,也就是把知识提炼出来,用大数据来承载。从工业上看,工业产品的设计数据和工业设备的状态、标准等知识都可以用数据来表示。在某些个性化需求比较多的场景下,这些数据的量是相当大的。上海有一家企业,每天处理这类数据所花的电费就有10万元。
总之,不论承载什么,都要以便于应用为目的,不要总想着“从数据提取知识”这一件事、一个环节,而是要以具体的应用为牵引,根据具体需求,以终为始地建立大数据基础。
三个优势
大数据的不同之处是什么?笔者将其归结为三个优势。正是这三个优势让我们便于从大数据中获得知识。
笔者把第一个优势称为“不必纠结于因果”。这种说法区别于“是相关,不是因果”,以及“工业大数据必须具备因果关系”。这种观点的意思是:从大数据中提炼的工业知识,要以因果关系的存在为基础,但不必按照机理逻辑去计算。比如,我们可以从数据中得到某个最优参数,但不必从理论上推导出来为什么最优。
不纠结于因果,可以让知识的获取变得简单。在这个基础上,大数据可以获得靠谱的“感性知识”“经验知识”,让知识的种类大大拓展。这是大数据促进图像识别等技术发展的原因之一。第二个优势是“样本=全体”。从应用的角度看,数据的优势不在“多”,而在“全”。“多”只会增加计算机处理的复杂性,而“全”则保证了知识的存在性。当数据能够覆盖所有场景时,“新问题”就变成了“老问题”,这时我们就可以从历史中得到所需要的经验和知识。第三个优势是“混杂性”。这个优势可以让我们从多个角度印证知识,提高知识的可靠性,但其前提是确保大数据记录的完整性。由此得出,三个优势的本质都落脚在“知识的优势”上。
大数据的优势与人的作用
工业大数据并不是天生存在的,而是要人去创造的。比如,“样本=全体”的内涵是借鉴过去的经验。然而,“世界上没有两片完全一样的叶子”。从这个角度看,其实每个问题都是独特的,“样本=全体”的理念在应用时必然涉及个性与共性的关系问题。借鉴过往经验的前提是对问题抽象、归纳、总结的结果——但这往往是人类才能做的事情,至少是人类告诉计算机该怎么做。而且,大数据记录的数据毕竟属于过去,因此,在应用于未来时,必须有办法来提高其可靠性。再如,“不纠结于因果”的前提是以因果关系的存在为基础,只是不必按照因果逻辑去推导、计算。但是,因果关系是具有专业知识的人用专业领域知识“保证”的,而不能指望数据分析算法能“保证”。工业界经常遇到的问题是:数据常常来自某个“工作点”附近,数据量大而相似度高、干扰相对强而信息含量相对低。这種现象会使得分析结果的可靠度降低。笔者认为,解决这个问题,可以把生产数据和实验数据结合起来,把“大数据”与“小数据”结合起来,而不是局限于生产数据本身。