工业大数据与智能化

2019-04-23 01:16

中国信息化周报 2019年9期

要理解工业大数据，笔者认为，可以从下面几个数字入手。

一个目标

一个目标就是提升智能化的水平。很多专业人士谈到大数据，往往局限于各种数据的分析及其算法。如果视野仅仅局限于这个层次，那么，就难以看到大的机会。在笔者看来，大数据时代的机会就在于促进智能化水平的提高、带领工业界进入智能时代。换句话说，如果不与各种智能化工作联系起来，就可能失去大数据时代的机会。

要认识这种机会，就需要正确把握智能化的含义。什么是智能化？智能化就是通过数字化和网络技术提升信息获取或决策的能力。而决策的主体可以是机器，也可以是人。我们知道，大数据促进了机器学习技术的发展，推动了新一代人工智能（AI）的发展。但智能化的内涵应该远大于人工智能（AI）。只有认识到这一点，才能看到更多的机会和可能。

从某种意义上讲，智能化就是人机工作界面的改变，是借助ICT技术（信息通信技术）实现业务活动方式的创新。在信息获取、知识获取、决策、执行等环节，我们都可以采取新的工作方式。比如，在信息获取方面，当数据太多太散时，可以让机器去查找信息;数据组织得好时，就可以让人去查找信息。还比如，在知识获取方面，可以用人机协同的方式获取知识，也可以让机器自行去获取知识。

可以说，在智能化方面，我们要有想象力，不要局限于从数据中发现知识。比如，实现机器“用”知识推动设备智能化，或直接为人类提供可用的知识。现在，知识的人类用户可以是工程师，也可以是消费者。因此，工业大数据技术落地的前提常常是具体业务牵引，即所谓“先有需求，再找方法”。

一个基础

一个基础就是数据的完整性。无论是工业产品还是车间、工厂，工业对象往往被看成一个复杂的系统。当我们用数据来表征系统时，数据的完整性和相关性都特别重要。毕竟不完整的数据和不相关的数据可能会得出错误的分析结论，而工业对象都追求高度的可靠性，对错误的容忍度很低。宝钢老专家王洪水认为，用数据记录生产过程时，“要向录像机录像一样”把数据收集起来，不要有断点。这是实践中行之有效、正确的指导思想。笔者还见过有人在研究钢铁材料成分与力学性能之间的关系时，把包括微合金钢在内的多种钢种混在一起，却只考虑了C、Si、Mn、S、P等所谓的“5大元素”。这时得到的结论自然就是错的。过去记录数据时，由于存储成本高，往往“挑重要的记录”，导致记录的信息碎片化。现在数据存储成本低，可以记录的数据多了，但是，若数据之间的关联性没有被记录下来，则数据照样是没有价值的。

二次应用

在多数业务系统中，数据在业务活动中产生，业务活动结束后，数据也就基本没用了。而大数据的重要用途往往发生在业务场景结束之后，故而称之为二次应用。二次应用的价值在于：用过去产生的数据让现在的业务活动做得更好。

大数据的一个重要用途是促进企业的转型升级、业务活动的创新。然而，创新的成功逻辑往往是“先做成、后做好”。强调二次应用，指的是把大数据应用于“做好”的优化阶段。在笔者看来，大数据对如何“做成”业务是没有责任的。因为没有“先做成”的业务逻辑，大数据也就没有办法落地。强调这一点的原因是：把两个困难混在一起，可能就做不成事了。“做成”的业务逻辑必须单独考虑、提前考虑，大数据只是让业务“做得更好”而已。而“做好”则包括多个方面，如质量更好、速度更快、成本更优，而不仅仅是决策质量更好。比如，重用知识和信息可以使人们做事的速度更快、成本更低。对于“做好”，不要一味地强调“决策质量更优”，如果仅仅局限于决策质量，则可能会失去很多创新机会。

两种承载

大数据是数据（Data），也必须是信息（Information）。两者的差别在于：数据之间有了联系才能构成信息。强调这个观点的目的在于：不要碎片化地收集数据，而是去收集有联系的数据、收集数据之间的联系，且最好是完整的信息，而不是破碎的信息。大数据不仅可以用来承载信息，而且可以用来承载知识，也就是把知识提炼出来，用大数据来承载。从工业上看，工业产品的设计数据和工业设备的状态、标准等知识都可以用数据来表示。在某些个性化需求比较多的场景下，这些数据的量是相当大的。上海有一家企业，每天处理这类数据所花的电费就有10万元。

总之，不论承载什么，都要以便于应用为目的，不要总想着“从数据提取知识”这一件事、一个环节，而是要以具体的应用为牵引，根据具体需求，以终为始地建立大数据基础。

三个优势

大数据的不同之处是什么？笔者将其归结为三个优势。正是这三个优势让我们便于从大数据中获得知识。

笔者把第一个优势称为“不必纠结于因果”。这种说法区别于“是相关，不是因果”，以及“工业大数据必须具备因果关系”。这种观点的意思是：从大数据中提炼的工业知识，要以因果关系的存在为基础，但不必按照机理逻辑去计算。比如，我们可以从数据中得到某个最优参数，但不必从理论上推导出来为什么最优。

不纠结于因果，可以让知识的获取变得简单。在这个基础上，大数据可以获得靠谱的“感性知识”“经验知识”，让知识的种类大大拓展。这是大数据促进图像识别等技术发展的原因之一。第二个优势是“样本=全体”。从应用的角度看，数据的优势不在“多”，而在“全”。“多”只会增加计算机处理的复杂性，而“全”则保证了知识的存在性。当数据能够覆盖所有场景时，“新问题”就变成了“老问题”，这时我们就可以从历史中得到所需要的经验和知识。第三个优势是“混杂性”。这个优势可以让我们从多个角度印证知识，提高知识的可靠性，但其前提是确保大数据记录的完整性。由此得出，三个优势的本质都落脚在“知识的优势”上。

大数据的优势与人的作用

工业大数据并不是天生存在的，而是要人去创造的。比如，“样本=全体”的内涵是借鉴过去的经验。然而，“世界上没有两片完全一样的叶子”。从这个角度看，其实每个问题都是独特的，“样本=全体”的理念在应用时必然涉及个性与共性的关系问题。借鉴过往经验的前提是对问题抽象、归纳、总结的结果——但这往往是人类才能做的事情，至少是人类告诉计算机该怎么做。而且，大数据记录的数据毕竟属于过去，因此，在应用于未来时，必须有办法来提高其可靠性。再如，“不纠结于因果”的前提是以因果关系的存在为基础，只是不必按照因果逻辑去推导、计算。但是，因果关系是具有专业知识的人用专业领域知识“保证”的，而不能指望数据分析算法能“保证”。工业界经常遇到的问题是：数据常常来自某个“工作点”附近，数据量大而相似度高、干扰相对强而信息含量相对低。这種现象会使得分析结果的可靠度降低。笔者认为，解决这个问题，可以把生产数据和实验数据结合起来，把“大数据”与“小数据”结合起来，而不是局限于生产数据本身。