大数据系统软件助力工业数字化转型

2019-01-06 03:37王建民
中国信息化周报 2019年47期
关键词:数据系统机器工业

王建民

制造业变了,信息技带来了产品的革命,产品升级是全球制造业发展的必由之路。制造不仅仅看一个产品,更要看整个产品的运营生态,并且是跨界的,开始就是一个拖拉机,后来带上天线,最后要和天气的数据、种子的数据、农业灌溉的数据联系起来,这才是现代农业,也是现代的工业、现代的服务业,现代工业革命已经模糊了第一、二、三产业。

工业数字化转型

这个时候制造业出现一个剪刀的曲线,物质产品的市场容量一定是有限的。出路在哪里?创新,并把老的产品用好,做服务,并在做服务的过程当中再去创新,就是这样的一个过程。建设工业互联网,重要的方面是升级,5G、AloT都是要把产品进行升级,另外需要更多的产业形态,做知识的传播与分享,这也是在助力制造业,也是在做制造业服务。

工业数字化转型核心目标是人和机器之间的有效融合,是人和社会、人和机器和谐的共存。人有时要被客体化,是一个很悲惨的事。一方面装备要拟人化,另一方面人会被客体化为装备,都在工业生产发展的进程中。这是好还是坏呢?我认为这一趋势不可阻挡,没有选择。这个过程当中最高境界还是人机融合,操作机器的时候让机器懂人,被机器服务的时候也希望机器懂人,真正的AloT里有机器AI,还有“人的AI”在里面。

工业大数据和别的大数据有什么区别?有观点指出,工业大数据一定要和物理的对象结合,这是工业里最核心的要素。工业里有巨大的学问,这种学问有很多是领域知识,所以近200年工业文明发展造就了现代社会,如果离开了这个,“互联网的上半场,产业物联网的下半场”,就没有太大的区别了。

大数据软件技术

大数据的一个含义是大数据集,这是采集下来的,物化出来的0和1的资产。另外一个含义是用大数据解决问题,就是大数据应用,数据解决各行各业的问题并创造价值。再看大数据软件,大数据开源软件供给侧很丰富。问题是这么多的东西无非解决的都是简单的问题,采集;然后抽取清洗、标注;再集成聚合;关键是分析建模,最后把结果解释应用。这五个步骤里面挑战是什么,有异构的挑战、规模的挑战、处理时效性的挑战、隐私方面的挑战,还有人机互动协同的挑战。如果经过这五步就把问题解决了就太幸运了,大数据就变得太简单了。

实际情况不是这样的,而是循环的,有时很难走出这个循环,要解决问题要去找现有数据,对数据进行理解。在这个时候可能就是好多个循环,常常是能够用来解决业务问题的数据非常匮乏,企业有很多数据,但是缺乏能够用来解决问题的数据集。其实在企业做大数据项目的时候,特别是工业企业选题就是个难题,好的选题是成功的一半,往往找不到好的选题。当然好多人可能没有做业务理解和数据理解这个循环就直接下去了,结果风险就很大。

选题大概差不多靠谱后,就做数据的建模。现在所谓的机器学习有一个很强的假设是,训练集和应用场景是匹配的,也就是独立同分布的,但如果这个假设不成立,那模型预测就是不可信的。因为大数据面对未来的事情做预测,未来的数据是不是符合独立同分布的要求?所以要做模型的评估,如果运气很好,分析模型很幸运地上线了,那是最好的方案,恭喜你就走出这个泥潭了。往往学习出来的结果和工业现场要求不相符,比如想看看计算机主板焊点的质量,人工检测都已经达到99.99%了,如果你的AI方案达到99.98%,虽然已经到小数点后的第三位了,但是不行,工业应用场景要求远远大于互联网的精度要求。为什么谷歌推荐能够赚那么多的钱,PV转化率只有千分之二十,但是这在行业里就很厉害了。如果在工业应用中准确率只有千分之二十,老板不会买账。因为工业场景对数据分析的结果要求高。

怎样构建数据系统

大数据的应用系统本质特征是个性化,打个比方就是每个大数据应用都是在不断装修改造的别墅。在你们家用的别墅给别人家用就不适合了,个性化是核心,怎么样个性化,这是在方法论层面讨论的问题。NIST有一个标准,认为大数据系统应该下面是一个技术栈,上面是数据的生命周期,重要的在上面有一个System Orchestrator,Orchestrator太普通了,但是他在大数据里面有新的含义。大数据系统软件国家工程实验室聚焦以下问题:有没有一个大数据软件科学理论,有没有一个大数据系统开发的软件工程方法,是否有开发运行平台与工具支撑,核心是提高大数据软件构造的生产效率。

今天的制造业发生着工艺与工具的革命,将来的软件生产一定不是今天的“码农”,一部分用java、C或其他的开发语言,另一方面低代码开发等未来的软件生成逻辑,将改变大数据系统构造方式。所以我们设计了一个清华数为的可自由组装的大数据软件栈。这里面有自己核心的功能,核心的构件,IoTDB、XLearn、DQuality等都是我们自己研发的。再一个清华数为框架(DWF)非常重要,就是一个大数据系统构造软件框架,一方面它是低代码信息化开发环境,另一方面它是大数据软构件集成的交互总线、控制总线和数据总线。如果大数据软件生态里头就是老虎、狮子、大象,需要一个训兽师,每一个节目需要有一个人去协调它,这就是清华数为框架。

工业大数据其实要处理好三个关系,一个是数据的泉,一个是数据的库,再加上数据的湖。要把“泉”这件事情搞清楚了,数据泉就是AloT,或者把A去掉就是IoT,物联网产生的数据是一个数据泉,一个爆发的产生数据的水龙头,如果接不住水就跑了。所以今天讲IoT得把他连进来,然后还得留下来,所以数据的泉是一个重要的鲜活的数据来源,是一个实时的、在线的东西。数据的库是信息化重要技术,把人产生的数据放在库里,把结构化的数据放在库里。好多企业说现在在建数据湖,我认为错了,数据湖不是你建的,是自然形成的。这些泉、库都在你的企业里了,然后形成了数据的湖,数据的湖是需要治理的,才能够把有用的数据“钓”出来。“泉、库、湖”,中间有一个数据中台。

这个过程当中DWF清华数为框架,一个作为大数据系统的协调器,把各个组件协调起来,支持信息化應用的低号码量开发,让更多的业务人员可以用他来做数据的处理。还有一个解决数据泉的问题,要把物联网的应用变成一个组态的软件,把这些采集的数据收回来。低代码做的就是软件定制部署,特别是大数据的软件不是一成不变的,总有新的需求,能不能有一个低代码量的软件开发的一种形式,能不能让非软件专业的人也能用,以适应企业业务的频繁变化。

数据的湖不是我们期望的,它是指根本没有组织或者没有被良好组织起来的一组数据集,是一种缺少秩序的东西,在这里面人只能像钓鱼一样“钓”出有用的数据,这些里面有些地方是营养不良的,甚至有些地方的数据是有毒的,怎么鉴别?怎么治理?看数据中台,中台和后台的关系不厘清,数据治理就是乱的。首先要把数据后台能够发挥出来的能力发挥到极致,实在不能满足需要的时候,按需建数据中台,今天千万别上来就建一个很厚、很重的中台,将来可能需要去交学费的。有一个案例,有一个头盔,就是要把人集成在互联网里面。一个维修工,戴着这个头盔之后老板就知道他在怎么样做维修,透过这个就知道在工业大数据里,要把传统的信息化的数据拿进来,要把现在的物联网的数据拿进来,还要把很多跨界的数据拿进来,然后用人工智能的办法去理解它,这个头盔上面就有行为识别。

猜你喜欢
数据系统机器工业
机器狗
机器狗
基于Spark的高速收费站大数据系统的设计与实现
基于计算机软件开发技术的物联网数据系统
未来机器城
工业人
非均匀采样数据系统的新型模型描述方法
掌握4大工业元素,一秒变工业风!
“工业4.0”之思考
乳腺影像报告和数据系统分级4和5级的触诊不清乳腺肿块的超声特征