本报编辑部
数据融合利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性和数据安全性。
中国工程院院士邬贺铨表示,数据融合利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性和数据安全性。
邬贺铨通过举例向大家做具体介绍。例一,以色列首都特拉维夫把所有交通摄像头的视频合成一个完整的视频,就像城市的领导坐着直升飞机俯视这个城市一样,可以看到不同的时间用不同颜色标注交通管制、交通事故,并且实时通过5G、4G发送给行人、驾驶员,供大家选择自己的出行路线,这是数据可见性。
例二,新冠肺炎确诊除了做核酸检测,可能还要做CT,一个肺可以做出300张CT,把300张CT照片还原为一个肺,再看看肺有没有纤维化,肺周边怎么样,可以让数据变成可理解的内容。
例三,要展示去年和今年欧洲航空的情况,把所有飞机上的数据连接起来,形成一个航空数字孪生的交通镜像,就有了全局性。
例四,有很多古罗马的遗址散落在现代建筑之中,如果想看古代罗马建筑的整体效果,现在可以把这些遗址照片合成一个视频,把时空分散的照片组合起来,生成一个反映古罗马街景的视频,这是数据的互操作性。
关于数据的可信性和安全性,邬贺铨院士特别提到,如果数据本身是不全面的,或者说是有很多差错的,那这个数据挖掘是没有用的,需要有数据质量管理技术,按照规定程序适当标记、保存和记录数据,在寿命周期内能够保护和约束数据。数据安全性方面,需要实现精细化权限管理,定期评估分类标准并测试合规性。
数据挖掘 面临算力算法的挑战
邬贺铨院士表示,数据挖掘首先要建数据模型。建数据模型的前提需要了解模型开发背景和用途,以及确定谁来训练模型,这些数据从哪来,确定模型运用的效果如何。同时,也需要关注算法的完整性、可解释性、公平性和适应能力。同时,模型开发完还需要不断地检验、迭代和完善。
算法现在主要还是用深度神经网络,深度神经网络经历了两代,第一代主要是知识驱动,就是专家系统,把专家经验找出来,然后逻辑推理。现在是第二代人工智能,主要是数据驱动。
邬贺铨院士认为:“目前大数据很多应用,我把它叫做大数据、大算力、小任务,非常多的数据,能力非常强的计算能力,实际上只做了一件很小的事情,而且稳定性不够,知其然不知其所以然,可解释性差,应用场景窄,怎么解决这个问题呢?最好是小数据、小算力、大任务。”贺铨院士表示,现在需要发展到第三代,需要知识与数据双驱动,而且很多人说需要内脑,把人的认知机理用上去,虽然比较困难,但是这个方向还是需要的。
邬贺铨院士指出,大数据分析不能只靠中心云,很多时候要使用边缘云,因为边缘云可以就近处理,适用于那些对数据试验敏感的一些业务。比如,我们生产线上的一些数据不能送到远方去处理。如果送到远方丧失了实时处理的作用,只能得到经验的总结。有时候需要实时,就要把中心云的一部分能力下沉变成边缘云。如果所有东西都希望云边端协同,这个挑战是非常大的。怎么协同,怎么分配这种计算能力,这是大数据挖掘需要解决的问题。
现在是大数据、大算力、小任务,大数据也不见得那么全面,人工智能也可能会误判,而且模型准确性也不是想象中那么好,人工智能需要大量标注或清洗的数据,但很多时候只有小数据,怎么在小数据、小算力的情况下边提高人工智能的分析能力,这是大数据分析面临的挑战。
大数据融合 需要人与数据融合
邬贺铨院士认为,很多大数据融合需要人与数据融合。把人的数据跟客观的东西融合在一起,把人的经验介入到大数据分析过程,但是人不能永远介入,什么时候、场景下能介入,这是需要经验的。大数据分析不是不需要人,也不是大数据、工业互联网时代的工人、工程师没用了,里面还需要用到工程师和工匠的精神。
数据只有融合才有价值,但融合就涉及到隐私和商密保护问题。邬贺铨院士谈道:“每个企业都希望用别人的企业的数据,不愿意把自己的数据拿出去,总觉得这是商业秘密,那怎么做融合?怎么做到既融合又不会泄露每个企业的商业秘密,这是可以做到的,也有很多很多方案,比如,采用多方计算的方式。”
此外,大数据分析本身会用很多软件,包括很多开源软件,可以网上宕下来,但开源软件漏洞很多,而且版本升级频繁,需要检查它的安全性,采用也可能会出问题。如果用自然语言直接生成代码,更容易理解软件意图,就能知道有沒有加入不该加的东西,进而就能确保代码是否可信。另外,大家往往防止数据泄露和篡改,往往采用加密手段,加密数据是比较难进行安全扫描的,不过加密也不是万能的,还得从开始作为内生的设计上让它更安全。
最后,邬贺铨院士总结到,智慧城市的管理和工业互联网里有很多需要数据融合应用的场景,多元异构的数据融合能够盘活数据,通过数据挖掘开发数据的价值,发挥数据作为生产要素的作用。但是数据挖掘和人工智能的分析要面对海量的处理能力、云边端的协同、建模、小数据、人与数据的融合、数据自身安全、隐私和商密保护等挑战,我们需要从基础理论跟工程实践多方面来研究数据价值挖掘的问题,要开发出更高效的大数据和人工智能分析技术,整个大数据的创新还是任重道远。
(本文根据中国工程院院士邬贺铨公开演讲整理,未经本人确实。)
相关链接
5G提升大数据应用价值
移动通信进入到5G时代,正在更充分地利用空间、时间、频率。大体上,移动通信发展过程是十年一代,每一代的速率都提升了一千倍,如果1G的设计是面向个人的,那么5G就扩展到产业互联网和智慧城市的应用,它已经有了2G/3G/4G三代应用场景,还有支持产业、智慧城市的应用。
中国工程院院士邬贺铨表示:“5G和4G比,控制速率提升30倍,用户体验数据的提升10倍。5G可以为企业‘上传下达提供一个可靠的通道。5G的增强移动宽带、高可靠低时延和大连接适应工业互联网要求。”
整体来说,5G的出现为工业、企业的数据联网提供了可靠的通道。此外,还有物联网跟人工智能结合,即AIoT。利用5G的第一时间、高可靠、高宽带、大连接,可以实现在港口、炼油厂、建筑公司等场景的应用。比如,上海的商飞,建成了全世界第一个5G+工业互联网的园区。其通过5G+8K+AI实现机翼复合材料铺设质量实时检测、飞机蒙皮铆钉安装质量检测,实现飞机装配精度3D检测。通过5G+AR 头盔支撑飞机分段组装的内部电缆精准连接。