聚数融智的应用与挑战

2021-03-11 02:04:12邬贺铨
关键词:融合

邬贺铨

(中国工程院,北京 100088)

0 引 言

传统的数据统计分析通常是对单一数据,如交通数据流量、电商营销数据等,独立地进行跟踪和分析[1]。而在以大数据和智能化为主要特征的数据时代,各种领域,如从电子医疗(e-health)到智能交通(smart transportation),从在线游戏(online game)到网络传媒(network media),实时产生着广泛而多样的数据集。多源性、异构性为主要特征的数据集驱使着我们在解决问题时,将各种数据集进行有机融合。例如,为了更好地解决空气污染问题,需要结合气象数据、车辆和工厂的排放,以及一个地方的人口分布情况等来探索空气质量数据;为了为用户生成更准确的旅游推送指南,可以将用户的网络行为和社会关系进行综合分析,有选择地进行旅游推送;而为了更好地理解图像的语义含义,可以利用图像周围的文本和从图像像素派生出来的特征进行推断等。在上述过程中,从多元数据集中派生出关键信息,并对数据进行有机融合已成为不可或缺的关键一步。

数据融合不同于数据一体化。数据融合不是将所有数据集中在一起,而是以决策为目的将数据源中的关键信息进行提取、融合并整合为一个独立和灵活的分析数据集的过程。此分析数据集可随源数据集的变化进行调整及更新并可有效地提升数据的内涵价值。

对于多源异构数据融合,文献[2]使用基于统计和人工智能方法研究了多传感器数据融合技术。文献[3]构建了一个多源非线性异构数据融合模型,用于研究多源异构数据的融合。文献[4]将无线传感器网络和数据融合技术相结合,提出了一种卡尔曼滤波估计融合算法,该算法已成功应用于目标位置跟踪过程。文献[5]研究了数字矿山建设过程中多源异构数据的融合技术,从而确保了数字矿山建设中基本信息平台的安全性,稳定性和效率。文献[6]研究了物联网环境中的大规模多模式数据融合方法,并将其成功用于目标位置跟踪过程。文献[7]将深度学习引入多模式数据的特征提取中,将音频和视频的2种不同信息模式集成到语音识别数据上,并训练了深度神经网络以从2种模式中提取联合特征。文献[8]将深度神经网络应用于图像检索任务,并将从图像数据中提取的各种特征用作图像模态。

数据融合是目前大数据应用和智能决策过程中的一个瓶颈。尤其是在大数据和智能化时代,促进多元异构数据的融合和智能化的数据处理,对发挥数据作为生产要素的作用具有十分重要的理论意义和实际价值。本文介绍了大数据在城市、交通、医疗、电商等领域的融合及可视化应用。重点说明了海量数据、小数据分析面临的难题,并讨论了人与数据融合、数据融合共享与商密保护、开源软件与数据安全管理、数据融合中AI技术的两面性等挑战。

1 聚数融智的应用

数据的融合和应用在城市管理、交通、医疗、电商等领域有着广泛的应用,并在大数据和智能化时代的驱动下出现了一些新的特征应用,如街景生成,视频合成,交通镜像,3D还原和AR体验等。

1.1 街景生成

古罗马遗址如图1。这些古罗马遗址特征散落在现代建筑中,在收集大量古罗马遗址照片后(图1左),通过人工智能、大数据的技术,可以还原出古罗马的街景(图1右)。将时空分散的照片合成为视频,这在评价一个建筑物的风格等方面也是很有用的。例如将大量历史照片还原成实际街景,也可以将不同结构与风格的建筑合成在一个画面,以评价是否协调。

图1 图像合成: 古罗马遗址Fig.1 Image synthesis: Ancient Roman ruins

1.2 视频合成

在未来智慧城市的建设中,将会有大量摄像头、传感器收集交通状况,传统方法是将摄像头对应的电视屏放在交管中心。一方面,如此多的电视屏无法全部放在交管中心;另一方面,在实际中,单靠肉眼观察如此多的电视屏来判别马路交通情况的效果很差。而通过摄像头感知与手机定位数据可精确获得城市交通实时状况,同时利用大数据与人工智能技术深度挖掘,可得出可视化的全局视图,如图2为以色列的首都特拉维夫。将摄像头的所有视频组合起来合成一个视频,就像坐着直升飞机俯视整个城市。在不同时间用不同颜色标注不同的道路交通状况,这样利用大数据的视频合成技术就可以将道路上的交通事故、交通管制等情况实时地发送到驾驶员的手机上,方便选择较好的出行路线。

图2 可视化全局视图Fig.2 Visual global view

1.3 交通镜像

在图3中,左图为2019年希腊上空的航班运行情况,右图为2020年疫情时的航班运行情况,图3是空域交通的数字孪生。利用数字孪生的航班运行图,可以看出疫情对航空业的影响。同时,利用数字孪生技术可以在矿山和大型工业园区建立对生产流程的数字孪生平台,实时掌握运行的全局状况。

图3 2019年与2020年疫情间希腊航班运行情况Fig.3 Flight operations in Greece between 2019 and outbreaks in 2020

1.4 3D还原和AR体验

医疗患者胸部CT检查会生成200—300张CT影像,即使每张只需要看3 s,放射科医生也需要至少10 min才能看完。借助AI可以将肺部多达百张CT照片还原为一幅3D影像,可以有效地提高医生的诊断效率。同时,在网上选购衣服时,利用AR技术,可以在自己的手机上看到将衣服虚拟穿在身上的感觉,可以同时比较穿不同服饰的体验,从中选出合适的衣服。

2 聚数融智的挑战

数据融合具有广泛的应用前景,然而,大数据融合给众多领域带来积极作用的同时,也依然面临数据融合的规范、融合数据的处理、数据的安全与隐私等挑战。

2.1 数据融合标准规范

数据融合需要标准先行。数据标准应从可见性、易理解性、可链接性、可信性、互操作性和安全性等方面进行标准规范。

1)数据要具有可见性。需要有元数据标准,包括共享数据的位置和访问方法,有标准且可重用的API等。

2)数据要具有易理解性。要求数据以一种保留语义的方式呈现,并以标准化的方式表达,同时还要求具有科学的数据目录、识别转换、组合和衍生新数据能力的自适应智能系统。

3)数据要具有可链接性。孤立数据的价值很难体现,要让数据之间可以进行链接,这就要求实施统一的标识符和通用的元数据标准,能够发现、链接、检索、合并和整合数据。

4)数据要具有可信性。如果数据来源本身不可信或数据质量很差,这说明技术挖掘本身就存在问题。要保证数据的可信性,要有数据质量管理技术,按规定程序适当标记和保存数据和记录。在寿命周期内要有保护和血缘元数据的约束。

5)数据要具有互操作性。不同的数据彼此间要进行数据交换,需要数据交换规范来协调不同数据的标准和格式,保证不损失数据本身的保真度、精确度或准确性。

6)数据要具有安全性。数据在进行挖掘的时候,要注意个人隐私的保护、商业秘密的保护以及结构体数据的授权审计等。这要求实现精细化权限管理(身份、属性、权限)和审计,定期评估分类标准并测试合规性。

2.2 海量数据对算力的要求

IDC分析报告显示,互联网总数据到2025年将达到175 ZB,其中视觉数据几乎占一半。虽然视频压缩技术在进步,但进步的速度差不多每10年才提高一倍,而数据量每2年就翻一番,靠视频压缩没办法减少数据量。例如医疗的数据本身就已经超过二维,新冠病毒的数据中很多图片都是百万像素以上,病毒大数据的维数更高。

海量数据需要大算力来支持,2012年至2019年,随着深度学习模型的演进,人工智能需要的计算量已经增加到了30万倍,对云上服务器能力有很高的要求,需要探寻更适合机器学习的算力和低算力约束下的算法。

另外,机器学习使用专用计算机可能比通用计算机会更适合。如:①机器学习大部分场景仅需要较低精度计算即可,一般应用场景下机器学习8比特即可满足95%以上的需求,无需FP32,FP16等高精度计算;②机器学习计算只需要很小的操作指令集,高性能运行矩阵乘法、向量计算、卷积核等线性代数计算,无需分支预测器、推测执行、超线程执行处理核、深度缓存内存层次结构等计算技术。

2.3 端边云协同的数据处理

传统的视频数据是非结构化的,价值密度较低。如一个8M摄像头一天产生的数据量大概是168 GB,而一个城市有大量的摄像头,如果都送到云端进行处理,会占用大量的计算、存储及网络资源,而其中可用信息又是有限的,因此,大数据不等于数据大,通过提取视频特征信息的方式,把特征信息送到后台,减少数据量。然而,这种方式又面临前端数据分析能力的有限性,不能很准确地确定特征信息,提取的特征信息是有限或者不准确的,无法通过后台分析来弥补。

通过仿照生物视觉系统,构建云边端协同计算,端侧显示视频编码,边缘计算实现特征压缩。通过云端协同,总的存储和带宽可以节省50%以上,算力可以节省90%。所以根据大数据分析,可提升数据的处理效率。此外,还需要一些关键技术,如全局统一的时空ID、视频编码、特征编码、联合优化,模型可更新、可调节、软件可定义等。如何合理分配端边云的能力以及选择视频编码与特征信息的数据量比例是值得重视的。

2.4 建立并优化数学模型

大数据分析中有很多数学模型,正如生产具有很多环节,每个环节都有数据产生,如图4。台湾一家钢铁企业利用人工智能解决方案,预测27吨钢热轧为0.5 mm成品的过程中的缺陷,这家企业先收集一年7 000多批次产品的各种工艺参数,对于缺陷率有关的数据进行清洗,然后把数据分为2组,80%的数据用于机器学习,从中选出4种数学模型,再利用20%的数据验证模型的可行性,得到优化的数学模型,最后由优化数学模型分析产品线上产生的数据,找出关键环节做出改进。

图4 某钢铁企业生产环节Fig.4 Production link of a steel company

此例说明了数学模型的应用前提是了解模型开发的背景及原定用途、谁训练模型、数据来源,以及模型应用的效果,要关注算法的完整性、可解释性、公平性及适应能力。需要注意模型得出后不是一劳永逸的,一段时间后模型可能会出错,模型运行时间越长偏差越大,运行时间偏差的蔓延、时间推移导致的预测不准确和对抗性攻击等问题会妨碍模型输出结果的有效性。

2.5 数据融合的前提是分析与抽取

数据融合的前提是数据的分析及抽取。如图5,将图片分解,可以分解为只有马路和树,没有房子,也可以分解为马路、房子没有树。实际上数据融合反过来就是数据分析和抽取。如果能分别把关键数据分析和抽取出来,就能实现数据融合。例如,基于AI技术,在语义分割掩码输入下,换个掩码颜色,该系统就能直接将街景中的树变成建筑物。

2.6 小数据融合更需要优化数学模型

在实际中,更多情况面对的是小数据。AI决策效果前提是有海量准确标注与清洗的数据,但很多情况下仅有小数据,例如小语种的机器翻译。在小数据小算力情况下提供高效人工智能分析能力是值得研究的创新课题。如2020年6月IEEE举办世界计算机视觉植物病理学细粒度分类挑战赛,考察对苹果树叶“健康、锈病、痂病、锈病+痂病”4种疾病的AI识别能力。比赛组委会提供含标签错误的1 821张苹果树叶训练集照片和1 821张试题照片,让选手判断这些树叶的分类。1 000多张的训练样本是小数据,靠这些小数据利用大数据的算法一般得不出最佳结果,这是典型的“小数据小算力”问题。支付宝天筭安全实验室采用随机光照、随机对比增强、上下与左右翻转、随机旋转缩放、知识蒸馏等数据增强技术,得分居1 327个参赛团队之首。

图5 照片分解结果Fig.5 Result of decomposing a photograph

“小数据小算力大任务” 是人工智能技术需要研究的目标,推理与类脑计算结合是研究方向之一。

2.7 人与数据的融合

过去许多企业的企业资源计划(enterprise resource planning,ERP)是以Excel表的方式来静态运行的,但生产过程中总是会临时发生各种问题,需要召开临时生产调度会议,重新改表格,效率低下。而在ERP中增加物联网、区块链、大数据分析、机器学习等功能,自适应地根据发现的问题相应地修改ERP表,效率就会提高很多。前者是依靠人,后者是依靠现场数据。但完全依赖现场数据靠AI决策执行会有风险,因为数据有可能有误,或者算法有风险,需要做到在正确的时点和场景下人的准确介入,人在回路或者人机协同是工业互联网的难点,需要企业根据积累的经验来判断。“商飞大脑”建立了数据融合标准,统一了上千种数据类型,整合上百种工业机理,归纳出上百项基于人工经验的数学模型,完整描述了大飞机全生命周期业务流程。人与数据融合的ERP如图6。

图6 人与数据融合的ERPFig.6 Integration of human and date for ERP

2.8 数据融合与隐私及商密保护

在跨企业做数据融合时,为了保证数据共享同时敏感数据不外泄,需要建立一个新的数据隔空分析机制,用虚拟的黑箱使得数据不脱离所在单位的管理又能被授权给其他的单位调用,虽然已有人提出基于黑盒子的可信计算环境方式,但是仍需要证明第三方的可靠性。

图灵奖获得者、清华大学姚期智院士,他在图灵奖中的主要贡献是提出了多方计算(muti-party computation,MPC)概念。MPC主要机理概念模型如图7。MPC协议是一种分布式协议,基于秘密分享、同态加密、混淆电路、不经意传送4项技术。它的主要机理是当A,B都有数据时,对A,B的数据进行融合计算分析,以前数据既不能储存在A里,也不能储存在B里,若储存在第三方又不知道数据是否会外泄。而现在数据可以储存在A也可以存储在B,也可以在第三方,但都不是原始数据,而是加密数据。即便是加密数据,B要取A的数据时,A也可以猜到B的用途,这里要用到不经意传送机理。不经意传送就是在取有用的数据时实际上会同时取一大堆无关数据,这避免了对方知道你的意图。A和B都不可能知道对方的数据,但利用加密数据就可以联合计算出一个函数,A和B可以取出各自所需的数据融合结果,却不会透露各自数据和知识产权。不过MPC的计算量很大,性能还有待改进。

图7 MPC过程图Fig.7 MPC process diagram

如何简化计算量以及支持更多方的协同计算是推广MPC应用需要解决的挑战,这也是数据融合与数据安全的重要课题及创新空间。

2.9 数据分析软件及数据的安全管理

大数据分析与人工智能会用到大量开源软件,优点是可移植性,可以在操作系统上也可以在专有硬件上运行软件,硬件和软件生态系统的脱钩有利于创新。但开源软件漏洞很多,而且版本升级频繁,软件测试与漏洞分析检查工作量太大,执行未知来源程序会面临安全威胁。现在开发了从自然语言标准文档直接生成代码的自动编程方式,又可以由代码反推原来的自然语言,通过反推软件意图就可以发现软件是否有不该加入的代码,这种方式可以用于自动化遵从性测试、正确性证明、协议执行完整性检查等。当然,为了防止数据泄露和被篡改,数据加密是一种手段,但加密的数据很难进行安全扫描检测,所以怎么对加密数据进行检查也是一种挑战。此外,防止别人对加密数据再加密也是很重要的,勒索软件就是通过对被攻击对象的数据或软件加密的方式来实现其利益。可以说,网络信息安全也是大数据融合分析必须面对的挑战。

2.10 智能化挑战

由于数据样本规则的缺漏和模型当中有限的设定点,人工智能会出现误判。一旦将模型投入实际使用,其准确性就开始下降。此外,当事件和图像处于AI模型辨识分界线,或受到样本攻击时会使AI误判。不过,对抗样本仅对指定的图片和攻击模型生效,对诸如区域截图、放大缩小之类的预处理过程是非常敏感的,因此可通过数据增强技术来应对。

3 结束语

在智慧城市管理与工业互联网中有很多需要数据融合应用的场景,多元异构的数据融合将盘活数据,发挥数据作为生产要素的作用。同时,数据融合和数据的智能化分析依然面对海量数据处理能力、建模、小数据融合、人与数据融合、数据自身安全、隐私与商密保护等挑战,需要从基础理论与工程实践多方面研究聚数融智的问题,开发更高效的大数据分析技术任重道远。

猜你喜欢
融合
一次函数“四融合”
两个压缩体融合为一个压缩体的充分必要条件
村企党建联建融合共赢
今日农业(2021年19期)2022-01-12 06:16:36
融合菜
宽窄融合便携箱TPFS500
宽窄融合便携箱IPFS500
从创新出发,与高考数列相遇、融合
宽窄融合便携箱IPFS500
《融合》
现代出版(2020年3期)2020-06-20 07:10:34
媒体的五个融合和两个不融合
声屏世界(2015年3期)2015-02-28 15:19:21