牛红伟,郝 佳,曹贝宁,龙 辉,张非凡,王国新
(北京理工大学 工业与智能系统工程研究所,北京 100083)
20世纪60年代初,随着计算机图形显示技术的产生与发展,产品设计过程逐步从繁琐费时的手工绘图方式向以二维计算机绘图技术为代表的计算机辅助制图方向发展。之后随着线框式三维计算机辅助设计(Computer Aided Design,CAD)系统的出现,人类正式迈入CAD时代。伴随计算机软硬件技术的快速发展,CAD系统也日趋完善,向着标准化、集成化、智能化方向发展[1-4]。
概念设计作为决定产品创新程度的关键阶段,具有典型的重原理创意、弱尺寸约束等特点,需要用户自由表达其设计意图[1]。现有CAD软件所采用的“鼠标+键盘”式传统交互模式在使用的自然性和友好性方面存在很大局限性,难以支撑产品概念设计阶段设计思维的自然表达以及创新方案的生成[5]。因此,探索一种可自然表达用户设计意图的智能交互模式将成为增强CAD创新设计能力的重要途径之一。
对于新一代人机交互模式,通过用户的脑电、眼动、手势等多模态原始信号[2-3,6]读取用户的设计意图成为一种重要手段。围绕这一问题,国内外学者主要从两个方面开展相关研究。一方面,分别探索脑电、眼动、手势等单一模态生理信号对设计意图的表征能力,ESFAHANI等[7-8]在采集用户脑电信号的基础上,实现了基于脑电的几何模型生成和选择操作;RYU等[9]和SONG等[10]则充分利用眼动在对象选择过程中的天然优势,通过采集用户视线坐标实现几何模型特征的快速选择功能,在操作时间和准确率上显著优于传统鼠标操作;THAKU等[11]、MURUGAPPAN等[12]和国内学者徐崇斌等[13]利用深度视觉传感技术实时捕捉用户的手势信息,并通过设计相应的静态和动态手势实现对空间几何模型的平移、旋转、缩放等经典操作。另一方面,探索基于多模态信号的智能设计交互技术,如BOLT[14]最早提出基于手势和语音信号的图形操作模式“Put that There”,展现了多模态信号融合在产品设计交互领域的巨大潜力和优势;WEIMER等[15]则将手势和语音输入技术进行集成,封装形成一个相对独立的CAD工具包,为实现基于多模态信号交互的产品设计系统的推广应用奠定了基础。随着人机交互技术的进一步发展,逐渐涌现出各类基于多模态信号融合的产品设计交互系统,包括:MozArt(语音+手势)[16],GaFinC(眼动+手势)[10],BCI-Touch Based System(脑电+手势)[17]等。然而,现有的多模态信号交互系统仅通过不同模态信号识别特定的模型操作指令,再将这些指令串联起来实现模型操作。这种简单的“信号时序叠加”方式,并未考虑多模态信号之间的信息互补及增强特性,而且现有多模态交互系统仍然需要用户记忆大量新的操作规则,导致用户的认知负荷不降反增。
因此,本文在分析产品概念设计过程对多模态智能交互技术需求的基础上,提出一种具有典型多模态特性的端对端产品概念设计智能交互新模式,建立面向产品概念设计过程的多模态智能人机交互框架。从多模态信号同步采集、情境模型构建、特征层与决策层融合等角度,分析了基于多模态信号的产品概念设计智能交互中的关键技术。在此基础上,搭建了脑、眼、手信号融合的多模态智能交互系统,给出产品概念设计智能交互系统的两个典型应用场景,验证了所提框架对强化CAD软件设计意图感知能力的可行性,为实现新一代面向产品概念设计的多模态智能交互技术提供了一种新的思路和技术手段。
在手工绘图设计阶段,设计者只能通过手绘输出设计意图,属于单向的信息传递方式。如今,随着计算机辅助制图技术的广泛应用,计算机可以对人的设计行为进行感知并提供反馈,使初期的单向信息传递模式逐步发展成为双向互动的产品设计交互模式。随着计算机信息技术的不断发展,这种双向交互方式从早期的鼠标、键盘等单模态信息输入,逐步向语音、图像、行为等多模态智能交互方式发展。
针对产品概念设计,设计者的思维总是以模糊的总体创意外形和原理为主,不强调详细的模型尺寸和严格的几何约束。从这点看,当前CAD软件所采用的“鼠标+键盘”交互模式,重点是支持产品详细设计阶段对模型进行精确操作。因此,为提升CAD软件对产品概念设计的支撑能力,对其交互模式提出了新的需求,具体包括如下3点:
(1)交互通道从单模态信号转变为多模态信号。人机交互过程是一种多模态信息耦合交互的过程,其中涉及文字、图像、语音、动作等多种交互信息[6]。单一模态的交互方式信息通量低,难以满足用户在产品概念设计阶段自然表达设计意图的需求。因此,有必要在产品设计交互过程中融入多模态信号感知技术,使设计交互过程更加符合人类的自然交互特征,提升人机交互过程中传递的信息通量。
(2)交互核心从以系统为中心转变为以人为中心。人是产品概念设计的核心和关键,实现产品设计交互最重要的是对用户设计行为、意图和认知习惯的提取和分析。因此,新一代的智能设计技术要求在设计交互过程中,提升系统对用户的主动感知能力,将以系统为中心的交互模式转变到以人为中心的智能交互模式上,实现一种自然无感的智能交互过程。
(3)交互模式从指令映射型转变为端对端生成型。传统的产品设计需要经历“设计意图—CAD软件指令—产品模型”的复杂映射过程,即用户需将脑海中的设计意图先映射为CAD软件中的操作指令,然后驱动产品模型完成设计过程。这种指令映射型设计交互模式难以满足用户在概念设计阶段设计思维进行自由表达的需求,有必要探索一种崭新的端对端设计交互模式,在用户与模型之间搭建一种直连通道,使设计者可直接通过脑电、眼动、手势等原始信号自由表达其设计意图,降低在产品设计过程中的认知负荷,增强用户的专注程度与沉浸感,进而有效提升产品设计效率。
针对概念设计对人机交互模式的新需求,本文提出一种面向产品概念设计的多模态智能交互模式(如图1),通过同步获取用户的脑电、眼动、手势等生理信号,智能感知用户的设计意图,然后直接驱动三维模型,完成模型生成、操作及编辑等典型设计行为,最终在用户与三维模型之间搭建一个端对端的直连通道。
本文所提出的智能交互新模式,主要具备以下特征:
(1)多模态自然交互 单一模态信号因其有限的信息通量难以全面准确表征用户的设计意图,通过多模态融合的方式可以有效克服这一弊端。面向产品概念设计的多模态智能交互模式,强调同步采集用户的多种生理信号并进行融合分析;在这一过程中,具有增强和互补特性的多模态信号为设计意图的判别提供了更加丰富的信息,消除单一模态信号带来的不确定性,增强设计意图判别的准确性。
(2)强沉浸无感交互 面向产品概念设计的多模态智能交互模式,强调交互过程以人为中心并立足于用户自身的视野与体验,建立产品设计情境模型,捕捉用户设计过程中的环境信息,实时更新自动切换,最大程度提升系统对设计意图的主动感知能力,弱化用户对系统的感知需求,实现一种智能无感交互过程。
(3)端对端直连交互 改变传统“鼠标+键盘”的产品设计交互模式,在采集多模态生理信号并分析用户设计意图的基础上,建立用户与模型之间的端对端交互通道,去除复杂繁多的CAD指令映射,缩减设计意图的传递链条,提升产品设计效率。
针对产品概念设计对多模态智能交互系统的发展需求,建立如图2所示的基于多模态信号的产品概念设计智能交互逻辑模型,主要包括设备接入层、服务总线层、数据资源层、核心引擎层、业务逻辑层和用户界面层。
(1)设备接入层 该层主要负责信号采集设备的接入工作,通过接入脑电仪、眼动仪、手势识别装置等多模态信号采集装置以及鼠标键盘等传统交互设备,实现对产品概念设计过程中多模态交互信号的采集。
(2)服务总线层 该层为设备接入层中接入的各类信号采集设备提供一系列的标准接口,可实现不同采集设备的快速接入以及采集数据的安全传递,有效提升系统的可扩展性能,主要包括接入规范、协议转换、格式转换、信息同步、异常处理等核心功能。
(3)数据资源层 该层采用“本地存储+云端存储”相结合的方式存储已采集的多模态信号,为系统上层计算提供数据支持,是进行多模态信号分析与设计意图判别的基础,主要包括特征库、规则库、算法库、模型库、基础库等。其中:特征库用于存储脑电、眼动、手势等多模态信号的时域、频域和时频域特征;规则库包括多模态信号的融合规则以及人机交互过程中的信号采集及时序处理规则等;算法库包括各类用于设计意图判别的机器学习算法;指令库用于存储智能交互系统在产品概念设计过程中所涉及的典型CAD指令,为用户设计意图的快速识别提供基础;模型库用于存储典型的二维及三维模型数据,以供系统调用;基础库用于存储系统用户信息及应用数据等,支撑系统运行。上述多模态信号原始数据、信号特征、几何模型等数据资源主要采用关系型数据库MySql和文件系统来实现本地存储,针对所涉及到的各类机器学习算法程序则采用KNIME开源系统进行云端存储,便于算法开发与调试维护。
(4)核心引擎层 该层为业务逻辑层的信号处理与指令识别提供具体的计算支持,主要包括信号处理引擎、原语解析引擎、多模态融合引擎、流程控制引擎、CAD驱动引擎。其中:信号处理引擎为业务逻辑层进行信号处理和分析提供算法支持,包括信号预处理算法、特征提取算法等;原语解析引擎用于将从不同通道采集的信号所提取的数据特征经特征库匹配识别后,统一表示为交互原语(数据信息,当前通道,时间戳),以便后期进行融合分析和指令识别;多模态融合引擎负责在语义和时序约束下将各通道信号识别后形成的交互原语进行语义消歧和融合分析,提取有效设计意图信息;流程控制引擎负责将设计意图对应的CAD指令根据时序关系以及预先定义好的执行规则进行排序并提交到事件执行队列;CAD驱动引擎依据事件执行队列中的CAD控制指令,驱动CAD模块执行模型的相关操作。
(5)业务逻辑层 该层主要负责对采集到的多模态信号进行信号预处理、信号原语识别、原语融合处理、设计意图提取、任务指令生成等业务操作,最终生成模型操作指令,并将其上传给用户界面层。
(6)用户界面层 该层是用户访问产品概念设计智能交互系统的接口,可依据不同用户对任务及模式的选择,进入不同的产品设计环境,主要包括基于特征的三维建模环境、基于自由形体的创新设计环境等。
基于多模态信号的产品概念设计智能交互系统的物理模型如图3所示,主要包括多模态信号采集终端模块、数据传输接口模块、信息同步控制模块、设计意图识别模块和产品设计交互模块。其中:多模态信号采集终端模块,通过接入脑电、眼动、手势等采集设备,实现对用户多模态生理信号的高精度采集(如图4),并在采集终端内部进行信号滤波、放大等基本操作,然后将多模态模拟信号转化为数字信号进行输出;数据传输接口模块通过调用各模态信号采集软件对应的软件开发工具包(Software Development Kit,SDK),实时获取用户的多模态生理信号,然后基于传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)将多模态信号并行传输给同步控制模块;信号同步控制模块对不同通道的数据在时序上进行同步校准,为实现多模态信号的融合分析提供数据基础;设计意图识别模块从云端算法库中调用相关机器学习算法实现对各模态生理信号的判别分析,然后经多模态融合引擎,完成对不同模态所表征设计指令的融合操作,最终得到完整的用户设计意图;产品设计交互模块支持适配不同的CAD建模软件,将设计意图信息作为软件应用程序接口输入信息,调用CAD软件功能函数执行相应的模型操作。
基于多模态信号的产品概念设计智能交互过程模型,主要描述从多模态信号同步采集到特征融合、原语识别、指令映射、意图融合及可视化交互的整个流程,如图5所示。具体如下:
(1)同步采集用户的脑电、眼动、手势等多模态生理信号,监听用户操作行为,辅助构建用户概念设计情境模型。
(2)对采集到的多模态信号进行滤波、去伪迹等预处理操作,提取各模态信号的特征向量,并将其映射至同一深度特征空间,然后依据情境规则对提取的多模态信号特征进行语义一致性判定。若特征语义一致性程度较高,则对多模态特征进行融合处理,形成强化特征;反之,则直接输出各模态的原始特征向量。
(3)采用神经网络、支持向量积等机器学习算法对输入的特征向量进行判别,特征库为判别类别提供数据支持,然后采用三元组的设计原语(DP)对判别结果进行统一描述,即DP=(Operation,Channel,TimeStamp)。 其中:Operation表示从信号特征中识别的有效操作信息,Channel表示当前信号的模态类别(脑电、眼动、手势等),TimeStamp表示信号采集的时间戳。
(4)基于设计情境驱动引擎提供的上下文信息对识别到的设计原语进行完善,扩展各原语中操作行为的承担对象信息,使设计原语转化为完整的设计指令,表示为DPE=(Operation,Channel,TimeStamp,Object),其中:Operation、Channel、TimeStamp定义同上;Object表示原语操作中动作所承担的对象信息。DPE将更加符合人机交互的语法规范,如“何时对何对象执行何操作”。
(5)针对各个模态信号之间的时序关系,对识别后的设计指令进行整合,依据情境规则在槽模型下将一定时间阈值下具有语义互补关系的指令进行组合形成完整的设计意图(DesignIntention,DI),并采用三元组DI=(DA,DO,BA)进行描述。其中:DA=(da1,…,dai)(1≤i≤m,m为采集信号模态的类别总数)表示用户设计行为dai的集合,DO表示每个设计行为对应承载对象的集合,BA=(direction,data,time)表示每个设计行为的属性信息,具体包括方位属性(direction)、数据属性(data)、时间属性(time)。
(6)将设计意图依次发送给产品设计交互终端,通过软件接口适配完成设计意图与CAD指令的映射过程,然后执行CAD指令操作并为用户反馈可视化界面。同时,将执行结果传递给设计情境驱动引擎,实现对用户交互行为的实时监听。
数据同步技术是实现多模态信号融合处理的前提和基础。在多模态信号融合系统中,不同模态生理信号的采集装置是异步启动的,且各模态信号采集装置的数据采集速率差异、采集终端时钟偏差、网络传输延时、协议开销等因素,均会在不同程度降低多模态数据的同步精度。较低同步精度的多模态信号将直接影响不同模态数据的关联分析与融合处理效果,降低用户意图的判别精度。因此,为了充分发挥多模态融合技术对设计意图的表征优势,需要设计一种高精度的多模态信号同步采集策略。
目前,信号同步采集主要从采集硬件和网络传输两个层面进行控制[18-19];在采集硬件层面,主要利用单片机、信号采集卡等采集设备实现对多模态信号的同步对齐;在网络传输层面,主要是基于各种网络传输协议,使多个客户端与服务端以某一时钟为统一参考进而实现数据的同步采集与传输。考虑到本系统所使用的信号采集设备相对成熟,均具有较高的采集精度,因此本文将重点在网络传输层面,阐述如何实现对产品概念设计过程中的多模态信号进行同步采集。
在多模态智能交互系统中,每个模态生理信号的采集设备(脑电仪、眼动仪、手势采集装置等)均可作为一个独立的数据采集客户端,然后基于TCP/IP协议将数据同步发送给服务端。在数据传输过程中,以服务端的时间戳作为统一参考[20],在局域网内实现多个客户端与服务端的相对时间同步,同步精度可达1 ms,足以满足多模态信号的同步传输需求,如图6所示。
在数据传输过程中,T1时刻客户端1向服务端、客户端2、客户端3发送UDP(user datagram protocol)广播,服务端、客户端2与客户端3记录接收到UDP广播的时间分别为T0、T2和T3,随后服务端将T0传递给客户端2和客户端3,客户端2、客户端3接收到服务端的时间戳后,可以计算出二者与服务端的时间差T0-T2、T0-T3,并利用该时间差值对自身的时间戳进行调整,实现客户端2、客户端3与服务端的同步。对于客户端1可以采用同样的方法,从客户端3或客户端2发送UDP广播(图6中为客户端1发送UDP的情况),实现其与服务端的同步。因此,通过该方法仅需发送两次UDP广播便可实现对所有客户端与服务端的时间同步操作,进而完成对不同模态信号的同步采集。
产品概念设计情境模型是对用户与模型之间交互状态的结构化描述,为多模态信号的分析提供融合规则与知识支持[21],降低多模态信号在融合过程中存在的不确定性,辅助系统准确判别不同情境下的设计意图,提升产品概念设计智能交互系统对用户行为的感知能力,如图7所示。
为实现对产品概念设计情境的结构化表达,给出对应的元模型定义,如表1所示,主要包括情境对象、对象属性和属性取值3个部分。其中,情境对象主要包括用户、界面、模型3个类别,用户层面描述用户选择的交互通道状态、用户自身的状态以及用户的操作偏好等;界面层面描述CAD软件操作界面所处的状态,具体包括界面功能、界面缩放、显示模式等;模型层面描述CAD中模型所处的状态,具体包括模型的比例、选择状态等。
表1 产品概念设计情境信息
在定义产品概念设计情境元模型的基础上,结合CAD软件建模过程,设定了模型生成情境、模型编辑情境和模型操作情境3大类设计情境,并在每一类设计情境下进一步划分子情境,如模型操作情境可划分为模型平移操作情境、模型旋转操作情境等。在产品设计过程中,各种设计情境之间存在多种切换动作,每次切换的执行条件由不同的触发信息组合而成。
有限状态自动机[22]是用来研究有限个状态的计算及这些状态之间的转移和动作等行为的数学模型。本文采用有限状态自动机来实现对不同设计情境切换过程的建模与控制。首先,构建面向产品概念设计情境切换的有限状态机表达式为:
M=(S,I,f)。
(1)
式中:S为状态机中所有产品设计情境的集合;I为表征可引发设计情境状态转换的触发条件信息,对应表1中情境元模型的属性值,属性值变化可触发相应的情境切换动作;f为情境状态转移函数,表示在多模态产品概念设计智能交互过程中不同的用户交互行为,从一个设计情境状态转移到另一个设计情境状态的规则,可以看作状态转移规则的集合。
在产品概念设计过程中,每个设计情境均可看作有限状态自动机的一个状态节点,系统通过对用户操作及终端信息的实时监听,捕捉设计情境的属性信息,并依据有限状态机模型的状态转移规则,实现对设计情境的自动切换。例如,当用户在“模型生成情境”下完成一个几何模型生成动作后,选中并激活该模型,此时情境模型中的“模型选择状态”属性值更新为“选中”,系统将依据监测到的情境属性值变化,自动切换设计情境为“模型操作情境”,并为用户设计意图的判别提供该情境下的相关数据与规则信息。
在产品概念设计交互过程中,不同模态信号可能表征相同的设计意图,如在模型选择时的脑电和眼动信号所蕴含的设计意图具有较强的相关性,可通过特征层融合得到强化特征,提升对用户选择意图的表征能力。
考虑到不同模态信号原始特征之间的异构差异(特征维度、数值区间等),直接拼接的特征处理方法显然难以有效融合不同信号的特征信息。因此,有必要对各模态信号特征进行一定的深度处理,将其统一映射到深度子空间,提取多模态共享特征,实现对原始信号的有效表征。
本文通过栈式自编码器(Stacked Auto Encoder, SAE)与典型相关分析(Canonical Correlation Analysis, CCA)相结合的方法[23-24],将具有相同语义的多模态原始特征转换至同一共享特征子空间。在共享特征语义一致的条件下,采用受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)[25]将共享子空间中的多个特征进行融合处理,最终得到多模态共享强化特征,具体算法结构如图8所示。
min:J=Ja(Wa,ca)+Jb(Wb,cb)+αψ(Ma,Mb)。
(2)
式中:Ja(Wa,ca)、Jb(Wb,cb)为两种模态对应自编码器的重构误差;Wa、Wb和ca、cb分别为两种模态特征自编码器网络的权重与偏置系数;ψ(Ma,Mb)表示两种模态特征隐藏层之间的相关度函数;Ma与Mb分别表示多模态特征隐藏层之间的相关系数矩阵;α为调节系数,通常令α<0。
完成预训练后,以顶层lmax最大相关性作为优化目标,如式(3)所示,在反向传播中对整个耦合网络进行参数微调,完成耦合模型的总体训练。
maxC=ψ(Ma(lmax),Mb(lmax))。
(3)
自编码器顶层lmax输出最终的隐藏层特征Aa(lmax)和Ab(lmax),以及各自对应的最大相关系数矩阵Ma(lmax)和Mb(lmax),将隐藏层特征与最大相关性矩阵相乘得到各模态在共享子空间中的共享向量Sa和Sb。 同时,以余弦相似度作为多模共享特征的相关性度量,判别不同模态特征的语义一致性,如式(4)所示,避免将两种语义不同的特征向量进行错误融合。
(4)
式中δ为判定阈值。
将多模态信号特征输入到训练后的模型中,在特征语义一致的条件下,得到融合后的多模态共享强化特征,从而有效提升对用户设计意图的表征能力。
在多模态信号产品概念设计交互过程中,不同模态信号所识别的设计指令往往具有协同互补关系,多个模态信号组合方可形成一个完整的设计意图。因此,在对各模态信号所表征设计指令进行单独判别的基础上,引入基于规则的槽模型[22]实现对多模态信号设计指令的决策层融合过程。
基于槽模型的多模态信号决策层融合过程,如图9所示。首先从各模态信号判别出的设计指令中提取相关设计意图信息,分别对应填充到操作槽、对象槽、属性槽等设计意图槽中。其中:操作槽存放用户的设计行为,如模型的生成、平移、旋转等操作;对象槽存放用户设计行为的承载对象;属性槽存放每个设计行为对应的属性信息,具体包括方位属性、数据属性和时间属性等。
考虑到在不同的设计情境下,设计意图槽需要抽取的指令信息也各不相同,因此在填槽过程中,应依据产品设计情境驱动引擎提供的规则信息,激活当前时刻所需的设计意图槽,并将指令信息填充到对应的槽中,进而形成完整的设计意图并输出。
综合设计情境与槽模型的决策层融合方法可充分发挥产品概念设计过程中多模态信号之间的协同互补优势,降低设计指令融合的难度,提升设计意图的判别精度。
基于上述多模态信号产品概念设计智能交互框架,初步搭建了多模态融合的几何模型自然操控系统,该系统主要包括设备接入、基础功能、核心功能、交互界面4大模块,如图10所示。其中,设备接入模块负责多模态生理信号采集设备的接入工作,实现对多模态信号的同步采集功能,本系统所采用的设备型号如表2所示,可获取双手在x、y、z三个方向的运动(位置、速度、加速度),以及旋转、缩放等动作信号,双眼注视点的坐标和注视时间,不同大脑区域的多个频段(δ,θ,α,β等)脑电信号;基础功能模块可实现多种工具算法的集成,包括信号处理引擎、情境构建引擎、机器学习引擎、多模融合引擎和CAD驱动引擎等;核心功能层依赖于基础功能层,支持实现产品概念设计的核心功能,包括几何模型生成、几何模型操作、几何模型编辑;交互界面层是用户访问几何模型自然操控系统的接口,包括多模态信号采集可视化界面和多模态融合的几何模型操控界面,其中,多模态信号采集可视化界面主要为用户提供交互通道的选择以及用户偏好预设等功能,多模态融合的几何模型操控界面则是为用户提供几何模型生成及操作的工作界面。
表2 多模态信号采集设备列表
所构建的几何模型自然操控系统,应用场景如图11所示。本系统主要通过采集用户的脑电、眼动、手势等多模态生理信号,实现对用户产品设计意图的智能感知与精准判别,然后驱动FreeCAD建模软件,实现对几何模型的端对端操作。本系统涉及到的CAD指令主要包括几何模型生成、几何模型操作、几何模型编辑三类;针对不同的CAD指令特点,选择相对自然的生理信号进行表征,如表3所示。
表3 多模态信号与模型操作指令的部分映射关系表
基于本系统,用户可利用脑电、眼动、手势等多模态信号完成几何模型的生成、编辑等常规操作,验证了本文所提框架与技术的可行性,为用户提供一种崭新的几何模型端对端智能交互模式。与现有产品设计多模态交互系统MozArt[16]和GaFinC[10]进行对比分析,如表4所示,可知本系统主要具备如下优势:
(1)在交互信号种类及数量层面 本系统采用了脑电、眼动、手势3类生理信号,相对MozArt和GaFinC而言,交互信号的类型更加丰富,提升了设计过程中获取的用户信息通量,为设计意图的精准判别提供了有力的数据保障。
表4 本系统与现有产品设计多模态交互系统对比分析表
(2)在多模态融合方法层面 本系统采用“特征层融合”与“决策层融合”相结合的方法。相较其他系统,特征层融合可充分消除因单一模态信号带来的不确定性,获取并融合来自不同模态信号但表达相同设计意图的特征,提升对用户设计意图的判别精度;决策层融合则可充分利用多模态信号之间的互补特性,支持用户通过自然的交互行为完成复杂的CAD操作指令。
(3)在交互信号与CAD指令映射层面 相对MozArt和GaFinC系统采用的“1对1”固定映射模式,本系统在构建产品设计情境模型的基础上,形成交互信号与CAD指令之间的“1对多”柔性映射模式,可支持用户采用同一交互操作在不同设计情境下表征不同的CAD操作意图。以手势识别为例[5],本系统实现了11种手势与22种常见CAD指令之间的柔性映射关系,相比“1对1”固定映射方法,可映射CAD指令数量提升100%,大幅降低了用户在设计过程中因复杂指令记忆造成的认知负荷,提升了用户设计过程的专注程度。
目前,CAD软件为用户提供的主要是以布尔操作为基础的特征建模功能,这种面向详细设计的建模方式难以支撑用户在概念设计阶段创新设计思维的自然表达以及创新方案的生成。因此,探索一种可支持用户进行任意变形操作的三维造型方法,是构建新一代智能设计系统的一项关键技术。
自由变形技术(Free-Form Deformation, FFD)[26]作为一种典型的几何变形方法,突破了传统几何模型拓扑结构和表达形式的限制,为用户提供了一种可根据需求进行任意形状编辑的新型造型方法。通过该方法,用户只需通过调整特定控制点,便可实现对三维模型的任意变形操作,其具体步骤主要包括:①将三维模型嵌入到一个控制体中,并将模型上每个点的坐标与控制体的控制点坐标之间建立函数映射关系;②对控制点进行移动,产生模型变形,且模型的变形趋势与控制点的移动趋势保持一致,如图12所示。
本文在开发面向产品概念设计的多模态信号智能交互系统基础上,引入自由变形技术,将三维模型嵌入到一个由多个控制点组成的控制体中,使模型形状可根据控制点的移动变化而改变,进而搭建手眼融合的自由形体建模系统。该系统主要以 Pycharm IDE作为集成开发环境,采用PyQt5和VTK(Visualization Toolkit)等工具包实现用户图形界面和三维数据可视化功能,支持对用户手势和眼动信号的同步采集,系统应用场景如图13所示。
手眼融合的自由形体建模系统的工作流程如图14所示,主要包括:①obj格式三维模型的读取与导入;②依据模型形状及大小,自动生成可全面覆盖变形空间的模型控制点(控制点的密度可根据用户需求进行个性选择),其中控制点分布与三维模型形状自适应贴合,同时建立控制点与模型上采样点之间的函数映射关系;③基于手眼融合交互接口,实现对控制点的选择及移动操作;④计算三维模型采样点的位移,实现对模型的自由变形操作。
手眼融合的自由形体建模系统,为用户提供一种全新的产品概念设计自由造型模式,可通过手势和眼动等新型交互通道实现对自由形体的操控和编辑,完成对任意拓扑复杂形体的自由表达,交互过程直观友好,产品变形过渡光滑。该系统将改变传统基于布尔操作的特征建模方法,支持用户进行高自由度的模型设计操作,为三维模型创新设计与自然操控技术的发展奠定新的平台基础。
CAD工具是实现创新设计的重要使能技术,针对传统基于“鼠标+键盘”的CAD软件交互模式难以满足概念设计阶段交互需求的问题,本文在探索新型智能交互模式的基础上,构建了一种面向产品概念设计的多模态智能交互框架,研究了多模态信号同步采集、多模态信号特征层及决策层融合等智能交互系统实现的关键技术。基于上述研究,搭建了多模态融合的几何模型自然操控系统和手眼融合的自由形体建模系统,验证了本文所提方法的有效性。所取得的突破主要包括:
(1)提出面向产品概念设计的多模态智能交互模式,采用特征层与决策层融合相结合的方法,有效利用设计交互过程中多模态信号存在的信息增强与互补特性,提升人机交互信息通量,增强对用户设计意图的判别精度。
(2)建立产品概念设计情境模型,主动感知用户设计意图,自动切换用户所处设计情境,弱化用户对系统的感知需求,形成用户与模型之间的端对端直连通道,大幅降低用户的认知负荷,提升产品设计效率。
考虑到多模态交互过程中不同模态信号之间的协同特性研究尚存不足,未来的研究工作将重点探索产品概念设计过程中的脑电、眼动及手势之间的协同规律,为实现新一代交互模式与计算机辅助设计的深度融合提供借鉴。