文/孙凌云,周志斌,张于扬,李卓书(阿里巴巴-浙江大学前沿技术联合研究中心;计算机辅助设计与图形学国家重点实验室)
随着智能计算芯片与系统、新型多元智能传感器件与集成平台等新一代人工智能 (Artificial intelligence,AI)基础支撑平台的迅速建设,以AI芯片、智能计算前移的新型传感器件等为代表的AI硬件将迅速发展。而随着软件算法的成熟和学习数据日益丰富,新一代的智能新产品设计开发的基础技术条件逐渐成熟。以AI硬件为基础,在“端+云+芯片”的协同支持下,产品的感知、理解、推理和决策能力将实现突破。基于AI硬件的智能产品(以下简称“AI硬件智能产品”)面临全新的发展机遇,而人工智能作为一种前所未有的设计要素,也为智能产品设计及其平台带来了挑战[1,2]。以AI芯片、新型传感器件为代表的AI硬件发展迅速,催生了一大批基于AI硬件的新智能产品。
人工智能解决方案正从“软件”向“软件+芯片”转变,国内外众多科技巨头和初创公司纷纷进入AI芯片领 域, 如Nvidia、 Google、 Intel、AMD、IBM等国外知名企业,以及我国寒武纪科技、中星微电子、华为等公司。与此同时,面向智能应用的生物、运动、医学、健康、环境类智能传感器,以及面向智能制造、工业互联网应用的微机电器件等发展迅速。人工智能发展重心呈现向硬件底层快速渗透的趋势。
AI芯片的发展直接推动智能计算前移的新型传感器件的研发。当前AI芯片产业生态及竞争格局已经初步形成。在研发和模型训练阶段,这些AI芯片以及相应的AI硬件已经被广泛用于各大人工智能企业及实验室。在应用阶段,AI芯片及相应AI硬件的应用场景可分为云端推断 (inference on cloud) 及 终 端 推 断 (inference on device)两类。
(1)云端推断,即在服务器端进行人工智能计算的云端智能。其主要模式是:产品终端的各种传感器采集各类数据,经由网络将数据传输至云端数据中心,在云端数据中心进行人工智能的感知、理解、推理和决策等计算,通过网络将结果反馈至产品终端;用户从终端产品获得智能服务的输出。这一模式中的AI芯片以高计算能力、高能耗为主要特征。在这一领域,具有众多计算单元和超长流水线、具备强大并行计算能力与浮点计算能力的GPU,可以大幅度加快深度学习模型的训练速度,是深度学习模型训练领域的主流选择。虽然云端推断的单次推断计算量远远无法和训练相比,但随着人工智能应用的普及,云端推断的计算量总和将为服务器带来巨大压力。由于海量的推断请求仍然是计算密集型任务,阿里云、Amazon、微软Azure等公司正探索云服务器+FPGA芯片模式替代传统CPU以支撑推断环节在云端的技术密集型任务。
(2)终端推断,即用于以消费级电子产品为代表的设备端智能。随着低功耗、高灵活性的AI芯片及相应解决方案的发展,本地终端计算能力不断提高,以往需要云端计算的人工智能应用可以在本地终端运行,减少或者不依赖云端推断。以智能安防摄像头为例,其视频分析、人脸识别等功能必须在终端完成,以减轻网络传输压力;机器人、无人机、自动驾驶等设备的推断也必须在本地完成,以避免网络延时引发灾难性后果;AR、VR等设备及应用,也对时间延迟非常敏感。这类设备端智能需要高度定制化、低功耗的AI芯片产品支持。在这一领域,CPU、GPU、FPGA(可编程门阵列,Field Programmable Gate Array)、 ASIC(专 用 集 成 电 路,Application Specific Integrated Circuit)等解决方案正发展迅速。
AI硬件支持的智能产品发展为智能产品设计,特别是电子信息产品设计带来了全新的发展机会[3]。通过云端智能模式、终端智能模式,或者二者融合的模式,可以有效提升产品的感知、思考和反馈能力。如在手机中嵌入深度神经网络加速芯片,二者结合,以支持基于深度学习的摄影、图像处理、语音识别、增强现实等应用,从而为用户提供更加丰富的体验。高级辅助驾驶系统(ADAS),在终端处理由激光雷达、毫米波雷达、摄像头等传感器采集海量实时数据,并作出决策。虚拟现实、增强现实设备在终端AI芯片的支持下处理多个摄像头、深度传感器以及运动传感器数据,并支持计算机视觉矩阵运算的加速功能。
与此同时,大量前所未有的智能产品正迅速问世。作为信息产品设计研发和产业发展的风向标,全球消费电子产品展 (The International Consumer Electronics Show,CES)已经出现大量全新的AI硬件驱动的智能产品。如机器人保姆Kuri,包括扬声器、麦克风、摄像头和多个传感器,可以自动采集家庭的数据、学习房间的布局、识别楼梯位置和各个房间的主人,协助照顾儿童和宠物。欧莱雅Hair Coach智能梳可以通过声音、压力、陀螺仪等传感器分析发质、发型等数据,进而检测头发质量,推荐护发产品。FridgeCam是用于冰箱的无线摄像机,可以跟踪食品的保质期,自动补充食品,并根据冰箱中的食材推荐食谱;用户还可以通过移动应用从任何地方看到冰箱里的存储情况。
认知计算是目前AI硬件驱动的产品智能化的关键,也是当前智能硬件的竞争热点。IBM Watson、苹果Siri、谷歌Assistant、三星Viv、亚马逊Alexa等都致力于开发支持智能产品的认知计算平台[4],其中典型代表为亚马逊的人工智能语音助手Alexa[5]。截至2017年1月,已经有6 000家企业接入Alexa平台,搭载Alexa的硬件品类已经超过7 000种。最新数据显示,其技能总量已经达到1.6万项,涵盖查询天气、约车、订房、导航、查询菜谱、采购外卖、控制家用电器等,支持的产品包括电器、手机、机器人、汽车和娱乐系统等。
通信技术是智能产品实现网络化、协同化智能模式的基础。如5G的发展将支持更高效的移动网络运营并降低数据传输成本,从而使得增强现实和虚拟现实等数据密集型产品和交互模式的大范围推广应用成为可能;同时,5G对低时延高可靠、低功耗大连接等应用场景的解决方案,也是AI硬件智能产品的支撑技术。[6]此外,在某些具体的应用领域,也有相应的解决方案大量涌现。如在穿戴式计算领域,作为传感网络技术和生物医学工程、新材料相结合的产物,体域网BAN(Body Area Network)正广受关注[6,7]。体域网利用新材料的特性,结合人体工程学的特征,构建一个局部的网络世界,具备感知、连接、计算和与人体互动的能力;可以与智能手机或智能终端连接,进行医疗诊断中的即时检测等任务。
AI硬件智能产品设计面临全新的交互设计挑战。当用户面对大量的智能设备时,很难通过手动方式有效管理和使用这些设备;智能产品日益增长的复杂性和可用性难题,正在制约着智能家居的发展。随着语音搜索准确率的大幅度提升,语音驱动的用户界面正成为新一代人工智能产品的重要交互模式[8]。根据Gartner预测,到2018年,30%的人机交互将是人与智能设备的对话[4]。 目前亚马逊(Echo)、 苹 果 (HomePod)、 谷 歌(Home)、阿里巴巴(天猫精灵)、腾讯(耳朵)等公司纷纷推出智能音箱产品,这些产品被视为家庭智能应用场景的中枢,也是切入以家庭为主要应用场景的智能家居领域的通道[8]。但是,对于语音产品的设计方法、用户体验研究等仍然处于起步阶段。
人工智能已经成为一种新的设计要素,这对新产品设计,特别是智能产品的设计过程提出了挑战。正如视觉设计师需要理解纸张尺寸、涂层类型、物理属性、印刷工艺等特性;产品设计师需要理解产品的材料(如塑料、木材、金属)、加工方法和表面工艺,智能产品的设计师则需要对人工智能这一新的设计要素,对AI的技术潜力和边界、条件和基本原则有明确的理解,并建立相应的设计方法和工具体系。
围绕人工智能技术的概念设计方法与工具正成为AI硬件智能产品设计的研究重点。例如,Denis Parra从以人为本的角度提出AI硬件智能产品的体验设计原则——HUMAN[9]。该理论强调了整体性 (Holistic),即AI硬件智能产品应该提供跨越时间和空间的、整体的交互;易用性(Useful),即AI硬件智能产品应该提供有用、易用和好用的交互;可测量(Measurable),即衡量AI硬件智能产品的体验时,应该使用与业务目标和消费者目标一致的考核指标;真实性(Authentic),即AI硬件智能产品的设计应该基于真实的使命,并直接服务于客户的需求;灵活性(Nimble),即AI硬件智能产品的体验应该是灵活的,允许进行紧急调整并适应新的客户期望。
谷歌的PAIR(People+AI Research)团队发布了交互设计手册,帮助体验设计师和产品经理在产品团队中构建以人为本的AI交互设计[10]。该手册提供了详尽的自查表,关注用户需求、数据收集与评估、心理模型、可解释性与信任、反馈与控制等议题;包含设计方法的推荐,如将传统的IDEO设计方法用于人工智能产品设计,或采用自查表细则对设计方案进行评估。
微软研究院提出了普适的人工智能交互指南,并针对每条指南罗列了案例以及适用情况[11]。该指南提出了4个设计阶段,包括交互初始阶段、交互过程中、系统出错时、随时间推移,对各个阶段AI系统应该如何表现给出指导,提出了18项具体原则。研究者对最初收集到的168条建议进行总结凝练,进行多轮评估,并招募49名设计师参与该指南的用户研究,最终验证了其中18条指南在设计实践中的价值。
然而,设计师在进行AI硬件智能产品的概念设计时,仍依赖服务设计等传统设计思维及其相关工具(如用户画像、用户旅程图等)。例如,服务设计思维鼓励设计师考虑所有的利益相关者,对设计相关要素进行系统性考量[12];商业画布则帮助设计师考虑成本架构、收益流、引客渠道等商业要素;移情图可用于理解用户需求;头脑风暴可用于快速产出大量解决方案等。但是,这类传统设计方法并没有将AI对数据的依赖以及训练过程中的迭代纳入考量。由于AI具有迭代频繁、不确定性高等特性,各设计要素与商业要素的特征以及利益相关者的诉求可能会不断变化。设计师难以对处在动态变化中的用户、AI技术与应用场景进行统筹规划和管理[13]。
当前,相关研究开始尝试将AI的相关特性融入到传统的设计过程中,帮助设计师了解复杂多变的AI技术,完成从技术到概念设计方案的转化。与传统产品的设计工具类似,AI硬件智能产品的概念设计工具也通常采用可视化的方式,帮助设计师梳理收集到的大量信息,从而进行设计洞察、挖掘设计机会。智能产品的概念设计画布(见图1)就是一个以可视化方式帮助设计师从AI全生命周期视角分析相关要素的概念设计工具[13,14]。这一工具以机器学习这一典型的AI技术为例,将用户、技术、场景3方面涉及的问题映射到机器学习的6个步骤中,并设置了6种挑战卡片引导设计师思考智能产品的体验问题及其解决方案。智能产品的概念设计画布以可视化的方式,帮助设计师记录并分析与机器学习生命周期各个环节相关的信息,从全生命周期视角分析与权衡相关要素,激发设计洞见、规划设计方案。该工具包括体验挑战卡片、用户画像、画布、提问板4部分内容。
图1 人工智能概念设计画布组成部分
体验挑战卡片将AI硬件产品化过程中的用户体验挑战具像化。其中包括:不可预测性挑战、透明度挑战、拟人化挑战、交互性挑战、共同控制挑战等。实际使用中,可以根据智能产品的设计需要增删卡片的数量。卡片分为多种类型,每种类型对应一种用户体验挑战。卡片中可填写应对相关挑战所需采取的策略。体验挑战卡片可以帮助设定最初的设计目标、描绘最终的解决方案。
AI硬件背景下的用户画像包括用户的年龄、爱好等基本信息,以及用户对AI硬件智能产品的偏好与痛点,包括对产品拟人化程度、不透明度等特性的需求。用户画像可以帮助设计团队了解用户的真正需求以及对产品的接受程度,进而帮助设计团队在尊重用户的前提下,鼓励用户参与到产品的持续训练与迭代阶段中来。用户画像并非简单地描述单一的需求或者某一刻板印象,而是通过生动、细致的需求描述,协助设计团队共情,以提升用户体验。
画布主体由6个扇形部分组成,每个部分都代表了一个典型的机器学习步骤,分别是数据收集、模型建立、模型训练、预测、执行操作和模型更新。每一个扇形区域都有3个不同颜色的区域,其中淡黄色区域用于放置体验挑战卡片,深黄色区域用于填写场景相关的信息,而蓝色区域则用于填写关于机器学习技术的信息。借助这种可视化方式,设计团队可以组织相关创意与设计洞见,开展讨论,评估备选方案,提出概念设计方案。
提问板中的问题按照机器学习生命周期的6个阶段进行分类(见表1)。在每个阶段,提问板通过与情景和系统相关的问题提供相应的注意事项。提问板中的详细信息如表1所示,用户可根据设计任务需求增删和修改问题。提问板可以帮助设计团队迅速了解需要考虑的核心问题,建立对AI技术与场景的理解。
表1 提问板内容
搭建原型并进行测试是验证设计方案的重要一环,因此AI硬件智能产品的原型设计工具也是设计师在开展设计活动时的必要工具。原型设计工具主要可以分为:人工智能服务平台、开源编程软件库、非编程工具、硬件工具套件。
2.2.1 人工智能服务平台人工智能服务平台是近年新兴的概念,与SaaS(软件即服务)、PaaS(平台即服务)等对应。人工智能服务平台可以被理解为:服务提供商将AI作为云端计算服务的一部分提供给客户,旨在为缺乏技术能力的客户(主要是企业或组织机构)提供更便捷的方式来搭建AI系统[15]。例如,某企业想要定制自己的AI系统时,无需在公司内部组建一支技术团队,只需要购买相应的AI服务。实际的运算过程在服务提供者的云端服务器上进行,客户不需要花费高昂的成本在本地部署运算设备,也可以节省数据预处理、模型训练等步骤耗费的人力成本。
目前人工智能服务平台的主流提供者包括百度AI开放平台、IBM的Watson和AutoAI,以及谷歌的Cloud ML等。百度AI开放平台提供了图像识别API(见图2)。支持通用物体和场景识别、主体检测、菜品识别、商标识别、动物识别、植物识别、花卉识别、果蔬食材识别、车型识别等功能。以花卉识别为例,根据拍摄照片,识别图片中植物的名称,配合其它识图能力对识别的结果进一步细化等。截至2019年6月,已经支持识别20 000多种通用植物和近8 000种花卉,接口返回植物名称;支持获取识别结果的百科信息,接口返回百科词条URL、图片和描述,支持自定义返回词条数。
图2 百度大脑AI开放平台中的植物识别API
人工智能服务平台有以下优点:(1)自动构建AI系统,降低操作难度;(2)借助云端服务器的强大算力进行运算,降低硬件成本。然而,在某些场景下(数据涉及隐私、网络状况不佳等),数据不宜在云端进行处理。其次,人工智能服务平台往往需要设计师自行完成硬件部署和网络配置等操作,仍然要求一定的技术基础。
2.2.2 开源编程软件库AI框架与软件库/工具包通常是开源的。这类开源工具包提供的功能比较丰富,几乎可以帮助使用者完成AI技术的各个环节,能够满足不同的原型设计需求,用户可以使用该工具自由定制AI原型。但是这类工具需要使用者具备较强的编程能力,且缺乏配套硬件的支持,对于设计师而言使用成本较高。开源编程软件库以谷歌的TensorFlow为代表,它是一种可在多种平台和设备(包括多核CPU、通用GPU和定制设计的TPU)中运行的AI系统。TensorFlow的开发者社区提供了各种相关工具、库和使用教程,TensorFlow还提供了丰富的API接口,使用者可以调用各种API在桌面设备、移动设备,甚至云端实现AI的不同功能[16]。
2.2.3 非编程工具非编程工具常采用图形化的操作界面,对缺乏编程基础的用户比较友好,便于制作实体原型。然而,非编程工具的图形化通常不会展示AI的内部机制,不利于设计师了解AI的技术特性。Delft AI Toolkit是一款针对无编程基础人员的AI原型设计工具(见图3)[17]。用户可以通过图形化的界面构建原型,并进行3D仿真模拟。图形化界面上部是编辑区域,所用形式类似参数化设计的编辑环境,以节点来表示行为树和数据流模型。用户可以通过拖拽调用常用的AI功能,包括语音转文字、物体识别等。此外,该工具支持对AI原型的远程实时控制,例如通过手机或者平板电脑,向实体原型发送指令,从而在原型测试中及时调整和迭代。
图3 Delft AIToolkit工作界面
2.2.4 硬件工具套件硬件工具套件,如Google AIY、树莓派等,可用于搭建实体原型。此类工具操作简单,同时提供了配套的硬件,使用者无需自行选配零部件。然而,现有的套件所能提供的硬件较少,能够实现的功能比较有限。AIY是Google公司面向学生和创客推出的AI套件,可用于制作个性化AI原型(见图4)。AIY包含一套视觉套件和一套语音套件。2种套件的外壳均由硬纸板制成,适用于低保真的原型制作。视觉套件包含树莓派主板、摄像头等。利用视觉套件的图像识别功能,可以进行脸部、情绪的检测或者常见物体识别。语音套件包含树莓派主板、扬声器等,可以进行语音识别,用于制作智能音箱或用语音控制其他部件。
图4 Google AIY套件
除了上述4种原型设计工具外,设计团队还可以选择更方便、更低成本的方式——绿野仙踪法(Wizard of Oz)。该方法利用人工操作模拟系统动作,针对用户的操作做出反馈。绿野仙踪实验在不泄露评估者与执行者存在的前提下,通过观察潜在用户与对象的交互来测试产品或服务。在实验过程中,机器的功能不必完全被实现,而是由实验组织者来模拟智能系统的判断或输出。智能音响Echo在研发过程中也使用到了这种方式。研发团队想要了解用户会问Echo什么问题,以及用户期望的回应速度。在实验过程中,当用户向Echo询问一个问题时,在另一个房间的设计师就会在谷歌上搜索出相应的答案,并以不同的速度发送给用户。整个过程中,用户以为他们是在与Echo进行真实的互动。
从AI硬件智能产品设计的现状及其相关探索可见,当前该领域主要存在以下挑战: (1)智能下移挑战,即AI硬件的发展推动了云端智能、终端智能甚至传感器的器件智能等多种智能模式共存; (2)产品转化挑战,即AI算法研究成果难以转化为产品,智能产品设计开发的效率低、难度大; (3)认知汇聚挑战,即支持智能产品的认知计算难度大,产品间难以实现认知共享,用户学习成本高;(4)人机交互挑战,多通道、对话式、沉浸式交互成为智能产品交互的主要模式,面向智能产品的用户心智模型发生变化。建议开展如图5的研究内容。
图5 AI硬件智能产品设计及其平台的主要挑战和拟进行的研究内容
AI的持续学习、进化发展、不可预测等特性是智能产品设计的主要挑战。传统电子产品的功能实现是确定和可预期的,例如按下开关即可开启风扇。由新一代人工智能支持的产品,往往需要在对所处的物理环境、业务场景和用户意图理解等内容的综合认知基础上,进行决策和行为。换而言之,当设计一款新型AI硬件智能产品时,其实是在设计一个具有主动学习、成长、预测能力的系统;随着机器学习、深度学习的发展以及数据的积累,产品对于用户行为与偏好、业务场景、物理环境的理解将持续提升。产品不再是一成不变的,它们在设计之初就预留了足够的成长和变化空间。这意味着在产品设计阶段往往难以明确构建用户行为与产品反馈的映射关系。这将导致产品设计、测试、部署、运行和维护都超出现有设计方法、技术和平台的能力范围。研究产品与用户之间的新型关系;研究面向智能产品全生命周期的新设计模式;支持非预期方式运行系统的设计方法。
AI硬件智能产品的开发需要综合智能的感知和传感系统、智能的处理硬件、智能的信息处理算法、海量的学习数据等技术要素;面临计算(computing)、连接(connectivity)、认知(cognition)与汇聚(convergence)的4C问题,这使得AI硬件智能产品的门槛高、效率低、难度大。需要建立以AI硬件为基础的智能产品快速设计解决方案。针对AI硬件智能产品,实现其研发所需的感知、理解、推理和决策等底层服务,开发基于AI硬件、面向智能产品开发的低成本、低能耗、可扩展、高智能的嵌入式快速原型平台。建立丰富的支持工具、软硬件、数据集、测试和部署环境,支持云端智能、终端智能和混合智能等多种智能模式的快速部署和调试;在保证计算能力的同时,具备较高的设计和开发的灵活性,有效降低智能产品原型设计开发的门槛,提高原型设计开发和测试的质量和速度。
智能产品的人机交互将突破现有以触摸屏为代表的传统模式,语音、体感、增强现实等交互模式将与传统模式并存;听觉、触觉、嗅觉甚至味觉将与视觉感官系统共同构建智能产品的人机交互通道。智能产品的交互设计需要在综合应用场景、用户需求的基础上,采用相应的交互技术、建立相应的交互范式。研究智能产品的人机交互设计方法,研究用户与产品在交互过程中的互相激发与博弈模式,构建系统反馈与用户预期的映射关系,建立面向智能产品的用户心智模型,设计实现相应的人机交互基本组件。重点针对在多通道交互中的对话式交互模式,建立相应的人机交互解决方案,解决用户意图理解、业务分析、情感计算等问题。研究轻量级和高分辨率的脑机交互、肌电交互等交互模式;探索基于增强现实的沉浸式交互模式在智能产品中的应用。
认知是实现智能服务的基础,研究支持智能产品的认知计算技术和服务平台,研发具备通用性(面向多个领域)和具备专业性(面向垂直领域)的认知计算引擎。内容包括:研究基于多源、异构、跨媒体的数据,构建动态、多模态、个性化的知识图谱技术和方法。针对对话式、多通道交互模式下的智能化需求,建立知识图谱及相应的维护和更新技术。针对典型产品和业务领域构建认知计算引擎与汇聚平台,实现对物理世界、业务属性和逻辑、用户意图和偏好等信息的建模、理解、学习和推理。针对具体领域,建构多个不同种类的智能产品间的统一认知模型,实现智能产品之间的认知共享与汇聚,从而支持多产品之间的协作支撑,构建面向用户感知、思考、行动的智能服务闭环。
针对具体领域需求,建立AI硬件智能产品解决方案;解决当前人工智能算法难以产品化、AI硬件难以产业化、智能产品实用性差、不同智能产品之间难以集成等问题。实现以云端智能、终端智能,或二者融合智能模式支持的智能产品。内容包括:建立智能计算前移的新型传感器件以及传感构件集;建立可定制、易定制的AI芯片及驱动构件集;针对产品应用场景、业务需求和用户属性,构建具备灵活性、适应性和学习能力的领域知识引擎;支持对多个智能产品之间的统一认知和协同智能;构建基于初始训练数据和初始功能逻辑,以及在基于产品使用过程的增量数据和增量逻辑的AI训练模型和增量学习模型;建立面向云计算、分布式计算和终端轻量计算的操作系统或智能驱动构件;建立融合AI芯片智能和产品、场景、业务和用户的自身认知的混合智能;建立智能产品的智能运行和学习更新技术体系。
开展AI硬件智能产品设计应用示范,提升人工智能驱动的集群式创新创业能力。针对具体领域,建立智能产品的用户研究和需求挖掘方法;建立相应的全生命周期设计技术、设计管理技术;建立具有灵活性、开放性的智能软硬件、数据集、算法集和操作系统;建立智能产品的测试、运行及维护标准;实现从云端到终端的人工智能模式,支持各层次资源的联动。利用AI硬件扩展产品的感知、理解、推理和决策能力,面向科学、工业、军事、教育、环境、交通、商业、健康医疗、网络安全、社会治理等领域,建立相应设计知识库、方法库,构建领域认知计算引擎,研发相应的交互和对话技术,设计和开发一批智能程度高、功能完善、种类丰富、市场竞争力强,具有示范性、创造性和引领性的智能新产品,培育一批智能产品生态群。