数据驱动设计“以人为本”的虚实融合沉浸式手术训练综述

2021-06-30 08:46吴欣桐于罗钦杨增耀荷兰代尔夫特理工大学工业设计工程学院西安交通大学机械学院

创意与设计 2021年2期

文／李萌，吴欣桐，于罗钦，杨增耀（.荷兰代尔夫特理工大学工业设计工程学院；.西安交通大学机械学院）

电影《头号玩家》将虚拟现实技术（Virtual Reality，VR）从学术和产业热点带进大众视野。当主人公拉下头戴显示器（简称 “头显”）的那一刻，他从一个无名小卒化身为虚拟世界的头号玩家[1]。这样的场景或许在未来的5～10年将不再是科幻电影的情节，而是人们日常生活的一部分。《“十四五”规划和2035远景目标纲要》（简称《“十四五”规划》）的决议将“数字中国建设”作为重要目标，提出“以数字化转型驱动生产方式、生活方式和治理方式变革”，其中VR与云计算、大数据、物联网、工业互联网、区块链、人工智能并列为“数字中国”的 “七大核心产业”[2，3]。

VR起步于20世纪80年代，主要应用于飞行训练，如1984年的“超级驾驶室”项目。VR具备沉浸感，交互性和想象力的 “3I”特征[4]，应用领域从迅速军事及航空航天拓展到科研、工程、设计及游戏，在20世纪90年代形成第一次VR热潮[5]。虚拟培训是近5年VR应用的热点领域之一，顶级会议IEEE VR、IEEE ISMAR和ACM CHI近3年均开展基于虚拟现实、增强现实（Augmented Reality,AR）及混合现实（Mixed Reality,MR）的教育培训专题研讨，涵盖基础教育、高等教育、继续教育、职业教育和特殊教育。随着VR等沉浸式技术在近5年的飞速发展，VR正逐渐从实景仿真走向虚实混合的延伸现实（Extended Reality，XR）。

一、从虚拟现实到延伸现实

Milgram等人在《增强现实：现实-虚拟统一体的一个分类》中第一次提出“虚拟-现实统一体”的概念，将完全沉浸式的虚拟环境和真实环境融合为一个整体（见图1）[6]。随着Oculus Quest2和HTC Cosmos头显的发布，这个构想在2020年以后从理论上的概念变为可实现的技术现实。VR是一种让人“身临其境”的全虚拟合成世界，而AR通常指通过Pokomon Go的应用程序或谷歌眼镜之类智能设备为物理环境增加数字信息层，MR则连接两者之间，将虚拟物体与物理环境相互整合，比如微软Hololens头显可以让医学生“透视”一般看到病人的解剖结构[7]。自2016年沉浸式技术的飞速发展并拓展到不同的应用领域，VR、AR和MR的边界已逐渐融合，学术界和工业界在2020年将三者统一称为XR或者空间计算，意在强调“虚实融合”的沉浸式体验，被认为是“XR元年”。

图1 虚拟-现实统一体

基于XR技术的沉浸式培训，使用户能够从自然的第一人称视角身临其境地沉浸在学习场景中，通过视觉、听觉和触觉的多通道交互提高了认知能力和学习效率，是XR的热点应用领域之一[7-9]。在安全关键性场景，如手术过程、飞行过程、驾驶过程、核反应过程控制、消防过程及系统维修过程，XR培训系统能够在保证受训人员安全的前提下，对危险、复杂和现实中无法复现的情景进行低成本复现，对现有模拟培训系统的有效性和效率均有大幅度提升[10-12]。

现有XR培训系统具有两大优势：第一，虚拟培训具有可复现性，是一种经济高效的培训工具，允许受训者在重复练习中不断增强技能熟练度，有效节省了人力和物力成本；第二，虚拟环境具有高度可控性，能够有效降低训练风险，避免训练过程中因失误造成的人身和财产安全。许多研究机构利用XR技术，打造更逼真、更高效且更安全的沉浸式交互培训体验，并致力于开发多样化的虚拟培训系统，以应用于不同类型的培训中（见图2，图片来自于互联网）。

图2 XR培训系统在不同行业的应用

二、从虚拟训练到沉浸式训练

虚拟训练指让受训者通过仿真环境或者器具完成特定的任务并掌握技能，以应对真实环境的危险、复杂或者突发情况。虚拟医疗训练是XR职业培训的典型应用之一。随着全球老龄化问题的凸显，世界各国出现医疗人力资源严重短缺，农村边远地区的问题尤其突出[13]。制约医疗服务质量的主要原因之一是医生难以得到充分培训，且培训时间长、成本高。《“十四五”规划》提出“加快数字社会建设步伐”，其中智慧医疗是发展公共服务、提升人民幸福感的重点领域。

外科手术是针对创伤、感染、肿瘤、畸形和功能障碍等重大疾病主流的医疗方式[14]。全国每年开展超4 000万台外科手术，其中微创手术以其创伤小、痛苦少、时间短、恢复快等优点，在内科、消化科、妇科、泌尿科、心血管科和脑科的诊断和治疗中逐渐取代开放手术，成为外科医学领域的新趋势[15]。微创外科手术目前的挑战是学习曲线长达5年以上，而医生的培训效果直接影响到病人的生命健康。

虚拟手术培训作为虚拟医疗培训的一个重要分支，拥有两大传统手术培训方法所不具备的优势：（1）虚拟手术培训具有可复现性，允许外科医生在重复练习中不断增强技能熟练度，经济高效，有效节省了人力、物力成本；（2）虚拟环境具有高度可控性，能够有效降低训练风险，避免训练过程中因外科医生失误而威胁病人的生命健康。因此，许多研究机构利用VR技术开发多样化的虚拟手术培训系统，以适用于不同类型的外科手术培训。图3展示的是一名医生使用LAP MentorTM模拟器，在VR环境下进行虚拟手术培训的过程。

图3 医生在VR环境下进行虚拟手术培训

XR技术因其沉浸式、安全性、低成本、可复现等优势已应用于基础手术技能培训中，有效缩短了训练时间。研究表明，沉浸式训练能提高80%以上的学习效率，基于XR技术的沉浸式训练将成为未来的发展主流。

2.1 微创手术虚拟训练的发展

微创手术训练的两大难点：一方面，相比开放手术，微创手术对外科医生的生理和心理资源都有着更高的要求。狭窄的作业空间，内窥镜和特殊手术工具的引入，使外科医生不得不面临视野受限、运动自由度受限、支点效应、手眼不协调等一系列问题，手术的复杂性和风险也随之增加[16，17]；另一方面，相比传统手术培训，微创手术培训存在更长的学习曲线，要获得足够的熟练度并掌握如何分配资源以达到最佳手术效果，并在熟练医生指导下完成至少20~25台真实手术。现有的手术培训方法如尸体解剖或箱式模拟器，对于微创手术过程中一些复杂度、精确度要求较高的操作训练难以胜任。

早期的虚拟手术训练高度依赖视觉反馈，导致交互性和实用性并不理想。例如，美国开发了大量XR技术的设备来对军队人员（如飞行员和作战官）进行培训。这些研究为XR系统提供了技术积累，也相应带动了虚拟手术的发展。上世纪80年代，斯坦福大学的Delp和Rosen等人首次将XR技术应用于微创手术中，并开发了一个用于观察小腿肌腱移植过程和结果的手术仿真系统，这也是世界上最早的虚拟手术系统[18]。该校的Brown团队研发了用于血管和神经缝合的虚拟手术系统，该系统使用显微外科手术仪器作为输入，能够逼真地模拟出血管和神经的缝合效果[19]。加利福尼亚大学针对腹腔镜微创手术，开发了虚拟模拟器VESTA，并将手术评估标准引入VESTA系统中，在外科学员训练手术技能的同时，对学员的操作绩效进行客观分析[20]。清华大学的彭亮团队开发了我国第一套可视化人体心脏模型[21]。

为了提升虚拟手术训练的真实感和可用性，学者们将视觉-触觉反馈相结合进行多通道仿真[22,23]。例如法国国家信息和自动化研究所针对腹腔镜手术模拟器开发了一款触觉设备，可在对虚拟肝脏进行操作时给予触觉反馈，并同时伴随虚拟肝脏模型的形变[24]。德国卡尔斯鲁厄研究所也研发了虚拟内窥镜仿真系统，操作者通过手持医疗器械对虚拟的软组织模型进行抓取、烧灼、切割和缝合等操作，并获得较为真实的触觉反馈，对于提高受训医生的手术技能有很大帮助[25]。我国在三维重建和虚拟仿真方面也取得了一定的成果。浙江大学计算机辅助设计与图形学国家重点实验室对虚拟手术中的关键技术难点，例如检测碰撞和模拟器官形变，进行了深入研究[26]。国防科技大学针对膝关节镜手术，研发了一套高保真度的手术仿真系统，取得了良好的训练效果[27]。西安交通大学自主研制了“真肝模拟人“腹腔镜系统，如实地还原人体解剖结构与术中的生理状态，满足腹腔镜手术中基本技能的训练，如电切、电凝、解剖器、血管钳夹和缝合[28]。

为了进一步降低培训的复杂性和风险，学者们把头戴式XR系统应用到虚拟手术培训中，解决了视野受限、手眼不协调等问题。头戴式XR系统人机交互性强，定位、反馈精确度高，且具有沉浸式的特性，使外科医生能够从自然和第一人称视角沉浸在身临其境的360°手术室交互场景中，有效提高了人机交互过程中用户体验和感知认知能力[15-17]。2017年，来自德国美因茨大学医学院和马格德堡大学的HUBER等人将普通的虚拟腹腔镜模拟器LapSim与VR头显结合，开发了一款沉浸式的虚拟腹腔镜模拟器，将模拟视频输出和真实手术室中标准腹腔镜手术的360°视频集成，经测试该模拟器能够让参与模拟手术的外科医生产生高度的兴奋感和存在感[29]。随着近年HTC、微软等国际行业巨头纷纷在VR技术领域进行战略布局，相继推出Vive、Hololens等消费级头盔显示器产品，头戴式VR系统开始得到娱乐、通信、社交、教育和培训等各行业的重视和应用，也更加促进了沉浸式虚拟培训的发展。

尽管虚拟培训在手术技能训练中发挥了重要的作用，然而真实的手术环境与虚拟培训过程有着显著差别。现有虚拟手术培训系统大多只关注受训医生手术操作技能的熟练度，通过三维物体重建、可视化、模拟碰撞、人体器官模拟和软组织变形算法来对某个特定手术过程进行仿真，而忽略了真实手术室环境中诸多干扰因素的存在，如手术中各种开门声、谈话声、器械故障导致的手术中断、团队成员协作出错等。缺乏对真实手术情境的完整模拟，使外科医生，特别是受训医生难以快速适应真实手术环境的干扰因素，往往面临压力的增加和应对不良干扰能力的降低，增加手术失误的风险，威胁患者的安全和健康[30]。

2.2 沉浸式手术过程训练的需求

真实手术环境中工作繁忙，环境复杂，大量的突发情境会对外科医生产生干扰，并增加外科医生的任务需求和压力水平，因而威胁到手术安全。一方面，现实环境中无处不在的干扰被虚拟手术培训忽视，这对虚拟培训的有效性造成一定影响。研究表明，80%以上的医疗事故直接或间接与培训不足有关，60%以上的手术中的人为失误源于医生难以应对复杂多变的手术环境；另一方面，目前虚拟手术培训多注重于提高受训医生基本操作技能的熟练度，而忽略了对手术环境的完整真实再现，缺乏“人-机-环境”系统的完整性。因此，外科手术团队宜在尽可能接近真实的沉浸式环境中进行培训，即虚拟培训环境需要包含干扰因素[22，31]，训练出更好的灵活性。

目前在这方面的研究有限。英国帝国理工学院的PRIMUS等人和美国明尼苏达州MAYO诊所心血管外科的研究人员对干扰因素进行了分类研究并获得了较为广泛的认可[32,33]。荷兰蒂尔堡大学和代尔夫特理工大学的研究团队从生理指标反映受训医生的实时生理压力水平，他们发现在一项腹腔镜手术团队模拟培训中引入真实的干扰分心条件时，外科医生明显表现出任务得分下降、任务错误和手术时间增加[34]。荷兰代尔夫特理工大学的GANNI和LI等人进一步研究干扰因素对受训医生心理状态的影响，基于NASA任务负荷指数，设计了问卷和半结构化访谈，运用主观心理评价法分析外科医生在腹腔镜手术模拟过程中的心理负荷，并用以评估VR技术作为沉浸式培训工具的潜力[35]。现阶段的研究进展表明，虚拟手术培训的研究已经开始由“人-机”交互向“人-机-环”系统的模拟转变。真实手术环境中的干扰因素对受训医生心理、生理和培训绩效的影响正逐渐受到重视。

针对XR培训的机遇和挑战，结合“人-机-环境”系统工程科学研究思维，分析真实环境下的各种干扰因素和突发情境，使它们集成在现有培训体系中，将为沉浸式训练带来全新视野。为了模拟完整的手术情景，并使场景根据受训医生的生理心理状态动态调节干扰因素，亟待引入新的设计方法以整合沉浸式虚拟环境中的复杂数据。

三、从“人本设计”到数据驱动设计

“人本设计”也称为“用户中心设计”或“以人为中心”的设计，指产品和服务的设计指标和参数是根据目标用户的特定任务和生理心理能力制订，同时还考虑人和产品及服务的互动过程，如图4所示对人的“感知-认知-行动”过程建模并进行设计。“人本设计”是学术界和企业界公认保证产品可用性和用户满意度的主要方法。

图4 无干扰环境下人执行任务时的感知-认知-行动模型

越来越多的智能设备融入人们的日常生活，改变了我们固有的使用方式，这种趋势正在随着数字技术的浪潮日益加深。以数字技术为代表的技术创新颠覆性的改变着产品的创意开发过程和使用方式。各种智能产品和传感器互联互通，使人或者物变得可识别、可定位、可引导，甚至可控制[36]。这些技术使设计师获得海量的用户数据，实时传递着“我是谁” “什么时间” “身在何处” “做什么”以及“与谁互动”等信息。这些信息丰富和印证了常规“人本设计”方法获取的定性和定量数据，同时为产品开发团队带来了数据清洗、分析和挖掘的挑战[37]。

King,Churchill和Tan（2016）提出“数据驱动设计”的概念，指单纯依靠定量数据进行设计决策[38]。这种设计方法是将不同的A方案或B方案发送给不同的用户，观察用户行为数据的差异，如特定链接的点击率、下单率等，并选择达到预期用户行为的设计。数据驱动方法还被用在产品系列的自动化设计上，例如MA和KIM开发了数据驱动（产品）系列设计算法，在短时间生成上千万案例的处理[39]。MCGINN和KOTAMRAJU通过18个多选题收集人口统计和行为数据，收到来自90个国家的1 300份回复，采用探索式因子分析将他们归类为11种用户画像。数据驱动用户画像相比于民族志的方法有时间短、成本低和客观性优势[37]。但面对海量的生理心理数据和环境数据，常规的统计方法将难以处理，深度学习正在逐渐成为数据驱动设计的重要工具[36]。

卷积神经网络（Convolutional Neural Network,简称CNN）是深度学习的一种主流模型，主要用于计算机视觉、语音识别和自然语言处理等领域。在生理信号的建模和处理上，卷积神经网络目前的研究聚焦在利用CNN进行信号批量处理、优化特征和预测模型的建立。主要应用于4种生理信号：心电图、脑电图、肌电图和眼电图。CNN在生理信号监测分类中具有如下4点能力：

（1）高有效性：KADI等研究证实，针对心电图的分析中，研究人员常将挖掘技术用于分类和预测；相比较于其他数据挖掘技术，神经网络和支持向量机能够获得更高的准确率[40]。朱洪海将CNN模型用于多导联ECG数据研究，40条ECG记录进行病人内心拍分类，准确率为99.2%[41]。

（2）高效率：清华大学梁鸣团队提出了带有反馈连接的卷积神经网络（RCNN）[42]。在分类过程目标识别的过程中，尽管输入是静态的，RCNN相较与原来的分类方法，捕捉对象上下文中的统计规律能力和模型集成上下文信息得以增强。

（3）批量处理：GIRI等人使用一维卷积神经网络来辨别脑电信号和眼电信号，采用批量标准化来加速训练网络的速度[43]。

（4）小训练样本：LawHern的团队开发了EEGNet模型，采用相比常规的深度学习模型采用更小的训练数据集，就可以更有效地学习脑电信号时序特征[44]。

单纯的数据驱动也存在局限性，只能反映人的暂态行为，却无法为行动背后的需求、动机和情绪提供合理的解释。因此数据驱动设计需要与常规的“人本设计”相结合，才能精确而全面地对人的认知和行动能力进行建模。

四、结语

由VR、AR和MR融合形成的延伸现实，通过视觉、听觉和触觉的多通道交互提高了认知能力和学习效率，为未来的教育和培训提供新的媒介和平台。XR虚拟培训系统具有3大优势：第一，可复现性，允许在重复练习中不断增强技能熟练度，经济高效，有效节省了人力、物力成本；第二，高度可控性，训练内容可根据受训人员的操作绩效实时动态调整，减少记忆和疲劳效应；第三，高度安全性，能够有效降低训练风险，避免训练过程中因失误造成的人身和财产安全。

“人-机-环”的闭环模拟是XR沉浸式训练的难点和未来方向。采用数据驱动设计与常规的“人本设计”相结合，从而精确而全面对人的认知和行动能力进行建模是有待探索的关键问题。

致谢：本文作者对张煜博士、陈天宁教授和韩腾博士等在研究方法和论文写作方面提供的悉心指导和宝贵建议，特致感谢！