多模态学习的研究热点、动态前沿与趋势分析
——基于CiteSpace软件的可视化分析

2022-10-10 07:08刘佳琳

卫生职业教育 2022年19期

刘佳琳，李喆

（遵义医科大学珠海校区，广东珠海 519041）

模态是物质媒体经过社会长时间塑造而形成的意义潜势，是一种应用于表征交互协作和交流意义的社会性、文化性资源[1]。以社会符号学为研究角度，模态可以是声音、文字和图像等。此外，模态也可以是人类通过自身感觉器官建立的与外部环境之间的交流互动方式，比如视觉、听觉等。随着人工智能领域的研究内容不断增加、更新，模态也被赋予新的定义，即一种机器对外界信息的感知模式或信息通道，包括数据表征模式、数据采集模式和数据特征主体3方面。多模态学习理论最早是在第十四届多模态交互国际会议上由Scherer等[2]提出的，他们认为多模态学习分析是一个概念的复合体，包含多模态教学、多模态数据和计算机支持的分析3个概念，目的是利用三者间相互作用、彼此联合的关系来模拟处于相对复杂、特殊学习环境中的学生学习场景[3]。

2012年有学者提出将文本、音频和视频等多模态数据运用于各学科交互研究领域，为各学科共同发展提供了新的方向，同时也确定了多模态学习在交互学习分析领域的重要地位。基于模态的新价值，近年来多模态学习成为各学科领域新的研究热点，特别是教育领域，而医学教育领域也掀起浪潮。目前，在教育领域应用多模态学习分析方法最多的是语言方面，如利用融入视频、音频多模态的教学方法代替原先枯燥、单一的课堂教学方法。而其他领域，如新媒体、临床医学、医学影像学技术、遥感图像等，也利用多模态学习分析方法指明新的研究方向。因此，本研究基于CiteSpace软件对中国知网（CNKI）中有关多模态学习的研究热点和动态趋势进行可视化分析，了解近年来的研究热点与研究前沿，加深对该领域的认识，为我国教育领域，特别是医学教育领域应用多模态学习分析方法及相关学科发展提供参考。

1 资料与方法

1.1 文献来源和检索策略

CiteSpace软件是用于识别并显示研究动态、预测研究趋势的一种工具，生成的各类知识图谱能对学科的发展进程与结构有一定的显示作用。本研究利用CiteSpace软件对近5年国内外研究者在多模态学习领域的研究方向、研究热点和研究成果进行分析。基于CiteSpace软件绘制的图谱分析讨论，可以发现多模态学习领域几年来的研究动态和发展趋势，从而得出一定时期该领域的研究热点，对该领域未来发展趋势和发展前景进行预测。

1.2 数据来源

计算机检索CNKI，分别以多模态学习、交互学习分析、多模态学习分析方法为主题、题名和关键词搜索文献，时间跨度为2017年1月1日至2021年5月1日。纳入符合主题的期刊论文、学位论文，手动剔除会议论文、学术资讯、报纸图书等[4]，最终得到相关文献883篇。

1.3 数据处理

CiteSpace软件由大连理工大学陈超美博士主导研发，旨在通过对文献计量分析得出某一研究领域的热点、发展动态和趋势[5]。利用CiteSpace软件对关键词在多模态学习领域出现的次数或者频率进行检测，并进行可视化分析，即可获知该领域的研究热点[6]。利用CiteSpace软件的数据转换功能，在中国知网数据库选择符合研究要求的文献数据量，以Refworks格式导出，转换为data文档。检索时间以一年为跨度，利用CiteSpace软件将其划分为5个时间分区[7]。

2 结果与分析

2.1 年度发文总量分析

共检索到1 317篇文献，其中，2017年119篇，2018年197篇，2019年275篇，2020年324篇，2021年402篇。经过筛选和运用CiteSpace软件去重，最终得到883篇文献。可以看出，2017—2021年，多模态学习领域文献发表数量呈逐年增长趋势，见图1。

图1 2017—2021年多模态学习领域文献发表情况

2.2 作者合作情况分析

作者合作共现知识图谱中共有179个节点，272条连线（见图2）。作者发文量的多少以图中节点的大小表示，作者间的合作紧密度由连线的多少表示。通过对图2的观察和分析可知，目前，多模态学习领域国外研究者发文量较多，其中Anant Madabhushi、Hayit Greenspan 及 Tanveer Syeda Mahmood 3 位作者发文量最多。此外，发文量在3篇及以上的作者18人。从作者及团队间的合作情况来看，Tanveer Syeda Mahmood、Anant Madabhushi、Hayit Greenspan团队间合作较紧密，能看到清晰的连线，各团队作者间也有较紧密的合作关系，而其他研究者间的紧密度不高。

图2 2017—2021年多模态学习领域文献作者合作共现知识图谱

2.3 研究机构分布情况分析

研究机构合作共现知识图谱共有165个节点，127条连线（见图3）。研究机构间的合作关系及紧密度以节点间的连线和连线多少来表示。分析图3可知，云南师范大学外国语学院发文量最多，共4篇。此外，发文量在3篇及以上的研究机构共8个，但彼此间合作较少。

图3 2017—2021年多模态学习领域研究机构合作共现知识图谱

2.4 突现词分析

突现词指在较短时间出现较多或使用频率较高的词，根据突现词的词频变化可以判断研究前沿和趋势[8]。利用CiteSpace软件选出出现频率靠前的15个突现词（见表1）。由表1可以看出近5年该领域的研究热点，以及随着年份的改变研究内容的变化。

表1 2017—2021年多模态学习领域突现词分析（前15个）

2.5 关键词分析

关键词是作者在学术论文中对研究内容的凝练，也能反映该领域研究热点[9]（见图4）。图5共有311个节点，638条连线，按年份将关键词进行排列并将时间分区设置为一年，由此得出近5年多模态学习领域关键词时区分布图（见图5）。再将“多模态”“学习”“多模态学习”这类基础词剔除，整理后得出近5年与多模态学习相关的前10个高频关键词（见表2）。

图4 2017—2021年多模态学习领域关键词共现知识图谱

图5 2017—2021年多模态学习领域关键词时区分布图

表2 2017—2021年多模态学习领域高频关键词

3 讨论

3.1 年度发文量

多模态学习的目的是建立能够处理和关联来自多种模式信息的模型[10]。近年来，基于大数据分析的学习方法对传统标准化学习方法进行了拓展，而科学技术的进步也让多模态学习分析方法逐步进入大众视野，对人们的工作、学习方式产生了一定影响。多模态学习逐渐成为其他领域（如信息数据提取、数据整合运算、医学影像学图像处理、遥感技术）的研究热点，并应用于生活，如跨媒介搜索、多维度建模、多图像与多语言综合处理等[11]。多模态学习理论于2012年被正式提出，随着信息技术的发展，多模态学习使用的模态数量不断增加，这使得研究者对该领域的探究进一步深入。此外，随着人工智能技术向各领域普及，可以推断今后多模态学习领域的发文量将会进一步增加。本次研究的文献数据仅来自CNKI，检索范围也限定在多模态学习领域，分析结果也在一定程度上存在偏倚。

3.2 发文作者

普赖斯定律表示最高和最低产量作者文献数量的关系，即最低产量作者发表文献数量是最高产量作者发表文献数量平方根的0.749倍[12]。通过普赖斯定律我们可以看出，每一个研究领域都有核心作者或核心作者群，他们是一个领域发展的领导者。2017—2021年，多模态学习领域以第一作者身份发文量最多的作者发文20篇，按照公式可知n为3.3，即该领域核心作者的发文量应≥3篇，根据之前研究结果可知，符合该条件的作者共20人，总发文量为165篇，没有达到要求的发文量，表示该领域的核心作者群尚未形成。当前，该领域以国外研究者居多，国内研究者较少且分散，说明多模态学习在我国尚未引起学术界关注，今后可加强关于多模态学习的相关研究。

3.3 研究热点与发展趋势

关键词是作者学术观点的凝结，通过对其进行时区分析可发现某领域的研究热点及发展趋势[13]。结合2017—2021年该领域高频关键词可大致将多模态学习领域的研究热点分为以下两个方面。

一方面，关于教育学习领域的关键词有深度学习、机器学习、多模态教学、多模态学习分析、多任务学习等。随着大数据时代的到来，国内外教育领域的教学方式发生渐进性改变，多种新兴的电子信息技术逐渐应用到各学科日常教育、学习之中，改变了传统教育模式，也为我国医学类院校指明了教学模式改革的方向。另外，人工智能技术的产生和发展为各学科学习方法更新提供了多方面的技术支持，有望实现教育发展研究和多模态学习分析技术的融合应用，实现新形势下学习分析的渐进式进步[14]。未来可构建多学科融合的基础理论，进行多模态数据共享，完善基于多模态学习分析的智能服务体系，实现真实教育学习场景和多模态学习理论、技术的结合性应用。多模态学习对当前医学理论教学方式和传统的教育教学方法变革起到促进作用，满足了学生理论学习与实践学习需要，在转变学生学习态度，提高学习效率，培养学生临床思维，提高学生动手能力、辩证思维能力和学习素质等个人能力方面发挥着重要作用[15]。

另一方面，与计算机算法、数学领域相关的关键词有卷积神经网络、注意力机制、多模态数据、多模态融合等。多模态学习重视真实的教学情境和交流互动方式，把更多视线放在现实理论学习场景，为主流教育观念过分重视纯数字化或纯主观情感输出的问题提供了解决路径[16]，为理论教学提供了更多临床影像资料，为实验教学提供了精准的动态模拟影像资料。多模态学习是学习分析研究方向的热点，包含物理空间、数学空间、心理测量、生理体征和环境场景5项数据，学习指标包括行为、认知、情感、协作等。随着科学技术的进步和人们教育观念的转变，其指标也会更加具体[17]。对情感、协作和认知的研究是目前的焦点，也符合我国医学教育加强人文关怀教育与信息技术融合的发展趋势。情感分析是指利用计算机自动分析、确定人们所要表达的情感，在人机交互、刑侦、ICU患者心理护理等领域都能发挥重要作用。传统特征提取算法的演进和深度学习的进步为利用多种模态进行情感分析提供了条件[18]。当前，多元协作学习的教学方法存在诸多问题，而多模态交互分析可以做到对选入的多元动态信息进行提炼汇总，对推动多元协作学习理论发展具有重要价值[19]。短视频作为一种数字内容的代表形式，其时间短、内容精、编辑性强的特点使它无法用传统的视频分类模型进行归类。有研究者基于短视频的分类问题提出新的视频分类方法，即采用多模态特征深度融合的方法对短视频进行分类[20]。研究发现，多模态特征融合的分类方式精确度更高。

基于以上分析，观察关键词时区分布发现，近5年多模态学习的研究热点主要是教育理论学习和各类计算机算法。计算机算法的进步为利用多种模态进行电子信息数据多元化处理提供了条件。结合多种模态进行分析可以弥补单模态分析的缺陷，进而提高准确度。

3.4 研究前沿

利用突现词可分析该领域不同时期研究热点的变化趋势及未来研究方向[21]。不同时间段出现的高频词汇反映了当时的研究热点和学术前沿[22]。多核学习的突现度为2.95，多模态话语分析的突现度为2.21，时间跨度为2017—2018年，表明2017—2018年多核学习和多模态话语分析是研究者关注的热点，2018年以后关注度略有降低。因此，进入研究中心时间较晚且直至2021年尚未结束的突现词便代表了该领域的研究前沿和趋势。生成对抗网络、图像处理和描述、流形学习、多模态特征等可能代表今后多模态学习领域的研究方向。随着社交平台的发展，人们更倾向于使用文本、图片、视频等多模态信息表达观点、情感。所以，对目前各类社交平台中的情感内容进行分析，可以为大数据时代内容个性化推送发挥重要作用[23]。社交网络的多模态情感分析和图文多模态情感分析中两类信息的有效融合问题也是目前多模态学习领域的研究热点。

4 结语

综上所述，多模态学习的发展趋势整体向好，但作者及研究机构交流合作还需加强，以形成更具规模化、系统化的研究成果。未来应关注多模态学习在生成对抗网络、图像处理、学习策略、卷积神经网络、多模态话语分析理论等领域的发展，除深度学习外，其他研究热点都与计算机算法和数学领域相关，故计算机算法信息分析技术有望成为多模态学习最热门的研究方向。医学教育领域目前对多模态学习的分析仍停留在简单的视频、图像技术应用上，未来应加强对多模态学习理论的应用[24]，将更多多模态学习方法融入教学，从而推动医学教育创新发展。

多模态学习的研究热点、动态前沿与趋势分析——基于CiteSpace软件的可视化分析