多模态信息抽取旨在从多模态数据中抽取所需要的信息,形成结构化知识,是多模态数据分析的重要方向之一。多模态数据通常包括结构化表格、非结构化文本、图形、图像、视频等,是数据呈现的基本形式,广泛存在于医疗领域。随着医疗人工智能技术的发展,多种不同模态的医疗数据均受到广泛关注,出现大量行之有效的医疗多模态信息抽取技术。数据(尤其是人工标注数据)是人工智能技术发展的关键要素,为推动医疗人工智能技术的快速发展,中国中文信息学会医疗健康与生物信息处理专业委员会2022年学术年会——中国健康信息处理大会(CHIP 2022)组织了多个面向医疗多模态信息抽取的公开评测,并以专论的形式对这些公开评测数据集进行介绍,以期为医疗多模态信息抽取技术提供公开可用的基准数据集和系统。
“医疗多模态信息抽取技术评测数据集”系列文章紧密围绕国家《关于加快推进人口健康信息化建设的指导意见》《关于印发促进大数据发展行动纲要的通知》《关于印发“十三五”全国人口健康信息化发展规划的通知》《关于加强全民健康信息标准化体系建设的意见》《国家人工智能研究和发展战略计划》《新一代人工智能发展规划》等系列政策文件精神,从数据、算法和知识3个维度助推医疗人工智能的发展,助力健康中国建设。具体内容包括“医疗多模态信息抽取技术评测数据集概述”“评测纵览:面向‘基因-疾病’的关联语义挖掘任务”“临床诊断编码技术评测数据集及基线模型概述”“Text2DT:面向临床诊疗文本的决策规则抽取技术”“中文医疗因果关系抽取数据集CMedCausal”“医疗材料光学字符识别要素提取数据集MedOCR”几方面,详细描述5个医疗多模态信息抽取公开评测任务及基线系统,希望能够引起相关研究者与实践者的关注,进一步优化医疗多模态信息抽取技术,加快相关技术落地。