阻生智齿知识图谱构建初探*

2022-11-10 06:40郑宇辰段旭博
计算机时代 2022年11期
关键词:智齿语料图谱

郑宇辰,段旭博,杨 威

(贵州大学医学院,贵州 贵阳 550025)

0 引言

阻生智齿主要是由于人类的进化,骨量小于牙量,受邻牙、骨或软组织的阻碍而只能部分萌出或完全不能萌出的第三磨牙。阻生智齿发病率很高[1],且其危害很大,一般进行拔除治疗。由于阻生智齿位于口腔后部,手术空间窄、视野小,且形态多样、并发症多,所以阻生智齿的拔除多数为复杂牙拔除术[2]。

目前,诸多学者对阻生智齿的研究主要针对拔除的临床效果及术后并发症的防治和用药,通过不断改进手术方案和术后护理方式,减小治疗损伤。大多数研究方法为人工总结,通过对一段时间内阻生智齿拔除发生严重并发症的病例进行回顾分析,总结经验、应用到临床,缺乏全面性,无法系统性地针对不同病例研究预防及处理的可靠方法[3]。

Google 公司在2012 年提出知识图谱(Knowledge Graph)[4]这一概念,它已经成为大数据时代最为重要的知识表示形式。典型的通用知识图谱有DBpedia[5]、YAGO[6]、CN-Probase[7]等,这些大规模知识图谱广泛抽取信息,包含上亿条实体属性,涵盖面巨大,信息资源丰富,但也存在无法全面完整地描述某些复杂领域知识的缺陷,继而产生领域知识图谱。医学领域是知识图谱应用最广泛的垂直领域之一,通过对海量、异构的医学数据进行高效管理,为以知识图谱为基础的医学领域应用打下坚实的基础。目前知名的医学知识图谱有SNOMED-CT[8]、中医药知识图谱[9]、中文医学知识图谱CMeKG[10]等,这些医学知识图谱的信息涵盖面广,但也存在对于某一复杂病种描述不全面的问题。

本文利用自然语言处理技术,基于知识图谱关系表达能力强、可以进行知识学习等优势,将知识图谱技术应用到阻生智齿领域中,构建阻生智齿知识图谱,涵盖阻生智齿相关知识及拔除实例,帮助大众全面了解阻生智齿。系统地总结各类阻生智齿病例,可提供一个阻生智齿数据库供研究者使用。

1 方法

1.1 构建阻生智齿语料

本文采用多源语料文本信息构建知识图谱,采用部分标注部分自动提取的方式训练模型进行实体抽取,为构建阻生智齿知识图谱做准备。首先准备标注语料,内容如图1所示。

图1 阻生智齿知识图谱的结构

1.1.1 标注格式

本文采用BMES 的标注方式进行实体标注,格式如图2 所示,“B”为所需标注实体的开头,“M”为实体的中间部分,“E”表示实体的结尾,“S”表示由单独一个字表示的实体,其余文本采用“O”来标注。

1.1.2 文本语料

本文所用的语料取自三个部分:其一是《口腔科常见病用药指南》[11],其针对各种口腔科常见疾病重点对治疗用药进行了系统、详细的阐述,其中部分章节介绍了阻生智齿手术所涉及到的药物。我们从中提取药物名称、类型、成分、用途、禁忌、剂量及规格七个实体,标注得到药物数据集。其二是《下颌阻生智齿(第2 版)》[12],其对下颌阻生智齿拔除方法及并发症防治进行了总结与探讨。我们从中提取阻生类型、临床表现及手术方法三种实体,标注得到阻生智齿类型数据集。其三是阻生智齿临床语料,它是根据贵阳市口腔医院真实的阻生智齿拔除手术病历、患者检查报告单及CBCT 图像信息,整理出来的临床病历语料。根据临床医生的经验与意见,提取出矢状位阻生类型、水平位阻生类型、症状、年龄、既往史、检查项目、治疗方案、药物、牙根形态及牙根角度十种实体,标注得到阻生智齿临床数据集。

1.2 实体抽取模型

知识图谱需要大量的数据信息进行支撑,实现实体的自动抽取是本文构建知识图谱重要步骤之一。本文基于上述获得的部分标注语料,选取合适的实体抽取模型,实现自动抽取。由于模型的多样性,本文首先在语料上应用部分经典模型进行实验,选取出性能最优的模型。

1.2.1 HMM模型[13]

隐马尔可夫模型(HMM)是一种用于描述随机过程统计特性的概率模型,包括隐状态和显状态,利用HMM 模型能够从可以观测到的显状态序列计算出可能性最大的隐状态序列。

1.2.2 BERT模型[14]

BERT 模型是一个预训练的语言表征模型,它经过多个Transformer 结构的堆叠,形成了自己的核心结构,如图3 所示。利用BERT 预训练模型,只需要在模型后增加一个输出层进行微调操作,就可以对接下游各种自然语言处理任务。

图3 BERT核心结构

1.2.3 BiLSTM模型[15]

LSTM(Long Short-Term Memory)是RNN 的一种改进模型,它可以捕捉到较长距离的依赖关系,记住长期的信息以在NLP 任务中建模上下文信息,结构如图4 所示。而它存在一个缺陷,即无法编码从后到前的信息。为了解决这一问题,我们通过将向前的LSTM 和向后的LSTM 结合成Bi-LSTM,可以更好地捕捉到双向的语义依赖。

图4 LSTM核心结构

1.2.4 CRF模型[16]

条件随机场(CRF)是一种序列标注模型,它能够充分考虑输出标签之间的关系,可以有效建模最终预测标签之间的序列关系,让预测结果更加准确合理。

1.3 评价指标

采用评测指标F1-Score 对训练测试的结果进行评价,F1-score 是使用调和平均结合召回率和精度的指标,计算公式为:

其中,P 表示精度(Precision),描述被分为正例的样本中实际为正例的比例;R 表示召回率(Recall),描述有多少个正例被分为正例。

1.4 测试结果

将数据按照6:2:2的比例划分为训练集、验证集和测试集,在训练参数一致的条件下,分别在三个标注语料上进行模型的训练与测试,结果如表1所示。

表1 模型在不同语料上的训练结果F1-score对比

在三个数据集上,HMM 模型的综合F1-score 分别为0.6308、0.7085 和0.9445;BiLSTM 模型的综合F1-score 分别为0.7800、0.7950 和0.9566,比HMM 模型分别提高了0.1492、0.0865 和0.0121;BiLSTM-CRF模型的综合F1-score 分别为0.8036、0.7969 和0.9810,比前者分别提高了0.0236、0.0019 和0.0244;最后在此基础上增加BERT预训练中文模型,F1-score又得到了进一步提升,具体值分别为0.9164、0.9797 和0.9829,比前者提高了0.1128、0.1738 和0.0019。由此可以得出,BERT-BiLSTM-CRF 模型在三个不同的数据集上都取得了优异的性能,可以在本次实体抽取任务中取得很好的表现。因此,我们选用BERT-BiLSTM-CRF模型进行本次构建阻生智齿知识图谱中的实体抽取。

1.5 构建阻生智齿知识图谱

基于上述构建的三个数据集,由口腔医学领域有丰富经验的临床医生进行指导,定义实体间的关系,最终得出图5中所示的实体间关系。

图5 实体间关系图

获得实体集合和关系集合后,进行知识图谱的构建,得到阻生智齿知识图谱的三个部分:阻生智齿类型部分,阻生智齿药物部分,阻生智齿临床实例部分。最后将三个部分进行整合,形成一个完整的阻生智齿知识图谱。

2 结果及分析

本文采用Neo4j 图形数据库,对知识图谱进行可视化展示,图谱展示如图6所示。

图6 阻生智齿知识图谱可视化展示

阻生智齿类型部分数据基于《下颌阻生智齿(第二版)》,具有年代的局限性,对实际临床操作应用参考性不大,但其内容是作者将国内外常见分类法与实际临床拔牙方法结合得到的,在当时可供医生在医疗、教学、科研工作中参考,具有权威性。本文选择这部分文本加入知识图谱,旨在帮助非专业医疗人员了解阻生智齿,具有一定的科普作用。在后续完善知识图谱的工作中,可以纳入更多阻生智齿领域的权威性书籍,提高其全面性。阻生智齿手术用药部分基于《口腔科常见病用药指南》,是华西口腔医学院的医生长期的临床经验总结,具有权威性和应用性。对于不断出现的新型药物,知识图谱也能够及时补充。阻生智齿手术实例部分源于贵阳市口腔医院采集到的真实病例语料,其中对各实体的分类定义来自临床医生的经验总结,将国际认定的阻生智齿分类标准结合临床手术应用,提出新的分类标准,同时结合患者的检查报告及CBCT 图像,致力于将阻生智齿的手术方案标准化、规范化,提高手术过程的可解释性。此部分还未进行临床验证,处于探索阶段,但对于后续阻生智齿的研究具有深远意义。

在后续工作中,我们将基于构建的知识图谱实现添加数据的功能,可以满足全国的专业医疗人员在此平台上增加阻生智齿手术实例,实时分享各种复杂病例,系统管理数据,为学者研究阻生智齿提高收集数据的效率。

3 总结

本文将知识图谱相关技术应用到口腔医学领域,选择BERT-BiLSTM-CRF模型对文本进行实体抽取,建立阻生智齿知识图谱,包含分类、症状、手术方案、用药等阻生智齿相关知识,我们首次系统性地整合阻生智齿领域的信息,希望为后续建立阻生智齿研究平台打下基础。然而,该知识图谱的构建还处于起步阶段,存储的信息还不全面,需要继续深入研究,丰富数据信息,朝着提高阻生智齿知识图谱权威性、系统性、全面性、高质量性的方向不断努力。

猜你喜欢
智齿语料图谱
绘一张成长图谱
我陪妈妈拔智齿
补肾强身片UPLC指纹图谱
基于语料调查的“连……都(也)……”出现的语义背景分析
拔不拔智齿,牙片说了算
拔不拔智齿,牙片说了算
华语电影作为真实语料在翻译教学中的应用
高速涡轮机、微创拔牙刀在阻生智齿拔除术中的应用观察
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法