摘 要:医学数据的类重叠问题会严重影响疾病的智能诊断效果。为了减轻腰椎间盘样本的类重叠对分类器产生的不良影响,提出了一种可减轻类重叠的混合采样算法———CO_HS算法。该算法将训练样本划分为核心样本、边界样本和噪声样本,对重叠区域的样本进行采样,以减轻样本集的类重叠程度。采用CO_HS算法产生的新训练样本集训练RF等分类模型,并建立了6种新的腰椎间盘退变分类器。实验结果显示,建立的新分类器在多项性能指标上均实现了显著提升,其中准确度提升了7.8百分点~12.7百分点,kappa 系数提升了11.6百分点~20.2百分点,敏感性提升了7.9百分点~16.8百分点,特异性提升了9.0百分点~18.2百分点,F 指标提升了9.4百分点~18.4百分点。因此,CO_HS算法被证明是一种能有效解决样本类重叠问题、改善分类性能的高效方法。
关键词:智能医学;类重叠;混合采样;腰椎间盘退变
中图分类号:TP181;R604 文献标志码:A
0 引言(Introduction)
腰椎间盘是处于两个相邻椎骨之间的软骨组织,具有缓解震荡、保证脊柱灵活性的重要功能[1-2]。随着年龄的增长,人体的腰椎间盘会自然发生退变。有研究表明,腰椎间盘退变(Lumbar Disc Degeneration,LDD)是造成腰背痛的主要原因[3]。目前,腰背痛的发病率持续上升,已成为一个全球性的健康问题[4-5]。为了更有效地预防和治疗腰椎间盘退变引起的腰部疾病,对腰椎间盘退变程度进行准确诊断显得尤为重要。
腰椎间盘的代谢组学可以全过程捕获LDD 的演化状态[6]。现有研究证实,腰椎间盘代谢组学变化在先,形态改变与临床症状在后[7]。借助机器学习、深度学习等人工智能方法建立基于代谢组学的腰椎间盘退变分类器,可以辅助医生诊断LDD,提高治疗顽固性腰背痛和抑制脊柱功能衰退的效果[8-9]。然而,研究中采集到的不同退变程度的腰椎间盘样本在特征空间上相互交集,存在所谓的类重叠问题[9]。直接采用有类重叠的样本集训练分类器会导致分类器性能不佳[10-11]。因此,采用适当的方法(如数据重采样方法)减轻腰椎间盘样本集的类重叠程度,是提高LDD分类器性能的有效途径。