基于机器学习的医疗器械分类与预测方法研究

2024-02-05 12:36黄佳刘翔宇
科技创新与应用 2024年5期
关键词:分类管理机器学习医疗器械

黄佳 刘翔宇

摘  要:针对当前医疗器械分类仍然采用人工分类方式,费时费力的问题,提出一种基于机器学习的医疗器械分类与预测方法,通过引入机器学习和自然语言处理领域的经典算法,以新版《医疗器械分类目录》为标准,提取医疗器械产品注册证的关键信息作为语料库,实现对医疗器械的产品类别划分,达到真正意义上的医疗器械自动分类,为各级医疗机构的医疗器械分类管理信息化奠定基础,提供借鉴和启示。

关键词:医疗器械;机器学习;自动分类;分类管理;信息化

中图分类号:R197.39      文献标志码:A          文章编号:2095-2945(2024)05-0028-04

Abstract: The current manual classification method for medical devices is still time-consuming and labor-intensive. In order to address this issue, a medical device classification and prediction method based on machine learning is proposed. By introducing classic algorithms in the fields of machine learning and natural language processing, and using the new version of the "Medical Device Classification Catalog" as the standard, the key information from the medical device product registration certificate is extract as the corpus to classify medical devices into product categories, so the true automatic classification of medical devices is achieved, which lays the foundation and provides reference and inspiration for the informatization of medical device classification management in medical institutions at all levels.

Keywords: medical device; machine learning; automatic classification; classified management; informatization

医疗器械具有产品多样化、学科跨度大、复杂程度高等特点,涉及机械、电子、临床医学、生命科学和材料等诸多学科门类,既具有很强的专业性,又具有跨专业、跨学科的综合性,故对其进行科学高效的分类是有效实施监管、合理配置资源的关键所在[1]。但随着各类数字化、智能化的医疗器械涌入医院,传统采用人工分类的管理运行方式已经变得捉襟见肘,如何利用信息技术手段对其进行分门别类的管理,为领导者、决策者掌握医院医疗器械总体情况、编制发展规划与配置方案,管理部门制定年度采购计划提供快捷而准确的信息数据成为当务之急[2]。

自2018年8月1日开始实施的新版《医疗器械分类目录》[3]以工程技术与应用领域为主线,侧重于从医疗器械的产品功能和临床使用的角度划分产品品类归属,形成了包括《01有源手术器械》《02无源手术器械》《03神经和血管手术器械》《05放射治疗器械》《06医用成像器械》在内的22个产品管理类别,框架设置更合理、层级结构更清晰,在实际管理工作中更加具有指导性和可操作性,也为自动分类提供了科学指导和实践依据[4]。

医疗器械注册证是指医疗器械产品的合法身份证[5],包括产品名称、注册证编号等重要信息。医疗器械注册证编号由6个部分组成,基本编排方式为:×1械注×2××××3×4××5××××6,其中×1为注册审批部门所在地的简称;×2为注册形式;××××3为首次注册年份;×4为产品管理类别;××5为产品分类编码;××××6为首次注册流水号[6]。由此可见,通过注册证信息可以建立起产品名称与产品管理类别的对应关系,并由此为自动分类提供必备材料。

近年来,研究人员利用大量数据“训练”机器,让机器自己去学习,然后对世界上的某件事情做出决定或预测,这一类方法被称为机器学习[7]。在機器学习中,文本分类是最常见的问题,也是应用最为广泛的领域之一,在新闻分类、舆情监测、智能分诊、商业决策和垃圾邮件过滤等众多领域都有着重要应用[8]。因此,抛弃以往手工分类的管理方式,引入机器学习和自然语言处理领域的经典算法,以新版《医疗器械分类目录》为标准,依据医疗器械注册证的关键信息对医疗器械进行产品类别划分,从而实现医疗器械自动分类与预测,是本文研究的主要课题。

1  材料与研究方法

1.1  数据收集

本文以境内医疗器械为主要研究对象,为了获得足够大的研究样本量,从国家药品监督管理局网站公开的医疗器械数据查询栏目中,下载境内二类以上医疗器械注册条目信息90 249条作为原始数据集,各个数据条目包括了产品名称、产品分类编码、产品管理类别等有助于自动分类的关键信息,文本数据示例见表1。

新版《医疗器械分类目录》以“总局关于发布医疗器械分类目录的公告(2017年第104号)”中的附件为准,从国家药品监督管理局网站下载可得,新版《医疗器械分类目录》提供了22个完整的产品分类编码,以及与之对应的6 609个典型产品名称举例。

1.2  数据处理及算法研究

本文的原始数据集采用新版《医疗器械分类目录》与国家药品监督管理局网站公开的医疗器械注册条目信息共计9万余条。如图1所示,原始数据集在经过数据预处理、分词和去停用词、文本向量化、文本特征提取后,将按照4∶1的比例划分为训练数据集与测试数据集,并提供给Scikit-learn(简称sklearn)机器学习库中的svm模块、naive_bayes模块,以及neighbors模块构建的支持向量机(SVM)、朴素贝叶斯、K近邻(KNN)3种分类器进行模型训练及类别预测,同时返回评估算法与分类模型的关键性能指标进行模型效果对比验证。

2  实验结果与分析

2.1  数据预处理

在使用数据之前,有必要对原始数据进行预处理。本文使用Python语言进行编程实现境内医疗器械注册条目数据的预处理工作,包括拆分原始数据,提取有用信息,处理缺失值、异常值并制作训练数据集与测试数据集。如注册条目数据“数字乳腺X射线摄影系统 (上海联影医疗科技股份有限公司 沪械注准20192060485)”,将该条目进行拆分,可获得产品名称为“数字乳腺X射线摄影系统”,首次注册年份为“2019”,产品管理类别为“2”类,产品分类编码为“06”,对应新版《医疗器械分类目录》中22个产品分类编码下的“06 医用成像器械”,与品名举例中的“乳腺X射线机、数字化乳腺X射线机”高度相似。

2.2  分词和过滤

中文不同于英文,英文是以词为单位的,词与词之间以空格分隔,而中文则是以字为单位,须要使用专门的分词工具将中文字符序列通过分词划分为逐个的词语,以作为文本向量化和计算机算术运算的基础[9]。jieba库是一款优秀的Python第三方中文分词库,通过jieba库可完成中文分词这一过程。与此同时,将产品名称中一些非语义特征的字母和数字符号过滤可提高中文匹配的准确度,而且可以节省计算机的内存空间和计算时间。“数字乳腺X射线摄影系统”和“医用血管造影X射线系统”在经过jieba精确分词模式处理后,可分为[‘数字,‘乳腺,‘X射线,‘摄影,‘系统]、[‘医用,‘血管,‘造影,‘X射线,‘系统]。

2.3  文本向量化

经过数据清洗、中文分词、去除停用词之后得到的文本数据是中文词语的集合,对于这种词语数据集,计算机不能直接识别和处理,因此需要使用向量空间模型将词汇映射到向量空间中进行数值化表示,同时数值型数据也可以提升计算机分析处理的运算速度。如果整个医疗器械词语字典由{‘X射线,‘乳腺,‘医用,‘摄影,‘数字,‘系统,‘血管,‘造影}组成,若想要向量化文本“数字乳腺X射线摄影系统”,其在分词后可以转换为以下向量:(1,1,0,1,1,1,0,0)。

2.4  文本特征提取

在向量空间模型中,为了区别文本的特征,需要对文本中的核心字词进行特征提取,并将其作为文本分类的主要依据。因此,本文引入了TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)算法进行文本特征提取。TF-IDF是一种用于信息检索与数据挖掘的加权技术,其本质是一种统计方法,可以用来衡量字词对于文本的重要程度。该方法的基本原理是:根据某个词语在某篇文章中出现的频率以及该词在语料库中出现的频率来综合评估该词对分类的影响,词的重要性仅与上述的2个频率值有关。通过引入TF、IDF 2个指标,能使特征词权重计算结果更加精确,文本分类准确性更高。经过TF-IDF特征提取后,文本“数字乳腺X射线摄影系统”的向量化表示(1,1,0,1,1,1,0,0),可以进一步转化为(0.355 200 09,0.499 221 33,0,0.499 221 33,0.499 221 33, 0.355 200 09,0,0)。

2.5  分类器构建及模型验证

由上文所述,选择使用向量空间模型和TF-IDF算法的目的,就是为了使医疗器械文本特征向量可以使用分类算法进行类别划分,因此选择何种分类算法将会直接决定分类与预测结果的优劣。

在中文短文本分类领域,常用的分类方法有K近邻算法(KNN)、朴素贝叶斯算法、支持向量机算法(SVM)和决策树算法等[10]。其中,KNN算法是一种应用于数据分类和预测的分类算法,它的基本原理是对于一个指定的预测样本,KNN分类模型会从训练数据集中找到与其距离最近的k个样本,如果k个最近邻样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法既可以处理二分类任务,又可以处理多分类任务[11]。朴素贝叶斯是建立在概率统计基础上的一种分类模型,该模型主要基于贝叶斯定理和特征条件独立性假设来实现分类。算法的第一步是得到文本中每个词属于某一类别的概率,然后根据条件独立性假设,可计算出文本属于某一类别的概率,或者某一类概率最高。朴素贝叶斯算法具备非常快的训练和预测速度,适用于实时分类任务[12]。SVM算法是一種基于统计学习理论的分类算法,它可以根据有限的样本数据,结合结构风险最小原理,将原低维空间中的非线性问题变换为高维空间中的线性问题来进行计算,并最终得出分类结果。SVM算法在小样本、非线性及高维分类问题中具有独特优势[13]。

本文主要选取了机器学习的3种经典算法(KNN算法、朴素贝叶斯算法、SVM算法)进行文本分类测试,并通过实验比较这3种算法的分类效果。本实验采用基于Python语言的sklearn机器学习算法库,使用sklearn库中naive_bayes模块、neighbors模块以及svm模块构建的3种分类器进行模型训练及类别预测,同时返回评估算法与分类模型的关键性能指标——准确率(Accuracy)、精确率(Precision)、召回率(Recall)和综合评价指标(F1-Measure)。其中,准确率是对模型预测的正确数量所占总预测数量的比例进行评估的一项指标;精确率表示分类后的某个类别中正确分类的样本占该类样本的比例;召回率表示分类模型正确分类的样本数占该类别总样本数的比例;综合评价指标是精确率和召回率的加权调和平均,常用于评价不同分类模型的优劣。朴素贝叶斯、SVM和KNN 3种算法的对比实验结果见表2,其中最优指标加粗表示。

从整体的实验结果来看,SVM算法的整体分类准确率达到86.2%,综合评价指标也达到最高的84.1%,其中精确率高达90.2%,在本数据集上表现出较好的分类效果。朴素贝叶斯算法的分类表现整体优于KNN算法,召回率达到最高的82.6%,但是分类效果与SVM算法仍然存在差距。

3  结束语

医疗器械具有多学科交叉、知识密集型等特点,产品繁多,组成迥异,风险跨度大,从最简单的检查手套、纱布、绷带,到高技术含量的直线加速器、磁共振、CT等,都属于医疗器械的范畴。科学合理地对其进行分类编码是医疗器械精细化管理的基石,发挥着举足轻重的作用。针对产生的大量医疗器械名目数据,人工分类存在效率低、成本高、专业难度大等问题,所以需要机器替代人工来进行分类。

本文为解决传统的医疗器械人工分类费时又费力的问题,以新版《医疗器械分类目录》为标准,提取医疗器械注册证的关键信息作为语料库,分别采用朴素贝叶斯算法、SVM算法、KNN算法进行了医疗器械自动分类实验。从实验结果的对比分析来看,SVM算法的总体表现更为优秀,在精确率方面有着最高的数值,能够有效地处理产品名称描述的文本分类问题,可达到较好的医疗器械分类效果。KNN算法在整体分类上的表现欠佳。朴素贝叶斯算法的表现相对好于KNN算法,但是仍与SVM算法有一定的差距。

参考文献:

[1] 华长江,许鸣,张亮.医疗设备的分类管理研究[J].医疗卫生装备,2014,35(10):133-135.

[2] 李文兵,王学军.医疗器械分类编码在医院固定资产管理中的应用[J].医疗卫生装备,2015,36(7):130-133.

[3] 母瑞红,余新华.新版《医疗器械分類目录》使用时应注意的问题和建议[J].中国医疗器械信息,2019,25(19):23-24,129.

[4] 侯羿,李子木,房琦,等.新版《医疗器械分类目录》在医疗器械招标采购工作中的应用[J].医疗卫生装备,2021,42(4):85-88.

[5] 李非.我国医疗器械注册管理体系研究[D].沈阳:沈阳药科大学,2019.

[6] 王兰明.中国医疗器械注册管理工作的现状与思考[J].中国医疗器械信息,2012,18(11):28-34,39.

[7] MARC G, GENTON. Classes of kernels for machine learning: a statistics perspective[J].Journal of Machine Learning Research, 2002,2(2):299-312.

[8] WANG B K, HUANG Y F, YANG W X, et al. Short text classification based on strong feature thesaurus[J].Journal of Zhejiang University-Science C(Computers & Electronics),2012,13(9):649-659.

[9] 何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008(5):787-791.

[10] 刘硕,王庚润,李英乐,等.中文短文本分类技术研究综述[J].信息工程大学学报,2021,22(3):304-312.

[11] 耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344,1373.

[12] 贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154.

[13] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

猜你喜欢
分类管理机器学习医疗器械
“瑞典式”生活垃圾分类管理经验对我国的启示
实验室危险废物分类管理及处置实践
北京市医疗器械检验所
北京市医疗器械检验所
北京市医疗器械检验所简介
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
高校教师岗位分类管理刍议——国外一流大学的经验和我国高校的实践
聚焦民办教育分类管理与合理回报