梁人月
摘 要 本文对人工智能医疗器械用数据集中的常见质量问题进行了分析,并对数据集的管理和评价原则进行了讨论,对数据管理体系的设计和建设进行了研究和探索,提出了几点对策和建議。
关键词 人工智能;医疗器械;数据集
引言
当前人工智能在医疗器械的开发研究中获得了广泛的应用,其中数据集是人工智能进行学习、训练的主要基础。人工智能通过对数据集进行分析提取特征并形成算法模型,然后通过对这一模型进行持续的验证、更新、迭代、优化,从而为最终产品的性能质量提供有力保证。由此可见,建立高质量的医学对于人工智能医疗器械的开发与应用有着重要的意义。
1人工智能医疗器械用数据集的常见质量问题
在人工智能医疗器械用数据集中存在的质量问题可以从数据意义以及数据管理两个方面进行分析和讨论。
(1)数据意义质量问题。当前在人工智能医疗器械用数据集中出现的数据意义质量问题主要有:①数据偏倚。具体可以分为选择偏倚、覆盖偏倚、参考标准偏倚、验证偏倚、阅读顺序偏倚、情境偏倚6种类型。数据偏倚的出现会导致数据集无法真实有效的反映患者特征,从而影响人工智能的学习效果。②样本量不足。数据集中数据过少容易导致在抽取训练集、测试集时出现较大的误差,导致在同一算法下结果出现较大差异而影响算法性能,现进而影响人工智能的计算和学习。③数据陈旧。训练集与测试集的抽取间隔时间较长会导致数据之间的误差增加,设备的性能仍然以过去的训练集计算结果为准,无法适应数据发生较大变化后的测试集,从而导致对相关器械产品的性能评价出现较大误差。造成上述问题出现的主要原因是数据集设计不合理,对于人工智能医疗器械所需数据的患者群体、场景、人数、病种、数据来源等方面没有进行综合考虑和确定。
(2)数据管理质量问题。人工智能医疗器械用数据集的采集管理方面出现的质量问题主要表现在以下几个方面:①数据误差。在数据的采集、标注中由于方法不当、标准不统一导致获取的数据与真实数据存在较大误差,或者在归档、管理过程总由于操作失误导致数据发生改变、误删除、无增加等而没有及时纠正,出现数据谬误。当出现误差的数据超过一定比例时就会对数据集质量造成较大影响。②数据不完整或重复。在数据采集、归档过程中如某没有进行审核,可能会导致其中存在着一定的重复数据没有被剔除,或者不完整的数据。这些数据会导致数据集规模发生变化,数据对应出现问题,并造成各类型数据比例变化,从而导致数据集无法反映真实情况,影响医疗器械性能。③数据造假。部分人员为了获取不当利益可能会对数据集中的部分或全部数据进行造假,使其满足以一定条件从而改变医疗器械性能。④数据不可用。人工智能医疗器械所需数据的收集需要经过伦理委员会批准或根据国家相关法律法规对数据进行脱敏处理。如果没有进行上述环节就会导致所获取的数据无授权、来源追溯难等一系列问题,导致获取的数据不可进行实际应用,如果贸然使用可能会影响器械设备性能或者遭受法律风险[1]。
2人工智能医疗器械用数据集管理与评价的原则
(1)数据集设计合理。数据集的设计应当能够准确、全面反映人工智能医疗器械所针对的目标疾病的流行病学特征,并合理选择数据库类型,有效控制数据偏倚问题;保证数据真实可信,并通过扩大数据采集范围、纳入第三方数据库等,保证数据集具有满足人工智能训练需求的足够数据量。
(2)数据可用。人工智能医疗器械数据集应当包含计算分析所需的完整信息,明确数据的有效期和更新周期,确保数据时效性;数据集应当按照统一的标准格式储存,且符合相关医学标准、共识;数据集要能够体现设备的预期用途、使用场景、核心功能、目标人群、使用限制等信息,具有一定的临床代表性。
(3)研究资料详细。数据集应当提供相关的研究资料,并对数据采集要求、入排标准、数据采集操作规范、数据质疑、稽查等环节进行详细说明,保证数据集形成过程中采取了有效避免偏见的措施,保证数据的可追溯性。
(4)风险控制有效。数据集应当对临床中可能出现的假阳性、假阴性等使用风险进行体现,在算法软件中进行设置了相应的风险评估和控制措施,并对器械的禁用、慎用场景进行明确,将器械使用风险降到最低。同时,数据的采集使用还应当符合相关法律法规要求,避免产生法律风险。
(5)保障数据安全。数据集的采集应当按照相关法律法对数据进行加密、脱敏处理,做好安全措施、备份措施等,明确数据安全要求,尽量不通过公共互联网进行敏感数据的传输,避免造成数据泄露[2]。
3数据管理体系设计
针对上述人工智能医疗器械用数据集存在的主要质量问题以及数据集管理、评价原则,在相关管理体系的设计上主要可以从以下几个方面进行:①加强流程控制。针对医疗器械数据的采集、标注、核查、归档、管理等环节加强控制,建立起明确的数据采集和标注标准,加强数据审核并做好相应记录,保证数据的有效性、真实性以及规范性;做好数据规范、管理、更改记录,保证数据的可溯源;做好相关数据库的网络隔离、硬件安保、数据备份工作,保证数据安全性。②明确人员职责。在数据集形成管理过程中要对相关人员的职责、职能进行明确划分,包括领导数据集管理整体工作、对数据质量管理进行研究设计、对医学参考标注质量进行审核监督、对数据进行审查核对、对数据库进行日常维护等工作,保证各环节人员相互协作但职能、利益上无交叉。③建立质量控制体系。结合数据集常见质量问题以及管理评价原则建立相应的质量管理控制机制,对数据集进行常态化的监督检查预防质量问题发生,并在出现问题时及时落实责任到人,找出影响数据质量的主要因素,采取措施进行纠正、更改[3]。
4结束语
综上所述,针对当前人工智能医疗器械用数据集中存在的主要质量问题,相关单位和部门要积极采取有效措施,结合数据集管理评价原则,加强流程控制、明确人员职责、建立质量控制体系,从而切实提高数据集质量,为人工智能医疗器械的发展和应用提供更好支持。
参考文献
[1] 何宝宏,徐贵宝. 人工智能前沿技术应用趋势与发展展望[J]. 中国工业和信息化,2019(4):24-28.
[2] 王浩,孟祥峰,李澍,等. 数据集在人工智能医疗器械质控中的角色与要求[J]. 中国医疗器械杂志,2019,43(1):54-57.
[3] 王权,王浩,孟祥峰,等. 人员管理对人工智能医疗器械用数据集质量的影响分析[J]. 中国医疗设备,2018,33(12):15-18.