张峻齐,任江涛△,周 平,2
(1.重庆医疗器械质量检验中心,重庆 400799; 2.重庆大学生物工程学院,重庆 400044)
2021 年,国际标准化组织(ISO)发布的《ISO 战略2030》提出,数字技术是未来世界变革的驱动因素。数字技术进步有利于各类组织提高效率和生产率,创新竞争优势。2021 年,我国发布的《国家标准化发展纲要》提出,要“发展机器可读标准、开源标准,推动标准化工作向数字化、网络化、智能化转型”,从国家层面对标准本身的高质量发展提出了更高要求,对标准赋能数字经济,支撑数字社会提出了明确期望。医疗器械标准在医疗器械全生命周期中扮演了极其重要的角色,贯穿医疗器械的研发、设计、生产、经营、使用、报废和监管的全过程。其中,强制性国家标准和行业标准具有强制性执行的法律属性,为保障人民群众的用械安全起到了重要作用。医疗器械标准数据库的全面、有效建设是医疗器械标准有效实施、应用的关键步骤,同时也是开展数字标准转化的基础性工作。因此,推进医疗器械标准数据库的全面、有效建设是医疗器械标准化工作向数字化、网络化、智能化转型的重要研究基础。医疗器械标准数据库查询界面设计的合理性和可用性决定了标准利益相关方对数据库中标准利用的全面性、有效性和可靠性。目前,国内外对通用搜索引擎与学术搜索引擎,如百度、谷歌、搜狗、百度学术、bing学术等检索结果的定性和定量比较分析较多,但缺乏对数据库查询界面的定性和定量测评[1-5]。基于此,本研究中选取了ISO、美国食品和药物管理局(FDA)、国际电工委员会(IEC)、欧洲标准化委员会(CEN)、日本独立行政法人药品和医疗器械综合机构(PMDA)、英国标准协会(BSI)、中国食品药品检定研究院(NIFDC)7 个国家/区域医疗器械标准数据库,并对其查询功能及使用体验进行比较、分析和测评,为改进国内医疗器械标准数据库提出建议。现报道如下。
通过研究国内外软件测评指标,并结合医疗器械标准自身的特点,本研究中拟从数据库用户体验中的使用体验及其检索效果2个方面对以上7个国家/区域医疗器械标准数据库进行测评。其中,数据库使用体验的测评指标包括数据库查询界面友好性、对检索效率的帮助程度、检索主页面泛用性得分、检索结果显示页泛用性得分、具体标准信息显示页泛用性得分;数据库检索效果的测评指标包括关键词索引量、查全性、查准率。通过分析以上各标准数据库查询界面[6-12],针对各测评参数分别制订了测评方法及测评准则。
1.2.1 测评方法
对比7个数据库的各项功能发现,各数据库的界面友好性主要由以下6项功能决定,即检索日期功能(A)、排序功能(B)、条目翻页功能(C)、条目无限制显示功能(D)、导出表格功能(E)、具体标准信息显示页面标准历史显示功能(F)。数据库拥有的功能越多,用户可感知的界面友好性就越高。故测评方法为对各标准数据库的功能进行计数后排序。
1.2.2 测评准则
数据库的6 个功能中,拥有1~2 项的,界面友好性定义为低;拥有3~4 项的,界面友好性定义为中;拥有5~6项的,界面友好性定义为高。
1.3.1 测评方法
标准数据库中特定关键字检索项目越多,越易精确检索到所需标准,对检索效率的帮助程度就越高。故测评方法为将各数据库中特定关键字检索项目进行计数后排序。
1.3.2 测评准则
特定关键字检索项目为0 项的,搜索引擎定义为低;0项<特定关键字检索项目<5项的,搜索引擎定义为中;特定关键字检索项目不少于5 项的,搜索引擎定义为高。
1.4.1 测评方法
统计7 个国家/ 区域医疗器械标准数据库中检索主页面、检索结果显示页、具体标准信息显示页的检索功能项,计算功能相同/相似的项目数量及每个相同/相似检索功能的重合总次数。总次数越高,本类功能在各标准数据库中的泛用性越高,所占权重就越高。总分计算公式见式(1)。式中,S指总分;N指某个检索功能的重合次数;将检索功能相同/相似N次的项目归为第N类(2 ≤N≤7),第N类项目取权重为N,标准数据库第N类项目的个数为M(N)。
1.4.2 测评准则
总分越高,页面泛用性就越好。
1.5.1 测评方法
关键词索引量:指定关键词索引量的计算步骤如下。1)按3 种类别选择关键词,共选择10 个关键词(英文/中文/日文)作为代表。具体为通用名词(①medical/医用/医療機器);专用标准形容词(②single- use/ 一次性/単回使用,③sterile/无菌/滅菌);设备分类用名词(④dentistry/ 牙科/ 歯科,⑤anaesthetic/ 麻醉/ 麻酔,⑥respiratory/呼吸/呼吸,⑦ultrasonic/超声/超音波,⑧X - ray / X 射线/ X 線,⑨ophthalmic / 眼/ 眼,⑩orthopaedics/ 骨/ 骨)。2)在各数据库关键词检索栏搜索以上关键词,获取7 个国家/区域医疗器械标准数据库搜索引擎对该关键词的索引量,为保证一致性,统一检索现行有效标准数据。3)计算出各搜索引擎的总(平均)关键词索引量[13]。
查全性:通过对比各数据库对某个关键词的索引量进行查全性分析[13]。
查准率:借鉴“前X 命中记录查准率”理论[14]计算查准率,相关性范畴定义见表1。
表1 查准率相关性范畴等级Tab.1 Correlation domain level of the precision
如将检索结果分为1~3、4~10、11~20,权重分别为20,17,10,分母为3×20+7×17+10×10=279。查准率计算公式见式(2)和式(3)。式中,N为返回记录数,R为各个命中记录的相关系数,P(20)为前20 条命中记录的查准率。
当N≤20时,
当N>20时,
记录数计算公式见式(4)。式中,1~3、4~10、11~20的检索结果中返回范畴1、范畴2、范畴3 的记录数。N(1)、N(2)、N(3)分别为当N>20时,对于x~y→1~3,N(1)+N(2)+N(3)= 3;对于x~y→4~10,N(1)+N(2)+N(3)= 7;对于x~y→11~20,N(1)+N(2)+N(3)=10。
借鉴并改进韩圣龙等[15]研究的相关系数确定方法,增加了结果情况1,3,5,6,确定R(1)、R(2)、R(3),详见表2。检索结果为范畴0 的R值均为0,不在表2 中体现。当x~y→11~20 时,若统计结果为N(3)= 5,N(2)= 3,N(1)= 2,则R(11~20)= 5 × 1.0 + 3 × 0.7 +2×0.3。
表2 查准率计算中R(1)、R(2)、R(3)确定方法Tab.2 Method for determining R(1),R(2),and R(3)in the calculation of the precision
1.5.2 测评准则
1)关键词索引量越多,数据库涵盖标准条目就越多;2)对关键词的索引量越多,对此关键词的查全性就越好;3)某个关键词P(20)值越高,数据库对此关键词的查准率就越高。
根据测评方法和测评准则,计算和排序结果见表3。可见,FDA 标准数据库网站的综合体验最好,其界面友好性和对检索效率的帮助程度均为高;CEN 标准数据库网站的界面友好性最差;BSI 标准数据库网站设置的检索项对检索效率的帮助程度最低。
表3 各国家/区域医疗器械标准数据库界面友好性及对检索效率的帮助程度测评结果Tab.3 Evaluation results of the interface friendliness of the medical device standard database and its assistance to retrieval efficiency in various countries / oregions
1)ISO 的标准数据库检索主页面泛用性得分最高,为37 分;CEN 次之,为36 分;PMDA,NIFDC,IEC,FDA的标准数据库检索主页面泛用性得分处于中等水平,分别为26分、24分、23分、21分;BSI的标准数据库检索主页面泛用性得分最低,为19 分。2)FDA 和PMDA 的特有检索项与医疗器械产品本身有联系,这有助于专业人士进一步细分查询和分析数据。
1)ISO 的标准数据库检索结果显示页面泛用性得分最高,为38分;IEC 次之,为34分;FDA,NIFDC,CEN,BSI 的标准数据库检索结果显示页面泛用性得分处于中等水平,分别为33 分、32 分、28 分、25 分;PMDA 的标准数据库检索结果显示页面泛用性得分最低,为9 分。2)ISO,IEC,CEN 标准数据库内检索结果显示页面显示了标准技术委员会,这有助于专业人士快速寻找与该检索结果相关的标准制定人士。
ISO 的标准数据库具体标准信息显示页面泛用性得分最高,为57分;CEN和IEC次之,分别为55分、53分;NIFDC 的标准数据库具体标准信息显示页面泛用性得分处于中等水平,为48分;BSI,PMDA,FDA的标准数据库具体信息显示页面泛用性得分较低,分别为33 分、31 分、30分。
虽然BSI,PMDA,FDA 在信息显示页面泛用性得分较低,但其信息显示页面包括的以下特点提升了其泛用性。1)FDA具体标准信息显示页面中含有详细的认可程度和标准依据法律的相关信息,这一部分比其他数据库都要详细。2)PMDA 具体标准信息显示页面中含有与该产品标准相关的产品信息,包括使用目的、效果等。3)相较于其他组织的标准数据库具体标准信息显示界面,BSI 具体标准信息显示页面能在不阅读正文的情况下了解到最多的标准正文信息。
CEN 和BSI 标准数据库关键词总索引量远超其他数据库,但其查准率相对不高;FDA,ISO,NIFDC标准数据库的关键词总索引量处于中等水平;IEC 和PMDA 标准数据库的关键词总索引量最少,可能主要由于IEC专注于有源标准制定,而PMDA 专注于产品标准制定。详见表4。
排除索引量过多的CEN和BSI标准数据库,对比剩余各数据库的关键词索引量,详见图1。由表4 和图1 可知,1)第一类关键词中,FDA,ISO,IEC,NIFDC标准数据库中关键词①索引量占比最高,说明这4个数据库内含有通用名词的标准数量最多。2)第二类关键词中,FDA标准数据库中关键词②③索引量在所有数据库中最多,说明其数据库内含有一次性使用产品、无菌产品标准数量最多。3)第三类关键词中,PMDA 标准数据库中关键词④索引量最多,说明其数据库内含有的牙科类标准数量最多;ISO 标准数据库中关键词⑤⑥⑨索引量最多,说明其数据库内含有呼吸类、麻醉类、眼科类标准数量最多;NIFDC 标准数据库中关键词⑦⑧⑩索引量最多,说明其数据库内含有超声类、X射线类、骨科类标准数量最多。4)FDA,ISO,NIFDC 标准数据库中各类标准收录数量较均衡;IEC 标准数据库中主要收录了通用类标准,其次为X 射线类标准;PMDA 标准数据库中主要收录了一次性使用产品类、牙科类标准。
图1 各国家/区域医疗器械标准数据库关键词索引量占比堆积条形图Fig.1 Stacked bar chart of the percentage of keyword index of medical device standard databases in various countries / regions
查准率测评结果见表5。可见,1)IEC标准数据库内无一次性使用类、无菌类标准,对关键词⑧的查准率很高,其余关键词查准率很差,说明该数据库对X 射线类标准最支持。2)FDA 标准数据库的查准率低于平均水平,且对关键词②③的查准率非常差,多次出现检索结果仅与该标准相关的法律条文含有关键词的情况。3)CEN 标准数据库对关键词⑥的查准率最高,其他检索结果中的关键词较多出现在标准摘要中。4)ISO 标准数据库对关键词②③⑩的查准率较低,是由于其搜索引擎查询未进行布尔检索区分,遇到关键词②时无法区分“与”检索还是“或”检索,检索出了“single”相关的结果,遇到关键词③时又检索出了“Sterilization”“sterilized”等结果。5)BSI 标准数据库对关键词⑩查准率稍低,前20个检索结果中有18个标准的标题都含有关键词⑩,后2 个检索结果是标准摘要中含有关键词⑩的情况,而前9个关键词的查准率并未出现低于1.000 0的情况,原因是关键词⑩密切相关的标准少于20 个。6)PMDA 和NIFDC 标准数据库的查准率均保持在最高水平,由于日文、中文与英文语系和语言逻辑不相同,无法得出这2 个标准数据库查准率比其他数据库高的结论。通过扩大到计算前200 个检索结果的查准率,发现PMDA 和NIFDC 的标准数据库检索引擎只包括了完全匹配标准中标题部分的关键词检索功能,故无法完整检索除标题外其他所有与关键词相关的条目。
表5 各国家/区域医疗器械标准数据库的查准率P(20)值Tab.5 Precision P(20)values of medical device standard databases in various countries / regions
通过对各标准数据库使用体验和检索效果的对比与分析,总结出如下结论。1)FDA 具有较长的医疗器械监管和数据库建设历史,其标准数据库网站的界面友好性和对检索效率的帮助程度在本次测评中排名最高,我国可借鉴学习。2)ISO 作为世界上最大的国际标准化组织,其标准数据库的检索主页面、检索结果显示页、具体标准信息显示页泛用性得分均居榜首,其标准数据库还有选择是否检索摘要的功能,可作为我国标准数据库页面建设的参考。3)BSI 标准数据库的界面友好性、对检索效率的帮助程度、各类页面泛用性得分都不高,但其查准率在英语语系中最高,也包含了匹配标准中除标题外部分关键词的检索功能,且保证了范畴3(表1)的标准条目永远排在最前面,我国可据此完善标准数据库的关键词检索功能。但对数据的分析可能还不够深入和完善,还有待后续研究来验证。
综合以上测评结果,对NIFDC 的医疗器械标准数据库提出以下4点改进建议。1)检索主页面增加标准批准日期、标准实施日期、ICS 分类号、标准起草单位、标准归口的标准技术委员会等功能。2)检索结果显示页面增加列表中显示标准归口的标准技术委员会;可排序标准列表;可导出标准列表表格。3)具体标准信息显示页面增加显示标准页数、归口单位技术联系人联系方式、增加修改单的情况。4)检索引擎增加布尔检索功能、检索摘要内文字的功能、更多的特定关键字检索项目。在增加上述功能的基础上,保持标准标题相关检索结果列出完后再出现摘要文字相关结果,保持目前的超高查准率。