姜英玉 钟源 李前慧
摘要:目的 评估国内App中常见的智能预诊系统结果准确性。方法 截止2018年1月1日,在Apple App Store中筛选包含智能预诊功能的、免费的、面向公众的、针对人群的、针对全病种的7个App,在标准化病人案例中筛选内科病例7例,外科病例4例,妇科病例2例,儿科病例2例。按照病例所述病情逐一输入所筛选出的智能预诊系统中,记录系统出示的预诊结果,统计正确的诊断是否列在第一项、正确的诊断是否列在前三项、是否列出正确诊断。结果 ①所有APP中仅App A询问用户的身高、体重,App C并未询问用户的身高、体重、性别、年龄就开始问诊,有3个系统允许用户在查找症状时同时输入多个症状;②预诊结果准确率为64.76%,正确诊断列在第一项占26.67%,正確诊断列在前三项的占39.05%。结论 当前现有的预诊系统结果准确性仍较低,用户应理性看待智能预诊系统的预诊结果,不能盲目依赖。
关键词:智能预诊系统;预诊结果;准确性
中图分类号:TN929.53;TN911.7 文献标识码:B DOI:10.3969/j.issn.1006-1959.2019.15.007
文章编号:1006-1959(2019)15-0019-04
Abstract:Objective To assess the accuracy of the results of intelligent pre-diagnosis systems commonly found in domestic App.Methods As of January 1, 2018, the Apple App Store was selected to include free, public-facing, population-oriented, 7-case-wide App with intelligent pre-diagnosis capabilities, and to screen medical cases in standardized patient cases. There were 7 cases, 4 cases of surgical cases, 2 cases of gynecology, and 2 cases of pediatrics. According to the condition of the case, input the selected intelligent pre-diagnosis system, record the pre-diagnosis results presented by the system, and check whether the correct diagnosis is listed in the first item, whether the correct diagnosis is listed in the first three items, and whether it is listed correctly diagnosis.Results ① In App, only App A asks the user's height and weight.App C does not ask the user's height, weight, gender, and age to start the consultation. There are 3 systems that allow the user to input multiple symptoms at the same time when searching for symptoms;② The accuracy rate of pre-diagnosis results was 64.76%, the correct diagnosis was listed in the first item accounting for 26.67%, and the correct diagnosis was listed in the first three items accounting for 39.05%.Conclusion The accuracy of the current pre-diagnosis system results is still low. Users should rationally look at the pre-diagnosis results of the intelligent pre-diagnosis system and cannot rely on blindly.
Key words:Intelligent pre-diagnosis system;Pre-diagnosis results;Accuracy
智能预诊系统是指利用互联网技术将传统的分诊过程开发成可供用户直接使用的方法,根据用户自身的症状,询问用户相应问题,应用分支逻辑、贝叶斯推理或其他方法完成对用户病症的早期判断。预诊结果可为用户提供病情的初步诊断,该结果通常是将符合用户描述症状的全部疾病按可能性进行排序。随着互联网医疗的飞速发展,国内外的相关企业、医疗机构、政府部门等也投入到智能预诊系统的开发上,智能预诊系统的准确性决定了其使用价值。国外学者对此展开较多的质量评价,但是国内学者尚未针对智能预诊系统的准确性开展研究,因此本研究选择国内常见的7种智能预诊系统,开展准确性评价研究,现报告如下。
1对象与方法
1.1智能预诊系统的选取 于2017年10月~2018年10月在Apple App Store 中,以“智能预诊”“智能自诊”“智能导诊”“症状自查”作为检索词,筛选出于2018年1月1日服务器在运营中的213个App,逐一下载,纳入标准为App中的智能预诊系统是免费的、面向公众的、针对人群的、针对全病种的系统,共计纳入7个App,用字母A~G表示。
1.2标准化病人选取 从中国“标准化病人”实践教学指导委员会主持编写的《标准化病人培训实用教程》以及委员会官方网站(http://www.chinesesp.com)的SP脚本中选取本研究所需病例,共选15例,其中内科7例,外科4例,妇科2例,儿科2例。
1.3预诊结果的评估方法 将标准化病人病例输入到每个App中,记录预诊结果。系统出示的预诊结果最多提到了10项可能的疾病,但有很多用户只关注列出的重要诊断,因此本研究在判断预诊结果准确性时,分三种情况进行统计:①正确的诊断列在第一项;②正确的诊断列在前三项;③列出正确诊断。
2结果与分析
2.1智能预诊系统基本情况 纳入研究的7个智能预诊App均提供明确的疾病诊断。所有App中仅App A询问用户的身高、体重,App C并未询问用户的身高、体重、性别、年龄就开始问诊,有3个系统允许用户在查找症状时同时输入多个症状,各预诊系统基本情况见表1。
2.2预诊系统诊断结果的准确性 除App F外,其他智能预诊系统一般会将用户可能存在的疾病,按照可能性的大小依次列出。总体来说,研究纳入7个智能预诊系统的预诊结果准确率为64.76%,其中正确诊断列在第一项的占26.67%,正确诊断列在前三项的占39.05%。按标准化病人所属科目来分,内科类疾病预诊结果准确率为69.39%,正确诊断列在第一项的占34.70%,正確诊断列在前三项的占46.94%;外科类疾病预诊结果准确率为50.00%,正确诊断列在第一项的占10.71%,正确诊断列在前三项的占14.29%;妇科疾病预诊结果准确率为85.71%,正确诊断列在第一项的占14.29%,正确诊断列在前三项的占57.14%;儿科疾病预诊结果准确率为57.14%,正确诊断列在第一项的占50.00%,正确诊断列在前三项的占50.00%,见表2。
3讨论
3.1与现有研究的对比 近几年,国外学者倾向于针对某一个智能预诊系统进行实证研究,考察智能预诊系统的准确性。Bisson LJ等[1]在患有膝关节疼痛的患者中进行了一项队列研究,328例患者使用某智能预诊系统进行自我诊断,系统根据患者症状生成一个潜在疾病的诊断列表,患者在其中选择贴切的诊断,再接受临床医师的检查,二者一对比,发现有58%的患者在智能预诊系统的帮助下可以正确了解引起其膝关节疼痛的原因,该研究肯定了该智能预诊系统对患者的帮助,但仍应继续着眼于提高诊断精确度。Semigran HL等[2]使用45个标准化病人病例对23个智能预诊系统的准确性进行研究,将标准化病人病例中的症状输入所检验的系统,在系统根据症状生成的诊断列表中寻找正确的疾病诊断,结果显示仅有51%的智能预诊系统在其列出的前三个可能出现的疾病中给出了正确的诊断结果,认为智能预诊系统的诊断结果的准确性还需要进一步提高。Powley L等[3]使用WebMD智能预诊系统、英国国家医疗服务体系(NHS)对34例关节炎的患者进行预诊。WebMD智能预诊系统会按可能性大小提供5个鉴别诊断,病症名称及出现次数分别为:痛风(n=28)、类风湿关节炎(n=24)、银屑病关节炎(n=22)、骨关节炎(n=18)和手指脱臼(n=10)。其中,在21例类风湿性关节炎患者中,只有4例的第一个诊断为正确诊断。虽然第一个诊断的准确性很差,但诊断列表通常包含正确的诊断。该研究认为NHS诊断结果有风险规避倾向,仅有56%的患者得到符合疾病状态的分诊建议。因此,Powley L认为网上的诊断往往是不恰当的,会导致医疗服务使用不合理。
一项关于将互联网数据应用于国家综合检测系统的研究提取了2012年8月1日~2013年7月1日英国国家医疗服务体系(NHS)在线智能预诊系统的预诊数据,对用户预诊的症状类别进行了时间序列分析,结果显示智能预诊系统相对于电话分诊可以提供额外的疾病早期预警信息[4]。Poote AE等[5]评估了一个大学生健康中心的自我评估分类系统,154例患者分别接受自我评估系统和全科医生的诊断,两种诊断结果一致率为39%。与全科医生评估相比,自我评估系统倾向于规避风险,建议56%的患者需要紧急就医,但是也存在评估系统正确鉴别出患者需要紧急护理,而全科医生却未诊出的案例。
Luger TM等[6]采用有声思维方法(Think-Aloud)将关注重点投向评估老年人使用智能预诊系统的过程及如何找到准确诊断的过程。研究给予79例50岁以上的老年人一段关于病情症状的描述,让其使用互联网预诊(Google、WebMD)思考该症状的疾病,并大声说出思考过程。研究者记录这些思考过程,找寻老年人判断疾病的策略。结果显示41%的参与者找到了正确诊断,在判断过程中参与者倾向于从预诊系统给出的症状中使用假设-演绎法推断正确诊断,并辅之以现有的医学知识和疾病经验。
Marcoruiz L[7]等对挪威一款Erdusyk智能预诊系统开展质量评价测试。第一阶段由大样本用户(n=53)填写基于技术接受模型设计的调查问卷,采用主成分分析法分析用户界面对技术接受的贡献。第二阶段采用有声思维方法使测试者(n=15)使用Erdusyk,并结合测试过程的思考进行访谈。结果发现Erdusyk的主要使用障碍是记录强度的量表级别的选择,导航方式的接受度、一些症状属性的量化以及症状的特征选择。其研究结果显示大多数用户认为智能预诊系统会帮助自己避免受到网页(谷歌)上免费搜索到的低质量信息的干扰。
North F等[8]研究了可查詢症状的网站是否提供足够的信息,以满足用户的紧急护理、就诊需求。该研究在120个网站中搜索胸痛、呼吸急促等潜在的危险症状,33%的网站没有严重症状指标,在确定关键症状指标的病例中,42%没有提出进一步护理建议。该研究指出依靠互联网搜索来确定症状的紧急程度是存在一定风险的。由此可见,在用户预诊需求激增的当下,有必要完善智能预诊系统,给用户提供可靠的、科学的智能预诊工具。
North F[9]等的另一项研究评估了互联网预诊和电话预诊的差异,其结果表明互联网用户寻求成人症状的频率是儿童症状的13倍,而电话预诊中仅为2.1倍;两种方式询问的症状具有相似频率;互联网用户对慢性病的评估更感兴趣,电话询问者更多关心急性症状。
将本研究得出的智能预诊系统预诊结果准确性与现有文献进行对比,发现本研究的所有系统预诊结果平均准确性较高,为64.76%。但不可否认正确诊断列在第一位的比例仅为26.67%,这与系统运行背后需要的医学大数据和智能算法相关。国外智能预诊系统发展较早且成熟,医学数据库较完备,而我国医疗数据较分散,会影响预诊结果准确性。
3.2建议 智能预诊系统是以医学数据库为依托,以智能算法为技术支撑的医疗服务系统,因此想要爆发真正的生命力,需要不断扩充医学数据库,以开发完备的智能算法,进一步提高系统准确性。
医学是在不断发展中的学科,ICD-10收录了26000多种疾病,不断有疾病被治愈甚至消灭,但随着环境的变化,又会有新的疾病被发现,因此医学数据库不仅数据量庞大而且在不断更新,群体层面的疾病预防及诊疗体系的评价[10]、特定疾病的机制阐释[11]以及个体患者的疾病诊疗决策支持[12]都将依靠医疗大数据不断发展。美国规模最大的健康险公司Wellpoint早已将医疗大数据运用在商业活动中,其启用IBM超级计算机“Watson”辅助医生的医疗诊断。若要不断提高智能预诊系统的准确性,就要最大程度的获取和积累医学数据,尤其是中国医学数据,更符合中国人的身体状况。
医学数据不仅数量庞大,而且相互关联,错综复杂,要最大化地利用好医学大数据库,还需要进行数据挖掘和智能算法的开发。数据本身会受到样本量、环境、抽样、偏倚等因素的影响,医疗大数据是宏观的,以宏观评价微观难免会出现问题,因此使用医疗大数据评价个体时出现误诊的可能无法避免。例如哮喘的临床表现[13]就存在显著的异质性,在发病年龄、性别、肥胖、气道高反应性的严重程度等方面都有个体性差异。如何将多个维度的数据进行整合,为患者提供精细化、个体化的诊疗指导,还需要在数据挖掘上下功夫,并研究可行的智能算法。随着计算机硬件性能的提升,数据库技术的发展,医学数据会呈几何式增长,数据挖掘可用的数据条目会越来越多。数据挖掘工具也将不断更新,数据挖掘算法也会越来越智能化,使自动选择算法、自动调优参数等成为可能,将数据的潜力充分开发出来[14]。总之,提高智能预诊系统准确性的关键在于扩充医疗大数据库,通过大量的疾病数据挖掘其中诊断规律、特点等,建立预测模型,提高预诊结果准确性,帮助用户完成预诊行为,辅助临床医学诊断。
4总结
智能预诊系统作为预诊工具,其诊断结果的准确性虽然无需也无法达到医疗诊断的精确度,但是仍要以不断提高预诊结果准确性为发展目标,才能满足用户预诊需求,提高用户满意度,实现系统使用价值。而用户在使用智能预诊系统时,还是要理性看待,智能预诊系统的结果只能作为医学辅助信息,不可作为医疗诊断结果,若有需要仍建议寻求专业医师的帮助。
参考文献:
[1]Bisson LJ,Komm JT,Bernas GA,et al.How Accurate Are Patients at Diagnosing the Cause of Their Knee Pain With the Help of a Web-based Symptom Checker[J].Orthopaedic Journal of Sports Medicine,2016,4(2):2325967116630286.
[2]Semigran HL,Linder JA,Gidengil C,et al.Evaluation of symptom checkers for self diagnosis and triage:audit study[J].BMJ,2015(351):h3480.
[3]Powley L,Mcilroy G,Simons G,et al.Are online symptoms checkers useful for patients with inflammatory arthritis[J].BMCMusculoskeletal Disorders,2016,17(1):362.
[4]Elliot AJ,Kara EO,Loveridge P,et al.Internet-based remote health self-checker symptom data as an adjuvant to a national syndromic surveillance system[J].Epidemiology & Infection,2015,143(16):3416.
[5]Poote AE,French DP,Dale J,et al.A study of automated self-assessment in a primary care student health centresetting[J].Journal of Telemedicine & Telecare,2014,20(3):123-127.
[6]Luger TM,Houston TK,Suls J.Older adult experience of online diagnosis:results from a scenario-based think-aloud protocol[J].Journal of Medical Internet Research,2014,16(1):e16.