基于证据推理的医疗健康网站信息质量综合评价研究*

2020-05-09 00:51成全王火秀骈文景

数字图书馆论坛 2020年4期

成全王火秀骈文景

（福州大学经济与管理学院，福州 350116）

随着技术的发展与人们生活水平的提高，人类对自身健康的重视程度越来越高，对健康信息的关注度和需求量也在不断提高。近年来涌现出越来越多的医疗健康网站，丰富了人们获取健康信息的方式，依托互联网就可以了解医疗保健、疾病症状等相关医疗健康知识，受到网民的广泛使用。CNNIC于2019年2月发布第43次《中国互联网络发展状况统计报告》，截至2018年12月，我国网民规模达到8.29亿人，同比2017年12月增长7.38个百分点，普及率近60%，入网的门槛也在逐步降低[1]。Impicciatore等[2]发现互联网健康信息的准确性和完整性存在很大差异，由于互联网具有开放性特征，人们在获取健康信息时无法分辨信息的真假，可能导致人们作出错误决策，如轰动一时的“魏则西事件”，就引发公众对网络健康信息的质疑。此外，网络健康信息缺乏相应的审核监管制度[3]，当前未有以政府部门或者专业的医学组织为主导研发的拥有权威性和推广性的评价准则[4]，又因网络平台上广告遍布、用户隐私泄露和虚假信息等问题[5]，降低了人们对网络医疗健康类信息的信任度。由此可见，如何辨别和选取高质量信息以及加强对网络信息的监管，帮助人们更加有效地使用网络健康信息去解决现实问题已经成为的重要研究方向。

1 研究现状

对于网络健康信息质量问题的研究早已引起信息科学界的高度关注，研究成果异常丰富。纵观当前学术界对网络信息质量评价的研究成果，主要研究集中在网络健康信息质量的评价指标研究、评价方法与评价工具的应用实证研究等方面。

1.1 网络健康信息质量的评价指标研究

国外关于网络健康信息质量的评价指标研究可追溯到20世纪90年代中期，Elizabeth等[6]通过调查发现，影响患者评估在线健康信息的因素中，设计因素（清晰布局、良好导航、互动）约占17%，而内容因素（信息内容、相关插图、清晰简洁语言、讨论组等）约占83%。Kim等[7]对已经发表的评估健康网站的标准进行审查，从中提取165条标准，最常用的包括网站的内容、设计和美观、作者、赞助商、权威性、易用性、可访问性、可用性等。Gretchen等[8]从可访问性、内容质量、可读性方面分别对英语网站和西班牙语网站上有关乳腺癌、抑郁症、肥胖症和儿童哮喘的健康信息进行研究，结果发现用户很难找到关于健康问题的完整和准确信息，并且可获得的网络健康信息也难以理解。国内学者赵玉遂等[9]邀请健康教育、健康传播、公共卫生、社会医学领域的专家进行两轮咨询，经讨论后形成信息特性、媒体特性、发布特性3个一级指标，信息可理解性、信息准确性、信息可参考性、信息时效性、信息新颖性、检索、导航、页面设计、媒体权威性、编辑权威性、作者权威性等15个二级指标。钱明辉等[5]从权威性、归因性、全面性等9个维度构建评价指标体系，并结合40个平台分析归纳在线健康平台信息质量特征。邓胜利等[10]对国外网络健康信息质量评价的相关研究进行分析，总结出两种常用的质量指标分类：一是基于内容评价，包括相关性、及时性、可信度、易读性；二是基于网站设计评价，包括易用性、可访问性、美观性、导航性、交互性、隐私保护。

1.2 网络健康信息质量的评价方法应用与实证研究

国外常用的是通过问卷调查法、焦点小组、半结构化访谈法对受访者进行访谈，将获取的评分采用统计分析方法进行分析。如Sanghee等[11]邀请提问者、健康参考图书馆馆员、护士3类人员对Yahoo! Answer中发布的400个健康答案进行1～5级评分，研究结果表明健康参考图书馆馆员对回答质量的评价要低于提问者。Synnot等[12]对网络多发性硬化症使用定性研究设计，邀请51名多发性硬化症（Multiple Sclerosis，MS）患者和9名家庭成员参加焦点小组，讨论MS患者如何查找、评估和整合治疗信息，结果表明患者希望与专业人员讨论信息，并且建议网站应该加强与卫生专业人员沟通交流和信息共享。国内学者主要以定性评价法为主，许卫卫等[13]以心理健康网站为例，依据参考文献提出内容指标、技术指标、效用指标3个一级指标，采用层次分析法（Analytic Hierarchy Process，AHP）对8个网站进行实证分析，结果表明，对于网络卫生信息资源评价研究，信息内容质量是最受用户关注的。鉴于定性评价法主要是由专家或者用户进行主观性评价，在一定程度上容易受人为因素的干扰，目前很多学者已经从定性分析法转向定性与定量相结合的综合评价法。如张玢等[14]对随机抽取的一篇医学信息网页采用模糊综合评价法进行判断，利用模糊数学工具将难以度量的指标进行量化，使定性和定量分析更好地为资源评价服务。桑运鑫等[15]从用户角度出发，利用改进的AHP法和专家聚类法，对网络社区信息质量指标进行主客观综合赋权，然后对Alexa母婴类中文排名前五的网站信息内容进行综合评价。

综上所述，现有相关研究成果丰富，但多数学者的研究对象是针对提供健康信息的平台进行整体评价，其中就包括平台本身的特征，且很少有研究从医疗健康类信息资源模糊性与不确定性的实际特征需求出发，寻求合适的评价方法与评价模型进行实证性研究。针对上述不足，本研究拟通过文献调查法、专家打分法和AHP法，构建医疗网站信息质量评价指标体系和权重，利用实际用户的问卷调查数据，采用证据推理理论对指标进行信息融合，解决多属性决策问题中信息不全的问题，实现对医疗健康网站信息质量的实证研究。

2 医疗健康网站信息质量评价指标体系构建

参照Jim[16]在《网页评估标准》中对信息质量提出的准确性、权威性、时效性和全面性4个标准，本文从在线医疗健康网站相关文献中归纳、总结、提炼出信息质量方面的主要影响维度，即从信息来源、信息表达、信息内容、信息效用4个维度开展研究。

2.1 评价指标的选取

本研究的评价指标体系是在遵循指标构建的五大原则基础上进行的。借鉴相关研究成果，结合我国现实情况，排除网站设计相关指标得到原始指标，然后邀请从事医疗健康信息领域的7位专家对原始指标进行咨询，根据咨询结果及时调整原始指标中不合理的成分，再次匿名发给各专家询问，重复步骤直到咨询结果一致结束，最终得到在线健康信息质量评价指标（见表1）。

2.2 评价指标的权重确定

由于AHP法计算过程清晰，可操作性强，因而本研究采用该方法确定各指标权重。通过邀请5位专家，引入李克特五级标度量表对指标的重要性进行比较，然后汇总所有结果，将结果中差异较大的情况反馈给专家进行逐次调整，直到专家们意见一致，构造出判断矩阵，计算过程如下所示：①构造判断矩阵A=（aij）n×n，其中aij表示某个层次因素i和因素j相对于目标重要值；②用求解矩阵特征值的方法解出最大特征值和特征向量，归一化后的特征向量即为权重；③对判断矩阵的逻辑性进行一致性检验，若CR=CI/RI＜0.1，则该矩阵通过一致性检验，认为该矩阵是可接受的。由此得到最终的评价指标权重如表2所示。

表1 医疗健康网站信息质量评价指标

表2 医疗健康网站信息质量评价指标体系

3 医疗健康网站信息质量评价实证研究

3.1 信息源选取

研究以“中风”为检索词，在百度、360搜索、必应中进行检索，选取查询结果的第1～5页，剔除无关、贴吧、新闻网站、广告、视频、无效等网站，筛选出春雨医生、39健康网、飞华健康网、寻医问药网、百度拇指医生、快速问医生、好大夫在线、丁香医生、家庭医生在线9家网站，对其信息质量进行评价研究。

3.2 数据采集

根据表1的内容采用李克特五级评分法设计问卷题项，为了保证问卷的可靠性和有效性，在初次编写好问卷后先进行预调查。邀请医生、医学信息专业学生、在线医疗健康网站用户进行问卷发放。回收问卷时向参与者咨询是否有不理解和概念模糊不明确的问题项，然后根据预调查的结果和建议，进一步修改完善形成最终问卷。

正式问卷调查过程中，将问卷星链接分享到朋友圈，通过滚雪球的方式不断地邀请使用过在线健康网站的人进行填写，共收回问卷150份，剔除无效问卷，得到有效问卷135份。回收的有效问卷中，使用人员在各个年龄、性别、职业、受教育程度均有分布，其中26～40岁，专科及以上学历，使用目的为医疗健康知识科普和医疗信息查询的人数占比较大。在量表设计的合理性方面，利用SPSS22对问卷的信效度实施检验，结果显示Cronbach α可信性系数和KMO系数分别为0.816和0.834，表明该问卷具有较好的信度和效度。

3.3 评价过程及结果分析

健康信息质量评价多使用AHP法、模糊评价法等，这些方法各有优缺点，如AHP法结构分明，但在使用9级标度时，容易对中间标度做出混乱的判断。模糊评价法将定性问题量化，但是当指标数量较多时，权向量和模糊矩阵不匹配，且这两种方法都存在信息丢失的问题[25-26]。在线健康信息质量需要用户给予评价，而用户专业的局限性和健康信息本身具有不确定性、模糊性，使得需要一种能够处理不精确、不完备、不完全可靠数据的方法[27]，现有的研究表明证据推理方法在企业R&D成果验收[28]、突发事件预警[29]、学生学习效果[30]等方面取得良好的效果，因此将证据推理方法引入在线健康信息质量评价，以期提高信息质量评估结果，扩大证据推理应用范围。证据推理方法以多种先进评价决策理论为基础，对于评价过程中的信息不确定问题，通过利用模糊规则对底层指标直接评价，然后利用证据推理算法对底层指标的评价进行变换处理，以此实现对上一层级的间接评价，最后再利用效用理论将评价结果用效用函数计算得到，具体实施步骤如下。

假设在医疗健康网站信息质量评价指标中，有一个顶层指标y和其下对应的L个底层指标，评价网站为al（l=1，2，…，M）。指标ei（i=1，2，…，L）对应的权重为ωi，且权重要同时满足0≤ωi≤1，ω1+ω2+…+ωL=1。

首先，确定指标评价值。设指标ei对应有N个评价等级，βn，i（al）表示网站al在指标i下被评为Hn等级的置信度。可将评价等级设定为很好、好、一般、不好、很不好，则对应的效用值分别为1、0.75、0.5、0.25、0。

其次，根据公式（1）～公式（4），计算4个一级指标下各二级指标的基本概率分配。其中，mn,i（al）表示网站al中已经分配的函数概率；mH,i（al）表示网站al中未分配的函数概率；表示网站al中指标ei对上层指标只起到部分作用的概率函数；表示网站al中对指标ei评估的不确定性而分配的概率函数。

再次，将上述计算得到的二级指标概率分配函数值，利用递归证据推理迭代法融合第i个和第i+1个指标，得到4个一级指标的基本概率分配，再对一级指标进行融合，得到该网站信息质量总的概率分配。根据该方法得到网站各级指标融合后对应评估等级的置信度函数值见公式（5）和公式（6）。

最后，利用效用理论，将分布式结果化为具体数值表示，得到各网站信息质量效用值。

通过上述计算步骤，各个医疗健康网站内信息质量对应评估等级结果，如表3所示。

医疗健康网站信息质量的效用值计算后按顺序从高到低依次排列：寻医问药网（0.749 3）、39健康网（0.743 0）、丁香医生（0.742 0）、好大夫在线（0.734 5）、家庭医生在线（0.733 0）、快速问医生（0.725 4）、飞华健康网（0.715 8）、春雨医生（0.707 9）、百度拇指医生（0.606 4），健康网站信息质量最高的是寻医问药网，最低的是百度拇指医生。

鉴于目前没有统一的排名标准，参考站长之家行业排名，查询医疗健康类网站的排名情况，找出本研究中所提及网站排名如表4所示。

站长之家的排名是从网站结构、页面布局、点击量、回访量、链接数等多个方面的综合排名，间接地反映了用户的使用情况。此处，假设用户使用率与信息满意度成正相关关系，可对比本研究得出的结果：寻医问药网、39健康网、好大夫在线等均处于排名前列，排名靠后的有飞华健康网、春雨医生，在排名上与站长之家排名情况较为一致，因此本文用证据推理得出的结果有一定程度的参考意义。然而，百度拇指医生未收入在站长之家内，其排名情况未知，对此向接受问卷调查的用户进行咨询，大部分用户表示使用过程中发现其信息生成时间较久，尤其在最新问题模块没有及时更新，缺乏对网站维护，时效性方面严重不足。

通过上述基于证据推理的健康网站信息质量评价，9家健康网站信息质量的一级指标评估值排序情况如图1所示。

表3 基于证据推理融合的健康网站信息评价结果

表4 医疗健康网站排名情况

图1 医疗健康网站信息质量评价一级指标评估值

可以看出，9家医疗健康网站信息质量从各信息来源、信息表达、信息内容及信息效用方面各有优劣势。

（1）信息来源方面。丁香医生评估值名列前茅，丁香医生使用人数和信息规模比较庞大，并且丁香医生是专注于为公众提供医学健康内容与医疗健康服务的平台，其医疗健康科普文章均由专业认证的丁香医生编辑部编写，信息来源的专业性、可靠性和权威性较好，受众范围广泛。

（2）信息表达方面。9家医疗健康网站之间的差异不大，良好的信息表达可以让人更好地理解和阅读，目前基于大众的医疗知识水平，各网站都致力于信息表达简明清晰，使得用户在阅读使用健康医疗信息时，都能很好地获取医学知识和健康信息，以降低大众对医学专业术语的晦涩感。

（3）信息内容方面。寻医问药网评估值最高，百度拇指医生评估值最低。寻医问药网是国内较早探索和实践医疗健康服务的平台之一，经过十几年的发展，形成比较完整医疗产业，作为“互联网+医疗”的先驱，其信息内容的完整性和准确性比较受大家认可。而拇指医生是百度官方推出的产品，但因“魏则西事件”爆发，百度被指责发布虚假信息和医疗，误导公众和患者，导致公众对其信任度下滑，引发信任危机，其医疗健康信息内容的完整性和准确性遭质疑。

（4）信息效用方面。丁香医生评估值较高，其次是寻医问药网。丁香医生是丁香园团队组织研发，包含科普文章、健康小组、疾病问答等核心板块，聚集了200万名医生用户，推送的健康科普文章经过专业评审，信息效用较高。

4 结论

随着“互联网+医疗健康”的兴起，大众可以通过互联网方便快捷地获得自己所需的健康信息，但是基于公众自身的医学知识薄弱，网上信息杂乱和监管不到位等一系列问题使得一般用户难以区分。因此，对医疗健康网站信息质量进行科学评价值得我们关注。对此，本文在前人研究的基础上，通过归纳整合出医疗健康信息质量评价指标，利用AHP法对评价指标赋权并基于证据推理理论选取9家健康网站信息质量进行综合评价。该方法的优点是保留了原始信息的不确定性，采用证据组合的算法对具有模糊性以及不确定性的多指标网络健康信息进行融合，能够很好地增强判断的客观性。而问卷调查法是获得数据的最常用方法，由被调查者填写数据，但是有时候被调查者所处的环境或者心情并没有根据真实情况填写，就有可能导致问卷调查的效度和信度低，因此，下一步我们考虑将评价指标尽可能地选择为可以直接获取的指标，以减少来自问卷调查法的偏差，降低主观性，提高真实性。