基于文献计量的中国真实世界研究现状分析*

2022-01-15 01:06:08潘相丞徐佩佩唐天航刁莎曾力楠李海龙张伶俐
医药导报 2022年1期

潘相丞,徐佩佩,唐天航,刁莎,曾力楠,李海龙,张伶俐,5

(1.四川大学华西药学院,成都 610041;2.四川大学华西第二医院药学部,成都 610041;3.四川大学华西第二医院循证药学中心,成都 610041;4.出生缺陷与相关妇儿疾病教育部重点实验室,成都 610041;5.四川大学华西临床医学院,成都 610041;6.四川大学计算机学院,成都 610041)

“real-world”最早出现在WILLIAMSON等[1]于1966年发表的文章《在真实世界和模拟驾驶环境中测量眼球运动的可行性》中。1993年Kaplan在其论文《雷米普利治疗高血压病的前瞻性研究》中提出真实世界研究(real world study,RWS)[2]。医学的发展要求健康相关决策所需证据多样化,条件严格的随机对照试验存在外推性不佳的局限,加之医疗健康信息平台和大数据技术的快速发展,为进行RWS提供了更多便利和技术支持[3]。RWS已在全球卫生服务领域中成为政府和学界广泛关注的话题,包括美国、中国、欧盟成员国在内的多个国家政府均已陆续制订政策肯定RWS的作用和意义。在政产学研医共同需求的驱动下,RWS得到快速的发展,并逐渐成为在药械上市后评价研究的重要方式之一[4]。我国系统性开展使用真实世界证据(real world evidence,RWE)支持药物研发和监管决策的工作尚处于起步阶段[5],但政府已陆续制订多个政策文件以支持RWE转化[5-9]。近年国内研究者也对RWS进行了大量探索。已有学者对国内研究者发表的RWS进行文献计量学分析,但存在研究方法不完善,结果报告不全面[10],检索数据库单一[4,11],研究领域局限于中医药[12-13]等不足。本研究拟对国内现发表的RWS进行系统检索,并对文献研究主题进行提取、挖掘和分析,以全面了解国内RWS研究现状和研究热点。

1 资料与方法

1.1纳入与排除标准 纳入标准:①第一作者或通信作者为中国学者公开发表的医疗卫生领域相关文献;②文章以“真实世界研究”“真实世界数据”“真实世界证据”等为主题,且文中提及“真实世界”或“real-world”一词的原始研究;③语言限定为中、英文。排除标准:综述、会议摘要、学位论文、原始研究的二次分析、社论等。

1.2文献检索策略 计算机检索PubMed、Embase(Ovid)、CENTRAL(Ovid)、中国知网、维普、万方和中国生物医学数据库,搜集中国学者发表的RWS文献,检索时限均从建库至2020年6月11日。中文检索词为“真实世界”,检索字段限定为主题字段;英文检索词包括“real world”或“real-world”,检索字段限定为题目或摘要字段,同时限定作者机构为中国。

1.3文献筛选和资料 根据纳入标准及排除标准,由2名研究者独立筛选文献,如遇分歧讨论解决或与第三方协商。根据是否与药物相关,分为药物研究和非药物研究。

1.4统计分析 利用书目共现分析系统BICOMB 2.0分别提取和统计中文文献和英文文献的发表时间、发文期刊、第一作者机构、关键词等信息。将纳入文献题录导入VOSviewer 1.6.15对作者共现聚类分析和可视化处理。对关键词进行数据清洗,合并同义词(如“真实世界研究”“真实世界证据”“真实世界数据”等合并为“真实世界”),剔除对本研究无实际意义的关键词(如“Human”“China”“Patient”等)。

2 结果

2.1文献筛选流程及结果 初检共获得文献9959篇,其中中文文献3963篇,英文文献5996篇。经阅读文献题录的题目和摘要,最终纳入1612篇,其中中文473篇,英文1139篇;药物研究相关文献1 046篇,非药物相关研究566篇(图1)。

图1 文献筛选流程及结果Fig.1 Literature screening process and results

2.2纳入研究基本特征

2.2.1发表时间分布 中国学者第1篇RWS文献发表于2003年。2006—2020年6月依次发表RWS的文献1,10,4,8,8,19,34,54,96,72,131,188,281,405,300篇,总体发文量呈递增趋势,特别是在2015年以后,上升速度明显加快。在2019年达到最高值405篇。而2020年上半年已发文300篇,预计2020年全年发文量会超过2019年。

2.2.2发表期刊分布 所有的中英文期刊种类共有638种,其中中文162种,英文476种。分别统计中英文期刊中载文量前5的期刊。前5的中文期刊有4种在北京大学《中文核心期刊要目总览》和中国科学引文数据库(Chinese Science Citation Database,CSCD)均有收录(双核心期刊),5种全为中医药类期刊,以《中国中药杂志》载文量最多(94篇)。前5的英文期刊均被最新《科学引文索引》收录,仅有1种(《Journal of the American College of Cardiology》)影响因子为20分以上,其余的影响因子均在4分以下。以《PLoS ONE》载文量最多(33篇)。见表1、表2。

表1 载文量前5的中文期刊(共473篇文献)Tab.1 Top 5 Chinese journals in the number of literature(473 articles in total)

表2 载文量前5的英文期刊(共1139篇文献)Tab.2 Top 5 English journals in the number of literature(1139 articles in total)

2.2.3机构分布 参与发表RWS中文文献的机构共有393所。其中发文量排名前三为中国中医科学院中医临床基础医学研究所(217篇,45.88%)、中国人民大学(191篇,40.38%)、中国人民解放军海军总医院(136篇,28.75%)。发文量前5机构见表3。

表3 中文文献发文量前5的机构(共473篇文献)Tab.3 Top 5 institutions in the number of Chinese literature(473 articles in total)

参与发表RWS英文文献的机构共有351所。发文量排名前三的机构为中国医学科学院北京协和医学院(85篇,7.46%)、首都医科大学(52篇,4.57%)、复旦大学(49篇,4.30%)。发文量前5机构见表4。

表4 英文文献发文量前5的机构(共1139篇文献)Tab.4 Top 5 institutions in the number of English literature(1139 articles in total)

2.2.4作者分布 发表中文文献的所有参与作者共有1664位,平均每篇文章有3.5位作者,发文量前三的作者包括谢雁鸣(208篇,43.97%)、庄严(142篇,30.02%)和杨薇(76篇,16.07%)。运用VOSviewer统计发文量≥10篇的作者,以谢雁鸣、庄严、杨薇和廖星为中心形成4个聚类(图2)。

图2 中文文献发文作者群体可视化图谱Fig.2 Visual atlas for author groups of Chinese literature

发表英文文献的所有参与作者共有7878位,平均每篇文章有6.9位作者。发文量前四的作者包括Xu Bo(32篇,2.81%)、Gao Runlin(17篇,1.49%)、Wang Wei(17篇,1.49%)、Wang Yan(17篇,1.49%)。运用VOSviewer统计发文量≥10篇的作者,形成了以Xu Bo、Li wei、Gao Runlin为核心的3个聚类(图3)。

图3 英文文献发文作者群体可视化图谱Fig.3 Visual atlas for author groups of English literature

2.2.5关键词分布 中文文献高频关键词阈值为13次,共计13个。聚类分析显示,当聚类个数为4时聚类效果最好(表5、图4、图5)。

图4 中文文献高频关键词聚类树状图Fig.4 High-frequency keywords cluster dendrogram of Chinese literature

图5 中文文献高频关键词聚类山丘图Fig.5 High-frequency keywords cluster hill map of Chinese literature

表5 中文文献高频关键词聚类内容与特征Tab.5 Contents and features of high-frequency keywords clustering in Chinese literature

英文文献高频关键词阈值为10次,共计80个。聚类分析显示,当聚类个数为15时聚类效果最好(表6、图6、图7)。

图6 英文文献高频关键词聚类树状图Fig.6 High-frequency keywords cluster dendrogram of English literature

图7 英文文献高频关键词聚类山丘图Fig.7 High-frequency keywords cluster hill map of English literature

表6 英文文献高频关键词聚类内容和特征Tab.6 Contents and features of high-frequency keywords clustering in English literature

3 讨论

5年国内RWS发展迅速,年发文量稳步增长。中医药是国内RWS的研究热点和活跃领域,研究者科学收集真实环境的诊疗数据,经严格和规范设计、测量、处理、分析和评价,可形成高质量RWE并促进中医药临床实践的创新发展,更是实现中医药现代化的重要途径之一[17-19]。但有学者指出我国中医药RWS尚处于初级阶段[20],存在研究者对研究质量控制理解不足、质量控制体系不健全、研究方法不完善等问题[21],亟需更多对RWS研究能准确把握、深刻理解的领军式人物[22],运用已有的中医药RWS规范、技术指导原则[23-26],带领团队于多个领域开拓发展,提升我国中医药RWS质量和国际影响力。

中英文RWS文献报道采用的数据源存在差异。中文文献RWS的数据源多为医院信息系统(hospital information system,HIS),主要采用数据挖掘技术发现其中事先未知或已知有用的信息[27],但HIS数据存在局限,《中国真实世界研究指南》指出HIS数据分散,完整性和准确性不高,导致研究结果易受较多偏倚影响[28]。英文文献RWS的数据源则多为基于既有健康医疗数据或主动采集数据构建的研究型数据库。研究型数据库具有更好的数据完整性和准确性,有助于解决多种科学问题,包括研究疾病流行病学特征、诊疗模式、疾病管理和远期预后等[29-31]。

随着可获取RWD的数据源不断增多,研究者也面临选多源数据共享与数据规范化这两个突出问题[20,32]。国内现有RWS多使用单个数据库,而采用多源数据开展RWS成为新趋势,国外学者常采用多数据库研究(multidatabase study)方式以获取更完整和准确的数据,生产外推性更强的临床证据[33-36],以便更好地转化到临床实践和卫生决策中[37]。国内由于制度和政策约束、数据联通路径缺乏、数据库质量不佳等问题,导致临床数据难以共享,不利于提升数据质量和研究质量[20,38]。数据规范化是保证研究高质量完成的重要步骤,解决既有健康医疗数据片段化、未标化等问题,建立主动采集数据统一的数据收集框架和数据清理规则,有助于构建具有统一信息记录标准的研究型数据库[20,29,39]。

某一领域的高频词可以反映出该学术领域的研究热点、知识结构和发展趋势[40]。高频词阈值选取方法尚无统一标准,本研究采用的普赖斯公式本是用于根据研究领域最高产作者的发文量确定核心作者范围[41],现已有学者将该法扩展应用于确定高频词阈值,但该方法的适用性仍待进一步验证[42]。其他方法包括作者自定义高频词阈值、多诺霍(Donohue)公式等。因作者自定义高频词阈值主观性过强,而使用多诺霍公式当研究领域宽泛或主题分散时,会出现大量频次为1次的关键词导致高频词阈值偏大[14]。此外,英文文献高频关键词的聚类分析结果复杂,一些聚类之间分离度不够,可能是因为本研究英文关键词来自各英文数据库自行标引的主题词或副主题词,而非原文本身的关键词。研究显示,仅有62%的原文关键词被标引在主题词中[43],所以各文献之间存在许多重叠、无实义且不能准确反映文献内容的主题词使类间相似度较高。

本研究较同类研究优势在于检索结果更为全面。但也存在一定的局限性,包括:①因RWS范围巨大,本研究检索只限定文中提及“真实世界”或“real world”一词的文献。②英文文献聚类分析效果不佳。③由于数据库导出信息和数据可视化软件自身的局限,无法实现引文分析。

[志谢:感谢教育部长江学者创新团队基金(编号:IRT0935)对本研究的支持!]