SemRep和突发监测算法在文献计量分析中的应用——以疾病药物治疗发展趋势为例

2021-08-23 05:24爽,许丹,韩爽,杨
情报学报 2021年7期
关键词:词频语义文献

徐 爽,许 丹,韩 爽,杨 颖

(中国医科大学图书馆,沈阳 110122)

1 引 言

2002年,Kleinberg[1]提出了突发监测(burst de‐tection)算法,该算法是统计出低频但却比高频词更具有情报意义的突发词,来探测学科前沿的方法[2]。突发是指一个变量的值在短时间内发生了一次或数次显著的变化[3]。如果一个词在特定时间内词频发生突变,即相对增长率突然上升,那么这个词称为突发词[4]。突发词按词频高低分为两类:一类是相对词频较高,但尚未达到高频词阈值的焦点词,这类词被科研人员关注已久,影响力基本趋于稳定,并逐步向高频词靠近;另一类是低频新生词,这类词是该学科的新兴研究热点,尚未引起该领域的普遍关注,正处于发展阶段[5]。Kleinberg[6]认为,一个词出现时的密度决定该词的重要性。突发词强度不单单受时间或词频的制约,在密度上对揭示学科前沿动态更具有及时性和情报价值[7]。突发监测算法不是单纯地统计某一领域特定时间内的词频变化,而是对词频增长率进行比较,及时发现未达到高频词阈值的突发词,其更注重学科内新的发展方向或热点转移,有助于发现和推动学科领域中的潜在微观因素[8]。突发监测算法在挖掘某个学科领域未来的研究热点方面,与其他同类词频分析方法相比,更能及时地揭示学科前沿动态[2]。

Kleinberg的突发监测算法是新兴趋势探测(emerging trend detection,ETD)[9]的重要方法之一,此方法一经提出便备受学术界的关注。Mane等[10]选取了美国科学院院刊(Proceedings of the National Academy of Sciences of the United States of America,PNAS)中1982—2001年所有高频词中突发权重指数较大的前50个词进行共词分析;Ke等[11]用突发监测的方法揭示了美国计算机学会数据库(ACM Digital Library)中信息可视化研究热点的发展趋势。国内基于突发监测算法的研究多集中于应用陈超美教授开发的CiteSpace的突发监测功能。Chen[12]认为,突发词的探测有助于发现学科发展中处于上升阶段的热点动态,更能够推断学科的前沿方向。这类研究基于词频分析角度,从文献的标题、摘要、主题词等信息中提取出词频突发的专业术语概念,并用知识图谱的方式展示出突发词网络[13]。杨选辉 等[14-15]以CNKI(China National Knowledge Infra‐structure)中“深阅读”和“关联数据”研究文献为基础数据,利用CiteSpaceⅢ的突发监测功能分析两个领域的研究热点和新兴趋势;尚晓倩[16]以Web of Science核心合集中“Altmetrics”研究主题为数据来源,借助CiteSpaceⅢ绘制突发词共现时区视图,探究国际Altmetrics领域的热点主题及未来发文趋势;郑乐丹[17]利用CiteSpaceⅡ中的突发监测功能对CSSCI(Chinese Social Sciences Citation Index)中“数字图书馆”研究文献进行可视化分析,挖掘数字图书馆领域的新兴研究趋势。此外,也有一些学者对突发监测算法进行扩展研究,以期提高突发主题的识别率。Zhou等[18]对突发定义进行创新提出了上升突发(increasing burst)和下降突发(de‐creasing burst);Chen等[19]引入持续因子(lasting factor)和突变因子(abrupt factor)进而提出持续性突发与突变性突发;李勇等[20]认为,固定的时间窗口有可能会割裂某些主题随着时间的变化曲线而出现虚假突发主题,因此,其设计了在动态时间窗口内计算突发词的基础概率,并对比了基于全局概率和环境概率计算得出的突发权重对于较小突发的识别效率;李秀霞等[21]认为,Kleinberg算法对于近期的突发词敏感性较弱,其提出了一种基于加权中值相关系数和半阈值策略的突发词监测方法,并应用于“教育虚拟社区”研究领域的热点话题分析。突发监测的方法也是大数据时代话题监测与追踪方面的关键技术之一[22-24]。

然而,多数学者应用突发监测算法对某一学科领域主题演进趋势的分析往往是覆盖全领域的探测。全局突发监测对于一个相对比较大的学科来说,获得的突发词可能分散在不同的子领域中,突发词与突发词之间的联系并不紧密,甚至毫无关联。而对于某学科的专家来说,想要了解自己研究领域的前沿,用全局探测的方法则难以实现。尤其是在医学领域中,研究方向纷繁复杂、异质性强,单纯疾病研究就分为临床研究和基础研究,而临床研究又包括病因、症状、诊断、治疗等研究方向,基础研究又划分为病理、生理、药理,等等[25]。如果临床医生想要了解疾病某一方面的发展趋势,即使在数据采集阶段加以限制,也难以避免噪声词对研究过程的干扰。因此,本文从分析流上进行了突破,提出了一种突发监测与语义分析相结合的方法,放大特定研究方向上的局部热点变化趋势,力求最大化除噪率[26],并兼顾漏爆率[27],以期得到某一研究领域指定研究方向的主题发展脉络蓝图及前沿走势。

语义分析是对各级语言单元的意义分析,即对字、词、短语、句子、段落、篇章的语义内容及组合规律的分析[28]。语义分析通过对文本信息的归纳、总结和推理,辨识出事物或事件之间的关系,并及时有效地反馈知识[29],是自然语言处理和人工智能的关键技术之一。通过语义分析识别具有特定语义关系的术语单元,结合突发监测算法计算术语单元的突发权重指数,从而洞悉特定领域发展脉络及主题演进的一组术语概念集合。目前,基于突发监测算法的研究主要是方法学介绍或应用于图书情报学领域,尚无此方法在医学或公共卫生领域中的研究报道。应用SemRep(semantic representation)根据一体化医学语言系统(unified medical language system,UMLS)对SARS药物治疗文献进行语义分析,提取治疗SARS的药物术语概念集,排序后得到治疗SARS的常规药物。根据Kleinberg突发监测算法公式计算术语概念集中突发概念的突发权重指数,形成治疗SARS的药物突发词频表,根据局部热点的突发方向得出治疗SARS的潜力药物。本文在新型冠状病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)肺炎疫情全球暴发流行的背景下,试图提出一种快速构建某种疾病治疗药物历史与前沿的方法,为新型冠状病毒药物治疗提供线索。

2 数据模型构建

2.1 数据模型分析框架

突发监测算法与语义分析相结合,超越了单纯突发监测方法简单直接的数据挖掘呈现,借助语义关系洞悉知识本质。从知识集合中,寻找有意义的关联,挖掘事物变化的规律,预测热点主题的演进趋势,则需要将两股力量进行整合,从而实现某学科领域中特定研究方向上术语概念集的模型构建[30],如图1所示。

图1 突发监测算法与语义分析相结合的数据模型分析框架

2.2 数据下载

以“Severe Acute Respiratory Syndrome”为主题词、“drug therapy”为副主题词,"Severe Acute Re‐spiratory Syndrome/drug therapy"[Mesh]为检索策略在PubMed中检索2003—2019年间的数据,获得SARS药物治疗相关文献382篇。其中,文献类型限定为Journal Article、Clinical Trial、Clinical Trial,Phase I、Clinical Trial,Phase II、Clinical Trial,Phase III、Clini‐cal Trial,Phase IV、Controlled Clinical Trial、Ran‐domized Controlled Trial、Comparative Study、Multi‐center Study、Technical Report等。这些文献类型能够体现原始实验数据的表象,直接反映学科前沿动态,剔除综述等回顾性研究的文献类型,存储为MEDLINE格式。

2.3 SemRep数据处理

2.3.1 Semantic Representation(SemRep)

SemRep是美国国立医学图书馆开发的一种基于UMLS用于提取自然语言语义关系的程序[31]。UMLS是美国国立医学图书馆(National Library of Medicine,NLM)自1986年起研究和开发的通过提取自然语言语义关系的方式进行数据挖掘的软件,主要用于解决不同人群或不同数据库对于同一概念表述不同,以及数据库检索分散所造成的检索不完整的问题,是实现跨数据库一体化检索的词汇转换系统[32]。SemRep借助UMLS的专家辞典和MedPost词性标注器实现语义分析[33],从MEDLINE格式的生物医学文本句子中,提取形如“主|谓|宾”的三元组,称为语义述谓项(semantic predication)[34]。语义述谓项包括一个主语、一个宾语,以及连接主语与宾语之间的语义关系谓词。每个语义关系谓词的主语和宾语均源自UMLS超级叙词表,它们之间存在的关系是UMLS语义网络通过135种语义类型为其提供的相互关系结构[35]。主语和宾语形成存在语义关系的概念对,由于概念对是在一个句子中提取的,因此,实现了概念间细粒度语义关系的表达[33]。SemRep处理结果逐条显示从文献中提取的概念以及概念之间的关系。

2.3.2 SemRep语义结果处理系统

利用闫雷、刘春鹤等开发的SemRep语义结果处理系统清洗SemRep输出数据[31]。该系统可根据SemRep语义结果中指定的语义关系提取出相关概念,并统计出存在指定关系的有效概念的频次,也可以将SemRep提取出来的所有关系按PMID(PubMed Unique Identifier)号或按概念进行排序。

2.4 突发权重指数计算

Kleinberg突发监测算法,是指通过对突发词进行动态监测的方法对词语进行突发分析[1],从两个词到达的时间间隔的角度来衡量时间序列的密度,从而监测突发现象[36]。假定有n批数据,第t批数据有d t篇文献,其中有γt篇文献含有突发词。令,其中,R表示n批数据中含有突发词的文献总数;令,其中,D表示n批数据中的文献总数。设有限状态概率机为,其中k是突发状态的个数;s是控制概率机状态差异显著程度的规模参数,s越大,两个状态的差异就越显著,突发就越激烈;γ是控制概率机状态改变的成本参数,缺省值为1。假定在状态qi(i≥0)下,含有突发词的文献在文献集合中所占的比例为pi。p0=R/D为基状态;p i=p0si(s>1,i=0,1,…,k),p i为第i个状态下,含有突发词的文献在文献集合中所占的比例,pi≤1。假定概率机状态出现的序列为qi=(qi1,…,qit,…,qin),其中,qit表示突发词在第t批数据中的状态为qi。在状态qi下,突发词出现的概率为pi服从二次多项式。根据q的贝叶斯条件式,概率机在第t批数据时仍然处于qi的成 本 是。从qi跃迁到qj的成本是τ(it,it+1)=(j-i)γlnn。突发权重指数,代表从非突发状态到突发状态的跃迁成本,即突发权重越大,突发的可信度越高[38-39]。

突发权重指数公式化简:

其中,r为该词当年的频次;d为当年文献量;p0为10年内该词出现的(总频次/总文献量);pi=p0×si,s为突发阈值,取8~16为宜[1]。s越大,则两个突发状态之间的距离越大;s越小,则突发状态越明显。考虑到突发状态敏感度,s取8最佳,故本文中s参照此方法取值[1]。

因此,weight=rln(8)+(d-r)ln[(1-p1)/(1-p0)]

3 结果与分析

3.1 PubMed检索结果

PubMed数据库SARS药物治疗研究文献最早出现于2003年,这与当年SARS疫情暴发流行的时间相符。2002年12月广东省最早出现SARS疫情至2003年8月16日北京最后两名SARS患者出院后[40],SARS病毒(SARS-CoV)仅存于实验室中。SARS疫情结束后,相关药物治疗研究文献呈逐年递减趋势,如图2所示。2007年后,每年发表的研究文献少于20篇,2014年后每年研究文献少于10篇。本文截取文献量大于20篇的前5年研究文献作为数据源开展文献计量学分析。

图2 SARS药物治疗研究文献发表数量

3.2 SemRep处理结果

SemRep按照UMLS的规则将概念和关系输出,其格式为15018130.ab.4|relation|C0035525|Ribavirin|nnon,phsu|phsu|||TREATS|C1175175|Severe Acute Respiratory Syn‐drome|dsyn|dsyn||其中,“15018130.ab.4”表示SemRep提取的概念和关系的位置,即在PMID为15018130的文献摘要中第四句话;“Ribavirin”(利巴韦林)和“Severe Acute Respiratory Syndrome”(严重急性呼吸综合征)是SemRep从这句话中提取出来的两个有意义的共现概念;“C0035525”和“C1175175”是UMLS给这两个概念分配的CUI号;“phsu”“dsyn”是UMLS赋予这两个概念的语义类型,“phsu”代表“pharmacologic substance”表示“药物”,“dsyn”代表“disease or syndrome”表示“疾病或综合征”[41],即说明“Ribavirin”是一种“药物”,“Severe Acute Respiratory Syndrome”是一种“疾病或综合征”;“relation”表示“Ribavirin”和“Severe Acute Respiratory Syndrome”存在关系[42],两个概念之间的语义关系是“TREATS”(治疗),即“Ribavirin”可以治疗“Severe Acute Respiratory Syndrome”。

利用SemRep语义结果处理系统,查询出语义关系为“TREATS”(包括“TREATS(INFER)”和“TREATS(SPEC)”)的目标概念,每个语义关系系统提取2个概念。假设提取出的一组概念为:概念A“TREATS”概念B。在本文中,概念B按出现频次高低依次为Severe Acute Respiratory Syndrome 48%、Patients 19%、Child 2.5%、Symptoms 2.5%、Respiratory Distress Syndrome Adult 1.8%、Virus Dis‐eases 1.8%等。由于在数据收集时已将文章主题限定为“Severe Acute Respiratory Syndrome/drug thera‐py”,因此,假定提取的概念B主要为SARS、SARS患者、SARS相关症状及并发症等。本文只统计概念A的频次,认为概念A是可以“TREATS”SARS、SARS患者、SARS相关症状或并发症的概念。另外,一种药物可以在一篇文章中多次出现,而重复统计没有意义,故在同一年中PMID相同的概念A只统计一次,这样可以减少概念重复出现造成的结果偏差。

3.3 SARS常规药物

SemRep语义结果处理系统的处理结果显示,存 在“TREATS”(包 括“TREATS(INFER)”和“TREATS(SPEC)”)关系的概念共计75个。Thera‐peutic procedure、Pharmaceutical Preparations、Treat‐ment Protocols、Therapeutic agent(substance)、Diag‐nosis、Screening procedure、Assessment procedure、Advice、Meetings、Pharmacotherapy、Therapeutic Ef‐fect、Detection、Reporting、Application procedure等难以确定具体药物的概念不在讨论范围内。将表示同一种药物或同一种治疗方法的概念进行合并,合并的概念包括Steroid therapy/Steroids、Immunoglobu‐lin G/Immunoglobulins,Intravenous/Immunomodulators/Immunotherapy、Antiviral Agents/Antiviral Therapy、Glucocorticoids/GLUCOCORTICOID THERAPY、Glu‐cocorticoids/GLUCOCORTICOID THERAPY、Lopina‐vir+ritonavir/Kaletra、Interferons/interferon alfacon-1/Interferon-beta、Chinese herbs/Chinese herbal medi‐cine。最终得到有效概念51个,统计这些概念每年出现的频次,并计算5年的累计频次。图3为51种有效概念,即SARS常规治疗药物的频次走势。

图3 SARS常规治疗药物研究的频次趋势(彩图请见http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

将概念按词频高低进行排序,表1列出了排在前10位的概念,从表1可知,排在前10位的常规药物依次为Ribavirin(利巴韦林)、Adrenal Cortex Hormones(肾上腺皮质激素)、Steroids/Steroid ther‐apy(类固醇)、Antiviral Agent/Antiviral Therapy(抗病毒药/抗病毒治疗)、Methylprednisolone(甲强龙)、Interferons/interferon alfacon-1/Interferon-beta(干扰素/干扰素α1/干扰素β)、Immunoglobulin G/Immunoglobulins, Intravenous/Immunomodulators/Im‐munotherapy(免疫球蛋白G/免疫球蛋白静注/免疫调节剂/免疫疗法)、Glucocorticoids/GLUCOCORTI‐COID THERAPY(糖皮质激素/糖皮质激素治疗)、Chinese herbs/Chinese herbal medicine(中草药)、Lopinavir+ritonavir/Kaletra(洛匹那韦+利托那韦/克力芝)。

表1 概念频次排序一览表(前10位)

3.4 SARS潜力药物

根据突发权重指数公式,计算概念的突发权重指数。表2按突发权重指数的高低列出了存在突发现象的概念。从表2可见,排在前10位的潜力药物依次为Dexamethasone(地塞米松)、Cathepsin L(组织蛋白酶L)、Protease Inhibitor(蛋白酶抑制剂)、Vaccines(疫苗)、adjuvant therapy(辅助治疗)、Supportive care(支持性治疗)、Inosine Mono‐phosphate Dehydrogenase Inhibitor(肌苷磷酸脱氢酶抑制剂)、Endopeptidases(内肽酶)、Markers,Bone(标记,骨)、Combined Modality Therapy(联合治疗)、Stimulation procedure(刺激治疗)。

表2 概念突发排序一览表(前20位)

4 结论与讨论

SemRep筛选出的SARS常规药物中,排在前10位的药物大致分可以为四类:抗病毒药、激素类药物、免疫调节剂和中草药,具体见表1。在SARS大流行的早期,利巴韦林和皮质类固醇的联合治疗被中国香港、加拿大等地列入标准治疗方案[43-44]。随后的研究显示,利巴韦林具有较高的毒性,在体外缺乏对SARS-CoV的抗病毒作用[43]。皮质类固醇的大剂量应用与SARS患者髋部骨密度降低有关[45]。SARS患者应用类固醇或糖皮质激素治疗后,股骨头坏死进展的研究显示:影响股骨头坏死的因素有愈合活度、皮质类固醇的剂量总和以及治疗时间;影响骨密度的因素包括年龄、激素剂量总和以及治疗时间;影响骨纤维和弹性的因素是使用激素治疗的时间长短[46-47]。而SARS-CoV并不是直接影响股骨头缺血性坏死和骨质疏松的致病因素[47]。干扰素和免疫调节剂能够抑制SARS-CoV复制[48]。洛匹那韦+利托那韦在SARS临床治疗效果上呈现出与疗效的正相关关系[49]。与单用西药相比,中草药联合西药治疗SARS在降低死亡率方面无显著差异。中草药联合西药可以改善SARS患者的症状、生活质量和肺浸润吸收程度,降低皮质类固醇的用量[50]。这些SARS常规药物在疫情发生时,主要应用于临床急救,甚至用于抢救危重患者的生命,其中还包括使用过量造成严重SARS后遗症的激素类药物。

根据突发监测算法得到的SARS治疗潜力药物,大多数是在SARS疫情结束后进行的实验室研究,也包括动物实验等形式。为了明确糖皮质激素对SARS患者肺部的作用和潜在的免疫抑制机制,地塞米松作为一种长效类糖皮质激素,用于感染猪呼吸冠状病毒(PRCV)和SARS-CoV n蛋白诱导的大鼠肺炎的研究中[51-52]。SARS-CoV感染是由一个独特的三步过程而引起的:病毒与受体结合、病毒诱导受体依赖性S蛋白构象变化、组织蛋白酶L在核内蛋白水解。组织蛋白酶L蛋白水解的需求确定了一种前所未有的用于SARS-CoV感染的抑制剂类别[53]。为了寻找有效的抗SARS-CoV肽抑制剂,11个可被SARS-CoV主要蛋白酶或3CL蛋白酶裂解的寡肽用于SARS-CoV蛋白酶抑制剂的设计[54]。通过利巴韦林等肌苷-磷酸脱氢酶抑制剂在BALB/c小鼠肺部抑制SARS-CoV复制的研究发现,利巴韦林可能延长或增强病毒在肺部的复制,促进SARS的发病[55]。这一研究解释了常规药物利巴韦林在疫情早期广泛使用,而经过后期的实验证实其有毒性的原因,同时,也映射出高频概念和突发概念在时间轴发展上的阶段性特征。这类SARS潜力药物不是临床应急性药物,更多的是通过实验从细胞水平分子层面上阻断SARS病毒复制,试图找到从根本上对抗SARS病毒的方法,以开发对SARS病毒起到直接作用的药物或疫苗。

图4列出了频次大于2的突发权重指数排在前5位的概念,同时,也是突发权重指数大于0.8频次排在前5位的概念,这些类概念同时具有突发性和高频性,既是SARS药物治疗领域中的研究重点,又是潜在的研究趋势。

图4 高频突发概念(前5位)

突发高频概念和高频突发概念并不完全重合,见表1和表2,由此可知,高频词和突发词在判断一个学科领域发展趋势上的侧重点不一致。高频词侧重于该学科领域当前的研究重点,本文中Sem‐Rep提取出的药物是应对SARS疫情的紧急治疗方案;突发词侧重于该学科领域潜在的研究趋势,利用突发监测算法得到的药物是SARS疫情结束后,对SARS病毒后续的研究方向。高频词主要记录了学科的静态表象,对于时间和频次的动态变化并不敏感[56]。在探测学科新兴趋势方面,突发监测算法要比高频词方法更能发现学科的动态发展变化。

本文得出的SARS治疗药物与《新型冠状病毒感染的肺炎诊疗方案》的多个版本中[57-61]列入的部分药物高度吻合,这可能与新型冠状病毒的基因组分析表明该病毒与SARS-CoV有79.5%的相似性,均属于SARS相关冠状病毒(SARSr-CoV)[61]有关,两者均是通过血管紧张素转化酶2(ACE2)受体入侵人体细胞[62]。潜力药物能否在未来对抗SARSCoV-2中发挥作用,还有待医学家进一步验证。本文为突发公共卫生事件应急措施提供了一个思路:突发疫情时,在没有特效药,没有疫苗的情况下,可否借鉴既往相似疾病的研究,快速搜集相似疾病的治疗药物,在短时期内“老药新用”“拖住”病毒,延缓其扩散能力,为抗病毒药物和疫苗的研发抢出时间。

突发监测算法中部分参数的设定存在一定的主观性,特别是突发阈值s取值范围较大,只能根据以往的研究估定一个值。参数k、γ的确定也具有主观性,这些参数最终可能会影响最优序列的选择。突发监测算法在词的筛选、干扰词的剔除以及参数的选择时,对操作人员的专业素质要求较高。虽然本文使用了全球公认最大、最权威的生物医学文献数据库PubMed收集原始文献,但忽略了专利、会议论文、学位论文等文献形式的收集,并且不能代替实验室研究、临床Ⅰ期、Ⅱ期、Ⅲ期、Ⅴ期等药物研发必不可少的基本流程。

5 结 语

突发监测方法是指通过观察增长率骤然上升的词的发展变化,来探测学科前沿的方法。这种方法可以观察到低频词的变化趋势,为学科前沿的探测提供了有益参考[63]。一个领域的研究方向众多,对于全领域的词频统计在局部热点的微观变化上敏感性较差,很难追踪特定研究方向的前沿动态。本文基于突发监测算法的定义,设计了SemRep结合突发监测的分析方法,在放大某一个领域特定研究方向的微观变化上,体现出了一定的可行性。

本文利用SemRep结合突发监测的方法,不仅可用于疾病药物治疗领域研究现状以及发展趋势的分析,也适用于各个学科研究热点的挖掘。利用突发监测的方法探测某学科领域潜在的热点趋势,为文本知识发现提供了一种新的尝试。

猜你喜欢
词频语义文献
真实场景水下语义分割方法及数据集
Hostile takeovers in China and Japan
基于词频比的改进Jaccard系数文本相似度计算
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
词汇习得中的词频效应研究
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
“吃+NP”的语义生成机制研究
词频,一部隐秘的历史
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析