基于多维特征识别的医学领域前沿知识发现研究框架

2016-03-21 08:53，，

中华医学图书情报杂志 2016年3期

，，

科技领域前沿知识的概念最早来源于普赖斯提出的“研究前沿”这一概念。随着科学研究范围不断扩大与更新，目前已有多个概念与前沿知识的概念相近或类似，如研究前沿(Research Fronts)、新兴趋势(Emerging Trend)、新兴研究领域(Emerging Research Domains、Emerging Research Area、Emerging Fields、Emerging Knowledge Domains)以及新兴主题(Emerging Topics)、研究热点(Research hotspot)、热点主题(Hot Topics)等。因此，有些学者在研究前沿知识时往往借鉴或采用了测度新兴或热点主题的某些计算方法，并取得了较好的研究结果。根据学术界有对“前沿”概念的界定[1]，前沿知识的内涵主要包括“前沿”与“知识”两个方面，“前沿”说明其具有前瞻性和先导性，“知识”说明其具有理论性与探索性。

前沿知识代表了某一学科领域现在以及未来一段时期的发展方向，对学科发展具有引领作用。及时发现并准确识别前沿知识，为领域专家提供研究参考与情报支持，可避免重复劳动和节约科研资源，可辅助科研管理部门制定科研规划、组织立项等科研管理工作。基于领域专家的“头脑风暴”定性发现前沿知识的过程，容易受领域专家知识背景、研究兴趣等主观因素的影响。因此，对前沿知识的定量研究逐渐受到各领域的关注。目前前沿知识的定量研究主要采用引文分析法[2-7]、共词分析法[8]、文本挖掘法[9-10]、社会网络分析法[11-12]等单一维度分析法以及多维度分析法。单一维度分析法的相关研究兴起时间较早，具有一定的理论支撑，研究成果丰富，在学术界得到了一定的应用，如汤森路透集团的ESI数据库即采用引文分析的方法表征研究前沿。然而，无论是“粗粒度”的引文分析法或“细粒度”的文本挖掘法，还是具有良好可视化效果的社会网络分析法，均以发现前沿知识为主，未能揭示前沿知识的显著特征，如先导性、高关注度等。文本挖掘方法可以在知识内容的新颖性方面发现前沿知识，但仅限于单一特征，未能挖掘出前沿知识专有特征。虽然基于复合关系的方法[1]将引文分析与共词分析进行了结合，以发挥两种方法的优点，弥补各自的不足，但在确定前沿知识特征方面尚显不足。

相比利用引文集合、词频等单一属性发现前沿知识的研究而言，多种属性相结合能更加准确地挖掘与定位前沿知识，有利于揭示前沿知识的特征与演化规律。基于此，本文在已有研究基础上，首先确定了前沿知识的多维度特征，继而提出了医学领域前沿知识发现的研究框架

1 基于多维度分析法的前沿知识多维特征

前沿知识的多维度分析法综合运用引文分析、共现分析、文本挖掘以及热点话题探测方法，试图从多个维度对前沿知识进行分析，以揭示前沿知识不同方面的特征，特别是专有特征，现已经成为前沿知识测度的主要研究思路。

1.1 多维度分析法

吴菲菲等[13]从创新性和学科交叉性2个维度探测了研究前沿的模型，它由创新性特征识别阶段、学科交叉性特征识别阶段以及前沿主题提炼阶段“三阶段”构成，各阶段分别使用文献引文分析、共现分析和文本挖掘方法。可见，创新性、学科交叉性是前沿知识的重要特性。张丽华等[14]从时效性、突破性、跨学科性和继承性4个方面对早期前沿知识的特征及其演化过程进行了研究，发现突破性指数对前沿影响最大，其次为跨学科性和时效性，继承性对前沿的影响最小。黄鲁成等[15]从新兴主题的关注度、成长潜力度以及关联度3个属性测度了新兴主题的特点，发现新兴主题具有高关注度、高成长潜力度及高关联度。贺亮等[16]提出了文献主题词发现和趋势分析的方法，该方法利用LDA话题模型抽取科技文献的话题，并计算了话题的强度和影响力。Le等[17]构建的一个新兴主题探测模型综合考虑了科技文献中主题的多种特征，利用7×10×2的神经网络识别新兴概念，且该模型适用于不同的科学研究领域。Guo等[18]使用特殊词突然增加的频率、作者关注新兴领域的人数和增加速度、参考文献交叉学科的变化3个指标，构建了用于描述和预测新兴研究领域关键结构和动态特性的混合模型。

虽然多维度分析方法可测度前沿知识的多种特征，但仍存在不足。一是对前沿知识专有特征挖掘不足。现有研究往往将“前沿”、“热点”、“突发”、“新兴”等描述知识特殊状态的词混淆，使得在挖掘与测度前沿知识特征时容易受其他知识测度方法的影响。二是对前沿知识的解读缺乏语义环境。现有研究中，缺乏对知识的语义描述。前沿知识是基于一定语义环境出现的，只有准确描述前沿知识产生与存在的语义环境以及不同词语间的语义关联，才能更准确地定位前沿知识，并对其进行正确解读。

1.2 前沿知识的多维特征

Bun等[19]认为，新闻中任何一个热点话题都不可能无限“热”下去，都会经历一个产生、增长、成熟和消亡的过程，于是将生命周期理论用于探测研究新闻热点话题。随后，Chen[20]、赵迎光等[21]按照生命周期理论，分别设定了新闻热点词与文献热点词的能量值、生命值、变化率等指标，并根据生命值指数确定每个时间窗内的热点词。实验结果证明，利用生命周期理论可以较好地识别新闻及文献热点词。前沿知识作为主题的一种，比一般知识具有更强的生命周期特征，应表现出明显的分期过程。因此，通过研究主题在生命周期内特征的变化，可以监测并识别前沿知识。

综上所述，在时间维度上，前沿知识应具有生命周期特征；在空间维度上，前沿知识主要具有权威性、普遍认可性、创新性和学科交叉性4项特征。只有同时具备上述4项特征和具有生命周期特征的知识，能认为是前沿知识。基于此，本文确定文献领域的前沿知识需同时满足如下条件：前沿知识具有生命周期特征；前沿知识的出现频次高，即具有普遍认可性；前沿知识来源期刊影响因子较高，即具有权威性；前沿知识与已有知识的相似度不高，即具有创新性；前沿知识来源于多种学科领域，即具有学科交叉性。前沿知识表示公式如下：

前沿知识=(普遍认可性+权威性+创新性+学科交叉性)∩ 生命周期特征

(1)

对前沿知识特征进行维度划分可以看出，普遍认可性、权威性、创新性属于前沿知识自身的属性，共同构成前沿知识的内部属性。学科交叉性虽是前沿知识自身具有的属性，但学科交叉涉及多个学科之间的交流与测度，因此本研究认为学科交叉性是前沿知识的外部属性。前沿知识的内部属性可以深入内容层面细粒度地描述与测度前沿知识，外部属性可以在知识来源广度上说明前沿知识的特征。综合考量前沿知识的内外部属性，可以较为全面地测度前沿知识，实现准确发现前沿知识的目的。与基于复合关系的方法不同，多维特征识别方法在前沿知识发现过程中，更强调对前沿知识自身特征的描述与判断。

2 医学领域前沿知识发现研究框架

2.1 研究框架

目前关于医学领域前沿主题挖掘的研究较多，并开发了TDA、CiteSpace等成熟工具辅助识别前沿主题。但现有研究对前沿主题的主要特征认识不足，更缺乏从知识内外属性综合测度前沿知识的研究。此外，相关研究较少涉及研究主题的语义类型，对结果的解读主要依赖领域专家，降低了方法的可用性。根据上面对前沿知识多维特征的定义与测度方法分析，为保证识别前沿知识的准确性与方法的可用性，本文提出了医学领域前沿知识发现研究框架(图1)。

图1 基于多维特征识别的医学领域前沿知识发现研究框架

2.2 数据预处理

数据预处理对数据分析、知识挖掘非常重要。本文利用丰富的医学知识组织体系(如MeSH超级词表)及权威可靠的语义分析工具MetaMap，将从文献数据库获取的医学文献中的主题词进行概念映射，抽取映射后的主题词及其语义类型。经过数据预处理，将各种医学术语变体统一为标准的MeSH术语主题词，既方便后续对分析结果的解读，又提高了分析的准确率。

2.3 医学领域前沿知识发现

根据公式(1)逐项测度数据预处理后抽取主题词。每项指标的测度方法如下。

2.3.1 生命周期特征测度

主题词的生命周期可以反映其在时间上的变化趋势。Chen等[22]提出了新闻事件的生命周期模型，将新闻事件按照生命周期分为4个阶段，并提出了能量函数的概念以跟踪事件的生命周期。该模型在主题探测与跟踪领域得到了广泛应用。已有研究证明[21]，文献领域的主题词具备生命周期特征，因此可以利用生命周期理论，测度主题词在时间上的变化情况，并与其他指标结合，共同揭示主题在时间上的特征。根据生命周期理论，文献领域主题词的能量值、生命值、变化率等指标的计算公式如下。

主题词K在时间窗t内得到的能量值公式如下：

式中A、B、C、D的代表含义如表1所示。

表1 能量值计算公式中部分参数的取值

某一主题词的生命值公式如下：

GFk,t=InGEk,t(4)

式中，GFk,t为主题词K在时间窗t上的生命值，GFk,t为主题词K在t时间窗内得到的能量值。

根据公式(2)、(3)、(4)的测度主题词的能量值、生命值等指标的结果后，计算主题词在每个时间窗生命值的变化率：

式中，N为给定时间段内时间窗的个数，GFk,t是t时间窗K主题词的生命值，GF是K在所有时间窗内的生命值均值。在某一时间窗内，主题词的生命值变化率越大，其生命周期性越强。

2.3.2 普遍认可性测度

主题词出现的频次越高，其普遍认可性越大，越容易成为前沿知识。目前，用于测度主题词频次的方法很多(如词频统计法、TFIDF方法、词共现方法等)，但每种方法又有其局限性。例如，TFIDF方法使用的是TF(词频)与IDF(倒排文档率)乘积表示词权重，使那些出现频率高和出现在多篇文档中的主题词的权重较小。事实上，当主题词处于其生命周期的中后期时，不仅出现频次高，而且文档数量也较多，导致TFIDF值较小，无法完全揭示具有生命周期特征的主题词。

Bun等[19]纠正了计算词权重的TFIDF算法在区分词分布方面的不足，使用TFPDF算法计算每个词的权重。TFPDF算法对于出现频次高和出现文档多的词赋予较大权重，对主题词的生命周期特征具有一定的揭示意义。因此，本文使用TFPDF方法计算主题词的普遍认可性，其公式如下：

式中，|Fk,c|是词K在c中出现的频次，nk,c是出现词K的文档的数量，W是c中所有词的数量，|C|是文献集合中期刊数量。因此如果一个词的词频越大，并且包含该词的期刊越多，TFXPDF值就越大。

2.3.3 权威性测度

影响因子是目前期刊评价与人才评价的重要指标。该指标虽然有其本身的缺陷，但在国际科技评价领域的作用仍很重要。一般而言，高影响因子学术期刊刊载的论文较同领域低影响因子期刊刊载的论文更容易获得较高的学科关注度，具有更高的领域权威性。因此，领域高影响因子学术期刊是前沿知识的产生地与聚集地。当然，并不是所有刊载在高影响因子期刊上的论文或主题就一定具有权威性和成长为前沿知识，只是成为前沿知识的可能性更大而已。因此，可以利用期刊影响因子测量文献主题词的权威性[15]，公式如下：

2.3.4 创新性测度

主题词的创新性一般可以主题词出现时间和主题词内容的创新性两个维度分别测量。从科技文献老化的角度来说，社会的发展和知识的更新，必然会影响人们对新旧文献的选择。一般来说，旧有文献的使用频次将逐渐降低，让位于新生的文献。但出现时间并不能准确定位前沿知识，更多的是用于对新兴主题的探测研究。因此，本文使用主题词内容的创新性测度前沿知识。

主题词内容的创新性是指对给定的文献集，按时间序列排序，比较新到来的相关文献主题与已有文献主题的冗余度，确定新到来的文本主题是否新颖。目前广泛使用的文本创新性测量方法主要有基于向量空间模型的文本创新性探测和基于语言模型的文本创新性探测两大类[23]。其中，基于向量空间模型的内容创新性探测方法的主要步骤为：文本主题词的抽取与映射→构建文档的向量空间模型→利用某一方法计算内容创新性。本文采用Zhang[24]使用的向量余弦值方法测度主题词内容的创新性。计算方法如下：

式中，CNVk代表主题词K内容上的创新性，CNVk值越大，该主题词K内容上的创新性越强。cos(dl,di)计算了文档dl,di余弦相似度值，n代表该时间窗内拥有主题词K的文档数量，m代表前一时间窗内所有文档的数量，di代表前一时间窗的文档i所对应的向量，q代表向量维度。

2.3.5 学科交叉性测度

中科院院士路甬祥[25]曾指出：“学科交叉点往往就是科学新的生长点、新的科学前沿，这里最有可能产生重大的科学突破，使科学发生革命性变化。”多项研究[26-27]表明，世界上最具权威和最负盛名的科学奖项——诺贝尔自然科学奖中的学科交叉研究成果丰富，说明了现代科学技术的重大发现与发明多是学科交叉的成果。科学和技术上的重大突破，新的生长点和新学科的产生，往往是在不同学科彼此交叉和相互渗透的过程中形成的，说明跨学科研究具有重大意义。

许海云等[28]对学科交叉性测度方法进行了研究，将学科交叉性测度属性主要分为学科多样性(diversity)和学科聚合性(cohesion)两种。学科多样性描述交叉领域所涉及学科的数量统计特征，包括学科数量多少(丰富度)、分布特征(平衡性)和个体间差异性(差异度)；学科聚合性表征了研究领域所涉及各个学科所构成的整体网络的联系紧密程度和各学科在网络中地位的差异程度，包括核心-边缘度、网络分派度、网络密度和网络中心势。

Stirling[29]较为详细地阐述了学科多样性的普遍存在，指出了学科多样性丰富性、平衡性和差异性3个属性，并提出了用于测度学科交叉性的Rao-Stirling指标。该指标不仅考虑了学科分类间的平均分布程度，即平衡性，又考虑了学科分类间的差异性。张金柱等[30]、许海云等[31]均利用该指标对图书情报学领域的学科交叉性进行了度量。

考虑到指标的全面性与操作的简单性，本文使用Rao-Stirling指标测度主题词的学科交叉性，其计算公式如下：

式中，pi与pj是不同学科的概率分布，dij是学科间的距离，可以用余弦相似度进行计算α， β为计量参数，取值为0-1。当α、β取值不同时，测度了学科间的不同属性(表2)。Rao-Stirling值越大，该主题的学科交叉性越强。

表2 Rao-Stirling指标中参数取值不同时

2.3.6 前沿性测度

根据以上5个指标，设计主题词的“前沿性”指标：

Front=aVt+bTFPDFk+cPAk+dCNVk+eRS(12)

式中，a、b、c、d、e系数应根据上述指标的特点及其在发现前沿知识时的作用与区分度确定。

从统计学角度看，公式(12)为前沿性指标的多元线性回归模型。普通最小二乘估计、最大似然估计等是常用的参数估计方法，用于确定式中的a、b、c、d、e参数值。随着多元线性回归模型应用的逐步推广，为满足学科领域发展需要，提出了参数估计的自适应动态更新机制，DE算法[32]、粒子群算法[33]等新的方法逐步用于参数估计研究中。医学领域由多个子学科组成，本文虽利用统一的前沿知识特征指标对前沿知识进行识别，但同一特征在确定不同子学科前沿知识的重要性时可能有所不同。因此，目前尚无法给出各参数的具体估算与动态更新方法，需要通过大量不同学科的实验，确定适用于某一具体学科的前沿性参数组合。

2.4 医学领域前沿知识网络构建

考虑到各个主题并非孤立存在而具有一定的关联关系，明确主题间的相关关系更有利于对前沿知识的准确解读。依据前沿性指标筛选权重较大的主题词，利用词共现理论与技术、社会网络分析技术生成前沿知识网络。判断生成的知识网络中节点重要性的指标有很多，如中心度、声望等。虽然这些指标可以揭示节点的全局重要性，但无法揭示节点在某一社区的重要程度。本文通过前沿性指标测度了节点的全局重要性，在知识网络分析中则需要判断节点的局部重要性，从而实现对某一知识网络所代表主题的解读。本文使用Guimera等[34]提出的Z-Value值计算节点的局部重要性，Z-Value方法可以测度网络节点与其他节点联系的紧密性，根据指标值大小确定计算节点的局部重要性。

准确识别知识网络中的重要社区，对揭示学科发展规律和描述学科内部关联等具有积极作用。Wallace等[35]的研究证明了应用社区发现方法识别知识网络中的重要社区是可行有效的。计算机学界基于图论提出了多种社区识别算法，最有代表性的方法是基于优化网络模块度的方法。该方法根据边的中介性和模块度的变化进行社区识别。本文利用模块度方法，对前沿知识形成的多个社区进行识别，确定不同社区的重要性，并发现重要社区中节点间的关联关系，从而描述前沿知识结构。

最后，利用数据预处理阶段提取的主题词的语义类型，对代表性节点与关键社区中的主题词进行解读，可以准确发现某一医学研究领域涉及的疾病、基因、药物、治疗方法等方面前沿知识的概况，以指导研究人员更针对性地开展相关研究。

3 结语

为了准确识别医学领域的前沿知识，本文提出了一种基于多维度特征识别的医学领域前沿知识发现研究框架，并给出了框架中核心部分的研究思路与关键步骤。本文将生命周期理论、社会网络理论等多种理论与方法共同用于前沿知识的发现研究中，强调从知识的内外部两个方面共同测度前沿知识。此外，根据不同知识的语义类型，可以有针对性地解读前沿知识。后续研究中，我们将进一步验证本文所提方案的有效性，重点解决以下问题。

一是指标阈值的选取与确定。能量值、生命值、学科交叉性、前沿性等指标阈值的大小，直接决定最终识别的前沿知识的内容。目前尚无统一的阈值选择标准，仍需经过大量实验确定具体指标的参数值，以提高指标与模型的适用性。

二是医学领域前沿知识的语义关联分析。本文结合语义类型实现了对前沿知识的解读，但对不同类型间知识的语义关联缺乏深入研究。医学研究领域比其他领域具有更加完备的知识组织体系与语义关系。目前国外已开发了一些数据库用于存储基因与疾病之间的关系(例如CTDTM[36]，OMIM®[37]和GAD[38])，开发了DisGeNET[39]平台用以集成基因疾病关联(GDAs)中多个公共数据源和文献信息，该平台包括17 181种基因与14 619种疾病的429 111种关系。因此，建立医学领域前沿知识间的语义关联和揭示医学知识间的语义关系，对疾病的预防、发现与治疗具有积极影响。