, , ,,
科技文献是科研工作者获取科学假设的重要途径。如何更好地基于文献进行知识发现,是未来知识服务的重要方向。传统的检索平台能够帮助用户快速查找文献,但检索的文献数量庞大,要从候选文献集中获得有效的知识,费时费力。基于文献的知识发现研究通过间接关联的挖掘来获得科学假设,影响间接关联挖掘的因素研究是目前该领域的热点之一。
通过间接关联的挖掘来获得科学假设,即如果A与B存在关联,同时B与C也存在联系,得到A与C可能通过B存在间接联系的假设[1]。目前生物医学领域开发的一些文献知识发现系统,如Arrowsmith[2],Facta+[3],CoPub[4]等,具有较强的可操作性,但由于无法明确间接关联的语义关系,导致混杂的候选关系数成指数递增,从中筛选出真正有效的关系变得困难。现有方法不断强化对关联的语义性评价,而关联性强弱只是影响发现用户感兴趣的特异性关联的因素之一。研究文献知识发现过程中影响间接关联挖掘的因素,以便筛选出更多更有效的间接关联。因此,本文利用PubMed的文献数据,分析不同时期的文献在间接关联挖掘中的作用,探讨时间因素在生物医学文献知识发现过程中的影响,这对科研人员探索文献知识发现关联筛选的新方法具有重要意义。
文献知识发现的实施主要包括概念实体A、B和C的识别,关联的抽取及间接关联的相关度计算3个部分。对于一个文献知识发现系统来说,用户输入概念A,计算A-B-C之间的关联强度,获得按关联强度由大到小排序的有序列表[5]。返回的候选结果的数量较大时,排在前面的结果通常是用户最关心的。因此,给定每一个A-B-C间接关联,计算其关联性评价的分值SAC,利用SAC对所有候选结果集进行排序,确保排序靠前的多是关联性较好的结果,即只关注分值最高的靠前关联集的准确度P(Precision),P越大效果越好。
为了探索文章发表时间对生物医学文献知识发现的影响,将给定文献集按发表时间(年份)分成训练集Ttrain和Ttest(图1),并在y12时间点将训练集Ttrain分成T1和T2两部分(其中T1 图1 文献集按时间划分为训练集Ttrain和测试集Ttest 利用图对关联知识进行建模,是目前相关领域最常用的方法。通常一个简单的无向无权网络,可记为G=(V ,E),其中集合V称为节点集,V={v1,v2,…,vn},集合E称为边集,E={e1,e2,…,em},任意一条边对应一个节点的二元组:ex=(vi,vj),E是V×V的一个子集。笔者根据文献中的语义单元即概念实体及其关联,对文献中蕴含的知识进行网络结构化,构建文献关联知识网络。因此,在生物医学文献关联知识网络G=(V,G)中,节点集V是从生物医学文献中提取的实体集合(如基因、蛋白质、化合物或疾病等各类概念实体),边集E 是实体之间来自文献的信息关联的集合。 基于句子共现的方法进行实体关联的提取[6],利用NLTK(www.nltk.org)自然语言处理包实现文献文本处理与关联提取(包括分词、词性标注、分块及名词短语提取),并利用MeSH(Medical Subject Headings)医学主题词表辅助进行词干化,主要过程如下。 识别出句子的实体NP(Noun Phrase)及其位置: 如果在同一个句子中得到的实体按其在句子中的顺序依次为NP1、NP2、NP3,则得到关联:(NP1,NP2),(NP1,NP3),(NP2,NP3)。 例如,文献标题(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice.提取得到实体及其位置的列表为: [(β1-syntrophin modulation,1),(miR-222,4),(mdx mouse,6)] 进一步得到关联:(β1-syntrophin modulation,miR-222),(β1-syntrophin modulation,mdx mouse),( miR-222,mdx mouse)。 在实体识别过程中,未对提取到的名词词项进行语义限定与分类,即得到的关联知识网络不是一个由特定实体构成的关联网络,而是尽量收集文献中出现的各类实体,以满足通用性和覆盖率的要求。虽然生物医学文献中出现的同义词项、缩写词及实体识别算法本身的假阳性率会带来一定的噪声,但从总体富集的效果来观察,不会影响结果的整体表现。 目前已有多种指标用于评价A-B-C三者之间的关联性[7]。笔者选择常用的绝对词频(Absolute Word Frequency,AWF)计算A-B-C之间的潜在关联性SAC,以辅助比较不同时期文献用于实施知识发现时的准确率: SAC=min(w(A,B),w(B,C)) 其中,w(A,B)与w(B,C)分别为A与B、B与C的共现次数。 给定测试文献数据集,将文献数据集按时间分成训练集和测试集,分别建立训练网络G1=(N1,E1)和测试网络G2=(N2,E2)。从N1中随机选择m个词作为种子词项集A,其中A取训练网络与测试网络中共同拥有的词项,即A∈N1∩N2。 在训练网络G1中,以种子集A中的节点为起点提取其间接节点,得到间接节点集C,计算所有关系链(A-Btrain-C)的一个分值SAC。对结果集C按SAC值从大到小排序,取有序结果集CSorted中前L个词项,得到CSorted_TopL={c1,c2,…cL}。 在测试网络G2中,以种子节点集A中的节点为起点提取其直接关联节点,得到关联节点集Btest。 计算有序结果集CSorted前L个词项集CSorted_TopL的准确率P: 其中,CSorted_TopL∩Btest指CSorted_TopL和Btest的交集即共同拥有的词项,|CSorted_TopL∩Btest|为交集的节点数量,|Btest|指Btest集的节点数量。 以关键词“miRNA or MicroRNA”从PubMed中检索得到51 118条结果,将标题数据集按时间分成训练集和测试集,分别建立训练网络G1=(N1,E1)和测试网络G2=(N2,E2)。以2012年为分开点,2013-2015年的文献数据作为Ttest测试集,2003-2012年的文献数据作为Ttrain训练集。其中将训练集以2009年为中间点,2003-2009年作为T1时间段的训练集,2010-2012年作为T2时间段的训练集。从T1时间段训练集中随机选取50个关键词作为种子词项A1,从T2时间段训练集中随机选取50个关键词作为种子词项A2。 此外,在计算T1时间段的准确率时,必须从Ttest中去除A1在T2时间段中已经形成的关联,才能保证剩下的新关联是在Ttest时期形成的。 取L=0.1,0.2,0.3,…,1,即取有序结果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的词项时,计算T1和T2的准确率P,结果如图2所示。 图2 L=0.1,0.2,0.3,… ,1.0时T1和T2的准确率P 进一步取靠前的区间,取 L=0.01,0.02,0.03,…,0.1,即取有序结果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的词项时,计算T1和T2的准确率P,结果如图3所示。 图3 L=0.01,0.02,0.03,…,0.1时T1和T2的准确率P 根据图2与图3的测试结果,观察不同时期的文献用于间接关联挖掘时的表现,发现由T2时期文献获得的准确率显著大于T1时期文献所获得的准确率,即近期文献集相比早期文献集在知识发现时获得的准确率要高,表明文章发表时间对生物医学文献知识发现具有积极影响。因此,在实际文献知识发现时,科研人员多是基于特定领域文献实施知识发现的研究,在间接关联性评价过程中考虑时间因素,可以显著提升知识发现工作的效率。此外,从整体上看,利用T1与T2时期的文献集都未能获得较高的准确率,一方面是因为实体抽取时未过滤那些宽泛概念,如“cell”“gene”“miRNA”等,这些概念存在大量的关联,但在具体关联发现过程中无实际意义;另一方面,不同时间段内相关领域都存在相应的热点研究内容,种子词的选择对结果的准确率影响很大,如果选择热点种子词项,会显著提升准确率。 面对大数据时代知识获取的需求与挑战,基于文献的知识发现研究对完成从文献到知识的转化具有重要作用,已成为医学情报分析与辅助科研的一种重要理论与方法。笔者探讨了时间因素在生物医学文献知识发现过程中对间接关联挖掘的影响。从测试实验的结果来看,近期文献比早期文献在知识发现过程中获得有效新关联的效果要好,表明文章发表时间对生物医学知识发现具有一定积极影响,即更新的文献对下一步科研假设的形成具有非常重要的促进作用。 由于文献知识发现是一个启发式的过程,利用知识发现工具辅助科研时筛选出的关联仍然是需要进一步确证的假设。因此,在不断提高文献文本中实体及其关系提取质量的同时,间接关联筛选的新方法探索变得越来越重要。研究时间因素在文献知识发现过程中对间接关联挖掘的作用,能为新方法的探索提供一种新视角、新思路,不失为一种积极而有意义的尝试。1.1 关联建模
1.2 关联提取
1.3 间接关联的评价
1.4 计算准确率
2 数据测试
2.1 数据准备
2.2 测试结果
3 总结与讨论