廖君华,陈军营,白如江
(1.山东理工大学 科技信息研究所,山东 淄博 255000;2.武汉大学 信息管理学院,湖北 武汉430072)
科学知识的形成与发展是一个动态演变的过程,有着自身的特点和规律,通过科技创新路径的构建可以更加直观地展示知识的流动及扩散情况。本文提出科技创新可以看作是在某段时间内具有代表性的对某科学领域造成一定影响且推动科学技术发展的科学知识创新研究或者技术创造的具体过程表达。为了准确地表达科技创新具体内容,反应某领域科技创新不断随时间演化变化的现象,需要使用科技创新路径进行展示。
目前,科技创新路径构建方法主要有引文分析(citation analysis)方法、文本内容挖掘方法等。利用引文分析方法构建科技路径可以从科技文献知识继承与创新角度揭示科技创新发展变化过程。但是,纯粹的引文分析方法难以深入到引文内容层面进行分析,而文本内容挖掘方法往往脱离了文献之间天然的引用路径。随着信息技术和自然语言处理技术的发展,开放获取(Open Access,OA)文献数据库提供了基于XML全文本格式的科技文献全文,使得深入文献引文全文内容进行主题识别并构建科技创新路径成为当前研究热点。
本文旨在综合运用自然语言处理技术、文本挖掘技术和可视化分析等方法,自动抽取科技文献中引文内容数据,结合天然引文路径,尝试构建一个能够表征知识继承和发展过程的科技创新路径,进而揭示出科技创新发展演化过程中关键技术路径,为科技管理机构和科研人员分析领域前沿主题时提供数据决策支持。
科技创新路径的研究对象主要有创新主题、创新路径、创新时间、创新走向、创新拐点等。目前主要集中在基于文本主题分析的科技创新路径构建研究方面。程齐凯等(2013)通过Z-value社区算法识别研究主题,然后根据主题之间的相似度测算出主题之间的路径和走向,构建出具有主题生命周期(产生、消亡、分裂、合并、扩张与收缩)性质的科技创新路径[1]91-96。随着CiteSpace的出现,通过爆发词检测功能可以直接对研究主题的时间、走向和发展脉络进行可视化展示。王梦婷(2016)借助CiteSpace中的突变检测功能对样本的关键词数据展开突变率检测,并从突变词、主题突变分类和突变主题时区视图3个维度构建了科技创新路径[2]36-39。廖列法等从主题强度、主题内容(以JS散度度量主题之间的关联关系)和技术主题强度(以IPC分类号度量)3方面进行了分析并构建了基于专利数据的科技创新路径[3]13-18。刘自强等(2017)以时间维度为基础分别从主题强度(以关键词总频次测评)、主题结构(以关键词中心度测评主题的新生、合并、分裂、增长、收缩和消亡)和主题内容(以相似度测评主题中关键词的路径走向)构建出多维主题演化的科技创新路径[4]67-84。此外,通过引用情感分析可以辅助判定科技创新路径的发展走向。在情感分析方面,黄卫东等(2014)利用PLSA模型对不同时间段上的网络舆情话题进行子话题提取和情感词表构建[5]102-107,综合考虑修饰词对情感词的影响以及情感词对子话题的贡献程度,得到一个时间序列上各个子话题的情感倾向值以及整个话题的情感变化趋势模型。李超雄等提出一个基于动态主题情感分析的混合模型(DTSCM),实现了主题与情感演化的并存[6]2905-2910。安璐等(2017)以主题和情感信息为研究对象,利用word2vec主题分析方法与基于词典的微博情感分析方法构建了具有主题和情感强度特征的科技创新研究框架[7]120-129。在引文位置研究方面,赵蓉英等构建了基于引文位置的共被引分析方法框架,阐释了共被引频次与各共被引层次的关系[8]492-500。
在引文内容分析方面,Ying D等(2012)设计了一个引用内容分析 (Citation Content Analysis, CCA)研究框架,指出引文内容分析是下一代引文分析的方向[9]1490-1503。刘盛博等(2013)基于PubMed Central全文数据库,设计了一个引用内容获取与分析平台,提供一篇文献的所有引用内容获取功能[10]134-138。祝青松等(2014)以碳纳米管领域的高被引论文为研究对象,利用C-value 算法识别出引文内容中的研究主题,研究表明基于引文内容分析的主题识别结果比基于关键词、摘要等题录数据的识别方法准确性更高[11]39-49。章成志等(2017)从引文内容位置分布、引文提及次数以及引文内容上下文特征等三个方面分析学术专著的引文行为[12]15-24[13]319-330。
整体来看,科技创新路径构建针对的研究对象多围绕文本主题进行,缺乏综合利用天然引文路径、引文位置信息和引文内容等多维度信息进行构建研究。
随着科技创新路径构建研究的发展,研究人员不再满足于简单的数据分析,由此,可视化分析技术得到广泛应用,使得数据分析结果可以生动形象地展示出来。通过科技创新路径可视化呈现,有利于相关领域的研究人员更好地洞察学科发展趋势,判别重要知识的传播过程,提升人们对抽象事物的理解和判断能力。
加菲尔德等研发了基于wos数据的可视化工具HistCite,这款工具实现了文献引用关系的可视化展示,可以快速发现文献引用过程。陈超美开发的CiteSpace具有同被引聚类分析和时序网络可视化功能,随后的改进使得这款软件具有了爆发词检测、中心性分析、PageRank、最小生成树等功能,可以有效展示科技创新路径[14]。薛调等利用CitespaceII的主题演化图谱功能分析了国内图书馆学科知识服务领域路径[15]9-14。Rosvall M.等仿照冲积图(alluvial diagram)提出了一种社区演化可视化分析方法,以不同颜色的线条表示主题发展路径和方向,展示学科主题结构的演化发展变化情况[16]86-94。王晓光等改进了M.Rosvall等的方法,并以之为基础开发了学科主题可视化分析软件Neviewer,以冲积图、赋色网络图对学科主题的走势进行直观展示[17]900-911。
目前,利用CiteSpace、Neviewer等工具进行科技创新路径可视化展示时存在的主要问题是无法有效展示引用位置、引文内容、引用情感等多维信息,并且主题表达模糊。因此,本文拟在社会网络分析工具Gephi基础上设计一种可以展示引用主题、引用位置、引文时间的科技创新路径可视化方法。
本文在借鉴现有引文内容识别理论方法的基础上,综合利用文本挖掘、复杂网络和可视化技术,提出一种基于引文内容分析的科技创新路径构建方法,具体思路如图1所示。
图1 研究思路
该方法以引文全文数据为数据源,首先,利用正则表达式技术抽取论文全文中的引文内容、引文位置等信息;然后,利用C-value和TF-IDF算法识别出引文内容的引用主题,利用情感分析技术对其情感极性进行挖掘;最后,利用Gephi可视化平台从引用主题、引用位置、引文关系等多维度实现科技创新路径可视化分析展示。
具体技术实现路线如下。
1.XML格式全文数据获取
使用欧洲生命科学期刊全文数据库(Europe PMC)等可以提供XML全文格式的数据库,构建检索式,通过数据库网站提供的api函数,利用网络爬虫技术批量获取XML格式全文数据。
2.数据清洗与预处理
利用python语言分析获取到的XML格式全文数据,解析出文献ID、被引文献ID、引文内容、引用位置、文献出版年、被引文献出版年、文献题名、期刊名等数据,并格式化保存到CSV表格中。
3.基于引文内容的引用主题发现
综合运用C-value算法和TF-IDF算法对获得的引文内容进行主题识别,并将识别出的主题与引用位置一一对应保存,构建基于引文内容的天然引文路径数据集,实现引用位置、引用主题和引文关系统一映射。
4.科技创新路径构建与可视化
将构建好包含引用位置、引用主题和引文关系的数据集合导入Gephi,调整合适的布局策略,实现对引文路径、引用位置、引用主题等标签进行多维度可视化展示,挖掘出高被引文献主题以及关键引文科技创新路径。
XML结构化数据相对于PDF等非结构化全文数据序化程度高,XML格式数据对科技文献的全文内容进行了结构化处理,详细标注了文章的题目、引文内容、引用位置等重要信息,具有易解析、易提取的特点,解决了计算机应对海量文献进行相关信息抽取和分析的难题。
本文详细分析总结了Europe PMC 中的XML全文数据格式特点。Europe PMC提供的XML全文数据主要包含文章题名(title)、来源期刊(journal)、作者(author)、摘要(abstract)、图表、引用内容(content)和引用位置(section)等信息。例如:
1.文献编号信息
2.文献题名信息
3.引文内容信息
(, ).Superactivation of PARP-1 after extensive DNA damages can result in a damage of metabolic homeostasis due to an exhaustion of NAD substrate.
4.引用位置信息
根据上述内容,本文使用Python开发了一个信息抽取程序。该程序实现思路是,首先,遍历body->sec->p->xref路径,采用正则表达式规则抽取方法抽取出相应文献的ID、引文内容、引文位置等信息,保存到一个多维数组中;然后,将这些数据写入并保存到外部Excel表格中,程序如图2所示。
图2 引文内容抽取程序
1.引用主题识别研究
本文利用C-value和TF-IDF两种算法对引文内容进行主题识别,综合评判分析了两种方法的优缺点,设计了一种混合主题策略,最终形成引用主题内容。
C-value算法最早由Frantzi等人提出,它结合了统计学和机器学习的思想,弥补了短语词频主题识别的不足,对于英文主题识别领域取得较好效果,在英国曼彻斯特大学文本挖掘系统TerMine中得到了很好的应用。C-value算法的计算公式见公式(1)[18]821-826。
C-value(a)=
(1)
其中:
a表示候选字符串;
|a|表示a的长度(据单词数计算);
f(a)表示a的词频;
Ta表示含a的候选术语;
P(Ta)表示含a的术语总数;
b是包含a的字符串。
TF-IDF是一种利用统计进行主题识别的方法。词频(Term Frequency,缩写为TF)和逆文档频率(Inverse Document Frequency,缩写为IDF)的乘积为TF-IDF。TF-IDF可以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF算法的公式见公式(2)。
TF-IDFi,j=TFi,j×IDFi,j
(2)
其中:
ni,j指某一词语ti在文件dj中出现的次数;
|D|指文档总数;
|Dti|指包含词语ti的文档数目。
由于引用内容主题的准确性和完整性对科技创新路径构建的至关重要,本文根据两种方法各自的优势,将各自的表征结果进行了综合处理。具体实现过程如下。
(1)将基于C-value算法的主题识别结果集合M表示为:
M={topic1(c-value1),topic2(c -value2),…,topici(c -valuei),…,topicm(c -valuem)}(m∈Z+),
(2)基于TF-IDF算法的主题识别结果集合N表示为:
N={topic1(tf-idf1),topic2(tf-idf2),…,topici(tf-idfi),…,topicn(tf-idfn)}(n∈Z+),Z+表示正整数。
(3)最终主题表征集合为:
W=M∪N={topic1(value1),topic2(value2),topic3(value3),…,topici(valuei),…,topicw(valuew)}(w∈Z+),若topici∈M且topici∈N,则valuei= c -valuei+ tf-idfi。
2.基于引文内容的科技创新路径构建
在天然引文网络的基础上,本文对网络中传递的具体内容进行标签丰富化处理,将引用主题、引用位置、文献出版年等进行标注。增强科技创新路径的可视性和内容丰富性,使得科技创新路径蕴含信息更加饱满,也可以提升科研人员对领域知识创新与传承的直观理解。具体如图3所示。
图3 基于引文内容的科技创新路径
图3中圆圈代表不同文献,圆圈大小代表文献重要程度(以度数衡量)。比如文献A的度数为2,文献B、文献C的度数都是1,A节点的大小是B和C的两倍。本文将前面识别出的引用主题信息、出版年和引用位置信息分别标注在箭头的上方和下方,topic1、year1和位置1表示文献A引用文献B的主题、出版年和位置,topic2、year2和位置2表示文献C引用文献A的主题、出版年和位置。通过对天然引文网络的标签丰富化处理,有效增强了网络中信息的可辨识性。由于节点大小,引用主题和引用位置信息标注的设置,结合时间信息可以更加有效地揭示出科技创新路径的发展趋势。
由于引文网络是庞大的复杂网络,并且是有向无回路网络,因此,本文利用复杂网络分析方法抽取出其中起结构洞链接作用的关键路径信息。在具体技术实现细节上,由于抽取出引文数据中包含施引文献ID(PMID),被引文献ID(PMID)、出版年、引用内容、引用主题、引用位置等信息,在利用Gephi工具进行路径展示时需要对数据进行转换。数据导入Gephi后,可以对相关数据进行统计、布局调整和赋色,进而最终生成基于引文内容的科技创新路径图谱。
1.硬件环境
Windows 7系统,i5-4590 CPU,4G RAM,1T HardDrive。
2.软件环境
Python、KNIME和TerMine(集成C-value功能)、Gephi等
3.数据集
21世纪的人口老龄化使得人类面临着艰巨的养老任务,但是衰老是大自然的必然规律,是一种无情的力量。近年来,随着科技的进步和物质生活的大力提升,抗衰老成为当今世界医学的研究热点,如何有效地进行抗衰老和养老成为当今的热点研究课题。因此,对抗衰老领域的科技文本进行有效的利用和研究,揭示抗衰老领域的科技创新路径对人类寻找延缓衰老的秘密,延长寿命提升生活质量意义深远。
本文以欧洲生命科学数据库PubMed Central所收录的抗衰老领域(Anti-aging)XML 格式的论文全文数据为数据源进行实证研究。
数据库:PubMed Central生物医学数据库;
检索式:(TITLE:"anti-aging" OR ABSTRACT:"anti-aging" OR KW:"anti-aging");
检索范围:题名;
时间跨度:截止至2016年12月31日;
检索结果:1351篇。
通过该网站提供的API,利用本文开发的Python爬虫程序获取到XML格式的全文数据1351篇,保存到本地硬盘,形成XML文本数据集合,其过程见图4。
获取XML全文内容之后,利用本文开发的python程序从1351篇源文献中抽取到了23915条引文内容,部分数据见表1。
本文将“Methods” “Materials and Methods” “Experimental Section” “Experimental Procedures” “Research Design and Methods” 等统一规范到了
图4 XML全文数据获取
“Materials and Methods”来进行统计,将 “Conclusions and Future Prospects”“Future research and directions” 等统一规范到“Conclusions and Future Prospects”来统计,将“Background”和“Summary of current management strategies” 等统一规范到“Background”统计,统计分析后引文内容所在章节位置的分布情况见表2。
表2 引用位置统计
位置数目百分比/%Background3301.4Introduction1099945Materials and Methods20998.7Results14035.8Discussion741030.9Conclusions and Future Prospects420.2Results and Discussion17027.1
由表2分析发现, Introduction部分实施引用行为的数目最多为10999次,占所有引用次数的45%;其次是Disscution部分7410次,占所有引用次数的30.9%,而Conclusions and Future Prospects部分引用次数为42,仅占0.2%,引用行为最少。
1.基于C-value算法的研究主题表征
本文利用集成C-value算法的文本挖掘系统TerMine对引文内容中的主题进行了抽取,抽取过程如图5所示。
图5 C-value算法主题抽取过程
基于C-value主题识别的方法依据所识别文本的长短自动获取主题数目,长文本识别出的主题词数目多,短文本数目少。由于引文内容多为句子,因此,该方法所识别出的主题词数相对较少。将识别所得到的主题词对应到施引文献与被引文献中,可以得到如下结果,见表3。
通过回溯原文解读发现,文献4682506引用文献25155754的引文内容描述为:雌鸭的肌氨酸含量明显高于对照实验。通过引用文献25155754的研究结果“韩国本土鸡的肌氨酸含量中雌性土鸡中的肌氨酸含量明显高于雄性”来判定实验结果的准确性。本文识别出的主题词为:femal(雌性)、content(含量)、creatin(肌氨酸)、study(研究)、significant(重要),与原文描述内容基本一致。文献3830124引用23325216描述的是细胞中的水分含量对抗衰老的影响与本文识别出的主题词:water(水份)、Partridge、alital、Cell(细胞)内容也相切合。
表3 基于C-value算法的研究主题识别结果
施引ID位置被引ID发表时间C-value引用内容主题4682506Result Discussion251557542015Femal(6)content(5)creatin(2)Study(1)significant(1)4682506Introduction247698802014Italicet(4)male(4)regard(2)meat(2)McAfee(2)4682506Introduction229915552013Meat(5)Meanwhile(1)duck(1)consumpt(1)Korea(1)3830124Discussion232320782013Italicet(3)Direct(1)alital(1)tender(1)cell(1)3830124Discussion233252162013Italicet(4)water(2)Partridg(2)alital(1)cell(1)…………………………
2.基于TF-IDF的研究主题表征
本文利用文本挖掘平台KNIME实现基于TF-IDF的引文内容研究主题识别,具体流程如图6所示。
图6 TF-IDF算法主题抽取过程
实验发现基于TF-IDF算法所识别出的研究主题较C-value多,将所得结果对应到施引文献与被引文献的表格中,见表4。
通过对照4682506原文以及前文所述基于C-value的主题识别结果,两种识别结果中都存在性别和氨基酸的主题词,符合原文所描述内容。
实验发现,基于TF-IDF算法的主题识别方法在主题数量上更占优势,在准确性上,基于C-value算法的主题识别方法更优异,更能与文中内容相对应。采用混策略后的最终主题表征结果见表5。
按照本文提出的思路将上述数据转换格式后导入Gephi中,导入过程中设置为有向图谱。导入后利用过滤功能设置度数n≥5,去除掉零被引和单次被引等文献节点,得到719个节点。以Yifan Hu为背景布局,最佳距离设置为100。以度为渲染方式对网络图中的节点颜色和大小进行赋色和赋值,并打开Source、Target和Section、topic边标签的显示,显示效果如图7所示。
从图7中可以看出,整体的网络结构比较清晰,可以观测到施引文献ID(PMID),被引文献ID(PMID)、出版年、引用主题、引用位置等信息,以及路径的基本走势。但是,由于网络结构过于庞大繁杂,节点过多,连线复杂。虽然网络表达全面,但是不方便从个体角度进行观测科技创新经的内部特征。
表4 基于TF-IDF算法的研究主题识别结果
施引ID位置被引ID发表时间TF-IDF引用内容主题4682506Result Discussion251557542015creatin(0.23)content(0.15)KNC(0.14)femal(0.09)significantli(0.08)KND(0.06)chicken(0.06)Schmid(0.05)breed(0.05)bird(0.05)4682506Introduction247698802014McAfee(0.47)Italicet(0.47)alital(0.18)male(0.18)regard(0.02)meat(0.02)4682506Introduction229915552013meat(0.22)meal(0.12)controversi(0.12)Meanwhil(0.12)5-fold(0.12)duck(0.09)Korea(0.09)benefit(0.08)approxim(0.08)consumpt(0.08)3830124Discussion232320782013Italicet(0.3)Direct(0.1)tender(0.1)alital(0.1)cell(0.1)3830124Discussion233252162013water(0.2)Italicet(0.2)Partridg(0.2)alital(0.1)…………………………
表5 主题表征结果
施引ID位置被引ID发表时间混合策略引用内容主题4682506Result Discussion251557542015femal(6.09)content(5.15)creatin(2.23)significantli(1.08)Study(1)KNC(0.14)KND(0.06)chicken(0.06)Schmid(0.05)breed(0.05)bird(0.05)4682506Introduc-tion247698802014Italicet(4.47)male(4.18)McAfee(2.47)regard(2.02)meat(2.02)alital(0.18)4682506Introduc-tion229915552013meat(5.22)Meanwhile(1.12)duck(1.09)Korea(1.09)consumpt(1.08)meal(0.12)controversi(0.12)5-fold(0.12)benefit(0.08)approxim(0.08)3830124Discussion232320782013Italicet(3.3)Direct(1.1)tender(1.1)alital(0.1)cell(1.1)3830124Discussion233252162013Italicet(4.2)water(2.2)Partridg(2.2)alital(1.1)cell(1)…………………………
图7 基于引文网络主题增强的科技创新路径
为了更加清晰地展示科技创新路径,需要对网络进行精简处理,Gephi的过滤面板中提供了k-核设置功能,如图8所示。通过调节k的取值可以得到不同网络结构的凝聚子群。
图8 Gephi中的k-核分析
“k-核”的定义是:对所有的ni∈Ns来说,如果d(ni)≥k,则子图Gs是一个“k-核”,k-核也是凝聚子群分析中常用的一个概念,表示一个子群中有k个节点,其中每个节点都至少与概子群中的其他k个节点邻接,即其中每个节点都至少与该子群中的其他节点有k条连线。一个k-核中,每个节点度数都至少为k。通过调整k值的大小能得到一系列的k-核,可以发现一些关键的网络子群[19]56-63。
1.引用位置可视化分析
通过调节k的取值,当k=3时,得到以下子群路径,将标签显示设置成只显示文献ID和引用位置,如图9所示。
图9中可以清晰地看到含有位置信息的文献之间的引用情况,文献14907713相继对7篇文献进行了引用,通过引用位置分析发现都是在Material and Method部分进行的引用,说明文献14907713是一篇主要以研究方法为创新的文章。
2.高被引文献主题对比可视化分析
为了将识别出的主题信息添加到科技创新路径中来,更好地展示路径中的知识继承与创新情况,本文将Gephi中的topic数据资料复制到label中,进行引用主题的可视化展示,如图10所示。
图10中发现文献14907713在Material and Method部分引用的主题有NMR、cell、protein、buffer等,其中method出现了3次,表明此文献主要从方法方面展开抗衰老的研究,且在方法上对其他文献进行了大量借鉴。其引用的主题词来源于不同文献、不同部分,表达的内容均不相同。
3.关键创新路径可视化分析
为了寻找抗衰老领域中的关键路径,设置Yi fan Hu布局中的最佳距离为200,寻找到了以下关键路径,如图11所示。图中有两个小的子群,一个以文献18515024为中心,另一个以文献4907713为中心,经文献4443785将两个子群连接起来。
图9 科技创新路径引用位置展示
图10 科技创新路径主题展示
路径4506373→4907713,路径4807895→4907713,路径23049247→4907713,路径4443785→4907713,分别从Result中引用了主题data、product、rid。从Material and Method中引用了主题method、sample、protein。从Material and Method中引用了主题centrifuge、buffer。对连接文献,它从Material and Method中引用了主题method、measure、protein。对比引用位置和引用主题,可以发现文献4907713是对检测蛋白质相关方法方面进行的研究, 作者主要对已有的实验方法或进行借鉴或改进,提出自己独有的待验证的实验方法。然后在Result部分,作者主要通过前人的实验数据解释实验中所得结果代表的意义。
图11 关键路径展示
路径4708250→18515024,路径4285959→18515024,路径4021675→18515024,路径3619623→18515024,路径4443785→18515024,分别从Schizandra chinensis章节中引用了主题Russia、China、Korea、forest。从Introduction中引用了主题fruit、medicine、herbal。从Introduction中引用了主题antiaging、immunostimul、antifatigu。从Typic Example Drug Discovery Herbal Medicine章节中引用了主题action、fruit、wine。对连接文献,从Introduction中引用的主题为fruit、Russia、Japan。对比引用位置和引用的主题,可知作者主要是对各个国家的已有方法和理论的对比和总结,引出论文的主要创新点,以阐述中药理论在抗衰老领域的应用价值和意义,为之后的方法验证做铺垫。
本文研究了一种基于引文内容的科技创新路径构建和可视化方法,综合利用了文本挖掘和可视化方法将抗衰老领域的引用主题具体内容、位置信息和传递路径等信息挖掘展示出来,增强了原始引文路径的主题信息展示能力。所生成的科技创新路径对科研工作者观察和判断抗衰老领域的发展过程,探查和分析具体演化路径及趋势提供了一种崭新的视角。该方法只是对引文内容的主题、位置等信息进行了挖掘和展示,没有对作者的引用情感(正向,负向,中性)作极性判断,因而不能展示作者引用过程中的批判性观点。