王宇典?魏晓欣
摘 要 以民族地区生物多样性研究为例,论文比较分析了知识图谱研究中数据样本对研究结果的影响,实证结果表明,虽然核心文献具有反映学科研究的代表性,但还需要图书馆对学者进行检索培训学术规范指导,提高检索需求的准确性。在优化知识图谱研究的数据样本方面建议文献数据库著录要符合准确性、可获得性和稳定性。
关键词 知识图谱 数据样本 可视化 实证研究
分类号 G254.97
DOI 10.16810/j.cnki.1672-514X.2018.11.014
0 引言
知识图谱可以将文献信息绘制为二维或三维图文信息,显示科学发展结构进程或与其他学科间的关系,并运用文献计量学方法客观反映学科研究前沿,通过可视化形式解析研究主题的结构脉络,使结果更为准确、清晰。近年来,随着知识图谱软件及可视化技术的不断完善和发展,越来越多的国内学者开始运用知识图谱开展相关学科主题研究。以中国知网CNKI数据库收录为例,截至2016年,以“知识图谱”为主题的文献有2680篇,且呈快速增加趋势。其中,有关社会科学基础研究方面的文献占到62.90%,说明知识图谱的运用已经走出了图书情报专业领域,极大提高了社会科学领域的科学计量研究水平。根据冉从敬[1]的研究,人文社科领域内的学者主要把知识图谱作为一种辅助研究工具,从梳理发展趋势、探寻研究热点、分析作者集群等方面应用知识图谱,研究重点在特定主题或期刊。但是,当前学者们对知识图谱的运用方式还比较简单,数据样本采集还存在随机性,分析角度也较为单一,因此,有必要对知识图谱与学科研究的融合,以及图谱科学性对学科的影响度进行研究。
1 研究路径
在运用知识图谱分析主题文献时,科学知识图谱的数据源可来自于多个综合性数据库,如WOS,CNKI,CSSCI等。另外,还可以来自专利文献信息出版机构推出的专利信息数据库,如德温特专利数据库(DII)、中文科技期刊数据库引文版(CCD)、自然科学基金资助数据库、中国农史论文全文数据库、维普(VIP)、万方等[2]。当选用不同的主题词和来源数据库获取数据样本时,其数据和结论会有差异。由于知识可视化的基础在于高质量的样本数据,以及对不同格式和质量的数据进行清洗和预处理[3],因而需要对所获取的数据样本进行严谨性和可靠论证,以使得出的结论具有正确性和普适性。
1.1 研究主题选择
由于民族地区经济较为落后,与外界相对隔绝,处于公共管理权力的末稍,加之国内外法律机制、民间社区、宗教价值、传统文化、生态学等因素交织错杂,民族地区生物多样性保护研究领域的相关研究文献能够涉及自然科学和社会科学多个学科领域,具有研究方法、研究手段、研究视角多元化的特点。因此,选择民族地区生物多样性主题文献作为研究样本,研究成果既具有跨学科文献研究代表性,也具有专业研究实用性。笔者以民族地区生物多样性研究为例,比较分析知识图谱研究中数据样本对研究结果的影响,并对优化知识图谱研究中数据样本的原则和方法提出建议。
1.2 检索数据库的选择
选取数据库的标准主要有以下三个方面。一是数据库收录的文献要具有代表性和广泛性,能涵盖中外核心期刊,能反映本学科主题研究前沿和研究全貌。二是数据库使用要具有便利性,图书馆购买的商业数据库是读者获取数据进行可视化分析的首选。三是数据库中采集的样本文献数据均能适用知识图谱工具,便于比较分析。基于以上原则,本次实证研究中选取WOS,SCOPUS, CSSCI和CNKI数据库,对民族地区生物多样性保护研究的中外文献对比分析。四个数据库的具体特点见表1。
数据目的 书目文献计量、引文分析、聚类分析、共词分析、文献共引分析 书目文献计量、引文分析、聚类分析、共词分析、文献共引分析 书目文献计量、引文分析、书目耦合、聚类分析、词频统计 书目文献计量、引文分析、聚类分析、作者分析、关键词共现矩阵
适用工具[5] Bibexcel、CiteSpace、HistCite、Sci ? CiteSpace 、Sci ? Bibexcel 、CiteSpace 、Prefuse CiteSpace 、SPSS、Pajek 、Prefuse、Ucinet
1.3 检索式的构建
(1)WOS数据库检索式1(WOS1):主题=biodiversity AND indigenous,时间范围为2001—2015年,文献类型为Article、Review,检索结果1752条。
(2)WOS数据库检索式2(WOS2):主题=
(biodiversity and indigenous) or (biodiversity and“traditional knowledge”) or (biodiversity and “proteced areas”)or ( biodiversity and transboundary) or (biodiversity and “genetic resources”) or (biodiversity and“national park”) or (biodiversity and legislation) or (biodiversity and “customary law”) or (biodiversity and “genetically modified organism”) or (biodiversity and “invasion of alien species”) or (biodiversity and “cultural diversity”) or “bioculturaldiversity”or (biodiversity and religion),時间范围为1989—2016年,文献类型为Article、Review、Proceedings paper,检索结果6888条。
(3)SCOPUS数据库检索式:关键词=biodiversity AND indigenous,时间范围为2001年—2015年,文献类型为Article、Review,检索结果524条。
(4)CSSCI数据库检索式1(CSSCI1):关键词=生物多样性or传统知识or保护区or国家公园or文化多样性or外来物种入侵or转基因or遗传资源or民族立法or习惯法or民间法,时间范围为1998年—2016年,文献类型为评论(书评除外)、综述、论文,检索结果2343条。
(5)CSSCI数据库检索式2(CSSCI2):关键词=生物多样性,时间范围为2001年—2015年,文献类型为评论(书评除外)、综述、论文,检索结果282条。
(6) CNKI数据库检索式:SU=‘生物多样性*(‘传统知识+‘保护区+‘国家公园+‘文化多样性+‘外来物种入侵+‘转基因'+‘遗传资源+‘民族立法+'民间法+‘习惯法+‘宗教+‘跨界),时间范围为1986年—2016年,论文(去掉通知、人物报道、要闻、征稿指南、期刊目录、中学教学、科普等626条),检索结果6681条。
2 检索文献数据分析对比
本文对民族地区生物多样性主题的数据样本采用文献计量学方法,对比分析检索文献的国家/地区分布、期刊分布、学科分布、研究热点及趋势,进而比较研究结论的差异所在。
2.1 来源文献的国家、地区分布对比
在WOS中的两次检索中,因检索式1和检索式2构建不同,检索结果文献数量差别很大,但两次检索结果文献中国家/地区分布差别不大。如图1和图2所示,分别显示了两次检索的前十位国家/地区,除了部分国家在排名上有所更替,只有检索式2中的巴西代替了新西兰进入前十,这说明在该研究领域,文献来源的国家/地区集中程度较高,检索文献数量对国家/地区发文排名影响度不大。
另外,结合图1、图2和图3来看,在文献来源的国家/地区分布上,WOS和SCOPUS排名前十的国家/地区基本相同,这说明数据库收录文献范围对研究主题文献国家/地区分布影响不大。
2.2 来源文献的期刊分布对比
统计收录外文期刊的WOS1、WOS2和SCOPUS检索结果,期刊《Biodiversity and Conservation》 均位于第一,成为该研究领域最为核心的期刊。将WOS1、WOS2和SCOPUS检索结果前十的期刊分别给与权重10-1分,综合统计得分如表2,得10分以上的有6种,是该学科领域稳定的核心期刊,不受文献数据库和检索文献数量的影响。值得一提的是,由National Institute of Science Communication and Information Resources (NISCAIR)出版的期刊 《Indian Journal of Traditional Knowledge》上榜,表明发展中国家的学术期刊具有越来越高的学术影响力。
2.3 来源文献的学科分布对比
通过对收录外文文献为主的SCOPUS和收录中文文献的CNKI数据统计,在文献学科构成中,排名第一、第二的均为自然科学类,排名第三的是社会科学类,说明民族地区生物多样性研究领域是以自然科学为主的多学科研究,且学科分布与语种无关。
2.4 来源文献的研究热点对比
文献共被引知识图谱受检索词选取影响很大。以WOS数据库的两次检索结果为例,WOS第一次检索结果文献数量少,文献共被引知识图谱的聚类不明显,WOS第二次的检索结果文献数量多,文献共被引知识图谱呈现明显的四大聚类:遗传资源惠益分享机制、外来物种入侵、传统知识、生物多样性保护。可以说在数据库和主题内容相同的条件下,数据样本越多,主题文献反映越准确。
3 对来源文献采用不同知识图谱软件处理的应用对比
根据表1所示,采用知识图谱软件CiteSpace可以满足已选择的四个文献数据库中数据样本的处理。同时, CNKI数据库在2017年新增可视化功能,也为不同软件处理同一数据样本提供了可能。
运用相关主题的CNKI数据样本,对比CiteSpace和CNKI可视化分析关键词共引图谱,CiteSpace关键词共引图谱有21个聚类,其中大的聚类有8个,共引数量较多的关键词有生物多样性、自然保护区、生物多样性保护、遗传资源、生态环境、生态系统、国家公园、文化多样性、生态旅游和物种多样性。
CNKI数据库关键词共引可视化分析图给出了三大聚类。一是围绕自然保护区的,主要关键词有:湿地、物种多样性、可持续发展、生态旅游、生態环境、生物多样性保护等,二是关于传统知识、遗传资源、惠益分享、知识产权的研究,三是外来物种、外来物种入侵的研究。
与CiteSpace软件绘制的复杂结构图谱相比,CNKI数据库的可视化分析结果基本相同,关键词共引网络简单清晰,能满足研究需求。但需要指出的是,CNKI数据库导出的数据只能进行关键词共引分析,该数据库收录的大量参考文献无法获取,影响了文献分析的全面性,极大地弱化了该数据库开展文献计量研究的作用。
4 获取来源文献的检索策略影响要素分析
检索策略的优劣直接影响到检准率和检全率,因为检索结果是否达到检索目的,需要知识图谱软件运行数据样本后才能比较分析,给调整检索策略增加了难度。以CSSCI为例,CSSCI1和CSSCI2两次不同的检索式查询到的文献总量都很小,两者数量差距不大,但用CiteSpace软件分析中心性前10的文献,只有一个共同作者薛达元,且分别是该作者的两篇文献。可见中文数据库的关键词具有复杂性和不稳定性,会影响到研究文献的数据完整性。因此,收集数据样本时,需要图书馆咨询专家辅助制定合理的检索策略。在制定检索策略时,需要考虑样本数据各要素对检索策略的影响,如对具有很强地理特征的主题,要选用特别注重收录文献范围的来源数据库,而对于学科热点及其分布的研究,建议尽量选择综合性数据库。具体影响关系见表3。
5 实证结论及开展知识图谱分析策略
在知识图谱分析民族地区生物多样性时,笔者从文献的地理分布、期刊分布、学科分布、研究热点及趋势等方面对来源数据样本进行了对比分析,在此过程中由信息专家和学科专家合作确定了来源数据库和数据样本,从而提高知识图谱分析的科学性。通过上述实证研究,我们建议开展知识图谱分析、获取数据样本时,需要从以下几个方面考虑。
首先,应选择多个来源数据库采集不同文献类型。由于每个数据库收录文献都有不同程度的遗漏,理想的方法是采用多个数据库的数据,综合利用或交叉印证,提高知识图谱分析文献的可信度。
其次,数据样本数量越多,质量越高。要运用知识图谱反映文献全貌,必须有一定数量的数据样本。这犹如用变焦相机给文献全貌拍照,而文献数量就是变焦的关键,是观察数据的不同子集[5],是进行可视化研究中的重要环节。以CSSCI数据库为例,尽管该数据库收录的是核心期刊,但本研究主题收录的数据量少,制作共被引知识图谱不理想。而CNKI数据库收录本研究主题文献多,但数据样本有两大缺憾,一是不能获取参考文献进行共被引文献分析,二是数据样本中有大量的非学术性书目记录,如通知、启事、科普文章等,需要人工清理。
第三,制定合理的检索策略对获取数据样本有着至关重要的作用,具体可从三个方面保障检索策略的科学合理。(1) 委托图书馆提供数据样本下载服务;(2)与图书馆学科馆员合作,制定和调整科学的检索策略;(3) 图书馆开展制定检索策略讲座,对学者进行检索方法培训指导,提高检索需求的准确性,推广知识图谱软件在更多学科领域应用。
除此之外,对于知识图谱分析中的数据样本,要选择著录格式标准的数据库。对于数据库建设单位的要求,就是不断提高文献数据库著录质量,使研究者获取的文献资源满足数据样本准确性、可获得性、稳定性的要求。据报道,中文引文数据库著录格式中,10%左右的引文不能直接转换成所需要的格式,要人工纠正[6]。NSF(National Science Foundation,美国国家科学基金会) 网站下载的数据,在导入知识图谱软件分析时,可分析的选项只有研究计划和主题词聚类[7]。WOS完备的引文字段赢得了研究者青睐,但专业性的PubMed数据库则拥有主题词表,检索结果优于WOS[8]。由此可看出,来源数据库的标引质量会成为学者考虑的重要因素。
运用知识图谱分析学科领域文献成为大势所趋,用户希望更多的网络文献数据库、公开获取数据库、机构库等能成为知识图谱分析的来源数据库。可以预见,随着文献数据库功能改进,运用知识图谱开展可视化分析的学者将越来越多。图书馆在文献计量知识和技术方面可以为学者提供服务,也可以对学者开展知识图谱处理方法的培训,以提高学者获取数据样本、处理数据、展示图形和解读数据能力。
参考文献:
[ 1 ]冉从敬,刘琬.知识图谱在我国人文社科领域的研究进展[J].信息资源管理学报,2014(1):4-13.
[ 2 ]王亚男,黄国彬,张一楠,等.近十年我国图情领域科学计量可视化的研究特点剖析[J].图书情报知识,2015(1):86-94.
[ 3 ]SHIFFRIN R M, B?RNER K. Mapping knowledge domains[J].PNAS,2004,101(1):5183-5185.
[ 4 ]肖明.知識图谱工具使用指南[M].北京:中国铁道出版社,2014:15-17.
[ 5 ]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:268.
[ 6 ]肖明,陈嘉勇,李国俊.基于CiteSpace研究科学知识图谱的可视化分析[J].图书情报工作,2011(6):91-95.
[ 7 ]梁伟波.美国NSF资助物流项目的知识图谱分析[J].情报杂志,2016(10):114-119.
[ 8 ]ROTOLO D L. Matching Medline/PubMed data with Web of Science: a routine in R language[J].Journal of the Association for Information Science and Technology. 2015,66(10):2155-2160.