刘 如,吴 琼,蔚晓川,刘彦君
(北京市科学技术情报研究所 北京 100120)
在大数据时代,科研人员进行学术搜索的过程就是利用各种信息技术手段对大量原始、杂乱无章的数据进行归类,抽取有核心价值的内容,整理成能清晰表达一定含义的信息。目前,绝大多数的学术搜索引擎都是对搜索结果进行简单的逻辑排列。为了更直观地展示这些搜索结果中隐藏在背后的变化趋势和数据背后之间的相互关系,使研究人员更好地掌握和利用搜索出来的信息价值,就需要学术搜索引擎继续对搜索的结果自动抓取、自动分类,并将有价值的元素关系及变化趋势以可视化的形式展示出来。微软学术搜索的可视化应用就是一个成功的典范,为研究人员提供了一种全新的用户体验,同时也为我国建设和完善自己的学术搜索引擎提供了借鉴。
微软学术搜索(Microsoft Academic Search)是近几年发展起来的一个强大的免费学术搜索引擎,自2009年正式推出使用,为研究员、学生、图书馆馆员和其他用户查找学术论文、国际会议、权威期刊、作者和研究领域等提供了一个智能、新颖的搜索平台。该平台应用了诸如对象级别垂直搜索、命名实体的提取和消歧、数据可视化等许多研究思路,与传统的学术搜索引擎相比,可以提供更多有价值的学术信息。
微软学术搜索引擎与大多数学术搜索引擎的首页不同,前者在主界面上列出了 15个大类的学科目录,对每一个学科都提供该学科领域各种信息(作者、出版物、期刊、关键词、组织机构)的排序表,可以使用户轻松获得有影响力的论文、作者、期刊、机构和关键词等信息。
与传统的学术搜索引擎相比,微软学术搜索采用的是基于对象的垂直搜索技术。使用该搜索引擎时,搜索的结果是最终对象的集合,而不是杂乱的网页列表。
与研究领域使用最频繁的谷歌(Google)学术搜索相比,谷歌学术搜索更偏向对目标主题的搜索,搜索结果简洁,功能相对较少;而微软学术的重点是深网的数据挖掘,并对挖掘后的数据进行自定义分析,最大的亮点是将目标论文横向和纵向的有价值信息以可视化形式展示。
在微软学术搜索中,搜索结果的排序基于以下两个因素:搜索词的相关度和搜索对象在世界范围内的影响力。搜索词的相关度分数通过其属性计算得出;搜索对象在世界范围内的影响力分数则通过它与其他对象之间的关系计算得出。其最终的结果显示页面与 Science Direct、IEEE的显示形式差不多,可获得相关论文的排名列表。在随后更深入的查询过程中,微软学术搜索平台以可视化的形式展示了很多隐藏在搜索结果背后的具有价值的信息。
当点击进入一篇论文的详细页面后,可以看到该论文的介绍、可供浏览或下载的原始链接以及相关的参考文献。在页面中间(见图 1),以曲线图的方式直接展示了在一定时间范围内该论文被引用的趋势。
图1 文章被引用的曲线图Fig.1 Curve graph of cited articles
这里的关系网可视化功能分为3个部分:合作者关系图(Co-author Graph)、合作者路径图(Co-author Path)、引用关系图(Citation Graph)。
3.2.1 合作关系图(Co-author Graph)
合作关系图(见图 2)可以更清晰地了解共同作者的关系,其中,作者的节点越大,意味着该作者的著作越多。而节点之间的线越短,意味着两个作者之间的合作数量越多。点击这条连接线,就可以看到他们合作的文章数量。
图2 作者的合作关系图Fig.2 Co-author Graph
3.2.2 合作者路径图(Co-author Path)
合作者路径图(见图 3)展示了两名作者之间的合作路径,路径中每一个节点代表作者间的合作关系。该图以树状的可视化形式呈现导师、学生关系。
图3 合作者路径图Fig.3 Co-author Path
3.2.3 引用关系图(Citation Graph)
图4 作者被引用的关系图Fig.4 Citations graph
学术研究领域动态图直观地显示了计算机科学领域的出版物动态。领域动态(Domain Trend)主要是分析计算机科学的研究动态,并采用叠加分布图进行直观显示。这个可视化展示功能可以提供一个清晰的图示,即每个领域如何随时间变化。
发表物数量的趋势图如图 5所示,在 Domain Trend中选择学科领域为视频科学,时间选择2005—2010年,从学术趋势图可以直观看到食品科学在2005—2010年的学术发表有着非常明显的增长之势。
图5 食品科学领域的发表量趋势动态图Fig.5 Domain trend of quantity of published papers in food science area
发表物比例的趋势图如图 6所示,同样选择2005—2010年,从图中可以直观地看到食品科学在农业科学领域中所占的比例。
图6 食品科学领域的发表物比例的趋势动态图Fig.6 Domain trend of proportion of published papers in food science area
图7 食品科学领域组织机构的研究趋势动态图Fig.7 Domain trend of researches on organizations in food science area
组织机构的研究趋势图如图7所示,在选定组织机构后,可以看到这个组织单位的主要研究领域随时间不断变化,从而发现该组织的研究优势领域和发展趋势。
学术分布图的展示主要分为学术的组织分布和研究人员分布两个方面。
学术的组织分布(见图 8)可以看到在选定的学科领域内,主要的研究力量分布在哪个国家、哪个地区等信息。
图8 学术的组织分布图Fig.8 Distribution of academic organizations
研究人员分布如图9所示,选择计算机科学的研究领域后,点击中国地图,不断放大到北京地图,可看到北京邮电大学的圆图最大,继续点击后,就呈现出下图中的人物分布图,最后可链接至该作者的详细介绍页面。
图9 学术的研究人员分布图Fig.9 Distribution of academic researchers
微软学术搜索的可视化应用研究不仅对大数据环境下完善我国学术搜索服务的发展方向具有指导意义,而且弥补了我国数据信息可视化研究不足的现状,为大数据时代下我国各领域的发展提供了可供参考和选择的战略思路及方案建议。学术搜索数据的可视化是学术搜索领域发展的必然趋势。■
[1] 微软学术搜索[EB/OL]. http://academic.research.microsoft.com/. 2013-07-01.
[2] 许剑颖. 微软学术搜索初探[J]. 情报探索,2012(12):96-100.